#!/usr/bin/env python3
"""Befüllt die FFG-Projektbeschreibungs-Vorlage (TextStart-Absätze) mit Plappi-Inhalten.
Arbeitet direkt auf word/document.xml (python-docx scheitert am altChunk)."""
import os, shutil, zipfile, re
from lxml import etree

SRC = "/home/nk/plappi-ffg/projektbeschreibung.docx"
OUT = "/home/nk/plappi-ffg/projektbeschreibung_filled.docx"
WORK = "/home/nk/plappi-ffg/unz_full"
W = "http://schemas.openxmlformats.org/wordprocessingml/2006/main"
def q(tag): return f"{{{W}}}{tag}"

# ---------- INHALTE (Entwurf v1, an FFG-Bewertungskriterien getrimmt) ----------
C = {}

C["1.1."] = """Übergeordnetes Ziel des Projektes ist die Entwicklung von „Plappi", einem displaylosen, sprachgesteuerten KI-Hardware-Lernbegleiter für Kinder von 2 bis 15 Jahren, der mehrsprachige Sprachentwicklung durch personalisierte, adaptive Dialoge und Geschichten fördert – vollständig bildschirmfrei und auf einer datenschutzkonformen, privaten Inferenz-Architektur (Open-Source-Sprachmodelle auf EU-Servern) ohne Nutzung kindlicher Sprachdaten für KI-Training.

Zentrale Entwicklungsinhalte (Details siehe Arbeitsplan):
- Mehrsprachige Spracherkennung für Kinderstimmen (ASR/TTS) inkl. Code-Switching zwischen Erst- und Zweitsprache, robust über die große akustische Varianz der Altersspanne 2–15.
- Adaptive Pädagogik- und Dialog-Engine mit Spaced Repetition, Kognaten-Nutzung und Personalisierung (Interessen, Bezugspersonen, Themen) auf Basis von über 75 peer-reviewed Studien zur bilingualen Sprachentwicklung.
- Private Inferenz-Architektur: Hosting und Feinabstimmung quelloffener Modelle auf gemieteter EU-GPU-Infrastruktur, sodass architektonisch ausgeschlossen ist, dass Gespräche der Kinder in Trainingsdaten gelangen (DSGVO- und EU-AI-Act-konform „by design").
- Hardware: bildschirmfreies, kindgerechtes Gerät mit Fernfeld-Mikrofonarray, eingebetteter Recheneinheit, robustem Gehäuse (spielzeugsicherheitskonform) und Konnektivität.
- Eltern-Dashboard zur transparenten Fortschrittskontrolle und Personalisierung.

Erwartete Ergebnisse nach Projektende: ein funktionsfähiger, zertifizierbarer Prototyp; eine validierte, wissenschaftlich fundierte Pädagogik-Engine; ein einsatzfähiger privater Inferenz-Stack mit dokumentierter Qualitäts-/Latenz-Charakteristik; sowie belastbare Erkenntnisse zur Kinder-Spracherkennung als Basis der Markteinführung.

Motivation: Bilinguale und mehrsprachig erziehende Familien sind massiv unterversorgt. Spricht ein Elternteil die Zweitsprache nicht, ist der andere die einzige Sprachquelle – bei Zeitmangel bricht die für aktiven Spracherwerb nötige Exposition (wissenschaftlich: ≥30 %) weg. Bestehende Lösungen sind entweder einsprachig und passiv (Audio-Spielzeug) oder bildschirmgebunden und datenschutzkritisch (Apps mit Cloud-LLMs). Plappi schließt diese Lücke und adressiert zugleich die stark steigende Elternnachfrage nach datensouveränen, bildschirmfreien KI-Produkten."""

C["1.2."] = """Im Projektumfeld existieren drei Kategorien von Lösungen, die jeweils wesentliche Anforderungen NICHT erfüllen:

1) Sprachlern-Apps (z. B. Duolingo, Gonggong, Lingumi, Novakid): bildschirmgebunden, überwiegend für ältere Kinder/Erwachsene, meist Cloud-LLM-basiert mit Datenweitergabe an Anbieter außerhalb der EU. Für Kleinkinder (2–6) und für sprachgesteuerte, freie Konversation ungeeignet; Bildschirmzeit ist aus pädagogischer Sicht ein Nachteil.
2) Audio-Lernspielzeug (z. B. Tonies, tiptoi): bildschirmfrei und kindgerecht, jedoch einsprachig, vorproduziert und passiv – kein adaptiver Dialog, keine Spracherkennung, keine Personalisierung, kein aktiver Spracherwerb.
3) Smart Speaker (Alexa, Google Home): sprachgesteuert, aber nicht kindersicher, cloudbasiert mit umfangreicher Datenverarbeitung und ohne pädagogisches Konzept.

Eingesetzte Technologien in Nachbarbranchen: ASR/TTS und LLMs sind etabliert, jedoch fast ausschließlich für Erwachsenenstimmen und in der Cloud optimiert. Kindgerechte Spracherkennung ist ein bekanntes, ungelöstes Schwierigkeitsfeld (geringe Trainingsdatenverfügbarkeit, hohe akustische Varianz, Aussprachefehler, Code-Switching). Private/On-Premise-Inferenz quelloffener Modelle ist technisch jung und in Echtzeit-Dialogqualität für Kinder unerprobt.

Wissenschaftliche Grundlage (Auswahl, vollständig im Quellenverzeichnis): Hoff et al. (2012) – ≥30 % Exposition für aktiven Spracherwerb; Romeo et al. (2018) – Konversationsqualität erklärt 14–27 % der späteren Sprachfähigkeit; Roediger & Karpicke (2006) – Spaced Repetition; Mitchell et al. (2024) – Kognaten-Vorteil. Über 75 peer-reviewed Studien stützen das didaktische Konzept.

Eigene Vorarbeiten: Im Vorfeld wurden explorative Machbarkeitsbetrachtungen und ein erster Proof-of-Concept der Dialog-Idee durchgeführt; diese dienten ausschließlich der Konzeptvalidierung. Die im gegenständlichen Projekt geförderten Entwicklungsarbeiten beginnen erst nach Antragstellung.

Forschungslücke: Es existiert keine Lösung, die kindgerechte sprachgesteuerte Dialoge, mehrsprachige Adaptivität, wissenschaftlich fundierte Didaktik UND eine private, EU-souveräne Inferenz-Architektur in einem bildschirmfreien Hardware-Gerät vereint."""

C["1.3."] = """Neuheit gegenüber dem Stand der Technik: Plappi ist nach derzeitigem Kenntnisstand das erste Produkt, das (a) freie, sprachgesteuerte Kinder-Konversation, (b) mehrsprachige Adaptivität mit Code-Switching, (c) eine wissenschaftlich fundierte adaptive Pädagogik-Engine und (d) eine private, EU-basierte Inferenz quelloffener Modelle in einem bildschirmfreien Hardware-Gerät kombiniert. Während Wettbewerber entweder passiv-einsprachig (Audio-Spielzeug) oder bildschirm- und cloudgebunden (Apps) sind, liegt die Neuheit in der Verbindung von aktivem, adaptivem Sprachdialog mit nachweisbarer Datensouveränität.

Technische Neuheitskerne: (1) Robuste mehrsprachige Spracherkennung für Kinderstimmen über die Altersspanne 2–15; (2) private Inferenz quelloffener Modelle mit cloud-vergleichbarer Echtzeit-Dialogqualität; (3) adaptive Didaktik-Engine (Spaced Repetition, Kognaten, sanfte Korrektur) für den bilingualen Erwerb.

Schutzstrategie: Der Schutz erfolgt primär über (a) die Anmeldung der Wortmarke „Plappi" zur Markensicherung für Launch und Vertrieb, (b) Geheimhaltung/Know-how-Schutz der Inferenz-Architektur, der Trainings-/Feinabstimmungs-Pipelines für Kinder-ASR und der Pädagogik-Engine (Betriebs- und Geschäftsgeheimnisse), sowie (c) den uneinholbaren Vorsprung durch proprietäre, datenschutzkonform aufgebaute Trainings- und Evaluationsdaten.

Patentrecherche: Eine umfassende Patentrecherche wurde noch nicht durchgeführt; eine Freedom-to-Operate-Prüfung ist vor Markteintritt vorgesehen. Auf eine eigene Patentanmeldung wird vorerst bewusst verzichtet, da der Wertkern in Software, Daten und Systemintegration liegt – hier bieten Geheimhaltung und Geschwindigkeit wirksameren Schutz als ein langwieriges, offenlegungspflichtiges Patentverfahren."""

C["1.4."] = """Vorteile gegenüber dem Stand der Technik:
- Datensouveränität: Gespräche der Kinder werden ausschließlich in der EU verarbeitet und architektonisch von KI-Trainingsdaten ausgeschlossen – ein im Markt einzigartiges, regulatorisch (DSGVO, EU AI Act) zukunftssicheres Alleinstellungsmerkmal.
- Kindgerechtigkeit: bildschirmfrei (kein „Screen Time"-Konflikt), sprachgesteuert, dadurch bereits ab 2 Jahren nutzbar.
- Wirksamkeit: adaptive, personalisierte Dialoge erhöhen die für aktiven Spracherwerb nötige Exposition; Spaced Repetition sichert nachhaltiges Behalten.
- Mehrsprachigkeit: bis zu 27 Sprachen, inkl. seltenerer/Minderheitensprachen.

Quantifizierung (Zielwerte, im Projekt zu validieren): Steigerung der täglichen aktiven Zweitsprach-Exposition auf ein Niveau nahe der wissenschaftlich belegten 30 %-Schwelle; messbarer Vokabelzuwachs über Spaced-Repetition-Intervalle; Wortfehlerrate (WER) der Kinder-ASR je Altersband unterhalb definierter Zielschwellen.

Nutzen für die Zielgruppen: Bilinguale Familien erhalten zusätzliche, authentische Sprachzeit, wenn die menschliche Quelle fehlt; Eltern, die früh eine Fremdsprache vermitteln wollen, sparen teure Kurse/Nachhilfe. Nebennutzen: Entlastung der Eltern, Transparenz über den Lernfortschritt, Erhalt von Herkunftssprachen."""

C["1.5.1."] = """Ökologische Dimension (Orientierung an den UN-SDGs, v. a. SDG 12 – nachhaltige Produktion/Konsum):
- Bildschirmfreiheit reduziert Bildschirm-Hardware und die damit verbundenen ökologischen Folgen; das Gerät ist als langlebiges, reparierbares „Companion"-Produkt konzipiert (Gegenentwurf zu kurzlebiger Bildschirm-Elektronik).
- Angestrebt werden ein modularer, reparaturfreundlicher Aufbau, energieeffiziente eingebettete Hardware und der Einsatz EU-basierter Rechenzentren (Seeweb, Italien) mit Option auf erneuerbare Energie.
- Software-seitig wird die Inferenz energieeffizient ausgelegt (Modellauswahl/Quantisierung, Caching), um den Rechen- und Energiebedarf je Dialog zu minimieren.

Messung des Erfolgs: Gerätelebensdauer und Reparierbarkeit, Energie-/Rechenbedarf pro Dialogminute, Anteil erneuerbarer Energie der genutzten Rechenzentren. Mögliche Nachteile (Energiebedarf der KI-Inferenz) werden durch Effizienzmaßnahmen aktiv begrenzt."""

C["1.5.2."] = """Soziale Dimension (v. a. SDG 4 – hochwertige Bildung, SDG 10 – weniger Ungleichheiten, SDG 16 – Schutz der Privatsphäre):
- Bildungszugang: Plappi macht früh- und mehrsprachige Sprachförderung unabhängig von teuren Kursen oder Nachhilfe zugänglich und senkt damit Bildungsungleichheit.
- Inklusion und Herkunftssprachen: Unterstützung auch seltenerer Sprachen ermöglicht Familien, Herkunftssprachen weiterzugeben; das stärkt Identität und Teilhabe.
- Kinderschutz: konsequenter Schutz besonders sensibler Kinderdaten (keine Trainingsnutzung, EU-Verarbeitung) setzt einen positiven Branchenstandard.

Messung des Erfolgs: Reichweite (Familien/Kinder), Anzahl unterstützter Sprachen inkl. Minderheitensprachen, Erschwinglichkeit. Mögliche Nachteile (Bildschirm-/Mediennutzung) werden durch das bildschirmfreie, zeitlich begrenzte (15-Minuten-Sessions) Konzept adressiert."""

C["1.5.3."] = """Ökonomische Dimension (v. a. SDG 8 – Wirtschaftswachstum/menschenwürdige Arbeit, SDG 9 – Industrie/Innovation):
- Aufbau hochwertiger F&E-Arbeitsplätze (KI/Sprachtechnologie, Embedded) am Standort Wien.
- Beitrag zur europäischen digitalen Souveränität: eine datenschutzkonforme KI-Alternative „made in Austria/EU" zu US-Cloud-Lösungen.
- Wertschöpfung in Österreich/EU entlang Software, Inferenz-Infrastruktur und Hardware-Integration.

Messung des Erfolgs: geschaffene F&E-Arbeitsplätze, Anteil österreichischer/europäischer Wertschöpfung, aufgebautes Know-how. Mögliche Zielkonflikte (Hardware-Lieferketten außerhalb der EU) werden durch bewusste Lieferantenwahl und EU-nahe Fertigung soweit möglich begrenzt."""

C["1.6."] = """Das Projekt ist durch erhebliches technisches Forschungsrisiko gekennzeichnet; der Ausgang zentraler Entwicklungsfragen ist zu Projektbeginn offen. Im Folgenden werden die wesentlichen technischen Probleme, die zugehörigen Entwicklungsrisiken und die methodischen Lösungsansätze dargestellt.

RISIKO 1 – Mehrsprachige Spracherkennung für Kinderstimmen.
Problem: Kinderstimmen sind für ASR-Systeme deutlich schwieriger als Erwachsenenstimmen (hohe akustische Varianz, unvollständige/fehlerhafte Aussprache, große Spanne 2–15 Jahre, geringe Verfügbarkeit von Trainingsdaten, spontanes Code-Switching zwischen Erst- und Zweitsprache). Risiko: unzureichende Erkennungsgenauigkeit führt zu Frustration und Abbruch.
Kritische Parameter: Wortfehlerrate (WER) je Altersband und Sprache, Robustheit gegen Hintergrundgeräusche, Latenz.
Lösungsansatz/Methodik: Feinabstimmung quelloffener ASR-Modelle (Whisper-Klasse) auf kindliche und mehrsprachige Sprachdaten; gezielte Datenaugmentation und ggf. eigene, datenschutzkonforme Datenerhebung; altersadaptive Modellvarianten; konfidenzbasierte Dialogsteuerung mit Rückfrage-/Wiederholungsstrategien bei niedriger Erkennungssicherheit. Iteratives Benchmarking gegen definierte Kinder-Sprach-Testsets mit WER-Zielwerten je Altersband.

RISIKO 2 – Private Inferenz vs. Cloud-Qualität und Echtzeit.
Problem: Es ist offen, ob quelloffene Sprachmodelle auf gemieteter EU-GPU-Infrastruktur (Seeweb, RTX-6000-Ada-Klasse) die Qualität und Antwortlatenz cloudbasierter kommerzieller LLMs für einen flüssigen Kinderdialog erreichen. Risiko: Qualitäts-/Latenzlücke gefährdet das Nutzungserlebnis und das zentrale Datenschutz-Versprechen.
Kritische Parameter: Antwortlatenz (Ziel: dialogtauglich), Antwortqualität/Kindgerechtigkeit, Kosten je Dialogminute.
Lösungsansatz/Methodik: systematischer Vergleich quelloffener Modelle gegen Cloud-Baselines; Modellauswahl, Quantisierung und Optimierung; Streaming-TTS und Latenzbudget-Engineering; Caching häufiger Dialogbausteine; EU-Region-nahe Anbindung zur Latenzminimierung. Experimentelle Evaluierung mit definierten Qualitäts- und Latenz-Zielkorridoren.

RISIKO 3 – Wirksamkeit der adaptiven Pädagogik-Engine.
Problem: Es ist zu erforschen, ob die Übertragung etablierter didaktischer Prinzipien (Spaced Repetition, Kognaten-Nutzung, sanfte Korrektur, Konversationsqualität) in eine sprachgesteuerte, adaptive Dialog-Engine den Spracherwerb tatsächlich messbar verbessert. Risiko: pädagogische Wirksamkeit in dieser neuen Modalität ist unbelegt.
Kritische Parameter: Vokabelretention über Intervalle, aktive Sprechanteile des Kindes, Lernfortschritt je Session.
Lösungsansatz/Methodik: Implementierung evidenzbasierter Spaced-Repetition- und Personalisierungsalgorithmen entlang der vorliegenden Studienlage; A/B-Erprobung didaktischer Strategien; Messung von Retention und aktiver Sprachproduktion; iterative Optimierung der Dialogführung.

RISIKO 4 – Hardware: bildschirmfreies, kindersicheres Gerät.
Problem: zuverlässige Erfassung kindlicher Sprache im realen, geräuschbehafteten Haushalt ohne Bildschirm; robustes, spielzeugsicheres Gerät (Mikrofonarray, eingebettete Recheneinheit, Gehäuse, Energieversorgung, Konnektivität). Risiko: unzureichende Sprachaufnahme, Zertifizierungshürden (EN 71, EN 62115, RED, EMV).
Kritische Parameter: Fernfeld-Spracherfassung/Signal-Rausch-Abstand, Robustheit/Sicherheit, Energieeffizienz, Herstellbarkeit.
Lösungsansatz/Methodik: Mikrofonarray mit Beamforming; frühe Design-for-Manufacturing-Abstimmung mit Auftragsfertiger; frühzeitige Einbindung der Zertifizierungsanforderungen in das Hardware-Design; iterative Prototypen mit Tests im realen Nutzungsumfeld.

RISIKO 5 – Datenschutz-Architektur (Privacy/AI-Act by Design).
Problem: technische Garantie, dass keine Kinderdaten die EU verlassen oder in Trainingsdaten gelangen, bei gleichzeitiger DSGVO-Konformität für besonders schutzbedürftige Kinderdaten und Konformität mit dem EU AI Act. Risiko: architektonische und regulatorische Komplexität.
Lösungsansatz/Methodik: private Inferenz ohne öffentliche APIs mit Datenweitergabe; Datenminimierung und Zweckbindung; Datenschutz-Folgenabschätzung (DPIA); EU-AI-Act-Konformität konstruktiv im Architekturdesign verankert.

Methodische Gesamtvorgehensweise: agile, iterative Entwicklung entlang klar abgegrenzter Arbeitspakete mit Meilensteinen, definierten Deliverables und einem laufend gepflegten Risikoregister; jedes Arbeitspaket wird gegen messbare Ziel-/Abbruchkriterien evaluiert, sodass Risiken früh erkannt und durch die beschriebenen Lösungsstrategien adressiert werden."""

C["2."] = """Die Differenz zwischen Projektgesamtkosten und FFG-Förderung wird über mehrere Quellen gedeckt: (1) Eigenmittel der Plappi (Stammkapital-Einlage), (2) eine Finanzierungs-/Patronatserklärung der BReact GmbH zur Absicherung des Eigenanteils, sowie (3) Erlöse aus einer geplanten Crowdfunding-Kampagne (Kickstarter, Start 06/2026) als Markt- und Liquiditätsbeitrag. [Konkrete Beträge und Nachweise werden als LOI/Patronatserklärung beigelegt – Werte vom Antragsteller zu bestätigen.]

Erwartete Folgekosten bis zur Marktreife: Werkzeugbau (Spritzgussform), Erstserienfertigung (Mindestabnahmemenge), abschließende Produktzertifizierungen sowie Markteinführung/Marketing. Diese werden über Crowdfunding-Vorbestellungen, laufende Umsätze (Geräteverkauf + Abo) und gegebenenfalls eine Anschlussfinanzierung/Investorenrunde gedeckt."""

C["3.1."] = """Markt: Plappi adressiert den Schnittbereich aus EdTech (frühkindliche Sprachbildung), vernetzten Kinderprodukten/Audio-Lernspielzeug und datenschutzkonformer KI. Der relevante Markt umfasst Familien mit Kindern von 2–15 Jahren, insbesondere die große und wachsende Gruppe bilingualer bzw. mehrsprachig erziehender Haushalte in der EU sowie Eltern mit Interesse an früher Fremdsprachenbildung.

Markt in Österreich/EU: Der europäische Markt für Lernspielzeug und EdTech wächst seit Jahren deutlich; Audio-Lernspielzeug (Vorbild Tonies) hat einen Massenmarkt mit Millionen verkaufter Geräte etabliert und belegt die Zahlungsbereitschaft für bildschirmfreie Kinderprodukte. Mehrsprachigkeit ist in der EU strukturell stark ausgeprägt (hoher Anteil mehrsprachiger Haushalte), wird vom bestehenden einsprachigen Angebot aber nicht bedient.

Marktentwicklung/Prognose: anhaltendes Wachstum in EdTech und vernetzten Kinderprodukten; zusätzlicher Rückenwind durch steigendes Eltern-Bewusstsein für Datenschutz und Bildschirmzeit. [Detaillierte Marktzahlen mit Quellen werden ergänzt.]

Grundlage der Marktrecherche: öffentlich verfügbare Marktstudien zu EdTech/Smart-Toys sowie das nachgewiesene Marktvolumen vergleichbarer Audio-Produkte. Mit ähnlichen Produkten werden derzeit keine Umsätze erzielt (Neuprodukt)."""

C["3.2."] = """Wettbewerb: (a) Audio-Lernspielzeug (Tonies, tiptoi) – starker Markenbekanntheitsgrad, aber einsprachig, passiv, ohne Dialog/Adaptivität; (b) Sprachlern-Apps (Duolingo, Lingumi, Novakid, Gonggong) – bildschirmgebunden, meist ältere Kinder, Cloud/Datenweitergabe; (c) Smart Speaker (Alexa, Google) – nicht kindersicher, cloudbasiert, ohne Pädagogik.

SWOT (Kurzform): Stärken – Datensouveränität (EU, kein KI-Training mit Kinderdaten), bildschirmfreier Sprachdialog, Mehrsprachigkeit, wissenschaftliche Fundierung, „made in Austria"; Schwächen – Marktneuling ohne Track-Record, hoher Kapitalbedarf für Hardware/Zertifizierung; Chancen – unbesetzte Nische bilingualer Familien, steigende Datenschutz-Nachfrage; Risiken – Reaktion etablierter Anbieter, Hardware-/Zulieferrisiken.

Markteintrittsbarrieren und Reaktion: hoher Kapitalbedarf (→ Förderungen, Crowdfunding, fokussierter Scope), Zertifizierung (→ frühe Einbindung ins Hardware-Design), Markenaufbau (→ Wortmarke, Community/Warteliste, Crowdfunding). Faktenbasis: öffentlich verfügbare Produkt-/Preisinformationen der Mitbewerber."""

C["3.3."] = """Zielgruppe: (1) bilinguale Familien, in denen ein Elternteil die Zweitsprache nicht spricht und die zusätzliche, authentische Sprachzeit benötigen; (2) Eltern, die ihrem Kind früh eine Fremdsprache vermitteln wollen, ohne teure Kurse; (3) datenschutz- und bildschirmzeitbewusste Eltern. Bedürfnisse: wirksame, alltagstaugliche Sprachförderung, kindgerecht, sicher, ohne Datenschutzbedenken und ohne zusätzliche Bildschirmzeit.

Konkretes Kundeninteresse: Es besteht bereits eine aktive Warteliste über die Produkt-Website (helloplappi.com); die geplante Crowdfunding-Kampagne dient der weiteren Nachfragevalidierung. [Wartelisten-/Vorbestellzahlen werden als Nachweis ergänzt.]

USP: Plappi ist der einzige bildschirmfreie, sprachgesteuerte KI-Lernbegleiter mit privater EU-Inferenz (keine Nutzung kindlicher Daten für KI-Training), mehrsprachig-adaptiver Didaktik und wissenschaftlicher Fundierung – die Kombination aus Wirksamkeit, Kindgerechtigkeit und Datensouveränität ist im Markt einzigartig."""

C["3.4."] = """Preisgestaltung (Richtwerte, vom Antragsteller zu bestätigen): Gerätepreis im Premium-Segment bildschirmfreier Kinderprodukte (Orientierung: Tonies-Basisgerät ca. € 100; KI-Hardware mit höherer Wertschöpfung entsprechend darüber, Korridor ca. € 149–249) zuzüglich eines monatlichen Abonnements für Inhalte und private Inferenz (Korridor ca. € 7–15/Monat).

In Relation zum Mitbewerb: höher als rein passives Audio-Spielzeug, jedoch durch den deutlich größeren Funktions- und Datenschutznutzen (adaptiver mehrsprachiger Dialog, EU-Privatsphäre) gerechtfertigt; das Abo-Modell sichert wiederkehrende Umsätze zur Deckung der laufenden Inferenzkosten."""

C["3.5."] = """Umsatzpotenzial (Richtwerte, im Detail mit Finanzplan zu hinterlegen): Kurzfristig Markteinführung in der DACH-Region/EU über Crowdfunding-Vorbestellungen und Direktvertrieb; mittelfristig Skalierung in der EU und anschließend in die USA (Vorbild Tonies-Skalierung). Erlösmodell: Gerätehardware (einmalig) plus wiederkehrende Abo-Umsätze.

Stückzahlen/Marktanteil: angestrebt wird der Aufbau einer relevanten Position in der bislang unbesetzten Nische mehrsprachiger Familien; konkrete Stückzahl-, Umsatz- und Marktanteilsziele werden im beiliegenden Finanz-/Businessplan quantifiziert. Herstellungskosten und Deckungsbeiträge: Zielsetzung eines positiven Deckungsbeitrags je Gerät zzgl. margenstarker Abo-Erlöse; die laufenden Inferenzkosten (GPU-Miete) werden über das Abo gedeckt. [Detailwerte vom Antragsteller zu ergänzen.]"""

C["3.6."] = """Marketing/Verwertung: (1) Crowdfunding-Launch (Kickstarter, 06/2026) zur Nachfragevalidierung und Vorfinanzierung der Erstserie, flankiert von der bestehenden Warteliste und Social-Media-Kanälen; (2) Direktvertrieb über die eigene Website (D2C); (3) mittelfristig Fachhandel/Retail und Marktplätze; (4) geografische Expansion EU → USA.

Vertriebskanäle/-netzwerke: eigener Online-Shop, Crowdfunding-Plattform, später Handelspartner und internationale Distribution. Ressourcen: Aufbau von Marketing-/Vertriebskapazität schrittweise mit dem Umsatzwachstum; im Projektzeitraum Fokus auf Community-Aufbau (Warteliste), Content und Crowdfunding; konkrete Budgets im Marketing-/Finanzplan. Verwertung der Projektergebnisse: direkte Vermarktung des entwickelten Produkts sowie Nutzung des aufgebauten Technologie-Stacks (Kinder-ASR, private Inferenz, Pädagogik-Engine) als Plattform für weitere Sprachen/Produkte."""

C["4.1."] = """F&E-Strategie: Plappi baut mit dem Projekt eine eigene Kernkompetenz in kindgerechter Sprach-KI, privater Inferenz und adaptiver Didaktik auf. Über das Projekt hinaus ist der entwickelte Technologie-Stack als Plattform für weitere Sprachen, Altersgruppen und Produktvarianten angelegt.

F&E-Aufwand und -Arbeitsplätze sollen mit dem Unternehmenswachstum kontinuierlich steigen: Aufbau eines spezialisierten F&E-Teams (KI/Sprachtechnologie, Embedded) am Standort Wien, mit dem Ziel, F&E als dauerhaften strategischen Schwerpunkt zu verankern und die Zahl der F&E-Arbeitsplätze in den Folgejahren auszubauen."""

C["4.2."] = """Volkswirtschaftliche Aspekte: Das Projekt schafft hochqualifizierte F&E-Arbeitsplätze in Wien (Start mit Projektleitung plus zwei Vollzeitkräften, Ausbau mit dem Wachstum). Es entsteht Exportpotenzial durch die geplante Skalierung in die EU und die USA (positiver Beitrag zur Leistungsbilanz). Die österreichische Wertschöpfung umfasst Softwareentwicklung, Betrieb der Inferenz-Infrastruktur und Systemintegration; regionalpolitisch stärkt das Vorhaben den KI-/Deep-Tech-Standort Wien und trägt zur europäischen digitalen Souveränität bei."""

C["4.3.1."] = """Als junges Unternehmen (in Gründung) verankert Plappi Nachhaltigkeit von Beginn an in den Unternehmensstrukturen. Ökologisch: Auswahl EU-basierter Rechenzentren mit Option auf erneuerbare Energie, energieeffiziente Inferenz, ressourcenschonende, langlebige Produktgestaltung sowie überwiegend digitale, reisearme Arbeitsweise. Wirkungsmonitoring (Energie-/Ressourcenkennzahlen) wird mit wachsender Unternehmensgröße aufgebaut; Zertifizierungen sind für spätere Phasen vorgesehen."""

C["4.3.2."] = """Sozial: Plappi strebt eine diverse, chancengerechte Teamzusammensetzung, faire Arbeitsbedingungen, flexible/familienfreundliche Arbeitsmodelle und kontinuierliche Weiterbildung der Mitarbeiter:innen an. Als Unternehmen, dessen Produkt Bildungsgerechtigkeit und Inklusion fördert, sind soziale Verantwortung und der Schutz besonders sensibler Kinderdaten zentrale Leitlinien der Unternehmensführung."""

C["4.3.3."] = """Ökonomisch: nachhaltige, vorsichtige Unternehmensführung mit Fokus auf belastbare Finanzierung, verantwortungsvolle Lieferantenwahl (bevorzugt EU-nahe, soweit möglich) und den Aufbau resilienter Strukturen. Ziel ist ein langfristig tragfähiges Geschäftsmodell (Hardware plus wiederkehrende Abo-Erlöse), das F&E und Arbeitsplätze am Standort dauerhaft finanziert."""

C["4.4."] = """Genderaspekte: Das Produkt wird geschlechtsneutral gestaltet (Design, Stimmen, Geschichteninhalte) und auf Vermeidung von Gender-Stereotypen in den generierten Inhalten ausgelegt. In der KI-Entwicklung wird auf die Reduktion von Gender-Bias geachtet – insbesondere muss die Spracherkennung über Geschlechter hinweg gleich zuverlässig funktionieren (geschlechtsausgewogene Trainings-/Evaluationsdaten).

Genderrelevanz des Forschungsinhalts: Kinder-Spracherkennung und generierte Inhalte können Gender-Verzerrungen aufweisen; deren systematische Vermeidung ist Teil der Entwicklung. Im Team wird eine ausgewogene Geschlechterzusammensetzung angestrebt. Positive Gender-Folgewirkungen entstehen durch gleichberechtigten Bildungszugang unabhängig vom Geschlecht."""

C["Quellenverzeichnis"] = """Hoff, E., Core, C., Place, S., et al. (2012). Dual language exposure and early bilingual development. Journal of Child Language, 39(1), 1–27.
Cattani, A., et al. (2014). How much exposure to English is necessary for a bilingual toddler to perform like a monolingual peer? Int. Journal of Language & Communication Disorders, 49(6), 649–671.
Roediger, H. L., & Karpicke, J. D. (2006). Test-enhanced learning. Psychological Science, 17(3), 249–255.
Mitchell, L., et al. (2024). Cognates are advantaged over non-cognates in early bilingual vocabulary development. Journal of Child Language.
Xue, H., et al. (2022). How does bilingual experience influence novel word learning? Frontiers in Psychology, 13, 1003199.
Romeo, R. R., et al. (2018). Beyond the 30-million-word gap. Psychological Science, 29(5), 700–710.
Place, S., & Hoff, E. (2011). Properties of dual language exposure. Child Development, 82(6), 1834–1849.
Bialystok, E., & Martin, M. M. (2004). Attention and inhibition in bilingual children. Developmental Science, 7(3), 325–339."""

# ---------- DOCX befüllen ----------
if os.path.exists(WORK): shutil.rmtree(WORK)
os.makedirs(WORK)
with zipfile.ZipFile(SRC) as z: z.extractall(WORK)

docxml = os.path.join(WORK, "word", "document.xml")
parser = etree.XMLParser(huge_tree=True)
tree = etree.parse(docxml, parser)
root = tree.getroot()
body = root.find(q("body"))

def para_style(p):
    pPr = p.find(q("pPr"))
    if pPr is None: return ""
    st = pPr.find(q("pStyle"))
    return st.get(q("val")) if st is not None else ""

def para_text(p):
    return "".join(t.text or "" for t in p.findall(".//"+q("t")))

def set_para_text(p, text):
    # vorhandene Runs entfernen, pPr behalten
    for r in p.findall(q("r")): p.remove(r)
    lines = text.split("\n")
    for i, line in enumerate(lines):
        r = etree.SubElement(p, q("r"))
        if i > 0:
            etree.SubElement(r, q("br"))
        t = etree.SubElement(r, q("t"))
        t.set("{http://www.w3.org/XML/1998/namespace}space", "preserve")
        t.text = line

# Heading-Präfix bestimmen
def heading_key(txt):
    m = re.match(r"^(\d+(?:\.\d+)*)\.", txt.strip())
    if m: return m.group(1) + "."
    if txt.strip().startswith("Quellenverzeichnis"): return "Quellenverzeichnis"
    return None

paras = body.findall(q("p"))
current = None
filled = []
for p in paras:
    style = para_style(p)
    if style in ("Heading1","Heading2","Heading3"):
        k = heading_key(para_text(p))
        current = k
    elif style == "TextStart" and current and current in C:
        set_para_text(p, C[current])
        filled.append(current)
        current = None  # nur erste TextStart je Heading
# Quellenverzeichnis hat evtl. kein TextStart -> ggf. eigener Absatz
tree.write(docxml, xml_declaration=True, encoding="UTF-8", standalone=True)

# rezip
if os.path.exists(OUT): os.remove(OUT)
with zipfile.ZipFile(OUT, "w", zipfile.ZIP_DEFLATED) as z:
    for folder, _, files in os.walk(WORK):
        for f in files:
            full = os.path.join(folder, f)
            arc = os.path.relpath(full, WORK)
            z.write(full, arc)

print("Befüllte Abschnitte:", filled)
print("Nicht zugeordnet:", [k for k in C if k not in filled])
print("OUT:", OUT, os.path.getsize(OUT), "bytes")