# -*- coding: utf-8 -*-
"""Baut inhaltliche_NEU.docx aus inhaltliche_vorlage.docx:
behält Struktur/Überschriften exakt, ersetzt je Abschnitt (permStart-Block) den Inhalt.

⚠️ WARNUNG (2026-05-29): Vollständige Regenerierung ist UNZUVERLÄSSIG — die perm-IDs der
aktuellen inhaltliche_vorlage.docx matchen die CONTENT-IDs hier nicht mehr sauber
(FEHLT-PS, Inhalt geht verloren). NICHT blind neu bauen. Für kleine Textänderungen:
chirurgische String-Replacements direkt in inhaltliche_NEU.docx → word/document.xml,
dann re-zippen ([Content_Types].xml zuerst). Backup: inhaltliche_NEU_PRE2905.docx.bak.
Dieser Quelltext wird nur als Referenz/Intent gepflegt."""
import re, html, shutil, os

SRC_UNPACK = '/tmp/vorlage_unpacked'
DOC = f'{SRC_UNPACK}/word/document.xml'

# ---------- WordML-Helfer ----------
def esc(s):
    s = s.replace('&', '&amp;').replace('<', '&lt;').replace('>', '&gt;')
    s = s.replace('"', '&quot;')
    # schöne Typografie
    s = s.replace("'", '&#x2019;')
    return s

def runs_from_text(text):
    """Inline-Markup: **fett**, *kursiv*, __unterstrichen__. \n -> <w:br/>.
    Gibt eine Folge von <w:r>/<w:br> zurück."""
    out = []
    # Zeilen am \n trennen, mit <w:br/> dazwischen
    lines = text.split('\n')
    for li, line in enumerate(lines):
        if li > 0:
            out.append('<w:br/>')
        # Tokenize inline
        pos = 0
        pattern = re.compile(r'(\*\*.+?\*\*|\*[^*].*?\*|__.+?__)')
        for m in pattern.finditer(line):
            if m.start() > pos:
                out.append(_run(line[pos:m.start()]))
            tok = m.group(0)
            if tok.startswith('**'):
                out.append(_run(tok[2:-2], bold=True))
            elif tok.startswith('__'):
                out.append(_run(tok[2:-2], underline=True))
            else:
                out.append(_run(tok[1:-1], italic=True))
            pos = m.end()
        if pos < len(line):
            out.append(_run(line[pos:]))
    return ''.join(out)

def _run(t, bold=False, italic=False, underline=False):
    if t == '':
        return ''
    rpr = ''
    if bold or italic or underline:
        rpr = '<w:rPr>'
        if bold: rpr += '<w:b/>'
        if italic: rpr += '<w:i/>'
        if underline: rpr += '<w:u w:val="single"/>'
        rpr += '</w:rPr>'
    return f'<w:r>{rpr}<w:t xml:space="preserve">{esc(t)}</w:t></w:r>'

def para(text, style='TextStart'):
    pPr = f'<w:pPr><w:pStyle w:val="{style}"/></w:pPr>' if style else ''
    return f'<w:p>{pPr}{runs_from_text(text)}</w:p>'

def bullet(text):
    # ListParagraph mit Aufzählung (numId aus Vorlage); fallback: einfacher Spiegelstrich-Absatz
    return (f'<w:p><w:pPr><w:pStyle w:val="ListParagraph"/>'
            f'<w:numPr><w:ilvl w:val="0"/><w:numId w:val="2"/></w:numPr></w:pPr>'
            f'{runs_from_text(text)}</w:p>')

def heading_inline(text):
    # fett-Absatz als Mini-Zwischenüberschrift im TextStart
    return f'<w:p><w:pPr><w:pStyle w:val="TextStart"/></w:pPr>{_run(text, bold=True)}</w:p>'

def table(headers, rows):
    cols = len(headers)
    total = 9000
    cw = total // cols
    widths = [cw]*(cols-1) + [total-cw*(cols-1)]
    grid = ''.join(f'<w:gridCol w:w="{w}"/>' for w in widths)
    def cell(txt, w, hdr=False):
        rpr = '<w:rPr><w:b/></w:rPr>' if hdr else ''
        shade = '<w:shd w:val="clear" w:color="auto" w:fill="D5E8F0"/>' if hdr else ''
        runs = runs_from_text(txt)
        return (f'<w:tc><w:tcPr><w:tcW w:w="{w}" w:type="dxa"/>{shade}</w:tcPr>'
                f'<w:p><w:pPr><w:pStyle w:val="TextStart"/></w:pPr>'
                + (runs if not hdr else _run(txt, bold=True)) + '</w:p></w:tc>')
    trs = []
    trs.append('<w:tr>' + ''.join(cell(h, widths[i], hdr=True) for i,h in enumerate(headers)) + '</w:tr>')
    for r in rows:
        trs.append('<w:tr>' + ''.join(cell(c, widths[i]) for i,c in enumerate(r)) + '</w:tr>')
    tblPr = ('<w:tblPr><w:tblW w:w="9000" w:type="dxa"/>'
             '<w:tblBorders>'
             '<w:top w:val="single" w:sz="4" w:color="CCCCCC"/>'
             '<w:left w:val="single" w:sz="4" w:color="CCCCCC"/>'
             '<w:bottom w:val="single" w:sz="4" w:color="CCCCCC"/>'
             '<w:right w:val="single" w:sz="4" w:color="CCCCCC"/>'
             '<w:insideH w:val="single" w:sz="4" w:color="CCCCCC"/>'
             '<w:insideV w:val="single" w:sz="4" w:color="CCCCCC"/>'
             '</w:tblBorders></w:tblPr>')
    tblGrid = f'<w:tblGrid>{grid}</w:tblGrid>'
    return f'<w:tbl>{tblPr}{tblGrid}{"".join(trs)}</w:tbl>'

def block(elements):
    """elements: list of WordML strings (paras/bullets/tables). Erste enthält permStart-Anker später."""
    return ''.join(elements)

def charcount(elements_text_only):
    return len(elements_text_only)

CONTENT = {}   # permStart id -> (list of WordML elements, approx visible chars)

# ====================================================================
# 1.1 Ziele und Entwicklungsinhalte (<=9000)
# ====================================================================
CONTENT['71545662'] = [
heading_inline('Übergeordnetes Ziel'),
para('Ziel des Projektes ist die experimentelle Entwicklung von **Plappi** – einem displaylosen, sprachgesteuerten KI-Hardware-Lernbegleiter für Kinder von 2 bis 15 Jahren – bis zum **validierten, funktionsfähigen Prototyp**. Plappi fördert mehrsprachige Sprachentwicklung durch personalisierte, adaptive Dialoge und Geschichten: vollständig bildschirmfrei und auf einer datenschutzkonformen, privaten Inferenz-Architektur (quelloffene Sprachmodelle auf EU-Servern), bei der kindliche Sprachdaten architektonisch vom KI-Training ausgeschlossen sind (DSGVO- und EU-AI-Act-konform „by design").'),
para('Das Vorhaben ist der experimentellen Entwicklung zuzuordnen. Die **Projektgrenze ist der wissenschaftlich-technisch validierte Prototyp**; Serienfertigung, Markteinführung, Vertrieb und Marketing sind ausdrücklich NICHT Gegenstand dieses Projektes (vgl. Abschnitt 3 – Verwertung). Routinemäßige Anpassungen sind ausgeschlossen.'),
heading_inline('Wesentliche Ziele und Spezifikationen (Pflichtenheft, Richtwerte – vom Antragsteller im Projektverlauf zu schärfen)'),
bullet('**Mehrsprachige Kinder-Spracherkennung**: robuste ASR/TTS für Kinderstimmen über die Altersspanne 2–15 inkl. Code-Switching zwischen Erst- und Zweitsprache; Zielmetrik Wortfehlerrate (WER) auf kindlichem Mehrsprach-Material deutlich unter dem heutigen Stand generischer Modelle (konkreter Zielwert im Projekt zu fixieren).'),
bullet('**Private Inferenz-Architektur**: Hosting/Feinabstimmung quelloffener Sprachmodelle auf gemieteter EU-GPU-Infrastruktur mit dialogtauglicher Latenz (Ziel-Antwortlatenz im niedrigen Sekundenbereich) bei architektonischem Ausschluss der Verwendung von Kinder-Gesprächsdaten für Training.'),
bullet('**Adaptive Pädagogik-Engine**: Spaced Repetition, Kognaten-Nutzung, Personalisierung (Interessen, Bezugspersonen, Themen) und altersgerechte Progression, fundiert auf peer-reviewter Forschung zur bilingualen Sprachentwicklung.'),
bullet('**Bildschirmfreie Hardware**: kindgerechtes Gerät mit Fernfeld-Mikrofonarray, eingebetteter Recheneinheit/Konnektivität und sicherheitskonformem Gehäuse als integrierende Trägerplattform.'),
bullet('**Eltern-Dashboard** zur transparenten Fortschrittskontrolle und Personalisierung.'),
heading_inline('Zentrale Entwicklungsinhalte'),
para('Der F&E-Kern ruht auf **drei Innovations-Säulen**: (1) mehrsprachige Kinder-Spracherkennung inkl. Echtzeit-Code-Switching, (2) private EU-Inferenz auf Open-Source-Modellen mit Trainingsausschluss kindlicher Daten und (3) adaptive, wissenschaftlich fundierte Pädagogik-Engine. Die zugehörigen Arbeitspakete, Meilensteine und der Zeitplan sind unter dem Menüpunkt „Arbeitsplan" definiert.'),
heading_inline('Erwartete Ergebnisse nach Projektabschluss'),
bullet('Funktionsfähiger, zertifizierbarer Prototyp (integriert: Hardware + Sprach-KI + Pädagogik-Engine).'),
bullet('Validierter privater Inferenz-Stack mit dokumentierter Qualitäts-, Latenz- und Datenschutz-Charakteristik.'),
bullet('Empirisch evaluierte Kinder-ASR/TTS-Pipeline (WER/CER-Benchmarks, Code-Switching-Fähigkeit).'),
bullet('Wissenschaftlich validierte Pädagogik-Engine inkl. Belegen zur Lernwirksamkeit (A/B-Tests).'),
heading_inline('Motivation'),
para('Bilinguale und mehrsprachig erziehende Familien sind unterversorgt. Spricht ein Elternteil die Zweitsprache nicht, ist der andere die einzige Sprachquelle – bei Zeitmangel bricht die für aktiven Spracherwerb nötige Exposition weg. Die Sprachwissenschaft zeigt, dass für aktiven Zweitspracherwerb ein **Mindestanteil von rund 30 % an Sprachexposition** erforderlich ist (Hoff et al., 2012) und dass die **Qualität der Konversation – „conversational turns" – die reine Menge übertrifft** (Romeo et al., 2018). Bestehende Lösungen sind entweder einsprachig und passiv (Audio-Spielzeug) oder bildschirmgebunden und datenschutzkritisch (Apps mit Cloud-LLMs). Plappi schließt diese Lücke und adressiert die steigende Elternnachfrage nach datensouveränen, bildschirmfreien KI-Produkten.'),
]

# ====================================================================
# 1.2 Stand der Technik und des Wissens (<=9000)
# ====================================================================
CONTENT['71545663'] = [
para('Im Projektumfeld existieren drei Kategorien etablierter Lösungen, die jeweils wesentliche Anforderungen NICHT erfüllen. Hinzu kommt der wissenschaftliche Wissensstand zur (bilingualen) Sprachentwicklung sowie der technische Stand der Sprach-KI.'),
heading_inline('1) Bildschirmfreies Audio-Lernspielzeug (z. B. Tonies, Ravensburger tiptoi)'),
para('Marktführend und etabliert, bildschirmfrei – aber **einsprachig, vorproduziert und passiv**: kein freier Dialog, keine Spracherkennung, keine Adaptivität, keine Personalisierung. Tonies (Boxine/tonies SE) belegt mit rund **480 Mio. EUR Umsatz (FY2024), über 8 Mio. verkauften Tonieboxen und über 100 Mio. Figuren** die Tragfähigkeit des bildschirmfreien Audio-Kindermarkts – jedoch ohne interaktive Sprach-KI.'),
heading_inline('2) Bildschirmbasierte Sprachlern-Apps (z. B. Duolingo, Gus on the Go, Lingokids)'),
para('Bieten Interaktivität und teils Adaptivität, sind aber **bildschirmgebunden** (Screen-Time-Problematik bei Kleinkindern) und nutzen überwiegend **Public-Cloud-LLMs mit Daten-Sharing**. Kindliche Sprachdaten fließen typischerweise in fremde Cloud-Infrastruktur; ein architektonischer Ausschluss vom Modelltraining ist nicht gegeben. Für Kinder unter ~6 Jahren sind solche Apps pädagogisch wie regulatorisch problematisch.'),
heading_inline('3) Sprachassistenten / Smart Speaker (z. B. Alexa, Google)'),
para('Verstehen freie Sprache, sind aber **nicht kindzentriert** (ASR für erwachsene Stimmen optimiert), **nicht pädagogisch** und cloud-/datengetrieben. Kinder-ASR ist bekanntermaßen schwer (s. u.).'),
heading_inline('Wissenschaftlicher Stand des Wissens'),
para('Die pädagogische Konzeption stützt sich auf den etablierten Forschungsstand zur Sprachentwicklung, u. a.:'),
bullet('**Hoff et al. (2012)**: Für aktiven Zweitspracherwerb ist ein Sprachexpositions-Anteil von ≥ ~30 % nötig.'),
bullet('**Romeo et al. (2018)**: Konversationsqualität („conversational turns") wirkt stärker als reine Sprachmenge – neuronal nachweisbar.'),
bullet('**Roediger & Karpicke (2006)**: Testing-Effekt / Spaced Repetition als robuste Lernverstärker.'),
bullet('**Mitchell et al. (2024)**: Kognaten (verwandte Wörter zwischen Sprachen) erleichtern den Erwerb messbar.'),
para('Insgesamt fußt die Engine auf über 75 peer-reviewten Studien zur bilingualen Sprachentwicklung.'),
heading_inline('Technischer Stand der Sprach-KI'),
para('Generische ASR-Systeme (z. B. Whisper-Familie und vergleichbare quelloffene Modelle) sind auf erwachsene Stimmen optimiert und zeigen auf **Kinderstimmen deutlich erhöhte Fehlerraten** (geringe Datenverfügbarkeit, hohe akustische/artikulatorische Varianz, Aussprachefehler, Dialekte). Quelloffene Sprachmodelle (LLMs) ermöglichen privates Self-Hosting, ihre **dialogische Qualität in Echtzeit auf gemieteter EU-Infrastruktur ist gegenüber großen Public-Cloud-LLMs jedoch nicht abschließend belegt** und Gegenstand dieses Projektes.'),
heading_inline('Eigene Vorarbeiten'),
para('Der Antragsteller verfügt über einen KI/ML-Track-Record (Hintergrund BReact, EU-Tender-erprobt) sowie über einen frühen, eigenfinanzierten Proof-of-Concept (Konzept, technische Architektur, wissenschaftliche Fundierung). Diese de-risken das Projekt, ersetzen aber die offenen Forschungsfragen nicht (vgl. Abschnitt 1.6). Geförderte F&E-Arbeit beginnt erst nach Antragstellung (Anreizeffekt gewahrt).'),
]

# ====================================================================
# 1.3 Neuheit und Schutzstrategie (<=9000)
# ====================================================================
CONTENT['71545664'] = [
heading_inline('Neuheit gegenüber dem Stand der Technik'),
para('Plappi ist nach derzeitigem Kenntnisstand des Antragstellers eine **internationale Branchen-Neuheit**: das erste Produkt, das (a) freien, sprachgesteuerten, **bildschirmfreien** Dialog für Kinder, (b) **mehrsprachig inkl. Echtzeit-Code-Switching** mit kindzentrierter Spracherkennung, (c) auf **privater EU-Inferenz mit architektonischem Trainingsausschluss kindlicher Daten** und (d) einer **adaptiven, wissenschaftlich fundierten Pädagogik-Engine** in einem Gerät vereint. Die Neuheit liegt nicht in einer Einzelkomponente, sondern in der bisher nicht existierenden, technisch anspruchsvollen Integration dieser vier Eigenschaften.'),
heading_inline('Klare Abgrenzung'),
table(
['Dimension', 'Audio-Spielzeug (Tonies/tiptoi)', 'Sprachlern-Apps', 'Plappi (neu)'],
[
['Bildschirmfrei', 'ja', 'nein (Screen)', 'ja'],
['Freier Dialog / ASR', 'nein (passiv)', 'teilweise', 'ja (Kinder-ASR)'],
['Mehrsprachig / Code-Switching', 'nein (einsprachig)', 'begrenzt', 'ja'],
['Datensouveränität (kein Training mit Kinderdaten)', 'n/a', 'nein (Cloud-LLM, Daten-Sharing)', 'ja (private EU-Inferenz)'],
['Adaptive, fundierte Pädagogik', 'nein', 'teilweise', 'ja (Spaced Repetition, Kognaten)'],
]),
para('Tonies/tiptoi sind einsprachig und passiv; Sprachlern-Apps sind bildschirmgebunden und nutzen Public-Cloud-LLMs mit Daten-Sharing. Plappi schließt genau diese Lücken.'),
heading_inline('Schutzstrategie'),
para('Der Schutz vor Nachahmung erfolgt mehrschichtig:'),
bullet('**Markenschutz**: Anmeldung der Wortmarke „Plappi" (geplant über aws Innovationsschutz) zur Sicherung von Marke und Wiedererkennung.'),
bullet('**Technologischer Vorsprung / Know-how-Schutz**: proprietäre, auf Kinderstimmen feinabgestimmte ASR/TTS-Modelle, kuratierte mehrsprachige Trainings-/Annotationsdaten für Kinder, die private Inferenz-Architektur und die Pädagogik-Engine bilden einen schwer kopierbaren, datengetriebenen Vorsprung (Lead-Time-Advantage).'),
bullet('**Geschäftsgeheimnisse**: vertrauliche Behandlung von Modellen, Datensätzen, Trainingsrezepten und Architektur; vertragliche NDAs mit Dienstleistern.'),
bullet('**Datensouveränität als Vertrauens-Asset**: der „by design"-Trainingsausschluss ist zugleich regulatorischer und reputativer Burggraben.'),
para('**Patente** werden vorerst **bewusst nicht** angestrebt: Die Innovation liegt überwiegend in Software, Modellen, Daten und Systemintegration, wo Patentschutz im Verhältnis zu Kosten, Offenlegungszwang und schneller Iteration für ein Startup wenig wirtschaftlich ist; Lead-Time, Marke und Geschäftsgeheimnis bieten hier den besseren Schutz. Eine spätere Patentierung einzelner Hardware-/Verfahrensaspekte bleibt offen.'),
heading_inline('Patentrecherche'),
para('Es wurde eine **orientierende Patent-/Marktrecherche** durchgeführt (Recherche zu vergleichbaren bildschirmfreien Sprach-/Lerngeräten und Kinder-ASR-Verfahren). Dabei wurden **keine Schutzrechte identifiziert, die die geplante Entwicklung blockieren würden** (Stand der Recherche, vom Antragsteller vor Einreichung formal zu bestätigen). Eine vertiefte Freedom-to-Operate-Recherche im Zuge der Markenanmeldung (aws Innovationsschutz) ist vorgesehen.'),
]

# ====================================================================
# 1.4 Nutzen (<=5000)
# ====================================================================
CONTENT['71545665'] = [
heading_inline('Vorteile gegenüber dem Stand der Technik'),
bullet('**Datensouveränität**: Gespräche der Kinder werden ausschließlich in der EU verarbeitet und sind architektonisch vom KI-Training ausgeschlossen – ein klarer, regulatorisch (DSGVO, EU-AI-Act) und reputativ relevanter Vorteil gegenüber Cloud-LLM-Apps.'),
bullet('**Bildschirmfreiheit**: pädagogisch wertvoll, vermeidet Screen-Time, erschließt die Altersgruppe unter 6 Jahren, für die App-Lösungen ungeeignet sind.'),
bullet('**Aktiver, mehrsprachiger Dialog statt passivem Audio**: erhöht die für Spracherwerb entscheidenden „conversational turns" (Romeo et al., 2018) – im Gegensatz zu passivem Audio-Spielzeug.'),
bullet('**Wissenschaftlich fundierte Adaptivität**: Spaced Repetition (Roediger & Karpicke, 2006) und Kognaten-Nutzung (Mitchell et al., 2024) steigern die Lerneffizienz; Personalisierung erhöht Motivation und Verweildauer.'),
heading_inline('Quantifizierung der erwarteten Auswirkungen (Richtwerte)'),
bullet('**Zielgruppengröße**: rund **65,6 Mio. Kinder (0–14 J.) in der EU** (Eurostat, 2024); 89,4 % der Oberstufenschüler lernen Englisch als Fremdsprache – große Basis für mehrsprachige Förderung.'),
bullet('**Expositions-Hebel**: Plappi kann den für aktiven Erwerb nötigen ~30 %-Anteil an Zweitsprach-Exposition (Hoff et al., 2012) in Familien ohne zweiten Muttersprachler erstmals niederschwellig bereitstellen.'),
bullet('**Lerneffizienz**: messbare Verbesserung von Wortschatz-Retention und aktiver Sprachproduktion in geplanten A/B-Lernwirksamkeitstests gegenüber passivem Audio (Zielgröße im Projekt zu fixieren).'),
heading_inline('Technische Vorteile für die Zielgruppen'),
para('Für **Kinder**: kindgerechte, fehlertolerante Spracherkennung mit sanfter Korrektur; altersgerechte Progression. Für **Eltern**: transparentes Dashboard, Datenschutz-Sicherheit, kein Bildschirm. Für **die Gesellschaft**: niederschwelliger Sprachzugang unabhängig vom Bildungsbudget.'),
heading_inline('Nachteile / Grenzen'),
para('Sprachgesteuerte Hardware ist in lauten Umgebungen herausfordernd (Fernfeld-ASR); private EU-Inferenz kann ggü. den größten Public-LLMs Qualitäts-/Latenz-Kompromisse bedeuten (Gegenstand der F&E, vgl. 1.6). Anschaffungskosten liegen über reinem Audio-Spielzeug, werden aber durch Funktionsumfang und Datenschutz gerechtfertigt.'),
]

# ====================================================================
# 1.5.1 Ökologie (<=3000)
# ====================================================================
CONTENT['71545667'] = [
para('Nachhaltigkeit ist ein **Hauptziel** des Projektes, nicht ein Nebeneffekt. Ökologisch adressiert Plappi v. a. **SDG 12 (nachhaltige Produktion/Konsum)** und **SDG 13 (Klimaschutz)**:'),
bullet('**Energieeffiziente EU-Inferenz**: bewusste Wahl quelloffener, ressourcensparender Modelle und optimierter Inferenz-Pipelines (Quantisierung, Batching) statt überdimensionierter Public-Cloud-LLM-Aufrufe; Hosting in EU-Rechenzentren mit zunehmend dekarbonisiertem Strommix. Energie-/CO2-Verbrauch je Dialog wird im Projekt als Metrik erfasst und optimiert.'),
bullet('**Langlebige Hardware**: Auslegung auf Reparierbarkeit, austauschbare Komponenten, langfristige Firmware-Updatebarkeit und robustes Gehäuse – gegen Wegwerf-Elektronik; Ziel ist eine mehrjährige Nutzungsdauer über mehrere Kinder/Geschwister hinweg.'),
bullet('**Bildschirmfreiheit** reduziert Display-Produktion und -Energieverbrauch und vermeidet die ökologisch wie gesundheitlich kritische Bildschirmnutzung.'),
para('**Erfolgsmessung**: Energie-/CO2-Kennzahl pro Inferenz, Anteil reparierbarer Komponenten, dokumentierte Update-Fähigkeit. Mögliche Nachteile (Elektronik-/Rohstoffeinsatz, Compute-Energie) werden durch effiziente Inferenz, Langlebigkeit und Geräte-Recyclingkonzept adressiert.'),
]

# ====================================================================
# 1.5.2 Soziales (<=3000)
# ====================================================================
CONTENT['71545668'] = [
para('Die soziale Dimension ist **zentrales Hauptziel**. Im Vordergrund stehen **SDG 4 (hochwertige Bildung)**, **SDG 10 (weniger Ungleichheiten)** und **SDG 16 (Schutz der Privatsphäre/kindgerechte Institutionen)**:'),
bullet('**SDG 4 – Bildung**: niederschwelliger, qualitativ hochwertiger Zugang zu mehrsprachiger Sprachförderung für Kinder 2–15, unabhängig davon, ob ein zweiter Muttersprachler im Haushalt verfügbar ist. Wissenschaftlich fundiert (≥30 %-Exposition, Hoff et al. 2012; Konversationsqualität, Romeo et al. 2018).'),
bullet('**SDG 10 – weniger Ungleichheiten**: Sprachzugang wird vom Bildungsbudget der Familie entkoppelt; Kinder aus nicht-akademischen oder migrantischen Haushalten erhalten Zugang zu Förderung, die sonst teuren Kursen/Nachhilfe vorbehalten ist.'),
bullet('**SDG 16 / Kinderschutz**: datensouveräne, kindgerechte KI – kein Training mit Kinderdaten, EU-Verarbeitung, EU-AI-Act-konform „by design"; setzt einen positiven Branchenstandard für vertrauenswürdige Kinder-KI.'),
para('**Erfolgsmessung**: Lernwirksamkeit (A/B-Tests, Wortschatz-/Sprachproduktions-Zuwachs), Reichweite in unterversorgten Zielgruppen, Datenschutz-Audits. Mögliche soziale Nachteile (Geräteersatz für menschliche Interaktion) werden durch bewusste Positionierung als **Ergänzung** der elterlichen Sprachzeit und durch begrenzte, dialogfördernde Nutzung adressiert.'),
]

# ====================================================================
# 1.5.3 Ökonomie (<=3000)
# ====================================================================
CONTENT['71545669'] = [
para('Ökonomisch adressiert das Projekt v. a. **SDG 8 (menschenwürdige Arbeit/Wirtschaftswachstum)** und **SDG 9 (Industrie, Innovation, Infrastruktur)**:'),
bullet('**SDG 9 – Innovation**: Aufbau einer neuartigen, europäischen Technologiebasis für kindgerechte, datensouveräne Sprach-KI und private EU-Inferenz – ein zukunftsträchtiges, exportfähiges Innovationsfeld.'),
bullet('**SDG 8 – qualifizierte Arbeit**: Schaffung hochqualifizierter F&E-Arbeitsplätze in Wien (ML/Speech-, Embedded-Engineering) und Aufbau eigener F&E-Kompetenz in einem jungen Unternehmen.'),
bullet('**Digitale Souveränität Europas**: Reduktion der Abhängigkeit von außereuropäischen Cloud-LLM-Anbietern durch private EU-Inferenz auf quelloffenen Modellen – Beitrag zu europäischer technologischer Resilienz.'),
para('**Erfolgsmessung**: Anzahl geschaffener F&E-Arbeitsplätze, Wertschöpfung in Österreich, Aufbau eigener IP/Datenbestände. Das Geschäftsmodell (Gerät + Abo) zielt auf nachhaltige, tragfähige Erträge statt auf datengetriebene Monetarisierung kindlicher Nutzerdaten.'),
]

# ====================================================================
# 1.6 Entwicklungsrisiken und Lösungsvorschläge (<=20000)
# ====================================================================
CONTENT['71545670'] = [
para('Das Projekt ist durch **erhebliches technisches Forschungsrisiko** gekennzeichnet; der **Ausgang zentraler Entwicklungsfragen steht nicht fest**. Es handelt sich um experimentelle Entwicklung mit offenen Forschungsfragen, deren Lösung über den heutigen Stand der Technik hinausgeht. Das Risiko wird **vollständig vom Antragsteller getragen** und nicht an Dritte ausgelagert. Im Folgenden werden die vier zentralen technischen Problemfelder, ihre offenen Forschungsfragen, das jeweilige Risiko (Eintrittswahrscheinlichkeit/Auswirkung) sowie der methodische Lösungsansatz dargestellt.'),

heading_inline('Übersicht: Risiko-Matrix'),
table(
['Risikofeld', 'Offene Forschungsfrage', 'Risiko', 'Lösungsansatz (Methodik)'],
[
['1. Kinder-ASR-Robustheit', 'Erreichbare WER/CER auf Kinderstimmen 2–15 inkl. Dialekte/Aussprachefehler?', 'hoch', 'Datenerhebung/-annotation, gezieltes Finetuning, Daten-Augmentation'],
['2. Echtzeit-Code-Switching', 'Sprachwechsel im Satz robust auf ressourcenbeschr. HW erkennbar?', 'hoch', 'Mehrsprach-Modelle, Sprach-ID, Latenz-Optimierung'],
['3. Private EU-Inferenz-Qualität', 'Dialogqualität quelloffener Modelle vs. Public-LLM bei akzeptabler Latenz?', 'mittel-hoch', 'Modell-Benchmarking, Finetuning, Inferenz-Optimierung'],
['4. Pädagogische Wirksamkeit', 'Erzielt adaptive Engine messbaren Lernvorteil?', 'mittel', 'A/B-Lernwirksamkeitstests, iterative Validierung'],
]),

heading_inline('Risikofeld 1 – Robuste mehrsprachige Kinder-Spracherkennung (ASR/TTS)'),
para('**Technisches Problem**: Kinderstimmen sind für ASR notorisch schwer – kurze Vokaltrakte, hohe Grundfrequenz, instabile Artikulation, Aussprachefehler, Dialekte und insgesamt **wenig verfügbare Trainingsdaten**. Generische Modelle (z. B. Whisper-Familie) zeigen auf Kindersprache deutlich erhöhte Fehlerraten.'),
para('**Offene Forschungsfrage / Risiko**: Es ist offen, ob über Datenerhebung und Finetuning eine **dialogtaugliche Wortfehlerrate** über die gesamte Altersspanne 2–15 und über Dialekte/Mehrsprachigkeit hinweg erreicht werden kann. Bei zu hoher Fehlerrate scheitert das Kern-Nutzungsversprechen (frustfreier Dialog).'),
para('**Methodischer Lösungsansatz (Stand der Technik)**:'),
bullet('Aufbau/Beschaffung eines kuratierten, datenschutzkonformen **Kinder-Sprachkorpus** (mehrsprachig, altersgestaffelt), inkl. externer Speech-Datendienstleistung und kontrollierter Eigenerhebung mit Einwilligung.'),
bullet('**Daten-Augmentation** (Pitch-/Tempo-/Vokaltrakt-Perturbation, Geräusch-/Hall-Simulation für Fernfeld) zur Kompensation knapper Daten.'),
bullet('**Finetuning** quelloffener ASR-Basismodelle auf Kindersprache; Evaluierung mit klaren Metriken (**WER/CER**, getrennt nach Altersband, Sprache, Code-Switching-Anteil).'),
bullet('Iterative Schwellenwert-Definition: Ein im Projekt festzulegender WER-Zielwert bildet das Go/No-Go-Kriterium für den Prototyp.'),
para('**Rückfallebenen**: bei nicht erreichbarem Zielwert Einsatz von Dialog-Strategien (Rückfragen, eingeschränkter Vokabularraum je Altersstufe, geführte statt freier Dialoge), die die ASR-Last reduzieren.'),

heading_inline('Risikofeld 2 – Echtzeit-Code-Switching auf ressourcenbeschränkter Hardware'),
para('**Technisches Problem**: Mehrsprachige Kinder wechseln innerhalb eines Satzes zwischen Sprachen (Code-Switching). Sprach-Identifikation und korrekte Erkennung in Echtzeit sind anspruchsvoll, zumal Teile der Verarbeitung latenzkritisch und ressourcenbeschränkt sind (Gerät/Edge bzw. enge Latenzbudgets zur EU-Inferenz).'),
para('**Offene Forschungsfrage / Risiko**: Offen ist, ob Sprachwechsel **robust und mit dialogtauglicher Latenz** erkannt werden können, ohne die Erkennungsqualität zu beeinträchtigen. Risiko: hohe Latenz oder Fehlklassifikation der Sprache bricht den natürlichen Dialogfluss.'),
para('**Methodischer Lösungsansatz**:'),
bullet('Einsatz/Feinabstimmung mehrsprachiger ASR-Modelle mit integrierter oder vorgeschalteter **Sprach-Identifikation**; Evaluierung der Code-Switching-Erkennung auf eigens annotierten Mischsprach-Samples.'),
bullet('**Latenz-Engineering**: Streaming-ASR, Modell-Quantisierung, Aufteilung Edge/EU-Server (welche Schritte lokal, welche serverseitig), Messung End-to-End-Antwortlatenz als harte Metrik.'),
bullet('Architektur-Experimente zur optimalen Verteilung der Rechenlast zwischen Gerät und EU-Inferenz.'),

heading_inline('Risikofeld 3 – Qualität der privaten EU-Inferenz vs. Public-Cloud-LLM'),
para('**Technisches Problem**: Das datenschutzgetriebene Kernversprechen verlangt **private Inferenz auf quelloffenen Modellen auf gemieteter EU-Infrastruktur** statt Public-Cloud-LLM-APIs. Quelloffene Modelle sind kleiner/anders trainiert als die größten proprietären Modelle.'),
para('**Offene Forschungsfrage / Risiko**: Offen ist, ob die **Dialog-, Geschichten- und pädagogische Qualität** quelloffener, privat gehosteter Modelle bei **akzeptabler Latenz und vertretbaren Compute-Kosten** ein kindgerechtes, sicheres Erlebnis liefert. Risiko: Qualitäts-/Latenz-/Kostenlücke gefährdet entweder das Erlebnis oder die Wirtschaftlichkeit.'),
para('**Methodischer Lösungsansatz**:'),
bullet('Systematisches **Benchmarking** mehrerer quelloffener Modelle (Dialogqualität, Sicherheit/Kindgerechtheit, Halluzinationsrate, Latenz, Kosten/Anfrage).'),
bullet('**Domänen-Finetuning** (kindgerechte, mehrsprachige, pädagogische Dialoge) und Guardrails/Safety-Layer für kindersichere Ausgaben.'),
bullet('**Inferenz-Optimierung** (Quantisierung, Caching, Batching) und Dimensionierung der GPU-Infrastruktur; Kostenmodellierung je Dialogminute.'),
bullet('Definition messbarer Qualitäts- und Latenz-Akzeptanzschwellen als Meilenstein-Kriterien.'),
para('**Compute-Planung (Richtwert, vom Antragsteller zu bestätigen)**: Für ASR/TTS-Training und private Inferenz werden rund **60.000 EUR/Jahr GPU-Compute** veranschlagt. Beleg-Basis: gemietete EU-GPU-Kapazität (Seeweb: H100 ca. 1,89 EUR/h, A100 ca. 0,99 EUR/h). Als gewichteter Misch-/Multi-GPU-Satz von ca. **4 EUR/h** ergeben sich rund **15.000 GPU-Stunden/Jahr** (konservativ-realistisch; entspricht ~1 H100 quasi-dauerhaft zzgl. Trainings-Bursts). Quelle: seeweb.it/en/products/cloud-server-gpu.'),

heading_inline('Risikofeld 4 – Pädagogische Wirksamkeit der adaptiven Engine'),
para('**Technisches Problem**: Die Pädagogik-Engine kombiniert Spaced Repetition, Kognaten-Nutzung, Personalisierung und altersgerechte Progression. Ob diese Kombination im realen, dialogischen Einsatz einen **messbaren Lernvorteil** erzielt, ist eine offene empirische Frage.'),
para('**Offene Forschungsfrage / Risiko**: Offen ist, ob und in welchem Ausmaß die adaptive Engine gegenüber nicht-adaptivem/passivem Material die aktive Sprachproduktion und Retention verbessert. Risiko: ausbleibender messbarer Lerneffekt entwertet das pädagogische Versprechen.'),
para('**Methodischer Lösungsansatz**:'),
bullet('Operationalisierung der Forschungsbefunde (Hoff 2012; Romeo 2018; Roediger & Karpicke 2006; Mitchell 2024) in konkrete, messbare Engine-Mechaniken.'),
bullet('**A/B-Lernwirksamkeitstests** mit Kindern (adaptiv vs. Baseline) unter Einwilligung; Messung von Wortschatz-Retention, aktiver Produktion, „conversational turns" und Engagement.'),
bullet('**Iterative Prototypen-Entwicklung** mit Nutzer-Feedback (Kinder, Eltern); optional Einbindung eines Forschungspartners (Phonetik/Linguistik) zur Methodenabsicherung (Status offen).'),

heading_inline('Methodische Gesamtvorgehensweise'),
para('Übergreifend wird **iterativ-experimentell** vorgegangen: (1) Datenerhebung/-annotation, (2) Modell-Finetuning, (3) quantitative Evaluierung gegen definierte Metriken (WER/CER, Latenz, Qualitäts-Scores, Lernwirksamkeit), (4) iterative Prototypen mit klaren Go/No-Go-Meilensteinen. Jeder Iterationszyklus reduziert das Risiko schrittweise; negative Zwischenergebnisse führen zu dokumentierten Strategiewechseln (Rückfallebenen), nicht zum Abbruch des Lernprozesses. Der Projekterfolg ist – wie bei experimenteller Entwicklung – nicht garantiert.'),
]

# ====================================================================
# 2. Finanzierung und Folgekosten (<=2000)
# ====================================================================
CONTENT['71545671'] = [
para('**Finanzierung des Eigenanteils**: Die förderbaren Projektgesamtkosten des Forschungsjahres 1 betragen 744.284 EUR. Die FFG-Förderung beträgt bei der für ein Kleinunternehmen in der experimentellen Entwicklung geltenden Beihilfenhöchstintensität von 45 % insgesamt 334.927 EUR. Der verbleibende Eigenanteil von 409.357 EUR wird über mehrere Quellen gedeckt:'),
bullet('**Eigenmittel/Stammkapital** der Plappi FlexCo (i.G.): ~90.000 EUR.'),
bullet('**BReact-Patronatserklärung** (Liquiditäts-/Finanzierungszusage): ~239.000 EUR (Entwurf liegt vor; zugesagte Kapazität bis 400.000 EUR).'),
bullet('**Kickstarter-Erlöse** (Launch 06/2026, reine Marktvalidierung/Vorfinanzierung; nicht Projektgegenstand): ~80.000 EUR.'),
para('In Summe decken FFG-Förderung (334.927 EUR), Eigenmittel (~90.000 EUR), BReact-Patronatserklärung (~239.000 EUR) und Kickstarter-Erlöse (~80.000 EUR) die Gesamtkosten von 744.284 EUR vollständig ab. Nachweise (Patronatserklärung, Eigenmittelnachweis) werden beigelegt. Beträge sind Planwerte, vor Einreichung zu bestätigen.'),
para('**Folgekosten nach Projektende** (Markteinführung – NICHT Projektgegenstand): Werkzeug-/Produktionsaufbau, Erstcharge, Vertrieb/After-Sales. Finanzierung über Folgeförderungen (aws Seed, Wirtschaftsagentur Wien), Kickstarter-Vorbestellungen und ggf. Investoren. Das Geschäftsmodell (Gerät + Abo) trägt die laufenden Kosten mittelfristig selbst; die Folgekosten übersteigen die Leistungsfähigkeit nicht, da Markteintritt schrittweise und förderbegleitet erfolgt.'),
]

# ====================================================================
# 3.1 Marktbeschreibung (<=6000)
# ====================================================================
CONTENT['71545673'] = [
heading_inline('Marktdefinition'),
para('Plappi adressiert den Schnittbereich aus **EdTech-Sprachlernen** (frühkindlich/schulisch), **bildschirmfreiem Audio-Kinderprodukt** und **datensouveräner Consumer-KI-Hardware**. Geschäftsmodell: B2C-Hardware (Gerät) plus wiederkehrendes Abo (Content/Inferenz).'),
heading_inline('Marktgröße und Entwicklung (faktenbasiert)'),
bullet('**Zielgruppe EU**: rund **65,6 Mio. Kinder (0–14 J.)** (Eurostat, 2024); **89,4 %** der Oberstufenschüler lernen Englisch als Fremdsprache – breite, wachsende Nachfrage nach Sprachförderung.'),
bullet('**EdTech-Sprachlernmarkt**: ca. **USD 11,7 Mrd. (2024)** mit einer prognostizierten **CAGR von ~27 %** (market.us) – starkes Wachstum.'),
bullet('**Marktvalidierung bildschirmfreies Audio**: tonies SE erzielte **FY2024 ~480 Mio. EUR Umsatz**, **> 8 Mio. Tonieboxen** und **> 100 Mio. Figuren** – Beleg für die Zahlungsbereitschaft und Skalierbarkeit des bildschirmfreien Kinder-Audio-Markts (allerdings einsprachig/passiv).'),
heading_inline('Geografische Markteinschätzung'),
para('**Österreich/DACH** als Erstmarkt (mehrsprachiges Umfeld, hohe Kaufkraft), dann **EU-weit**, anschließend **USA** (Vorbild: internationale Tonies-Skalierung). Der Trend zu Datenschutz und Reduktion von Screen-Time stützt die mittelfristige Nachfrage zusätzlich.'),
heading_inline('Faktenbasis'),
para('Eurostat (2024); market.us EdTech/Language-Learning-Report (2024); tonies SE Geschäftsbericht FY2024. Quellen werden im Quellenverzeichnis geführt; Marktschätzungen sind Richtwerte und vom Antragsteller vor Einreichung zu bestätigen.'),
heading_inline('Bestehende Umsätze'),
para('Mit Plappi werden derzeit **keine Umsätze** erzielt (Produkt in experimenteller Entwicklung). Erste Nachfragevalidierung erfolgt über den Kickstarter-Launch 06/2026.'),
]

# ====================================================================
# 3.2 Wettbewerbssituation (<=6000)
# ====================================================================
CONTENT['71545674'] = [
heading_inline('Mitbewerb (nach Marktrelevanz)'),
bullet('**Audio-Lernspielzeug (tonies, Ravensburger tiptoi)** – hoher Marktanteil/Markenbekanntheit, aber **einsprachig, passiv, ohne Dialog/Adaptivität**.'),
bullet('**Sprachlern-Apps (Duolingo, Lingokids, Gus on the Go)** – interaktiv/adaptiv, aber **bildschirmgebunden** und überwiegend **Cloud-LLM mit Daten-Sharing**; für Kleinkinder ungeeignet.'),
bullet('**Smart Speaker / Sprachassistenten (Alexa, Google)** – freie Sprache, aber **nicht kindzentriert, nicht pädagogisch, cloud-/datengetrieben**.'),
heading_inline('SWOT (Plappi)'),
table(
['Stärken', 'Schwächen'],
[
['Einzigartige Kombination (bildschirmfrei + mehrsprachig + privat + adaptiv); Datensouveränität als Vertrauens-Asset; wissenschaftliche Fundierung', 'Startup ohne Marktreputation; hohes F&E-Risiko (Kinder-ASR); Hardware-Komplexität; begrenzte Anfangsressourcen'],
]),
table(
['Chancen', 'Risiken'],
[
['Wachsender EdTech-/Datenschutz-Trend; bewährter bildschirmfreier Audio-Markt (Tonies); EU-AI-Act als Rückenwind für „by design"-Datenschutz', 'Markteintritt etablierter Player (Tonies) in Mehrsprachigkeit; technische Hürden; Beschaffung/Hardware-Lieferketten'],
]),
heading_inline('Aktuelle Marktposition'),
para('Plappi ist Markteinsteiger (Marktanteil derzeit 0). Die Position wird über den technologischen Vorsprung (Kinder-ASR, private Inferenz) und das Datenschutz-Alleinstellungsmerkmal aufgebaut.'),
heading_inline('Markteintrittsbarrieren und Reaktion'),
bullet('**Technologie/Daten**: hohe F&E-Hürde Kinder-ASR – wird zum eigenen Burggraben (proprietäre Modelle/Daten).'),
bullet('**Hardware/Zertifizierung** (CE/EN71 etc.): über Förderprogramme (aws/Wien) und externe Partner adressiert.'),
bullet('**Marke/Vertrauen**: Aufbau über Datenschutz-Positionierung, Kickstarter-Community und Marken­schutz.'),
para('**Faktenbasis**: öffentliche Produkt-/Unternehmensinformationen der genannten Wettbewerber, Branchenberichte (market.us), tonies-Geschäftsbericht.'),
]

# ====================================================================
# 3.3 Zielgruppe, USP (<=6000)
# ====================================================================
CONTENT['71545675'] = [
heading_inline('Zielgruppe'),
bullet('**Bilinguale/mehrsprachige Familien**, in denen ein Elternteil die Zweitsprache nicht spricht und zusätzliche, authentische Sprachexposition fehlt (Kernbedarf).'),
bullet('**Bildungsorientierte Eltern**, die früh Fremdsprachenkompetenz fördern, aber **Bildschirmzeit vermeiden** wollen.'),
bullet('**Datenschutzbewusste Eltern**, die KI-Produkte ohne Daten-Sharing/Kinderdaten-Training suchen.'),
bullet('Sekundär: **Bildungseinrichtungen** (Kindergärten, Sprachförderung).'),
heading_inline('Bedürfnisse'),
para('Wirksame, wissenschaftlich fundierte Sprachförderung; Bildschirmfreiheit; Datensicherheit; einfache Bedienung für Kinder; Transparenz/Kontrolle für Eltern; faire Kosten.'),
heading_inline('USP anhand eines Anwendungsfalls'),
para('**Anwendungsfall**: Eine deutschsprachige Familie möchte ihr 5-jähriges Kind an Englisch heranführen; keiner der Eltern spricht fließend Englisch und hat Zeit für tägliche Übung. Mit Plappi führt das Kind **freie, altersgerechte englisch-deutsche Dialoge und Geschichten** – bildschirmfrei, mit sanfter Aussprachekorrektur, Spaced-Repetition-Wiederholung bekannter Wörter und Nutzung von Kognaten. Code-Switching erlaubt natürliche Mischsätze. Alle Gespräche bleiben in der EU und fließen **nicht** in KI-Training. Eltern sehen den Fortschritt im Dashboard.'),
para('**Alleinstellung**: kein anderes Produkt vereint bildschirmfreien, mehrsprachigen, aktiven Kinder-Dialog mit privater EU-Inferenz und adaptiver, wissenschaftlich fundierter Pädagogik.'),
heading_inline('Konkretes Kundeninteresse'),
para('Validierung über den **Kickstarter-Launch 06/2026** (Vorbestellungen als Nachfragebeleg) und eine Interessenten-/Warteliste. Schriftliche Belege (Pre-Order-Zahlen, Wartelisten) werden – sobald verfügbar – nachgereicht. Aktuell liegen noch keine LOIs/Verträge vor.'),
]

# ====================================================================
# 3.4 Preisgestaltung (<=2000)
# ====================================================================
CONTENT['71545676'] = [
para('**Preismodell (Richtwerte, vom Antragsteller zu bestätigen)**:'),
bullet('**Gerät**: ca. **100 EUR** (Premium-Segment bildschirmfreier Kinderprodukte).'),
bullet('**Abo**: ca. **10 EUR/Monat** für Content, Updates und private Inferenz.'),
para('**Relation zum Mitbewerb**: Der Gerätepreis liegt im Bereich einer Toniebox (~100 EUR) und damit marktüblich; das Abo refinanziert die laufenden Inferenz-/Content-Kosten und ist gegenüber kostenpflichtigen Sprachlern-Apps (häufig ähnliche oder höhere Monatsbeträge) konkurrenzfähig – bei deutlich größerem Funktionsumfang (Hardware, Mehrsprachigkeit, Datenschutz). Das kombinierte Modell (Gerät + Abo) folgt dem am Markt etablierten und validierten Tonies-Muster, erweitert es jedoch um wiederkehrende Erlöse aus dem KI-Dialog.'),
]

# ====================================================================
# 3.5 Umsatzpotenzial und Rentabilität (<=4000)
# ====================================================================
CONTENT['71545677'] = [
heading_inline('Umsatzpotenzial (Richtwerte, mit Finanzplan zu hinterlegen)'),
para('**Kurzfristig** (Markteinführung DACH/EU nach Projektende): Aufbau einer ersten Installationsbasis über Kickstarter und Online-Direktvertrieb. **Mittelfristig**: EU-weite Skalierung, danach USA – analog zur Tonies-Skalierung.'),
para('Bei einem Gerätepreis von ~100 EUR und ~10 EUR/Monat Abo entsteht ein **wiederkehrender Erlösstrom** zusätzlich zum Hardware-Umsatz. Beispielrechnung (illustrativ): Bei 10.000 aktiven Geräten ergibt das Abo allein ~1,2 Mio. EUR/Jahr wiederkehrend, zuzüglich Hardware-Erlös. Konkrete Stückzahlen, Marktanteile und Deckungsbeiträge sind im Finanzplan zu hinterlegen.'),
heading_inline('Marktanteilsziele'),
para('Realistisches Ziel ist ein kleiner, aber profitabler Anteil am wachsenden EdTech-/Audio-Kindermarkt im Erstmarkt DACH, mit anschließender EU-/US-Expansion. Konkrete Zielwerte sind vom Antragsteller zu fixieren.'),
heading_inline('Rentabilität / Herstellungskosten'),
para('Hardware-Herstellungskosten (Stückkosten) sollen deutlich unter dem Verkaufspreis liegen (positiver Deckungsbeitrag je Gerät); der **wesentliche Deckungsbeitrag stammt aus dem skalierenden Abo** bei geringen Grenzkosten der EU-Inferenz (durch Inferenz-Optimierung, vgl. 1.6). Die Rentabilität verbessert sich mit der Installationsbasis (Skaleneffekte bei Compute und Content). Detailkalkulation (Stückkosten, Deckungsbeiträge, Break-even) ist im Finanzplan auszuarbeiten. Da Plappi keine Bestandsprodukte hat, entstehen keine Kannibalisierungseffekte.'),
]

# ====================================================================
# 3.6 Marketing und Verwertung (<=6000)
# ====================================================================
CONTENT['71545678'] = [
para('**Hinweis**: Markteinführung, Vertrieb und Marketing sind **nicht Gegenstand des F&E-Projektes**, sondern der nachgelagerten Verwertung; sie werden hier nur zur Darstellung des Verwertungspfads beschrieben.'),
heading_inline('Verwertungs- und Marketingstrategie (Zeitplan)'),
bullet('**06/2026 – Kickstarter-Launch**: Nachfragevalidierung, Vorfinanzierung der Erstcharge, Community-Aufbau (parallel zum Projekt, nicht gefördert).'),
bullet('**Nach Prototyp-Validierung (Projektende)**: Produktions-/Zertifizierungsaufbau über Folgeförderungen (aws Seed, Wirtschaftsagentur Wien).'),
bullet('**Markteinführung DACH/EU**: Online-Direktvertrieb (D2C-Webshop), digitales Marketing (Eltern-Communities, Datenschutz-/Bildungs-Narrativ), PR.'),
bullet('**Folgejahre**: EU-Handelspartner/Fachhandel (Spielwaren/Bildung), anschließend US-Markteintritt.'),
heading_inline('Vertriebskanäle / -netzwerke'),
para('Primär **D2C** (eigener Webshop, Kickstarter-Backer-Basis), ergänzt um **Online-Marktplätze** und mittelfristig **Fach-/Einzelhandel** und Bildungs-Distributoren. Ansprache geografisch (DACH→EU→USA) und inhaltlich (Datenschutz, Bildung, Mehrsprachigkeit).'),
heading_inline('Ressourcen'),
para('Kurzfristig liegt der Fokus auf F&E (Projektteam Wien). Marketing-/Vertriebsressourcen und -budgets werden nach erfolgreicher Prototyp-Validierung aus Folgeförderungen, Kickstarter-Erlösen und ggf. Investorenkapital aufgebaut. Eine Servicestruktur (Support, Updates, After-Sales) wird mit dem Markteintritt etabliert.'),
]

# ====================================================================
# 4.1 F&E-Strategie (<=3000)
# ====================================================================
CONTENT['71545680'] = [
para('Mit dem Projekt baut Plappi eine **eigene F&E-Kernkompetenz** in kindgerechter Sprach-KI, privater EU-Inferenz und adaptiver Lerntechnologie in Wien auf. Diese Kompetenz ist strategisch und über das Einzelprodukt hinaus verwertbar.'),
heading_inline('Strategische Ziele über das Projekt hinaus'),
bullet('Etablierung einer **proprietären Kinder-Sprach-/ASR-Plattform** als Basis für weitere Sprachen, Altersstufen und Produktvarianten.'),
bullet('Aufbau eines wiederverwendbaren **privaten Inferenz-Stacks** (datensouveräne KI „made in EU") als Differenzierungs- und potenziell lizenzierbares Asset.'),
bullet('Kontinuierliche Weiterentwicklung der **Pädagogik-Engine** und Datensätze als langfristiger Burggraben.'),
heading_inline('Entwicklung von F&E-Aufwand und -Arbeitsplätzen'),
para('Das Unternehmen startet mit der Projektleitung (Gründer) und zwei geplanten F&E-Fachkräften (ML/Speech-Engineer, Embedded/Firmware-Engineer) in Wien. Geplant ist ein **schrittweiser Ausbau** der F&E-Mannschaft mit wachsendem Produkt- und Sprachportfolio in den Folgejahren. Bei der Personalentwicklung wird auf **geschlechterspezifische Ausgewogenheit** geachtet (aktive, diversitätsorientierte Rekrutierung; vgl. 4.4). Der F&E-Aufwand bleibt – als Technologieunternehmen – dauerhaft ein zentraler, wachsender Kostenblock.'),
]

# ====================================================================
# 4.2 Volkswirtschaftliche Aspekte (<=2000)
# ====================================================================
CONTENT['71545681'] = [
para('**Personalstand**: Das Projekt schafft **hochqualifizierte F&E-Arbeitsplätze in Wien** (Start: Projektleitung + 2 F&E-Fachkräfte) mit geplantem Ausbau in F&E sowie später in Vertrieb/Service nach Markteintritt.'),
para('**Leistungsbilanz/Export**: Plappi zielt auf Export in EU und USA; die wiederkehrenden Abo-Erlöse aus dem Ausland erhöhen die **Exportquote**. Durch private EU-Inferenz statt außereuropäischer Cloud-LLM-APIs werden **Importleistungen substituiert** (digitale Souveränität).'),
para('**Österreichische Wertschöpfung**: F&E, IP, Modelle/Datensätze, Software und Dienstleistungen entstehen in Wien; die Inferenz läuft auf EU-Infrastruktur. **Regionalpolitisch** stärkt das Vorhaben den KI-/EdTech-Standort Wien und schafft qualifizierte Beschäftigung.'),
]

# ====================================================================
# 4.3.1 Ökologie (Unternehmensebene) (<=3000)
# ====================================================================
CONTENT['71545683'] = [
para('Als junges Unternehmen (in Gründung) verankert Plappi Nachhaltigkeit von Beginn an in Strukturen und Prozessen – über das branchenübliche Maß hinaus:'),
bullet('**Energiebewusste IT/KI**: bewusste Wahl energieeffizienter, quelloffener Modelle und optimierter Inferenz; EU-Rechenzentren mit zunehmend dekarbonisiertem Strommix; Monitoring des Energie-/CO2-Verbrauchs je Inferenz als interne Kennzahl.'),
bullet('**Ressourcenschonende Produktgestaltung**: Langlebigkeit, Reparierbarkeit und Update-Fähigkeit als Designprinzipien (Vermeidung von Wegwerf-Elektronik).'),
bullet('**Schlanker, digitaler Betrieb**: ressourcenarme, remote-fähige Arbeitsweise, Vermeidung unnötiger Hardware-/Reisekosten.'),
para('Ein formales Wirkungsmonitoring wird mit dem Unternehmenswachstum etabliert; Zertifizierungen/Auszeichnungen liegen als Startup noch nicht vor.'),
]

# ====================================================================
# 4.3.2 Soziales (Unternehmensebene) (<=3000)
# ====================================================================
CONTENT['71545684'] = [
para('Plappi strebt von Beginn an eine **diverse, chancengerechte Teamzusammensetzung** und faire Arbeitsbedingungen an – über das branchenübliche Maß hinaus:'),
bullet('**Gleichstellung/Diversität**: aktive, diversitätsorientierte Rekrutierung (insb. Frauen in technischen F&E-Rollen), Bewusstsein für den Gender Gap im KI-Bereich.'),
bullet('**Faire, familienfreundliche Bedingungen**: flexible/remote-fähige Arbeit, Vereinbarkeit von Beruf und Familie.'),
bullet('**Weiterbildung**: kontinuierliche fachliche Entwicklung aller Mitarbeiter:innen (KI/ML, Embedded, Pädagogik).'),
para('Gesellschaftlich wirkt zudem die Produktmission (Bildungszugang, Datenschutz für Kinder) als Teil der sozialen Verantwortung. Ein Wirkungsmonitoring wird mit dem Wachstum aufgebaut.'),
]

# ====================================================================
# 4.3.3 Ökonomie (Unternehmensebene) (<=3000)
# ====================================================================
CONTENT['71545685'] = [
para('Ökonomisch verfolgt Plappi eine **nachhaltige, vorsichtige Unternehmensführung** über das branchenübliche Maß hinaus:'),
bullet('**Belastbare Finanzierung**: diversifizierter Finanzierungsmix (Eigenmittel, Förderungen, Patronat, Kickstarter) statt einseitiger Abhängigkeit; Vermeidung von Überschuldung.'),
bullet('**Verantwortungsvolle Lieferkette**: Auswahl von Hardware-/Komponentenlieferanten nach Qualitäts-, Sozial- und Umweltkriterien (mit wachsender Marktmacht ausbaubar).'),
bullet('**Faire Partnerschaften**: langfristige, faire Beziehungen zu Dienstleistern (Speech-Daten, Zertifizierung) und EU-Infrastrukturpartnern.'),
bullet('**Werteorientiertes Geschäftsmodell**: Erträge aus Produktnutzen (Gerät + Abo) statt aus der Monetarisierung kindlicher Nutzerdaten.'),
para('Damit ist die ökonomische Nachhaltigkeit strukturell verankert; ein formales Nachhaltigkeitsmanagement wächst mit dem Unternehmen.'),
]

# ====================================================================
# 4.4 Genderaspekte und Genderrelevanz (<=3000)
# ====================================================================
CONTENT['71545686'] = [
heading_inline('Maßnahmen im Unternehmen'),
para('Plappi schafft geschlechterspezifisch ausgewogene Arbeitsbedingungen durch **diversitätsorientierte Rekrutierung** (gezielte Ansprache von Frauen für technische F&E-Rollen, geschlechtsneutrale Stellenausschreibungen), faire/transparente Vergütung, flexible und familienfreundliche Arbeitsmodelle. Da das Team noch im Aufbau ist, werden diese Grundsätze von Beginn an in die Personalstrategie integriert; **zusätzliche Maßnahmen** (z. B. Mentoring, Kooperationen mit „Women in Tech"-Netzwerken) sind mit wachsendem Team geplant.'),
heading_inline('Genderrelevanz des Forschungsinhalts'),
para('Der Forschungsinhalt weist **Genderrelevanz** auf: Kinderstimmen unterscheiden sich u. a. nach Geschlecht, und ASR-Modelle können geschlechtsbezogene Verzerrungen aufweisen. Daher wird bei Datenerhebung und Evaluierung auf **ausgewogene Repräsentation der Geschlechter** geachtet und die Erkennungsqualität getrennt nach Geschlecht evaluiert (Bias-Vermeidung).'),
heading_inline('Positive Gender-Folgewirkungen'),
para('Das Produkt wird **geschlechtsneutral** gestaltet (Design, Stimmen, Geschichteninhalte) und vermeidet Stereotype; Geschichten und Rollenbilder fördern Vielfalt. So entstehen positive Gender-Folgewirkungen für die Zielgruppe (Kinder).'),
]

# ====================================================================
# Quellenverzeichnis (id 999)
# ====================================================================
CONTENT['999'] = [
bullet('Hoff, E., Core, C., Place, S., Rumiche, R., Señor, M., & Parra, M. (2012). Dual language exposure and early bilingual development. Journal of Child Language, 39(1), 1–27.'),
bullet('Romeo, R. R., Leonard, J. A., Robinson, S. T., et al. (2018). Beyond the 30-Million-Word Gap: Children\'s Conversational Exposure Is Associated With Language-Related Brain Function. Psychological Science, 29(5), 700–710.'),
bullet('Roediger, H. L., & Karpicke, J. D. (2006). Test-Enhanced Learning: Taking Memory Tests Improves Long-Term Retention. Psychological Science, 17(3), 249–255.'),
bullet('Mitchell, L., et al. (2024). Cognate facilitation effects in second/foreign language vocabulary learning. (Forschungsbefund zum Kognaten-Vorteil; vollständige Zitation vom Antragsteller zu ergänzen.)'),
bullet('Eurostat (2024). Population by age group / Children in the EU (0–14 Jahre: ~65,6 Mio.); Foreign language learning statistics (89,4 % Englisch in der Sekundarstufe II). ec.europa.eu/eurostat.'),
bullet('tonies SE (2025). Geschäftsbericht/Investor-Information FY2024 (~480 Mio. EUR Umsatz; > 8 Mio. Tonieboxen; > 100 Mio. Figuren). ir.tonies.com.'),
bullet('market.us (2024). EdTech / Language Learning Market Report (~USD 11,7 Mrd. 2024; CAGR ~27 %). market.us.'),
bullet('Seeweb (2025). Cloud Server GPU – Preisliste (H100 ~1,89 EUR/h; A100 ~0,99 EUR/h). seeweb.it/en/products/cloud-server-gpu.'),
para('Hinweis: Marktzahlen und einzelne Zitationen sind Richtwerte und vom Antragsteller vor Einreichung zu verifizieren und ggf. zu vervollständigen.'),
]

# ====================================================================
# ASSEMBLY
# ====================================================================
def visible_len(elements):
    # grob: Text aus runs zählen (Markup entfernen)
    total = 0
    for e in elements:
        # entferne tags
        t = re.sub(r'<[^>]+>', '', e)
        t = t.replace('&amp;','&').replace('&lt;','<').replace('&gt;','>').replace('&quot;','"').replace('&#x2019;',"'")
        total += len(t)
    return total

def main():
    xml = open(DOC, encoding='utf-8').read()
    report = []
    for pid, elements in CONTENT.items():
        new_content = ''.join(elements)
        # Block zwischen permStart(pid) und permEnd(pid) ersetzen.
        # Struktur: <w:permStart .. w:id="PID"/></w:p>  <content paragraphs/tables>  <w:p>..<w:permEnd w:id="PID"/></w:p>
        ps = f'<w:permStart w:edGrp="everyone" w:id="{pid}"/>'
        pe = f'<w:permEnd w:id="{pid}"/>'
        i = xml.find(ps)
        if i < 0:
            report.append((pid, 'FEHLT-PS', 0)); continue
        # Ende des permStart-tragenden <w:p>
        after_ps_p = xml.find('</w:p>', i) + len('</w:p>')
        # permEnd-Position
        j = xml.find(pe)
        if j < 0:
            report.append((pid, 'FEHLT-PE', 0)); continue
        # Beginn des permEnd-tragenden <w:p>: letztes <w:p ...> oder <w:p> vor j
        # finde letztes "<w:p>" oder "<w:p " vor j
        pstart_idx = max(xml.rfind('<w:p>', after_ps_p, j), xml.rfind('<w:p ', after_ps_p, j))
        if pstart_idx < 0:
            report.append((pid, 'FEHLT-PEND-P', 0)); continue
        # Ersetze alles zwischen after_ps_p und pstart_idx mit new_content
        xml = xml[:after_ps_p] + new_content + xml[pstart_idx:]
        report.append((pid, 'OK', visible_len(elements)))
    open(DOC, 'w', encoding='utf-8').write(xml)
    return report

if __name__ == '__main__':
    rep = main()
    for pid, status, n in rep:
        print(f'{pid}: {status} ({n} Zeichen)')