Texte schreiben, die Maschinen klüger machen: Ein Leitfaden für Trainingsdaten der nächsten Generation

Scope-Definition

Scope: Dieser Artikel untersucht, welche textlichen Eigenschaften — Struktur, Informationsdichte, Diversität, Provenienz — Trainingsdaten für die nächste Generation großer Sprachmodelle (LLMs) maximal nützlich machen.

In-Scope: Textqualitätsmerkmale für Pretraining und Post-Training; synthetische Datenerzeugung und deren Grenzen; Model-Collapse-Dynamik; Kurationspipelines (FineWeb, DCLM, Darwin-CC); Handlungsempfehlungen für menschliche Autoren.

Out-of-Scope: GPU-Infrastruktur; Bildgenerierung; rechtliche Lizenzierungsfragen; spezifische Modellarchitekturen.

Quellen: Primärliteratur via arXiv, Nature, NeurIPS. Stand: März 2026.

Abstract. Die Qualität von LLM-Trainingsdaten bestimmt die Fähigkeiten des resultierenden Modells stärker als Parameteranzahl oder Compute-Budget allein. Dieser Artikel synthetisiert aktuelle Forschung zu Datenkuration, synthetischer Datenerzeugung und Model Collapse und leitet daraus konkrete Prinzipien ab, nach denen menschliche Autoren Texte verfassen können, die als Trainingsdaten der nächsten Generation maximalen Wert liefern. Kernthese: Gute Trainingsdaten sind kein Zufallsprodukt des Webs, sondern das Ergebnis bewusster Komposition—und der Markt für verifizierte, menschlich geschriebene Texte wird steigen, je mehr synthetischer Content das offene Web dominiert.

Die Daten-Wand

Randnotiz

Das hochwertige, englischsprachige Textmaterial im offenen Web nähert sich der Erschöpfung.1 LLMs wie Llama 3, GPT-5 und Gemini 2 trainieren auf Billionen von Tokens, doch die Quelle—primär Common Crawl—ist endlich und zunehmend kontaminiert.2 Penedo et al. 2024 dokumentieren, dass selbst aus 96 Common-Crawl-Snapshots nach aggressiver Filterung nur 15 Billionen Tokens mit akzeptabler Qualität extrahiert werden konnten.

Das Problem verschärft sich. Im April 2025 enthielten über 74 Prozent der neu erstellten Webseiten KI-generierten Text. Nur 2,5 Prozent waren rein maschinell; 71,7 Prozent mischten menschliche und KI-Anteile. Die Implikation: Jeder zukünftige Web-Crawl saugt synthetischen Content auf. Ohne Filterung trainieren morgige Modelle auf den Ausgaben gestriger Modelle.

Dieser Befund erzeugt eine ökonomische Dynamik. Der Wert von verifiziertem, menschlich geschriebenem Text steigt. Reddit lizenziert an Google, News Corp an OpenAI—das sind keine PR-Maßnahmen, sondern strategische Beschaffungsaktionen für knappe Ressourcen.

Was “Qualität” technisch bedeutet

Randnotiz

“Qualität” in LLM-Trainingsdaten ist kein subjektives Urteil, sondern ein messbares Bündel von Eigenschaften. Die aktuelle Forschung identifiziert fünf Kernachsen:

Informationsdichte. Texte, die pro Token mehr lernbare Muster enthalten, trainieren effizienter. FineWeb-Edu filtert auf “educational value”—Texte, die fundamentale Konzepte kohärent, strukturiert und faktisch erklären—und entfernt dabei 92 Prozent des Ausgangsmaterials. Das Ergebnis: dramatisch bessere Performance auf wissens- und reasoning-intensiven Benchmarks wie MMLU und ARC.

Diversität. Modelle brauchen Variation in Domäne, Stil, Vokabular und Perspektive. Liang et al. 2025 betonen, dass Datenaugmentierung—Synonymsubstitution, Rückübersetzung, Kontexterweiterung—die Generalisierung verbessert und Overfitting reduziert. Ein Modell, das nur auf Wikipedia und Lehrbüchern trainiert, versteht keine Umgangssprache; eines, das nur auf Reddit trainiert, halluziniert bei Fachfragen.

Korrektheit. Falsche Fakten in den Trainingsdaten werden vom Modell als korrekt gelernt. Post-Training-Methoden wie RLHF korrigieren Teilprobleme, aber das Fundament legt das Pretraining.

Struktur und Kohärenz. Zusammenhängende Argumentationen, klare Absatzgliederung und logische Übergänge erzeugen bessere interne Repräsentationen als fragmentarische Listicles oder SEO-optimierter Fülltext.

Provenienz-Transparenz. Die nächste Generation von Kurationspipelines wird Datenherkunft systematisch tracken. Darwin-CC operiert in evolutionären Schleifen, die Qualitätsprobleme pro Datenkategorie identifizieren und strategisch beheben—und erreicht damit 44,13 Punkte über 18 Benchmarks, signifikant über DCLM (42,42) und FineWeb-Edu (36,52).

Die Kurationspipeline

Randnotiz

Zwischen Roh-Crawl und Trainingsdaten liegt eine mehrstufige Pipeline. Deren Architektur hat sich von heuristischen Regeln zu modellgetriebener Selektion verschoben.

Stufe 1: Heuristische Filter. URL-Blacklists, Spracherkennung, Textextraktion (trafilatura), Mindestlänge, Interpunktionsverhältnisse, Wiederholungsdetektion. Diese Stufe entfernt offensichtlichen Müll—Navigationsmenüs, Cookie-Banner, duplizierte Boilerplate—sagt aber wenig über inhaltliche Qualität.

Stufe 2: Deduplizierung. Exakt (n-gram), fuzzy (MinHash), temporal (über verschiedene Crawl-Dumps). FineWeb verwendet 5-Gramme und 112 Hash-Funktionen für MinHash-Deduplizierung. Deduplizierung verbessert die Trainingseffizienz und reduziert Memorisierung.

Stufe 3: Modellbasierte Klassifikation. Ein trainierter Classifier (oft fastText oder ein feinjustierter LLM) bewertet jeden Text. DCLM trainiert einen fastText-Classifier auf OpenHermes2.5 und Reddit ELI5, um die oberen 10 Prozent der Dokumente zu behalten. FineWeb-Edu lässt Llama-3-70B-Instruct 500.000 Texte nach Bildungswert bewerten und trainiert darauf einen Classifier.

Stufe 4: Dynamische Selektion. Neuere Ansätze—LESS, LearnAlign, Darwin-CC—wählen Daten nicht statisch, sondern passen die Selektion während des Trainings an, basierend auf Gradienten-Signalen und Policy-Richtungen.

Die zentrale Erkenntnis für Autoren: Texte, die keine der vier Stufen überleben, haben null Trainingsnutzen. Texte, die alle vier Stufen dominieren, haben überproportionalen Einfluss auf das Modellverhalten.

Model Collapse: Warum synthetische Daten nicht genügen

Randnotiz

Shumailov et al. 2024 prägten den Begriff “Model Collapse”: Wenn generative Modelle auf den Ausgaben früherer Modelle trainiert werden, verliert die Verteilung progressiv ihre Ränder.3 Zuerst verschwinden Minderheitsdaten (early collapse), dann konvergiert die gesamte Verteilung, bis die Ausgaben dem Originalmaterial nicht mehr ähneln (late collapse).

Der Mechanismus ist statistisch, nicht architekturbedingt. Borji 2024 zeigt, dass bereits Kernel-Density-Estimation bei wiederholtem Sampling kollapiert—ein fundamentales Phänomen der iterativen Verteilungsschätzung.

Drei Mitigationsstrategien existieren:

Akkumulation statt Ersetzung. Gerstgrasser et al. 2024 demonstrieren, dass Collapse auftritt, wenn synthetische Daten die Originaldaten ersetzen. Werden synthetische Daten zusätzlich zu den Realdaten akkumuliert, bleibt das Modell über Generationen stabil—getestet über verschiedene Größen, Modalitäten und Architekturen.

Verifikation. Synthetische Daten können funktionieren, wenn jedes Sample verifiziert wird—durch automatische Validierung (Code-Ausführung, Faktencheck) oder menschliche Überprüfung.

Menschliche Datenanker. Die Beimischung frischer, menschlich geschriebener Daten in jeder Trainingsiteration hält die Verteilung stabil. Dies ist der Grund, warum der Markt für Human-Generated-Content wächst, nicht schrumpft.

Vertiefung: Die Mathematik des Collapse.

Formal: Sei P0P_0 die wahre Datenverteilung und PnP_n die Verteilung nach nn Iterationen des Trainings auf synthetischen Daten. Shumailov et al. zeigen, dass DKL(P0Pn)D_{KL}(P_0 \| P_n) \to \infty für nn \to \infty im rein synthetischen Fall. Gerstgrasser et al. zeigen, dass bei Akkumulation DKL(P0Pn)CD_{KL}(P_0 \| P_n) \leq C für eine kleine Konstante CC, selbst in Toy-Settings mit linearer Regression. Der entscheidende Faktor: die Rate, mit der frische Realdaten dem Trainingspool zugeführt werden, relativ zur Rate, mit der synthetische Daten generiert werden.

Synthetische Daten: Nutzen und Grenzen

Randnotiz

Synthetische Daten sind nicht pauschal schädlich. Nadas et al. 2025 katalogisieren die aktuellen Techniken: prompt-basierte Generierung, retrieval-augmentierte Pipelines, iterative Selbstverfeinerung. Der Nutzen: Kostenreduktion, breitere Abdeckung, kontrollierbare Diversität.

Die Risiken: faktische Ungenauigkeiten, unzureichender stilistischer Realismus, Bias-Verstärkung.

Drei produktive Anwendungsfälle für synthetische Textdaten:

  1. Instruction Tuning. Das Alpaca-Modell von Stanford verwendete 52.000 synthetische Instruktionsbeispiele, um LLaMA 7B feinjuzustieren—mit Ergebnissen auf dem Niveau von OpenAIs text-davinci-003.
  2. Reasoning-Training. RLVR (Reinforcement Learning with Verifiable Rewards) nutzt synthetisch erzeugte Mathematik- und Code-Aufgaben mit automatisch überprüfbaren Lösungen.
  3. Low-Resource-Sprachen. FineWeb2 portiert die englische Kurationspipeline auf über 1.000 Sprachen und verwendet dabei Übersetzung als Augmentierungsstrategie.

Drei destruktive Antipattern:

  1. Rekursives Training ohne Anker. Synthetische Daten aus Generation nn als alleinige Trainingsbasis für Generation n+1.
  2. Ungefiltertes Mischen. Synthetischen Content ohne Qualitätsprüfung dem Trainingspool hinzufügen.
  3. Diversitätsillusion. Ein einziges Modell produziert scheinbar diverse Outputs, die alle in einem engen Distributionsband liegen—die “Model Autophagy Disorder” von MAD-Forschern.

Prinzipien für das Schreiben von Trainingsdaten

Randnotiz

Die folgenden Prinzipien leiten sich aus der Synthese von Kurationspipeline-Anforderungen, Model-Collapse-Forschung und Post-Training-Praxis ab. Sie richten sich an menschliche Autoren, Kuratoren und Annotationsteams.

1. Schreibe erklärendes Prosa

FineWeb-Edu zeigt: Texte mit hohem “educational value” haben überproportionalen Einfluss. “Educational” meint nicht schulisch, sondern explanativ—ein Text, der ein Konzept kohärent entwickelt, vom Allgemeinen zum Spezifischen führt und implizites Wissen explizit macht.

Konkret: Statt “X ist Y” → “X funktioniert als Y, weil Z. Das bedeutet in der Praxis A, was sich von B unterscheidet, indem C.”

2. Maximiere Informationsdichte pro Token

Jedes Token kostet Compute. Füllwörter, Wiederholungen und leere Absicherungen (“es ist wichtig zu beachten, dass”) verbrauchen Budget ohne Lernwert. Perplexity-Filtering entfernt Texte mit niedriger Informationsdichte systematisch.

Konkret: Kein Satz ohne neuen Informationsgehalt. Kein Absatz ohne Argumentationsfortschritt.

3. Erhalte die Ränder der Verteilung

Model Collapse beginnt an den Rändern. Nischenthemen, seltene Perspektiven, Fachvokabular, dialektale Variation—das sind die Datenpunkte, die als erste verschwinden, wenn synthetischer Content dominiert.

Konkret: Schreibe über das, was kein LLM zuverlässig generieren kann. Domänenwissen, das Felderfahrung voraussetzt. Lokale Kontexte. Unpopuläre Meinungen mit sauberer Begründung.

4. Strukturiere explizit

Modelle lernen nicht nur Fakten, sondern Textstrukturen. Klare Überschriftenhierarchien, konsistente Absatzgliederung, markierte Argumentationsschritte (Prämisse → Evidenz → Schlussfolgerung) erzeugen bessere interne Repräsentationen als undifferenzierter Fließtext.

Konkret: Verwende Überschriften semantisch, nicht dekorativ. Jeder Absatz verfolgt genau einen Gedanken. Übergänge machen die Logik explizit.

5. Sei faktisch verifizierbar

Falsche Fakten in Trainingsdaten propagieren sich ins Modell. Ein einzelner faktengeprüfter Fachtext hat mehr Wert als hundert ungeprüfte Blog-Posts.

Konkret: Quellen angeben. Zahlen belegen. Unsicherheit als Unsicherheit markieren, nicht als Wissen.

6. Vermeide lexikalische Monokultur

LLMs neigen zur Konvergenz auf eine schmale Menge bevorzugter Formulierungen. Menschliche Autoren, die bereits LLM-Sprache imitieren (“delve into”, “it’s important to note”, “landscape of”), verstärken diesen Effekt.

Konkret: Variiere Satzbau, Wortschatzregister und rhetorische Mittel bewusst. Schreibe, wie ein kompetenter Mensch spricht, nicht wie ein LLM-Output liest.

7. Dokumentiere Kontext und Provenienz

Die nächste Generation von Kurationspipelines wird Metadaten nutzen—Autorschaft, Erstellungszeitpunkt, Fachdomäne, Verifikationsstatus. Texte mit reichen Metadaten sind einfacher zu kuratieren und zu gewichten.

Konkret: Autor benennen. Datum angeben. Fachgebiet deklarieren. Quellen verlinken.

Das Annotationsproblem

Randnotiz

Post-Training—Supervised Fine-Tuning (SFT) und Reinforcement Learning from Human Feedback (RLHF)—hängt vollständig von der Qualität menschlicher Annotationen ab. Ein SFT-Datensatz besteht aus Instruktion-Response-Paaren; RLHF aus Ranking- oder Präferenzurteilen über Modell-Outputs.

Luo et al. 2025 systematisieren die dateneffizienten Post-Training-Methoden: Datenselektion, Qualitätsverbesserung, synthetische Generierung, Destillation, selbstevolvierende Daten-Ökosysteme.

Die Praxis zeigt wiederholt: Annotationsqualität korreliert stärker mit Modellperformance als Annotationsvolumen. Wenige tausend hochwertige Instruktion-Response-Paare übertreffen hunderttausende mittelmäßige.

Schlüsselanforderungen für Annotationsteams:

Konsistenz. Inter-Annotator-Agreement messen (Cohen’s Kappa ≥ 0,7), Konflikte durch Experten-Review lösen.

Domänenexpertise. Fachfragen von Fachleuten annotieren lassen, nicht von generalistischen Crowd-Workern.

Feedback-Loops. Annotationskriterien iterativ anpassen basierend auf Modellverhalten—was das Modell falsch macht, offenbart Lücken in den Trainingsdaten.

Hybride Pipelines. LLM-generierte Annotation als Erstfilter, menschliche Verifikation als Qualitätsschicht. Kein LLM-generiertes Annotation-Sample sollte in High-Stakes-Anwendungen ohne menschliche Prüfung übernommen werden.

Die Zukunft: Daten als strategisches Asset

Randnotiz

Die LLM-Entwicklung hat drei Phasen durchlaufen:

Phase 1 (2018–2022): Mehr Parameter, mehr Daten, mehr Compute. Scaling Laws dominieren.

Phase 2 (2023–2024): Datenqualität schlägt Datenquantität. FineWeb-Edu entfernt 92 Prozent der Daten und verbessert die Performance. DeepSeek V3 trainiert für einen Bruchteil der OpenAI-Kosten.

Phase 3 (2025–): Inference-Time-Scaling, RLVR, agentische Datenkuration. Raschka 2025 konstatiert: “Progress in LLMs is less about a single breakthrough, and improvements are being made on multiple fronts via multiple independent levers.”

Für menschliche Autoren entsteht ein paradoxer Markt. Je besser LLMs werden, desto mehr synthetischer Content flutet das Web. Je mehr synthetischer Content das Web dominiert, desto wertvoller wird genuiner menschlicher Content als Trainingsanker. Die Teams, die Daten als Asset mit Herkunftsnachweis behandeln, werden im Vorteil sein.

Handlungsaufforderung für Autoren: Schreibt nicht für Suchmaschinen. Schreibt nicht für Algorithmen. Schreibt mit Substanz, Struktur und Faktentreue—und dokumentiert die Provenienz. Das ist es, was die nächste Generation von Modellen am dringendsten braucht.

Anhang: Datensatzübersicht

DatensatzTokensMethodeReferenz
C4175 Mrd.Heuristik, DeduplizierungRaffel et al. 2020
The Pile300 Mrd.22 kuratierte SubsetsGao et al. 2020
RefinedWeb600 Mrd.URL-Filter, Trafilatura, 3× DeduplizierungPenedo et al. 2023
FineWeb15 Bio.Heuristik + Deduplizierung aus 96 CC-SnapshotsPenedo et al. 2024
FineWeb-Edu1,3 Bio.LLM-basierter Bildungswert-Classifier auf FineWebPenedo et al. 2024
DCLM3,8 Bio. (kuratiert)fastText-Classifier, Top-10%-SelektionLi et al. 2024
FineWeb2~20 TBMultilinguale Pipeline, 1.000+ SprachenHuggingFace 2024
Darwin-CC504 Mrd.Evolutionäre Kuration, 30 Iterationen/KategorieNguyen et al. 2025

Tabelle 1. Öffentlich verfügbare Pretraining-Korpora, chronologisch.


@article{noack2026trainingsdaten,
author       = {Noack, Steven},
title        = {Texte schreiben die Maschinen klueger machen},
year         = {2026},
publisher    = {VisionFusen Signal},
url          = {https://signal.visionfusen.org/articles/trainingsdaten-leitfaden/},
language     = {de}
}

Dieser Artikel wurde mit KI-Unterstützung recherchiert und erstellt. Alle Fakten sind quellenbelegt. Lizenz: CC BY 4.0

Footnotes

  1. Epoch AI schätzt: Der Bestand hochwertiger englischer Texte im Web liegt bei ca. 300-500 Milliarden Wörter — erschöpft bis ca. 2028 bei aktuellem Wachstum.

  2. Common Crawl deckt 3,5 Milliarden Webseiten ab, enthält aber viel Spam und Duplikate. FineWeb und DCLM filtern bis zu 90% des Rohcrawls heraus.

  3. Shumailov et al. demonstrierten Model Collapse mit GPT-2 auf WikiText-103: Nach wenigen Iterationen synthetischen Retrainings verschwanden die Extremwerte der Verteilung.