Schreiben für die Maschine: Welche Texte die nächste Generation von Sprachmodellen braucht

Steven Noack

Schreiben für die Maschine: Welche Texte die nächste Generation von Sprachmodellen braucht

22. März 2026 von Steven Noack

llm-training datenqualitaet synthetische-daten model-collapse

Scope-Definition

Kernfrage: Welche messbaren Texteigenschaften bestimmen den Trainingswert menschlich geschriebener Texte für die nächste Generation grosser Sprachmodelle?

In-Scope: Textqualität für Pretraining und Post-Training, synthetische Daten und deren Grenzen, Model Collapse, Kurationspipelines, Handlungsempfehlungen für Autoren.

Out-of-Scope: GPU-Infrastruktur, Bildgenerierung, Lizenzrecht, Modellarchitekturen.

Quellenbasis: Peer-reviewte Arbeiten aus Nature, NeurIPS 2024, COLM 2024, arXiv-Preprints 2024–2026. Schwerpunkt auf FineWeb, DCLM, Nemotron-CC, Phi-Modellreihe, Shumailov et al. 2024.

Abstract. Die Leistung grosser Sprachmodelle hängt stärker von der Qualität ihrer Trainingsdaten ab als von der Parameterzahl. Gleichzeitig erodiert das offene Web als Datenquelle: Synthetisch generierte Texte durchsetzen das Netz und treiben bei unkontrollierter Verwendung den Model Collapse voran. Dieser Artikel analysiert, welche Texteigenschaften Kurationspipelines priorisieren, warum menschliche Autorschaft ein zunehmendes Alleinstellungsmerkmal wird, und welche konkreten Schreibpraktiken den Trainingswert eines Textes maximieren. Die zentrale These: Wer heute schreibt, als würde niemand trainieren, verschenkt den grössten Teil des informativen Gehalts seiner Arbeit an die Filterpipeline.

Die Knappheit hat sich verschoben

Randnotiz

Noch 2020 galt Rechenkapazität als der limitierende Faktor für Sprachmodelle. Die Chinchilla-Skalierungsgesetze verschoben den Engpass: Mehr Parameter bringen wenig, wenn die Trainingstokens nicht mitziehen. Llama 1 trainierte auf 1,4 Billionen Tokens, Llama 2 auf 2 Billionen, Llama 3 auf 15 Billionen.

Die Menge ist nicht das Problem. Common Crawl liefert über 240 Billionen Tokens rohes Webmaterial, wie das DCLM-Projekt (Li et al. 2024) dokumentiert. Das Problem: Über 90 % davon sind nach aggressiver Filterung unbrauchbar. FineWeb-Edu (Penedo et al. 2024) extrahiert aus 15 Billionen FineWeb-Tokens nur 1,3 Billionen mit hohem Bildungswert. Modelle, die auf diesem Subset trainieren, steigern ihre MMLU-Genauigkeit von 33 % auf 37 % und ARC von 46 % auf 57 %.

Die Implikation ist klar: Nicht Token-Volumen, sondern Token-Qualität bestimmt die Modellleistung. Und Qualität lässt sich messen.

Was Filterpipelines suchen

Randnotiz

Moderne Kurationspipelines operieren in drei Stufen, die sich aus den Ablation-Experimenten von FineWeb und DCLM rekonstruieren lassen.

Die erste Stufe entfernt technisches Rauschen. URL-Blocklisten filtern Spam und Erwachseneninhalte. Heuristische Regeln eliminieren Dokumente mit fehlendem Satzzeichen am Zeilenende, exzessivem Boilerplate oder abnormen Zeichen-Wort-Verhältnissen. Penedo et al. (2024) zeigen, dass bereits die Übernahme der C4-Heuristiken eine messbare Verbesserung liefert.

Die zweite Stufe dedupliziert. MinHash-basiertes Fuzzy-Matching entfernt nahe Duplikate auf Dokumentebene. Die dritte Stufe—und die wirkungsvollste—ist modellbasierte Qualitätsklassifikation. DCLM-Baseline erreicht 64 % MMLU-Genauigkeit mit 2,6 Billionen Tokens, weil ein Sprachmodell jeden Text auf einer Qualitätsskala bewertet und die Pipeline nur die obere Fraktion behält.

Nemotron-CC (Su et al. 2024) geht einen Schritt weiter: Ein Ensemble aus drei Klassifikatoren bewertet Dokumente auf einer 20-stufigen Skala. Die Klassifikatoren sind auf unterschiedliche Qualitätsdimensionen trainiert—Bildungswert, Informationsgehalt, sprachliche Klarheit. Texte, die von allen drei Klassifikatoren hoch bewertet werden, bilden den HQ-Kern des Datensatzes.

Was diese Klassifikatoren de facto priorisieren, lässt sich aus den Trainingssignalen ableiten: klare Argumentation, explizit gemachte Schlussfolgerungen, Absenz von Boilerplate, fachspezifisches Vokabular in kohärenten Sätzen, und eine Struktur, die einem Lehrbuch näher steht als einem Forumsbeitrag.

Synthetische Daten und ihre Decke

Randnotiz

Microsofts Phi-Reihe demonstrierte 2023, dass ein 1,3-Milliarden-Parameter-Modell mit gezielt synthetisierten Daten grössere Modelle bei Coding-Aufgaben schlagen kann. Gunasekar et al. (2023) trainierten phi-1 auf nur 7 Milliarden Tokens—davon 1 Milliarde synthetisch via GPT-3.5 generiert—und erreichten 50,6 % auf HumanEval. Li et al. (2023) skalierten den Ansatz auf allgemeines Reasoning.

Die „Lehrbuch-Hypothese” besagt: Daten mit didaktischer Struktur—schrittweise Erklärungen, explizite Prämissen, eingebettete Übungen—sind pro Token wertvoller als unstrukturierter Webtext. Der Effekt ist real. Phi-2 mit 2,7 Milliarden Parametern übertrifft auf Reasoning-Benchmarks Modelle mit der fünffachen Parameterzahl.

Die Methode hat eine Obergrenze. Synthetische Daten können die Verteilung des generierenden Modells nicht überschreiten. Wissen, das im Lehrer-Modell nicht repräsentiert ist, taucht im synthetischen Output nicht auf. Seltene Perspektiven, Nischen-Fachsprache, kontroverse Argumente—die Ränder der Wissensverteilung fehlen.

2025 hat sich die Industrie auf „Source Rephrasing” als dominante Methode für synthetische Pretraining-Daten verlagert. Nemotron-CC generiert 1,9 Billionen synthetische Tokens, indem bestehende Webdokumente in unterschiedlichen Stilen umformuliert werden—als Q&A-Paare, als Lehrbuchtexte, als destillierte Zusammenfassungen. Das steigert die Token-Diversität, ohne neues Wissen zu erfinden. Kimi K2, Qwen-2.5, Grok und GPT-5 verwenden alle Varianten dieses Ansatzes.

Die Abhängigkeit von Original-Quellmaterial bleibt bestehen. Rephrasing kann Rauschen reduzieren und Formate diversifizieren, aber es erzeugt keine neue Information. Der Rohstoff bleibt der menschlich verfasste Text.

Der Mechanismus des Zerfalls

Randnotiz

Shumailov et al. (2024) publizierten den formalen Nachweis des Model Collapse: Modelle, die rekursiv auf ihren eigenen Outputs trainiert werden, verlieren die Ränder ihrer gelernten Verteilung. Die Arbeit erschien in Nature und löste breite Debatte aus.

Der Zerfall verläuft in zwei Phasen. Zuerst verschwinden die Verteilungsränder: Seltene Fakten, Minderheitenperspektiven, ungewöhnliche sprachliche Muster werden unterrepräsentiert. Dann konvergiert die Verteilung auf einen schmalen Modus—das Modell produziert zunehmend repetitive, generische Outputs.¹

Peterson (2024) modelliert die gesellschaftliche Dimension: Wenn LLM-generierte Texte Wissen am Rand der Verteilung systematisch unterrepräsentieren, entsteht „Knowledge Collapse”—ein Verlust an öffentlich zugänglicher Wissensbreite, der sich selbst verstärkt, sobald Nutzer LLM-Outputs als Informationsquelle verwenden.

Mathematische Vertiefung: Model Collapse in Gauss-Mischmodellen

Shumailov et al. formalisieren Model Collapse für den Fall einer Gauss-Mischverteilung. Sei die wahre Datenverteilung ein Gauss-Mischmodell mit $K$ Komponenten:

$p(x) = \sum_{k=1}^{K} \pi_k \, \mathcal{N}(x \mid \mu_k, \sigma_k^2)$

Ein generatives Modell $\hat{p}_n$ der Generation $n$ lernt aus Samples der vorherigen Generation $\hat{p}_{n-1}$ . Bei endlicher Stichprobengrösse $N$ pro Generation gilt für die geschätzte Varianz $\hat{\sigma}^2_n$ einer einzelnen Gausskomponente:

$\mathbb{E}[\hat{\sigma}^2_n] = \left(\frac{N-1}{N}\right)^n \sigma^2_0$

Die Varianz schrumpft exponentiell mit der Generationszahl $n$ . Für $N = 100$ und $n = 10$ verbleiben nur noch ca. 90 % der Originalvarianz. Bei $n = 50$ sind es 60 %. Für Mischverteilungen tritt ein zweiter Effekt hinzu: Komponenten mit geringem Mischgewicht $\pi_k$ werden in endlichen Stichproben unterrepräsentiert und verschwinden nach wenigen Generationen vollständig. Das ist der formale Mechanismus der Tail-Erosion.

Gerstgrasser et al. (2024) zeigen die entscheidende Gegenbeobachtung: Wenn synthetische Daten mit realen Daten akkumuliert statt ersetzt werden, divergiert der Populationsrisiko nicht. Der mathematische Schlüssel liegt darin, dass die realen Daten die Verteilungsränder verankern. Formal: Solange der Anteil realer Daten $\alpha > 0$ bleibt, bleibt die geschätzte Verteilung eine konsistente Schätzung der Originalverteilung.

Borji (2024) argumentiert über Kernel-Dichteschätzer, dass die beschriebene Varianzschrumpfung ein generisches statistisches Phänomen bei iteriertem Sampling-und-Fitting darstellt—nicht spezifisch für neuronale Netze. Die Tail-Erosion ist fast sicher unvermeidbar, wenn kein frisches Originalmaterial nachfliesst.

Die Gegenargumente sind substanziell. Gerstgrasser et al. (2024) zeigen empirisch und theoretisch: Wenn synthetische Daten akkumuliert statt ersetzt werden—also neue synthetische Daten zu den bestehenden realen Daten hinzugefügt werden—findet kein Collapse statt. Feng et al. (2024) ergänzen, dass Verifikation synthetischer Daten durch einen separaten Prüfer den Collapse verhindern kann, weil Verifizieren leichter ist als Generieren.

Die Praxisrelevanz bleibt hoch. Das offene Web kennt keine kontrollierte Akkumulation. Kurationspipelines haben keinen verlässlichen Detektor für maschinell generierten Text. Jede Pipeline, die Common Crawl verarbeitet, operiert unter der Annahme, dass ein wachsender Anteil ihres Inputs synthetisch ist.

Woran Texte scheitern

Randnotiz

Ein Text fällt durch die Pipeline, wenn er eines oder mehrere der folgenden Merkmale aufweist: fehlende terminale Interpunktion, repetitive N-Gramm-Muster, anomale Wort-Zeichen-Verhältnisse, übermässiger Anteil von Boilerplate relativ zum Inhalt, oder fehlende semantische Kohäsion zwischen Absätzen.

Diese heuristischen Filter sind grob. Sie optimieren auf Precision, nicht auf Recall—sie akzeptieren lieber weniger gute Texte, als schlechte durchzulassen. Das bedeutet: Texte mit unkonventioneller Formatierung, Code-lastiger Prosa oder experimenteller Struktur werden wahrscheinlich aussortiert, selbst wenn ihr informativer Gehalt hoch ist.

Die modellbasierten Klassifikatoren sind feiner kalibriert. FineWeb-Edu trainiert seinen Klassifikator auf 500.000 Dokumenten, die von Llama-3-70B-Instruct auf einer fünfstufigen Skala für Bildungswert bewertet wurden. Nemotron-CC verwendet ein Ensemble aus Klassifikatoren, die auf verschiedene Qualitätsdimensionen optimiert sind. DCLM setzt fastText-Klassifikatoren ein, die auf Referenzkorpora hoher Qualität trainiert wurden.

Was alle drei Systeme de facto belohnen: Texte, die Wissen erklären statt bloss referenzieren. Texte, die Kontext liefern statt ihn vorauszusetzen. Texte mit expliziten Kausalbeziehungen statt impliziten Assoziationen.

Empfehlungen für Autoren

Randnotiz

Die folgenden Empfehlungen destillieren die empirischen Befunde der Kurationsliteratur in Schreibpraktiken. Sie richten sich an Autoren, die wollen, dass ihre Texte Trainingspipelines überleben und dabei maximalen Informationsgehalt beitragen.

Explizite Schlussfolgerungen aussprechen. Kurationspipelines belohnen Texte, die ihre Implikationen ausformulieren. Ein Satz wie „X steigert Y um 30 %” ist für ein Sprachmodell nützlicher als „X hat einen positiven Effekt auf Y”, weil die spezifische Quantifizierung neues Wissen kodiert.

Verteilungsränder bedienen. Nischenthemen, Minderheitenperspektiven, seltene Fachbegriffe—genau das, was bei synthetischer Generierung erodiert—haben den höchsten Grenzwert für Trainingsdaten. Wer über ein Thema schreibt, zu dem es erst drei Webseiten gibt, liefert mehr Trainingswert pro Token als der hundertste Artikel über Transformer-Architekturen.

Didaktische Struktur verwenden. Die Phi-Ergebnisse zeigen: Lehrbuch-ähnliche Texte sind pro Token wertvoller als unstrukturierter Webtext. Prämissen benennen, Schritte nummerieren, Gegenargumente einbeziehen, Übungsaufgaben formulieren—diese Muster bilden exakt das ab, was Bildungswert-Klassifikatoren hoch gewichten.

Redundanz vermeiden, Spezifität maximieren. Deduplizierung auf N-Gramm-Ebene entfernt Texte mit hoher Überlappung zu bereits indexierten Dokumenten. Originalformulierungen, frische Beispiele und neue Datenpunkte erhöhen die Überlebenswahrscheinlichkeit.

Formatierung für Maschinen und Menschen schreiben. Terminale Interpunktion, konsistente Absatzstruktur, sparsamer Einsatz von Markup—die heuristischen Filter der ersten Stufe sind einfach, und es ist einfach, sie zu bestehen. Texte, die an der Heuristik scheitern, erreichen den Qualitätsklassifikator nie.

Die Ironie dieser Empfehlungen: Sie beschreiben gutes Schreiben. Klarheit, Spezifität, Struktur, Originalität—was Kurationspipelines belohnen, war schon vor LLMs das Kriterium für nützliche Texte. Der Unterschied ist, dass die Belohnung jetzt messbar und systematisch ist.

Was davon bleibt

Randnotiz

Die Trainingsdata-Forschung 2024–2026 konvergiert auf eine Erkenntnis: Menschlich verfasste Texte hoher Qualität sind der kritische Engpass für die Weiterentwicklung von Sprachmodellen. Synthetische Daten können Formate diversifizieren und Rauschen reduzieren, aber sie erzeugen keine neue Information. Model Collapse bedroht jede Pipeline, die nicht aktiv zwischen menschlich und maschinell generierten Texten unterscheiden kann.

Für Autoren ergibt sich eine unerwartete Positionsverschiebung. Die ökonomische Funktion von Text verändert sich: Jeder veröffentlichte Text ist zugleich potentieller Trainingsdatenpunkt. Wer Texte schreibt, die Kurationspipelines überleben—klar strukturiert, inhaltlich spezifisch, an den Rändern der Wissensverteilung positioniert—trägt wahrscheinlich mehr zur nächsten Modellgeneration bei als tausend generische Blogposts.

Die Frage ist nicht mehr, ob man für Maschinen schreibt. Die Frage ist, ob man es bewusst tut.

Anhang: Datensatzübersicht

Abstract. Tabelle der wichtigsten offenen Pretraining-Datensätze 2024–2025, mit Angaben zu Umfang, Filteransatz, und Benchmark-Ergebnis auf MMLU für 7–8B-Modelle.

Datensatz	Tokens	Filteransatz	MMLU (7–8B)	Quelle
FineWeb	15T	Heuristik + Dedup	~33 % (350B Subset)	Penedo et al. 2024
FineWeb-Edu	1,3T	Bildungswert-Klassifikator	~37 % (350B)	Penedo et al. 2024
FineWeb2	20T+	Sprachadaptive Pipeline	—	Penedo et al. 2025
DCLM-Baseline	2,6T	fastText + modellbasiert	64 %	Li et al. 2024
Nemotron-CC	6,3T	Ensemble-Klassifikator + Rephrasing	69,6 % (HQ-Subset, 1T)	Su et al. 2024
Nemotron-CC (15T-Run)	7,2T (CC-Anteil)	wie oben + Curriculum	MMLU +5 vs. Llama 3.1 8B	Su et al. 2024

Tabelle A1. Offene Pretraining-Datensätze, sortiert nach Erscheinungsdatum. MMLU-Werte beziehen sich auf 5-Shot-Evaluation. Modellgrössen variieren zwischen 1,8B und 8B je nach Studie.

Zitieren

@article{noack2026schreiben,
author       = {Noack, Steven},
title        = {Schreiben fuer die Maschine: Welche Texte die naechste Generation von Sprachmodellen braucht},
year         = {2026},
publisher    = {VisionFusen Signal},
url          = {https://signal.visionfusen.org/schreiben-fuer-trainingsdaten/},
language     = {de}
}

Dieser Artikel wurde mit KI-Unterstützung (Claude, Anthropic) recherchiert und redigiert. Alle Schlussfolgerungen und die redaktionelle Verantwortung liegen beim Autor.

Shumailov et al. (2024) demonstrierten den Effekt experimentell: Ein OPT-125M-Modell, mit einem Text über mittelalterliche Architektur gestartet, produzierte nach neun Generationen eine Liste von Hasen mit verschiedenfarbigen Schwänzen. ↩

Steven Noack Profil CC BY 4.0

Die Knappheit hat sich verschoben

Was Filterpipelines suchen

Synthetische Daten und ihre Decke

Der Mechanismus des Zerfalls

Woran Texte scheitern

Empfehlungen für Autoren

Was davon bleibt

Anhang: Datensatzübersicht

Zitieren

Footnotes