Wir haben es getestet. Systematisch, reproduzierbar, mit echten Daten. Die Ergebnisse überraschen.
ChatGPT (GPT-5.2) stellvertretend für alle generativen LLMs — Claude, Copilot, Gemini & Co.
Weiter↓
Weiter↓
Weiter↓
Weiter↓
Weiter↓
Weiter↓
Weiter↓
Weiter↓
Weiter↓
Weiter↓
Drei Tests · Ein Datensatz
Drei Fragen an Generative KI
Jeder Test prüft eine andere Fähigkeit, die für professionelle Textanalyse unverzichtbar ist.
Test 1
Vorgegebene Themen erkennen
18 Themen vorgeben und prüfen, ob die KI sie korrekt in 500 Texten erkennt.
Test 2
Themen selbst finden
3.000 Texte ohne Vorgaben analysieren — findet die KI eigenständig die richtigen Themen?
Test 3
Ergebnisse zusammenfassen
Drei verschiedene Fragen zum selben Datensatz — wie stabil sind die Antworten?
Test 1 · Vorgegebene Themen erkennen
Konsistent — aber konsistent falsch.
Generative KI erkennt vorgegebene Themen über 5 Durchläufe hinweg fast identisch. Doch im Vergleich mit menschlicher Kodierung zeigt sich ein anderes Bild.
Konsistenz
94 %
Über 5 Durchläufe nahezu identische Ergebnisse
Menschliche Verkodung
37 %
Übereinstimmung mit manueller Kodierung — nur Top-10-Themen
Halluzinationsrate
28 %
Fast jede dritte Themenzuweisung ist eine Halluzination
Test 2 · Themen selbst finden
Eigene Themen finden? Nicht reproduzierbar.
Wir haben Generative KI dieselben Texte mehrfach analysieren lassen. Die Ergebnisse schwanken massiv — bei jeder Wiederholung.
Wiederholbarkeit
52 %
der Themen stabil bei 5 Runs
Skalierung
52 %
stabil über verschiedene Datenmengen
Reihenfolge-Stabilität
45 %
stabil bei anderer Sortierung
14 % Einmal-Themen
tauchen nur in einem einzigen von 5 Durchläufen auf — und verschwinden dann wieder
Test 3 · Ergebnisse zusammenfassen
Andere Frage, gleiche Daten — andere Antwort.
Drei inhaltlich verschiedene Fragen zum selben Datensatz. Positive Themen verschwinden bei „Probleme" komplett. Die KI entscheidet selbst, was sie dir zeigt.
Fragenspezifische Themen
52 %
der Themen erscheinen nur bei einer bestimmten Formulierung — je nach Wortwahl komplett andere Ergebnisse.
Stabile Kern-Themen
19 %
Nur 5 von 27 Themen tauchen in allen 3 Antworten auf — der Rest wechselt je nach Fragestellung.
Architektur · Warum das kein Bug ist
Das Problem heißt Causal Language Modeling.
Ein LLM analysiert nicht — es generiert eine Antwort, die so klingt, als hätte es das getan. Jede Wort-Entscheidung beeinflusst die nächste. Kleine Abweichungen schaukeln sich kaskadenartig auf.
Die Lösung
Understanding AI statt Generative AI
Deterministisch segmentieren, in Embedding-Räume projizieren, algorithmisch clustern. Gleiche Daten → gleicher Prozess → gleiches Ergebnis. Kein generativer Schreibprozess — kein Kaskaden-Effekt.
Understanding AI · Ergebnisse · Test 1
Vorgegebene Themen erkennen
Konsistente Vercodung
94 %
98 %
Manueller Vergleich
37 %
87 %
Halluzinationsrate
28 %
0 %
ChatGPT
licili
Wissenschaftl. Zielwerte
Understanding AI · Ergebnisse · Test 2
Themen selbst finden
Wiederholbarkeit
52 %
86 %
Skalierung
52 %
84 %
Reihenfolge
45 %
86 %
ChatGPT
licili
Wissenschaftl. Zielwerte
Understanding AI · Ergebnisse · Test 3
Ergebnisse zusammenfassen
Zusammenfassungen
52 %
100 %
ChatGPT
licili
Understanding AI · licili
Texte verstehen statt generieren.
Reproduzierbare, auditierbare Textanalyse — für alle, die sich auf ihre Ergebnisse verlassen müssen.