Benchmark · 3.080 Kundenbewertungen · GPT-5.2

Kann Generative KI wirklich Texte analysieren?

Wir haben es getestet. Systematisch, reproduzierbar, mit echten Daten. Die Ergebnisse überraschen.

ChatGPT (GPT-5.2) stellvertretend für alle generativen LLMs — Claude, Copilot, Gemini & Co.
Weiter
Weiter
Weiter
Weiter
Weiter
Weiter
Weiter
Weiter
Weiter
Weiter
Drei Tests · Ein Datensatz

Drei Fragen an Generative KI

Jeder Test prüft eine andere Fähigkeit, die für professionelle Textanalyse unverzichtbar ist.

Test 1
Vorgegebene Themen erkennen
18 Themen vorgeben und prüfen, ob die KI sie korrekt in 500 Texten erkennt.
Test 2
Themen selbst finden
3.000 Texte ohne Vorgaben analysieren — findet die KI eigenständig die richtigen Themen?
Test 3
Ergebnisse zusammenfassen
Drei verschiedene Fragen zum selben Datensatz — wie stabil sind die Antworten?
Test 1 · Vorgegebene Themen erkennen

Konsistent — aber konsistent falsch.

Generative KI erkennt vorgegebene Themen über 5 Durchläufe hinweg fast identisch. Doch im Vergleich mit menschlicher Kodierung zeigt sich ein anderes Bild.

Konsistenz
94 %
Über 5 Durchläufe nahezu identische Ergebnisse
Menschliche Verkodung
37 %
Übereinstimmung mit manueller Kodierung — nur Top-10-Themen
Halluzinationsrate
28 %
Fast jede dritte Themenzuweisung ist eine Halluzination
Test 2 · Themen selbst finden

Eigene Themen finden? Nicht reproduzierbar.

Wir haben Generative KI dieselben Texte mehrfach analysieren lassen. Die Ergebnisse schwanken massiv — bei jeder Wiederholung.

Wiederholbarkeit
52 %
der Themen stabil bei 5 Runs
Skalierung
52 %
stabil über verschiedene Datenmengen
Reihenfolge-Stabilität
45 %
stabil bei anderer Sortierung
14 % Einmal-Themen
tauchen nur in einem einzigen von 5 Durchläufen auf — und verschwinden dann wieder
Test 3 · Ergebnisse zusammenfassen

Andere Frage, gleiche Daten — andere Antwort.

Drei inhaltlich verschiedene Fragen zum selben Datensatz. Positive Themen verschwinden bei „Probleme" komplett. Die KI entscheidet selbst, was sie dir zeigt.

Fragenspezifische Themen
52 %
der Themen erscheinen nur bei einer bestimmten Formulierung — je nach Wortwahl komplett andere Ergebnisse.
Stabile Kern-Themen
19 %
Nur 5 von 27 Themen tauchen in allen 3 Antworten auf — der Rest wechselt je nach Fragestellung.
Architektur · Warum das kein Bug ist

Das Problem heißt Causal Language Modeling.

Ein LLM analysiert nicht — es generiert eine Antwort, die so klingt, als hätte es das getan. Jede Wort-Entscheidung beeinflusst die nächste. Kleine Abweichungen schaukeln sich kaskadenartig auf.

STOCHASTISCHER KASKADEN-EFFEKT Gleiche Daten Token-Entscheidung Pfad A Pfad B Pfad C RUN 1 → 61 Themen, Set A RUN 2 → 44 Themen, Set B RUN 3 → 55 Themen, Set C Kein Bug — Architektur. Kein Prompt-Fix. Kein Temperature-Fix. Das Grundprinzip generativer Modelle. Understanding AI: Kein generativer Prozess → Kein Kaskaden-Effekt
Die Lösung

Understanding AI statt Generative AI

Deterministisch segmentieren, in Embedding-Räume projizieren, algorithmisch clustern. Gleiche Daten → gleicher Prozess → gleiches Ergebnis. Kein generativer Schreibprozess — kein Kaskaden-Effekt.

Understanding AI · Ergebnisse · Test 1
Vorgegebene Themen erkennen
Konsistente Vercodung
94 %
98 %
Manueller Vergleich
37 %
87 %
Halluzinationsrate
28 %
0 %
ChatGPT
licili
Wissenschaftl. Zielwerte
Understanding AI · Ergebnisse · Test 2
Themen selbst finden
Wiederholbarkeit
52 %
86 %
Skalierung
52 %
84 %
Reihenfolge
45 %
86 %
ChatGPT
licili
Wissenschaftl. Zielwerte
Understanding AI · Ergebnisse · Test 3
Ergebnisse zusammenfassen
Zusammenfassungen
52 %
100 %
ChatGPT
licili
Understanding AI · licili

Texte verstehen statt generieren.

Reproduzierbare, auditierbare Textanalyse — für alle, die sich auf ihre Ergebnisse verlassen müssen.

Mehr erfahren →
Scroll to explore