Benchmarking Generative vs. UnderstandingAI

Benchmark · 3.080 Kundenbewertungen · GPT-5.2

Kann Generative KI wirklich Texte analysieren?

Wir haben es getestet. Systematisch, reproduzierbar, mit echten Daten. Die Ergebnisse überraschen.

ChatGPT (GPT-5.2) stellvertretend für alle generativen LLMs — Claude, Copilot, Gemini & Co.

Weiter↓

Drei Tests · Ein Datensatz

Drei Fragen an Generative KI

Jeder Test prüft eine andere Fähigkeit, die für professionelle Textanalyse unverzichtbar ist.

Test 1

Vorgegebene Themen erkennen

18 Themen vorgeben und prüfen, ob die KI sie korrekt in 500 Texten erkennt.

Test 2

Themen selbst finden

3.000 Texte ohne Vorgaben analysieren — findet die KI eigenständig die richtigen Themen?

Test 3

Ergebnisse zusammenfassen

Drei verschiedene Fragen zum selben Datensatz — wie stabil sind die Antworten?

Test 1 · Vorgegebene Themen erkennen

Konsistent — aber konsistent falsch.

Generative KI erkennt vorgegebene Themen über 5 Durchläufe hinweg fast identisch. Doch im Vergleich mit menschlicher Kodierung zeigt sich ein anderes Bild.

Konsistenz

94 %

Über 5 Durchläufe nahezu identische Ergebnisse

Menschliche Verkodung

37 %

Übereinstimmung mit manueller Kodierung — nur Top-10-Themen

Halluzinationsrate

28 %

Fast jede dritte Themenzuweisung ist eine Halluzination

Test 2 · Themen selbst finden

Eigene Themen finden? Nicht reproduzierbar.

Wir haben Generative KI dieselben Texte mehrfach analysieren lassen. Die Ergebnisse schwanken massiv — bei jeder Wiederholung.

Wiederholbarkeit

52 %

der Themen stabil bei 5 Runs

Skalierung

52 %

stabil über verschiedene Datenmengen

Reihenfolge-Stabilität

45 %

stabil bei anderer Sortierung

14 % Einmal-Themen

tauchen nur in einem einzigen von 5 Durchläufen auf — und verschwinden dann wieder

Test 3 · Ergebnisse zusammenfassen

Andere Frage, gleiche Daten — andere Antwort.

Drei inhaltlich verschiedene Fragen zum selben Datensatz. Positive Themen verschwinden bei „Probleme" komplett. Die KI entscheidet selbst, was sie dir zeigt.

Fragenspezifische Themen

52 %

der Themen erscheinen nur bei einer bestimmten Formulierung — je nach Wortwahl komplett andere Ergebnisse.

Stabile Kern-Themen

19 %

Nur 5 von 27 Themen tauchen in allen 3 Antworten auf — der Rest wechselt je nach Fragestellung.

Architektur · Warum das kein Bug ist

Das Problem heißt Causal Language Modeling.

Ein LLM analysiert nicht — es generiert eine Antwort, die so klingt, als hätte es das getan. Jede Wort-Entscheidung beeinflusst die nächste. Kleine Abweichungen schaukeln sich kaskadenartig auf.

Die Lösung

Understanding AI statt Generative AI

Deterministisch segmentieren, in Embedding-Räume projizieren, algorithmisch clustern. Gleiche Daten → gleicher Prozess → gleiches Ergebnis. Kein generativer Schreibprozess — kein Kaskaden-Effekt.

Understanding AI · Ergebnisse · Test 1

Vorgegebene Themen erkennen

Konsistente Vercodung

94 %

98 %

Manueller Vergleich

37 %

87 %

Halluzinationsrate

28 %

0 %

ChatGPT

licili

Wissenschaftl. Zielwerte

Understanding AI · Ergebnisse · Test 2

Themen selbst finden

Wiederholbarkeit

52 %

86 %

Skalierung

52 %

84 %

Reihenfolge

45 %

86 %

ChatGPT

licili

Wissenschaftl. Zielwerte

Understanding AI · Ergebnisse · Test 3

Ergebnisse zusammenfassen

Zusammenfassungen

52 %

100 %

ChatGPT

licili

Understanding AI · licili

Texte verstehen statt generieren.

Reproduzierbare, auditierbare Textanalyse — für alle, die sich auf ihre Ergebnisse verlassen müssen.

Mehr erfahren →

Scroll to explore