KI-Halluzinationen: Warum KI lügt
Was Halluzinationen sind, warum sie entstehen, und wer daran arbeitet
Künstliche Intelligenz hat in den vergangenen Jahren einen beispiellosen Aufschwung erlebt. ChatGPT, Claude, Gemini — diese Systeme beeindrucken mit ihrer Fähigkeit, Texte zu verfassen, Code zu generieren und komplexe Fragen zu beantworten. Doch es gibt ein Phänomen, das Entwickler, Forscher und Nutzer gleichermaßen vor ernsthafte Probleme stellt: KI-Halluzinationen. Die Systeme erfinden Fakten, zitieren nicht existierende Studien und präsentieren erfundene Informationen mit scheinbarer Sicherheit. Für Unternehmen, die KI in produktiven Systemen einsetzen, ist das ein erhebliches Risiko. Dieser Artikel beleuchtet, was hinter dem Phänomen steckt, warum es so hartnäckig ist — und welche Lösungsansätze derzeit als vielversprechend gelten.
- Was sind KI-Halluzinationen?
- Warum entstehen Halluzinationen? Die technischen Ursachen
- Die bisherigen Lösungsansätze
- Laut einer Studie von Vectara (2023) halluzinieren führende Large Language Models in zusammenfassenden Aufgaben in bis zu 27 Prozent der Fälle.
- GPT-4 zeigt im Benchmark TruthfulQA eine Trefferquote von rund 59 Prozent — deutlich besser als GPT-3.5 mit etwa 47 Prozent, aber weit von Zuverlässigkeit entfernt.
- Retrieval-Augmented Generation (RAG) kann die Halluzinationsrate laut IBM Research in spezifischen Unternehmensanwendungen um bis zu 40 Prozent senken.
- Der weltweite Markt für KI-Qualitätssicherung und Halluzinationsminderung wird von Analysten auf über 2 Milliarden US-Dollar bis 2026 geschätzt (Grand View Research, 2023).
Was sind KI-Halluzinationen?
Der Begriff „Halluzination" ist im Kontext künstlicher Intelligenz bewusst metaphorisch gewählt — und deshalb auch umstritten. Es geht nicht darum, dass ein KI-System irrationale Wahrnehmungen entwickelt. Vielmehr bezeichnet der Begriff ein präzises technisches Phänomen: Ein großes Sprachmodell generiert Inhalte, die faktisch falsch, erfunden oder inkohärent sind — und präsentiert sie dennoch mit der sprachlichen Überzeugungskraft einer gesicherten Aussage.
Ein klassisches Beispiel: Ein Nutzer fragt ein Sprachmodell nach einem wissenschaftlichen Paper zu einem Spezialthema. Das System antwortet detailliert, nennt Autoren, Erscheinungsjahre und Journaltitel. Doch das Paper existiert nicht. Das Modell hat es vollständig konstruiert — so authentisch formuliert, dass selbst erfahrene Nutzer die Erfindung nicht sofort erkennen. Anwälte in den USA haben diese Erfahrung bereits vor Gericht gemacht: Im Fall Mata v. Avianca (2023) reichten Anwälte Schriftsätze ein, die auf von ChatGPT erfundene Gerichtsurteile verwiesen. Das Ergebnis: eine Rüge durch das Gericht und erhebliche Reputationsschäden.
Besonders tückisch ist, dass Halluzinationen nicht zufällig auftreten. Sie entstehen systematisch in bestimmten Situationen: bei sehr spezialisierten Fachfragen, bei Anfragen zu aktuellen Ereignissen jenseits des Trainingszeitraums oder wenn das Modell eine Wissenslücke schließen „will", ohne dies transparent zu machen. Der Arbeitsplatzabbau durch KI wird oft überzeichnet — doch das Problem der Zuverlässigkeit ist ein reales Hindernis für produktive Unternehmensanwendungen.
Halluzination vs. faktischer Fehler: Ein wichtiger Unterschied
Die Unterscheidung zwischen Halluzination und einfachem Fehler ist für das Verständnis des Problems entscheidend. Ein faktischer Fehler entsteht, wenn ein Modell vorhandenes, aber fehlerhaftes oder verzerrtes Wissen aus den Trainingsdaten reproduziert. Ein Beispiel: Das Modell behauptet fälschlicherweise, München sei die Hauptstadt Deutschlands — ein Irrtum, der auf falsch gewichteten Trainingsdaten basieren kann.
Eine Halluzination hingegen ist etwas anderes: Das Modell generiert Inhalte, für die es in den Trainingsdaten keine direkte Grundlage gibt. Es konstruiert etwas Neues — ein Buch, ein Paper, ein Zitat, eine Biografie — das nie existiert hat. Dieser Unterschied ist nicht nur akademisch. Er bestimmt, welche technischen Gegenmaßnahmen sinnvoll sind. Eine ähnliche Problematik zeigt sich bei Ghost-Jobs, wo ebenfalls falsche Informationen systematisch entstehen.
Warum entstehen Halluzinationen? Die technischen Ursachen
Token-Vorhersage als Grundprinzip
Um Halluzinationen zu verstehen, muss man das Funktionsprinzip großer Sprachmodelle kennen. Diese Systeme sind keine Wissensdatenbanken im klassischen Sinne. Sie sind statistische Modelle, die auf riesigen Textkorpora — Bücher, Artikel, Webseiten, Code — trainiert wurden. Ihr Ziel beim Training: den nächsten wahrscheinlichsten Token vorherzusagen, also ein Wort oder Wortfragment, gegeben den bisherigen Kontext.
Dieses Token-für-Token-Prinzip ist gleichzeitig die Stärke und die Schwäche dieser Architektur. Das Modell erzeugt fließende, kohärente Texte, weil es gelernt hat, welche sprachlichen Muster zusammengehören. Doch es besitzt keine interne Verifikationsebene. Es kann nicht prüfen, ob ein Token korrekt oder halluziniert ist. Die Technologie dahinter ist ähnlich elegant wie fehleranfällig — vergleichbar mit Systemen, bei denen E-Commerce Deutschland auf algorithmen-basierte Empfehlungen setzt, die ebenfalls gelegentlich fehlerhafte Vorschläge machen.
Das Problem der Überconfidence
Ein zweites Phänomen verschärft das Problem: Overconfidence. Das Modell gibt seine Vorhersagen mit hoher „Sicherheit" aus — das ist ein Merkmal seiner statistischen Struktur. Wenn ein Neuron in der attention-Layer signalisiert, dass der nächste Token mit 98-prozentiger Wahrscheinlichkeit korrekt ist, folgt das Modell dieser Vorhersage, auch wenn diese Sicherheit unbegründet ist.
Der Grund liegt in der Trainingsmethodik: Das Modell wurde darauf trainiert, fließende, selbstbewusste Antworten zu liefern. Ein zögerndes Modell, das ständig sagt „Ich bin mir nicht sicher", wirkt schwach und wertlos. Also gab es im Trainingsprozess (Reinforcement Learning from Human Feedback, kurz RLHF) Anreize für Zuversichtlichkeit. Die Folge: Das Modell wurde auf Überconfidence trainiert — und diese Eigenschaft katalysiert Halluzinationen. Merz vor Herausforderung zeigte kürzlich, wie problematisch selbstbewusste, aber fehlerhafte Aussagen in kritischen Bereichen sein können.
Längenkontamination und Kontextfenster
Ein dritter Faktor: Das begrenzte Kontextfenster. Moderne Sprachmodelle können nur eine bestimmte Menge an Tokens auf einmal verarbeiten (GPT-4 etwa 128.000 Tokens). Wenn ein Nutzer eine lange Konversation führt oder ein großes Dokument zusammenfassen lässt, muss das Modell bei einer bestimmten Token-Grenze abschneiden. Die Tokens am Ende des Kontextfensters haben weniger Gewicht, das Modell „vergisst" frühere Informationen.
Diese technische Limitierung führt zu Halluzinationen: Das Modell generiert Tokens, die syntaktisch korrekt und kohärent wirken, aber faktisch nicht auf dem Kontext basieren, weil der Kontext schlicht nicht mehr vollständig im Speicher ist. Besonders problematisch wird das bei Aufgaben wie der Dokumentzusammenfassung oder der Beantwortung von Fragen zu großen Textmengen.
Die bisherigen Lösungsansätze
Forscher und Entwickler arbeiten fieberhaft an Lösungen. Dabei haben sich mehrere vielversprechende Ansätze herauskristallisiert:
1. Retrieval-Augmented Generation (RAG)
Der derzeit erfolgversprechendste Ansatz ist RAG. Die Idee: Das Sprachmodell wird nicht isoliert eingesetzt, sondern mit einer externen Wissensdatenbank gekoppelt. Wenn ein Nutzer eine Frage stellt, sucht das System zunächst in dieser Datenbank nach relevanten Dokumenten. Nur auf der Basis dieser abgerufenen Informationen generiert das Modell dann eine Antwort.
Der Vorteil ist erheblich: Das Modell kann nicht länger frei halluzinieren, weil es faktisch an die abgerufenen Dokumente gebunden ist. Liegt das gesuchte Thema nicht in der Datenbank vor, kann das System das transparent kommunizieren. IBM Research hat gezeigt, dass RAG die Halluzinationsrate in Unternehmensanwendungen um bis zu 40 Prozent senken kann.
Der Nachteil: RAG funktioniert nur für Aufgaben, bei denen es eine Wissensdatenbank gibt. Für kreative Aufgaben, für Programmierung oder für Probleme, die Generalisierung über mehrere Quellen erfordern, ist RAG weniger geeignet.
2. Fine-Tuning und Instruction-Tuning
Ein zweiter Ansatz: Spezialtraining. Modelle wie GPT-4 werden durch sogenanntes Instruction-Tuning nachtrainiert — mit hochqualitativen Beispielen, in denen gute Antworten von schlechten unterschieden werden. Ein Modell, das gezielt auf Faktentreue trainiert wird, halluziniert seltener.
Anthropic, das Unternehmen hinter Claude, hat diesen Weg konsequent verfolgt: Claude-Modelle zeigen messbar niedrigere Halluzinationsraten als konkurrierende Systeme, weil sie intensiver auf Honesty und Accuracy trainiert wurden. Der Preis: Das Training ist teuer und ressourcenintensiv.
3. Ensemble-Methoden und Confidence-Scoring
Ein dritter Weg: Mehrfach-Abfrage und Konsistenzprüfung. Das System fragt sich selbst mehrmals dieselbe Frage, generiert mehrere Antworten und prüft, wie konsistent diese sind. Antworten, die sich widersprechen, werden als verdächtig markiert. Gleichzeitig können Modelle trainiert werden, ein sogenanntes Confidence-Score auszugeben — ein Maß dafür, wie sicher sich das Modell seiner Antwort ist.
Das funktioniert teilweise, ist aber rechenintensiv und nicht wasserdicht: Ein Modell kann auch konsistent und selbstbewusst lügen.
Lesen Sie auch
Quellen:- Heise Online — heise.de
- c't Magazin — ct.de
- golem.de
- Heise Online — heise.de
- c't Magazin — ct.de
- golem.de
















