OpenAI o3: Das Denk-KI-Modell, das Mathematiker schlägt
Wie das neue Reasoning-Modell Aufgaben löst, die KI unmöglich galten
Künstliche Intelligenz hat sich in den vergangenen Jahren rasant entwickelt – doch bei einer Kategorie von Aufgaben sind selbst die leistungsfähigsten Sprachmodelle bislang gescheitert: dem strukturierten, schrittweisen logischen Schlussfolgern. OpenAI präsentierte Ende 2024 mit o3 ein Modell, das diesen Paradigmenwechsel einleitet. Das sogenannte Reasoning-Modell löst mathematische Probleme auf einem Niveau, das bisherige KI-Systeme klar übertrifft, und wirft fundamentale Fragen über die Zukunft wissensintensiver Berufe auf. Gleichzeitig mahnen unabhängige Forscher zur Vorsicht: Benchmark-Ergebnisse allein sagen wenig darüber aus, was ein Modell im Praxiseinsatz leistet.
Die meisten modernen KI-Systeme funktionieren nach einem grundlegend anderen Prinzip als strukturiertes menschliches Denken. Sie berechnen auf Basis statistischer Muster, welches Wort oder welcher Token als nächstes wahrscheinlich folgt – ein Prozess, der beim Verfassen von Texten, beim Zusammenfassen von Dokumenten oder beim Beantworten faktischer Fragen gut funktioniert, aber bei komplexen mehrstufigen Problemen an strukturelle Grenzen stößt.
OpenAI o3 verfolgt einen anderen Ansatz: Das Modell wurde explizit darauf trainiert, komplexe Probleme schrittweise zu zerlegen, Zwischenergebnisse zu dokumentieren und logisch konsistent voranzugehen – vergleichbar damit, wie ein Mathematiker Lösungsschritte in einem Notizbuch festhält, bevor er ein Endergebnis formuliert. In der Forschungsliteratur wird dieser Ansatz als Chain-of-Thought Reasoning bezeichnet. Fireship erklärt OpenAI o3 — Das Denkmodell, das Mathe-Professoren schlägt in einem detaillierten Video. OpenAI hat mit der o-Serie – beginnend mit o1 im September 2024 und fortgeführt mit o3 im Dezember 2024 – diesen Mechanismus in großem Maßstab umgesetzt.
Ein wichtiger technischer Hinweis, den der Entwurf unterschlägt: Der Begriff „Nachdenken" ist eine Vereinfachung. Das Modell erzeugt intern eine längere Sequenz von Zwischenschritten, bevor es die Ausgabe formuliert. Diese Zwischenschritte sind nicht für den Nutzer sichtbar – sie laufen in einem sogenannten Hidden Reasoning Token Stream. Das unterscheidet o3 von früheren Chain-of-Thought-Implementierungen, bei denen die Gedankenkette explizit im Prompt erzeugt wurde.
## Benchmark-Ergebnisse im Detail: Einordnung statt EuphorieKerndaten (Quelle: OpenAI Technical Report o3, Dezember 2024): OpenAI o3 erreichte bei der AIME 2024 (American Invitational Mathematics Examination) im Hochleistungsmodus eine Erfolgsquote von 96,7 Prozent. Im Standard-Modus lag der Wert bei 87,3 Prozent. Zum Vergleich: o1, der direkte Vorgänger, erreichte auf AIME 2024 rund 74 Prozent; GPT-4o: OpenAI stellt bisher leistungsfähigstes Modell vor lag bei etwa 13 Prozent. Bei der GPQA Diamond-Benchmark – einer Auswahl besonders schwieriger Fragen aus Physik, Chemie und Biologie auf Doktorandenniveau – erzielte o3 rund 87,7 Prozent. Menschliche Experten erreichen auf GPQA Diamond im Schnitt etwa 69 Prozent. Beim SWE-Bench Verified, einem standardisierten Test für das Lösen realer GitHub-Issues, erzielte o3 49,3 Prozent – ein Wert, der im Kontext der Aufgabenkomplexität signifikant ist, aber deutlich unter der im Entwurf genannten Zahl von 89 Prozent liegt. Diese Diskrepanz ist redaktionell zu korrigieren.
Redaktionelle Korrektur: Die im Entwurf genannte SWE-Bench-Zahl von 89 Prozent für o3 ist nicht korrekt und wurde entfernt. Der tatsächliche Wert von 49,3 Prozent auf SWE-Bench Verified ist dennoch bemerkenswert, weil dieser Benchmark reale, ungelöste Softwarefehler aus Open-Source-Projekten enthält – keine konstruierten Testaufgaben. Auch die im Entwurf genannten Vergleichswerte für GPT-4 Turbo und Claude 3.5 Sonnet auf AIME wurden in der Tabelle auf Basis öffentlich verfügbarer Benchmarkdaten korrigiert.
Diese Zahlen klingen abstrakt, haben aber konkrete Implikationen. AIME-Tests sind nicht für KI-Systeme konzipiert – sie richten sich an die besten mathematischen Talente unter Highschool-Schülern weltweit. Nur etwa 2.500 bis 3.000 Schülerinnen und Schüler qualifizieren sich in den USA jährlich für diesen Wettbewerb. Wenn ein KI-Modell hier über 90 Prozent der Aufgaben korrekt löst, markiert das einen messbaren Leistungssprung gegenüber dem Stand von vor zwölf Monaten.
Dennoch ist Vorsicht geboten. Mehrere unabhängige KI-Forscher, darunter das Team um François Chollet, Schöpfer des ARC-AGI-Benchmarks, haben darauf hingewiesen, dass hohe Benchmark-Werte auch durch umfangreiches Training auf ähnliche Testformate entstehen können – ein Phänomen, das in der Forschung als Benchmark Overfitting oder Data Contamination bezeichnet wird. Inzwischen hat OpenAI investiert 50 Milliarden Dollar in Rechenleistung, um solche Modelle weiter zu skalieren. Im Vergleich dazu zeigt OpenAI präsentiert GPT-5.5 Instant als neues Standard-Modell eine Ergänzung des Portfolio-Mix, die unterschiedliche Anforderungen bedient.