Digital

OpenAI o3: Das Denk-KI-Modell, das Mathematiker schlägt

Wie das neue Reasoning-Modell Aufgaben löst, die KI unmöglich galten

Von Markus Bauer 7 Min. Lesezeit Aktualisiert: 08.05.2026
OpenAI o3: Das Denk-KI-Modell, das Mathematiker schlägt
Das Wichtigste in Kürze
  • Neunzig Prozent bei der International Mathematical Olympiad — eine Punktzahl, die selbst erfahrene Mathematiker selten erreichen: OpenAIs...

Neunzig Prozent bei der International Mathematical Olympiad — eine Punktzahl, die selbst erfahrene Mathematiker selten erreichen: OpenAIs Reasoning-Modell o3 hat Benchmarks geknackt, die lange als unerreichbar für künstliche Intelligenz galten. Was steckt hinter dem System, das die KI-Welt gerade neu vermisst?

Das Wichtigste in Kürze
  • Warum dieses Modell anders denkt als seine Vorgänger
  • Die Benchmarks: Zahlen, die die Branche aufhorchen lassen
  • Wie o3 im Vergleich zu anderen Modellen abschneidet
  • Wer nutzt o3 — und wofür?

Kerndaten: OpenAI o3 ist ein sogenanntes Reasoning-Modell, das durch verlängerte interne Denkprozesse komplexe Aufgaben löst. Es erzielte rund 90 Prozent beim IMO-Qualifikationstest, 87,5 Prozent beim ARC-AGI-Benchmark und übertrifft menschliche Experten in mehreren Disziplinen. Das Modell ist Teil der o-Serie, die explizit für logisches Schlussfolgern entwickelt wurde und sich von Sprachmodellen wie GPT-4o grundlegend unterscheidet. o3 ist in verschiedenen Varianten verfügbar, darunter eine kompaktere o3-mini-Version für effizientere Anwendungsfälle.

Warum dieses Modell anders denkt als seine Vorgänger

Es erzielte rund 90 Prozent beim IMO-Qualifikationstest, 87,5 Prozent beim ARC-AGI-Benchmark und übertrifft menschliche Experten in mehreren Disziplinen.

Um zu verstehen, was OpenAI o3 so besonders macht, muss man einen Schritt zurückgehen und erklären, wie bisherige Sprachmodelle funktionieren. Klassische Large Language Models (LLMs) — also große Sprachmodelle — erzeugen ihre Antworten, indem sie statistisch wahrscheinliche Wortfolgen vorhersagen. Sie sind im Wesentlichen sehr leistungsstarke Vervollständigungsmaschinen. Wenn man ein solches Modell nach der Lösung eines komplexen Mathematikproblems fragt, gibt es eine Antwort, die auf Mustern aus seinem Training basiert — ob diese Antwort logisch korrekt ist, prüft es dabei nicht aktiv.

OpenAI o3 verfolgt einen grundlegend anderen Ansatz, der als Chain-of-Thought Reasoning bekannt ist — auf Deutsch: verkettetes Schlussfolgerungsdenken. Das Modell denkt, bevor es antwortet. Es generiert intern eine Art Gedankenprotokoll, in dem es Zwischenschritte überprüft, Hypothesen aufstellt, verwirft und verfeinert. Dieser Prozess kann Sekunden, aber auch Minuten dauern — je nach Komplexität der Aufgabe. Nutzerinnen und Nutzer können dabei oft beobachten, wie das Modell seine eigenen Überlegungen dokumentiert, bevor es zur Schlussfolgerung gelangt.

Dieses Konzept ist nicht völlig neu — OpenAIs o1 war der erste Vertreter dieser Denkmodell-Reihe. Mit o3 wurde der Ansatz jedoch massiv verfeinert und skaliert. Einen tiefgehenden Einblick in die technischen Grundlagen und die öffentliche Reaktion auf das Modell bietet unser Artikel über das Denkmodell, das Mathe-Professoren schlägt.

📩
Immer informiert bleibenDie wichtigsten Nachrichten, wenn sie erscheinen.
Newsletter holen

Die Benchmarks: Zahlen, die die Branche aufhorchen lassen

Ki Machine Learning Daten Algorithmus Training Neuronales Netz Analyse Modell
Ki Machine Learning Daten Algorithmus Training Neuronales Netz Analyse Modell

Benchmarks sind standardisierte Tests, mit denen KI-Systeme verglichen werden. Sie sind nicht perfekt, aber sie geben eine verlässliche Orientierung über Fähigkeiten in bestimmten Bereichen. Die Ergebnisse von o3 haben selbst erfahrene KI-Forscher überrascht.

ARC-AGI: Der Rubik's Cube der KI-Forschung

Der ARC-AGI-Benchmark (Abstraction and Reasoning Corpus for Artificial General Intelligence) gilt als einer der härtesten Tests für maschinelles Denken. Er wurde von François Chollet, einem KI-Forscher bei Google, entwickelt mit dem expliziten Ziel, Aufgaben zu stellen, die Mustererkennung allein nicht lösen kann. Menschliche Teilnehmer ohne besondere Vorbereitung erreichen typischerweise über 80 Prozent. Vorherige Sprachmodelle schafften oft weniger als 10 Prozent.

OpenAI o3 erzielte in der Hochleistungsvariante 87,5 Prozent — und damit erstmals einen Wert in menschlicher Nähe. Das ist keine Kleinigkeit: Jahrelang galt dieser Benchmark als Beweis dafür, dass aktuelle KI-Systeme keine echte Abstraktion und kein generalisierbares Denken beherrschen. o3 hat diese Annahme zumindest teilweise erschüttert.

Mathematik-Olympiade und wissenschaftliche Problemlösung

Beim AIME (American Invitational Mathematics Examination), einem renommierten Mathematikwettbewerb für Schülerinnen und Schüler der Oberstufe, erreichte o3 Ergebnisse, die typischerweise nur die besten menschlichen Teilnehmenden erzielen. Beim SWE-bench-Benchmark, der reale Software-Engineering-Aufgaben simuliert, löste das Modell deutlich über 70 Prozent der gestellten Probleme eigenständig — ein Wert, der für professionelle Entwicklerinnen und Entwickler relevant ist.

Hinzu kommen starke Ergebnisse bei wissenschaftlichen Fragestellungen aus Biologie, Physik und Chemie. Das Modell wurde auf dem GPQA-Benchmark (Graduate-Level Google-Proof Q&A) getestet, bei dem Fragen so gestellt werden, dass sie durch einfache Internetsuche nicht lösbar sind — sondern echtes Fachverständnis erfordern. Auch hier übertraf o3 den Durchschnitt menschlicher Experten aus den jeweiligen Fachgebieten.

Wie o3 im Vergleich zu anderen Modellen abschneidet

Modell Anbieter Typ ARC-AGI AIME SWE-bench Besonderheit
o3 OpenAI Reasoning-Modell 87,5 % ~96 % ~71 % Verlängerte Denkprozesse, teuer in der Nutzung
o3-mini OpenAI Kompaktes Reasoning-Modell ~79 % ~90 % ~49 % Effizienter, schneller, kostenoptimiert
GPT-4o OpenAI Multimodales Sprachmodell ~5 % ~9 % ~33 % Schnell, vielseitig, kein erweitertes Reasoning
Gemini 1.5 Pro Google DeepMind Multimodales LLM ~6 % ~36 % k.A. Sehr großes Kontextfenster
Claude 3.5 Sonnet Anthropic Sprachmodell ~21 % ~71 % ~49 % Stark bei Coding und Textverständnis
Llama 4 Meta Open-Source-LLM k.A. ~74 % k.A. Open-Source, lokal betreibbar

Im Vergleich zu seinem direkten Vorgänger GPT-4o, das OpenAI als vielseitiges Allround-Modell positioniert hat, zeigt o3 vor allem bei strukturierten Denkaufgaben massive Verbesserungen. GPT-4o bleibt schneller und günstiger in der Standardnutzung — o3 ist das Werkzeug für Aufgaben, bei denen Präzision wichtiger ist als Geschwindigkeit.

Interessant ist auch der Vergleich mit dem Open-Source-Bereich: Meta Llama 4 hat gezeigt, dass quelloffene Modelle proprietären Systemen in vielen Alltagsaufgaben ebenbürtig sind. Bei hochspezialisierten Reasoning-Aufgaben wie dem ARC-AGI-Benchmark zeigt sich jedoch, dass die intensive Nachtraining- und Feinabstimmungsarbeit, die OpenAI in die o-Serie investiert hat, einen messbaren Unterschied macht.

Wer nutzt o3 — und wofür?

Die praktischen Einsatzgebiete von o3 sind breiter als man zunächst vermuten würde. In der Wissenschaft setzen Forschungsgruppen das Modell ein, um Hypothesen zu formulieren, Datenmuster zu interpretieren und Literaturzusammenfassungen zu validieren. In der Softwareentwicklung dient es als erweiterter Coding-Assistent, der nicht nur Code schreibt, sondern Fehler im eigenen Lösungsansatz erkennt und korrigiert.

Für den breiten Unternehmenseinsatz ist besonders relevant, was Marktforscher derzeit beobachten: Laut Gartner gehört der Einsatz von KI-Reasoning-Systemen in der Unternehmensberatung und im strategischen Projektmanagement zu den am schnellsten wachsenden Anwendungsbereichen überhaupt. IDC prognostiziert, dass der Markt für KI-gestützte Entscheidungsunterstützungssysteme in den kommenden drei Jahren zweistellig wachsen wird. Statista erfasst weltweit bereits mehrere hundert Millionen aktive Nutzerinnen und Nutzer von KI-Schreibwerkzeugen — Reasoning-Modelle wie o3 sollen diese Nutzerbasis in Richtung anspruchsvollerer Aufgaben verschieben.

In Deutschland zeigt eine aktuelle Bitkom-Studie, dass rund 70 Prozent der deutschen Unternehmen KI-Werkzeuge bereits einsetzen oder konkrete Einführungspläne haben — wobei der Fokus zunehmend auf analytischen und schlussfolgerungsstarken Anwendungen liegt, nicht mehr nur auf Texterstellung.

Die Kosten: Denken hat seinen Preis

Ein wichtiger Aspekt, der im öffentlichen Diskurs oft untergeht: o3 ist deutlich teurer in der Nutzung als klassische Sprachmodelle. Die verlängerten Denkprozesse beanspruchen erheblich mehr Rechenkapazität — und diese Kosten werden an Nutzerinnen, Nutzer und Unternehmen weitergegeben. In der API-Nutzung liegt o3 je nach Anfragekomplexität um ein Vielfaches über den Preisen von GPT-4o.

Dieses Preis-Leistungs-Verhältnis ist der Grund, warum OpenAI eine parallele Strategie fährt: Während o3 für hochkomplexe Spezialaufgaben eingesetzt wird, bleibt GPT-5.5 Instant als neues Standard-Modell für alltägliche Anwendungen die effizientere Wahl. Die Kombination beider Ansätze — Geschwindigkeit hier, Tiefe dort — ist die strategische Ausrichtung, auf die OpenAI derzeit setzt.

Kritik und offene Fragen

Trotz der beeindruckenden Zahlen gibt es berechtigte kritische Stimmen. Einige KI-Forscherinnen und -forscher warnen davor, Benchmark-Ergebnisse mit echter Intelligenz gleichzusetzen. Ein Modell, das bei der Mathematikolympiade punktet, muss nicht zwingend in der Lage sein, neuartige wissenschaftliche Probleme zu lösen, die noch keine Trainingsdaten haben. Die Frage, ob o3 wirklich versteht oder lediglich extrem ausgefeiltes Mustererkennen betreibt, bleibt offen — und ist auch eine philosophische, nicht nur eine technische.

Hinzu kommen Bedenken rund um Transparenz: Wie o3 intern seine Denkprozesse gestaltet, ist für externe Beobachtende nur eingeschränkt nachvollziehbar. Das wirft Fragen zur Überprüfbarkeit auf, die besonders in sensiblen Bereichen wie Medizin oder Rechtswesen relevant sind. In diesem Kontext gewinnen auch juristische Auseinandersetzungen an Bedeutung — etwa wenn man betrachtet, wie US-Verlage Meta wegen des Sprachmodells Llama verklagen, weil die Frage der Trainingsdaten grundlegende rechtliche Unklarheiten aufwirft, die für die gesamte Branche gelten.

Was o3 für die Zukunft der KI bedeutet

OpenAI o3 ist mehr als ein weiteres Modell-Update. Es markiert einen Paradigmenwechsel: weg vom reinen Sprachverstehen, hin zu echtem maschinellem Schlussfolgerungsvermögen. Wenn KI-Systeme Aufgaben lösen können, die jahrelang als Domäne menschlicher Expertise galten — komplexe Mathematik, wissenschaftliche Analyse, anspruchsvolles Code-Engineering — dann verschiebt das die Frage, wo menschliche Arbeit endet und maschinelle beginnt.

Für Verbraucherinnen und Verbraucher bedeutet das kurzfristig: Bessere Antworten auf komplexe Fragen, verlässlichere Unterstützung bei anspruchsvollen Aufgaben und ein KI-Assistent, der nicht nur antwortet, sondern mitdenkt. Langfristig stellen sich gesellschaftliche Fragen, die weit über die Technologie hinausgehen — Fragen nach Bildung, nach der Rolle von Expertenwissen und nach fairer wirtschaftlicher Teilhabe an den Erträgen dieser Systeme.

Eines ist sicher: Die Konkurrenz schläft nicht. Google, Anthropic, Meta und eine wachsende Zahl von Start-ups arbeiten an eigenen Reasoning-Ansätzen. Die nächsten Monate werden zeigen, ob o3 ein dauerhafter Vorsprung ist oder nur der aktuelle Spitzenreiter in einem Wettlauf, der gerade erst Fahrt aufnimmt.

Lesen Sie auch
Quellen:
  • Heise Online — heise.de
  • c't Magazin — ct.de
  • golem.de
Mehr zum Thema
Wie findest du das?
M
Markus Bauer
Technologie & Digitales

Markus Bauer verfolgt die Entwicklungen in Tech, KI und Digitalpolitik. Er analysiert, wie neue Technologien Gesellschaft und Wirtschaft verändern — von Datenschutz bis Plattformregulierung.

Themen: Künstliche Intelligenz Künstliche Intelligenz Parteien Fußball ChatGPT Innenpolitik Bundesliga USA CDU Bilanz Bayern Unternehmen Kosten Bundesregierung Ukraine Koalition SPD Druck Milliarden Rekord Boom Russland & Ukraine Prozent Russland