Gemini Advanced: Google schlägt zurück mit seinem mächtigsten
Was Googles neue KI kann — und wo sie scheitert
Google wirft seinen stärksten KI-Assistenten in den Ring. Gemini Advanced soll die Antwort auf ChatGPT Plus und andere Premium-Modelle sein – doch die Realität ist differenzierter als die Marketingversprechen suggerieren. Der Internetkonzern positioniert sein neues Spitzenmodell als leistungsfähigsten KI-Assistenten, den das Unternehmen je entwickelt hat. Gleichzeitig zeigen sich in praktischen Tests erhebliche Schwächen neben beeindruckenden Stärken. Was kann Gemini Advanced wirklich leisten, wo stolpert die KI, und was bedeutet das für den deutschen Markt?
- Gemini Advanced: Was steckt technisch dahinter?
- Kontextfenster und Langdokument-Verarbeitung im Detail
- Multimodale Fähigkeiten: Bilder, Video und Audio
Kerndaten zu Gemini Advanced:
- Verfügbar seit: Februar 2024 (als Google One AI Premium Abo)
- Monatliche Gebühr: 21,99 EUR (Deutschland); in den USA 19,99 USD
- Kontextfenster: bis zu 1 Million Token in der API (Gemini 1.5 Pro); im Advanced-Chat-Interface derzeit bis zu 128.000 Token standardmäßig verfügbar
- Trainings-Cutoff: Modellwissen variiert je nach Version; Gemini 1.5 Pro mit Daten bis Anfang 2024, ergänzt durch Google-Suche-Integration
- Verfügbare Schnittstellen: Web (gemini.google.com), iOS, Android, Google Workspace, API über Google AI Studio und Vertex AI
- Konkurrenzmodelle: GPT-4o (OpenAI), Claude 3.5 Sonnet (Anthropic), Mistral Large (Mistral AI)
Gemini Advanced: Was steckt technisch dahinter?
Bevor man Gemini Advanced bewertet, lohnt ein Blick in die Architektur. Das Modell basiert auf Gemini 2 Ultra: Googles mächtiges KI-Modell im Praxistest, Googles Multimodell-Flaggschiff der aktuellen Generation. Es handelt sich um eine sogenannte Mixture-of-Experts-Architektur (MoE), bei der nicht das gesamte neuronale Netz für jede Anfrage aktiviert wird, sondern spezialisierte Teilnetzwerke. Das spart Rechenkapazität und soll die Antwortqualität in spezifischen Domänen verbessern. Zum Vergleich: GPT-4o von OpenAI nutzt eine ähnliche Architekturstrategie, ohne dass OpenAI die genauen Parameter öffentlich gemacht hat.
Wichtig für die Einordnung: Gemini Advanced ist der Zugang zu Gemini 1.5 Pro über das Konsumenten-Interface. In der API – etwa über Google AI Studio oder Vertex AI – stehen Entwicklern und Unternehmen erweiterte Konfigurationen zur Verfügung, darunter das vollständige 1-Million-Token-Kontextfenster. Im regulären Chat-Interface für Endnutzer ist dieses Fenster derzeit auf 128.000 Token begrenzt. Diese Unterscheidung fehlt in vielen Berichten, führt aber in der Praxis zu erheblicher Verwirrung.
Kontextfenster und Langdokument-Verarbeitung im Detail
Das beworbene Kontextfenster von einer Million Token ist real – allerdings gilt es, die Nutzungsebene zu beachten (siehe oben). In der API-Variante entspricht das Fenster rund 750.000 Wörtern oder etwa 1.500 Seiten Text. Das ist ein technischer Vorsprung gegenüber Claude 3.5 Sonnet mit 200.000 Token und GPT-4o mit 128.000 Token, die beide für den Massenmarkt verfügbar sind.
In der Praxis funktioniert die Langdokument-Verarbeitung beeindruckend. Redakteure, die mehrhundert-seitige Vertragstexte oder technische Dokumentationen hochluden, berichten von kohärenten Zusammenfassungen und präzisen Antworten auf Detailfragen. Der Assistent verlor in Tests kaum den roten Faden auch nach zahlreichen Gesprächsrunden.
Allerdings zeigt sich eine bekannte Schwachstelle, die Forscher der Universität Tokio sowie Teams bei Google DeepMind selbst in einer im März 2024 veröffentlichten Studie beschreiben: das sogenannte Lost-in-the-Middle-Phänomen. Informationen, die sich im mittleren oder hinteren Bereich eines sehr langen Dokuments befinden, werden von großen Sprachmodellen systematisch schlechter verarbeitet als Inhalte am Anfang oder Ende. Gemini 1.5 Pro reduziert diesen Effekt deutlich, eliminiert ihn aber nicht vollständig. Wer also kritische Informationen in langen Dokumenten sucht, sollte die Antworten stichprobenartig verifizieren.
Multimodale Fähigkeiten: Bilder, Video und Audio
Gemini Advanced kann Bilder, PDFs, Audiodateien und kurze Videoclips verarbeiten – ein Bereich, in dem Google gegenüber der Konkurrenz einen strukturellen Vorteil hat. Das Unternehmen trainierte das Modell von Grund auf multimodal, nicht wie einige Konkurrenzmodelle durch nachträgliche Erweiterung. Das zeigt sich in der Praxis: Gemini versteht visuelle Informationen nicht nur als isolierte Datenpunkte, sondern setzt sie in Beziehung zum Textkontext. Dies wird besonders deutlich beim Vergleich mit OpenAI o3: Das Denk-KI-Modell, das Mathematiker schlägt, das sich auf spezialisierte Aufgaben konzentriert.
Bei Bilderanalysen – getestet mit technischen Diagrammen, Architekturplänen und Infografiken – lieferte das Modell präzise Beschreibungen. Gleichzeitig positioniert sich Google mit Gemini Advanced in einem intensiven Wettbewerb. Google antwortet auf ChatGPT: Bard, Gemini und der KI-Krieg zeigt die strategische Dimension dieser Entwicklung und wie wichtig für Google die Wettbewerbsfähigkeit in diesem Markt ist.
Für die deutschsprachige Nutzerschaft besonders interessant: Gemini Advanced integriert auch lokale Suchergebnisse, etwa bei der Recherche zu regional relevanten Themen wie Wirtschaftsminister und Standort Deutschland: Kampf gegen Deindustrialisierung. Das Modell kann somit aktuelle Informationen aufgreifen und in seinen Antworten kontextualisieren.
- Heise Online — heise.de
- c't Magazin — ct.de
- golem.de

















