KI-Bildgeneratoren: Wenn die Maschine malt
Stable Diffusion, Midjourney, DALL-E — was sie können und was nicht
Künstliche Intelligenz malt nun auch. Was lange Zeit Science-Fiction war, ist heute Realität: Mit wenigen Sätzen lassen sich fotorealistische Bilder, surreale Kunstwerke oder technische Illustrationen generieren. Stable Diffusion, Midjourney und DALL-E haben diese Technologie aus dem Labor in den Alltag gebracht – und dabei nicht nur Begeisterung, sondern auch heftige Debatten über KI-Urheberrecht: Wenn Maschinen stehlen — und wer haftet, künstlerische Integrität und die Zukunft kreativer Berufe ausgelöst. Dieser Artikel beleuchtet, was diese Systeme wirklich können, wo ihre Grenzen liegen und welche Konsequenzen sich für Nutzer, Designer und die Gesellschaft abzeichnen.
Der Aufstieg der KI-Bildgeneratoren
KI-Bildgeneratoren basieren auf einem spezifischen Machine-Learning-Ansatz: dem sogenannten Diffusion Model. Das Grundprinzip ist konzeptionell elegant, technisch aber alles andere als trivial. Die Modelle werden mit hunderten Millionen von Bild-Text-Paaren trainiert – im Fall von Stable Diffusion auf Basis des LAION-5B-Datensatzes, der rund fünf Milliarden solcher Paare enthält. Anschließend lernen sie, schrittweise Rauschen aus einem zufälligen Bildsignal zu entfernen und dabei einem vorgegebenen Text-Prompt zu folgen. Der Nutzer gibt einen Prompt ein, eine Textbeschreibung, und die KI generiert daraufhin Bilder, die diesem Prompt entsprechen.
Technisch präziser: Ein vorgeschaltetes Sprachmodell – etwa ein CLIP-Encoder – übersetzt den Textprompt in einen hochdimensionalen Vektor. Dieser Vektor steuert den Denoising-Prozess im sogenannten Latent Space, einem komprimierten Bildraum. Das erlaubt es modernen Systemen, auf handelsüblicher Hardware in Sekunden brauchbare Ergebnisse zu liefern – was noch 2021 mehrere Minuten auf teurer Serverinfrastruktur beanspruchte.
Der Durchbruch dieser Technologie vollzog sich bemerkenswert schnell. Was vor drei Jahren noch hochspezialisierte Forschung war, ist heute für jedermann zugänglich. Kostenlose und kostenpflichtige Versionen konkurrieren um Nutzer. Die Geschwindigkeit dieser Demokratisierung unterscheidet sich fundamental von früheren KI-Entwicklungen – etwa bei Sprachmodellen oder KI-Systemen in Mobilgeräten. Hier entstand ein echter Massenhype mit handfesten wirtschaftlichen Implikationen für klassische Kreativberufe.
Kerndaten: Laut einer Analyse von Bloomberg Intelligence nutzten Ende 2023 weltweit schätzungsweise 100 Millionen Menschen monatlich KI-gestützte Bildgeneratoren – ältere Einzelschätzungen lagen teils bei 75 Millionen, sind jedoch überholt. Der Markt für generative KI-Software insgesamt wird vom Marktforschungsinstitut IDC auf rund 20 Milliarden US-Dollar für 2024 beziffert; ein Wachstum auf über 150 Milliarden bis 2030 gilt als Konsensschätzung mehrerer Analysten. DALL-E 3 ist in ChatGPT Plus integriert und wird von OpenAI nicht mit separaten Nutzungszahlen ausgewiesen. Midjourney beschäftigt nach eigenen Angaben weniger als 100 Mitarbeiter bei einem geschätzten Jahresumsatz von über 200 Millionen US-Dollar – eines der auffälligsten Beispiele für KI-basierte Wertschöpfung mit minimaler Belegschaft (Quellen: Bloomberg Intelligence, IDC Worldwide AI and Generative AI Spending Guide 2024).
Die Platzhirsche: Stable Diffusion, Midjourney und DALL-E im Vergleich
Stable Diffusion – Das Open-Source-Modell
Stable Diffusion wurde von Stability AI entwickelt und unterscheidet sich fundamental von seinen Konkurrenten: Der Modellcode sowie die Gewichte sind öffentlich zugänglich, das Modell kann auf Consumer-Hardware lokal ausgeführt werden – ein Grafikprozessor mit mindestens 4 Gigabyte VRAM reicht für ältere Versionen aus. Das macht Stable Diffusion zur bevorzugten Option für Entwickler, Forscher und technisch versierte Anwender. Die Community hat tausende sogenannter Fine-Tuned-Varianten und spezialisierter LoRA-Adapter entwickelt, die das Modell auf bestimmte Stile, Figuren oder Anwendungsfälle zuschneiden.
Der Kostenvorteil ist erheblich. Während kommerzielle Konkurrenten monatliche Abonnements verlangen, können Nutzer Stable Diffusion kostenlos betreiben. Dafür müssen Anwender technische Affinität mitbringen – Oberflächen wie AUTOMATIC1111 oder ComfyUI sind leistungsfähig, aber nicht selbsterklärend. Die Bildqualität ist solide; bei sehr speziellen ästhetischen Anforderungen und kohärenter Komposition liegt Stable Diffusion in der Basisversion oft hinter kommerziellen Konkurrenten zurück, kann aber durch gezieltes Fine-Tuning aufholen.
Ein kritischer Punkt: Stability AI befand sich 2024 in erheblichen finanziellen Schwierigkeiten.