KI für Blinde und Sehbehinderte: Technologie überwindet Grenzen
Be My Eyes, Seeing AI, Apple — wie KI Inklusion revolutioniert
Weltweit leben rund 2,2 Milliarden Menschen mit einer Sehbeeinträchtigung — und für einen wachsenden Teil von ihnen verändert künstliche Intelligenz den Alltag grundlegend. Nicht als ferne Verheißung, sondern als greifbare, bereits eingesetzte Technologie, die Türen öffnet, die jahrzehntelang verschlossen blieben.
Ob es darum geht, ein Medikament zu identifizieren, einen Bus-Fahrplan zu lesen oder einem fremden Gesicht einen Namen zuzuordnen: KI-gestützte Assistenzsysteme übernehmen heute Aufgaben, für die blinde und sehbehinderte Menschen früher auf andere Personen angewiesen waren. Die Technologie dahinter ist komplex, ihre Wirkung jedoch unmittelbar spürbar. Die Frage ist nicht mehr, ob KI die Barrierefreiheit verändert — sondern wie tiefgreifend und wie gerecht diese Veränderung ausfällt.
Von der Sprachausgabe zur Szenenbeschreibung: Was KI heute leistet
Klassische Hilfsmittel für blinde Menschen — Braillezeilen, Screenreader, taktile Karten — haben eine lange Geschichte und sind nach wie vor unverzichtbar. Doch sie stoßen an Grenzen, sobald visuelle Information nicht in strukturierter, digitaler Form vorliegt: ein handgeschriebener Zettel, ein unbekanntes Produkt im Supermarkt, ein Bild in einer Social-Media-Timeline. Genau hier setzt die neue Generation KI-basierter Assistenten an.
Der technische Kern dieser Systeme ist sogenannte Computer Vision — zu Deutsch: maschinelles Sehen. Dabei analysiert ein KI-Modell Bilddaten, erkennt Objekte, Texte, Gesichter, Farben und räumliche Beziehungen und übersetzt diese visuelle Information in gesprochene oder geschriebene Sprache. Kombiniert mit großen Sprachmodellen (Large Language Models, kurz LLMs), die natürlichsprachliche Beschreibungen erzeugen können, entstehen Systeme, die nicht nur Listen von Objekten ausgeben, sondern kohärente, kontextsensitive Beschreibungen liefern — ähnlich wie ein sehender Mensch, der eine Szene erklärt.
Laut einer Einschätzung des Marktforschungsunternehmens Gartner befinden sich multimodale KI-Systeme — also solche, die Bild, Text und Sprache kombinieren — derzeit in einer Phase rasanter Reifung, die assistive Anwendungen besonders begünstigt. Der globale Markt für Barrierefreiheitstechnologien wächst entsprechend: IDC prognostiziert ein anhaltend hohes Wachstum im zweistelligen Prozentbereich für KI-gestützte Assistivsysteme in den kommenden Jahren.
Kerndaten: Rund 2,2 Milliarden Menschen weltweit leben mit einer Sehbeeinträchtigung (Quelle: WHO). Davon gelten etwa 43 Millionen als vollständig blind. In Deutschland sind laut Statistischem Bundesamt schätzungsweise 155.000 Menschen blind und rund 1,2 Millionen stark sehbehindert. Der globale Markt für assistive Technologie soll laut IDC bis Ende des Jahrzehnts ein Volumen von über 35 Milliarden US-Dollar erreichen. Bitkom verweist darauf, dass barrierefreie digitale Angebote in Deutschland noch immer die Ausnahme darstellen — trotz gesetzlicher Verpflichtungen.
Die wichtigsten Plattformen im Überblick

Drei Anbieter dominieren derzeit die öffentliche Wahrnehmung im Bereich KI-gestützter Sehassistenz: Be My Eyes, Seeing AI von Microsoft und die Accessibility-Funktionen von Apple. Sie verfolgen unterschiedliche Ansätze, richten sich an teils überschneidende, teils verschiedene Nutzergruppen und spiegeln unterschiedliche Philosophien darüber wider, wie Inklusion technologisch umgesetzt werden soll.
| Anbieter / Produkt | Plattform | Kernfunktion | KI-Technologie | Kosten | Besonderheit |
|---|---|---|---|---|---|
| Be My Eyes | iOS, Android | Videoanruf mit freiwilligen Helfern; KI-Assistent „Be My AI" | GPT-4o (OpenAI), multimodal | Kostenlos (Basis); kostenpflichtige Pro-Variante für Unternehmen | Hybridmodell: Mensch und KI kombiniert; weltweit über 7 Mio. Freiwillige |
| Microsoft Seeing AI | iOS (primär), Windows | Texterkennung, Szenenbeschreibung, Produktidentifikation, Währungserkennung | Microsoft Azure Cognitive Services, GPT-Integration | Kostenlos | Offline-Modus für Texterkennung; stark strukturiertes Kanalkonzept |
| Apple Accessibility (iOS/iPadOS/macOS) | Apple-Ökosystem | VoiceOver, Bildschirmlesegerät, Point & Speak, Live-Bildunterschriften, Door Detection | On-Device-KI, Core ML, Vision Framework | Im Betriebssystem enthalten | Datenschutz durch lokale Verarbeitung; tiefe Systemintegration |
| Google Lookout | Android | Dokumentenanalyse, Lebensmitteletiketten, Szenenbeschreibung | Google Vision AI, Gemini-Integration | Kostenlos | Optimiert für schnelle, alltagsnahe Kurzinformationen |
| Envision AI | iOS, Android, Smartglass-Integration | Texterkennung, Gesichtserkennung, Farbidentifikation, Barcode-Scan | Proprietäre Computer-Vision-Modelle, GPT-Integration | Abo-Modell (kostenpflichtig) | Integration in Smartglasses (z. B. Google Glass Enterprise); Offline-Modus |
Be My Eyes: Das Hybridmodell zwischen Mensch und Maschine
Be My Eyes begann als rein menschliches Netzwerk: Sehbehinderte Nutzer können per Videoanruf freiwillige, sehende Helfer kontaktieren, die ihnen beschreiben, was die Kamera zeigt. Das Prinzip war einfach, wirksam und sozial aufgeladen. Mit der Integration von „Be My AI" — einem auf GPT-4o basierenden visuellen Assistenten — hat sich das Modell grundlegend erweitert.
Der KI-Assistent steht rund um die Uhr zur Verfügung, antwortet in Sekunden und kann komplexe Fragen zu Bildszenen beantworten: nicht nur „Was steht auf dem Etikett?", sondern auch „Welche Zutaten enthält dieses Gericht — und gibt es etwas, das ich bei einer Laktoseintoleranz meiden sollte?" Diese Kontextualisierung ist neu. Frühere Systeme lieferten Rohdaten; moderne LLM-basierte Assistenten liefern Einordnung.
Kritiker weisen darauf hin, dass die Abhängigkeit von cloudbasierten KI-Diensten Datenschutzfragen aufwirft: Bilder von privaten Dokumenten, medizinischen Unterlagen oder dem eigenen Wohnbereich werden auf externe Server übertragen. Be My Eyes kommuniziert zwar Datenschutzrichtlinien, doch die Transparenz über Datenspeicherung und -nutzung bleibt ein Diskussionspunkt in der Fachgemeinschaft.
Apple und Microsoft: Systemintegration versus Spezialisierung
Apple verfolgt einen anderen Ansatz: Barrierefreiheit soll nicht durch eine Dritt-App nachgerüstet werden, sondern tief ins Betriebssystem eingebettet sein. Funktionen wie VoiceOver — ein Screenreader, der seit Jahren zum iOS-Grundumfang gehört — wurden in jüngsten Betriebssystemversionen durch KI-gestützte Features ergänzt. „Point & Speak" etwa erkennt, wohin ein Nutzer zeigt, und liest den entsprechenden Text vor — nützlich etwa an Haushaltsgeräten oder öffentlichen Automaten.
Apples Kernargument: Durch On-Device-Verarbeitung — also die Berechnung auf dem Gerät selbst, ohne Cloud-Übertragung — bleiben sensible Bilddaten lokal. Das ist technisch anspruchsvoll, schützt jedoch die Privatsphäre. Die Kehrseite: lokale Modelle sind in ihrer Leistungsfähigkeit begrenzt im Vergleich zu großen, cloudbasierten Sprachmodellen.
Microsoft Seeing AI hingegen setzt auf ein strukturiertes Kanalkonzept: Nutzer wählen bewusst, ob sie einen kurzen Text, ein Dokument, ein Produkt oder eine Szene analysieren wollen. Diese Explizitheit reduziert Fehler und erhöht die Treffsicherheit, erfordert aber eine gewisse Einarbeitung. Seeing AI ist derzeit primär für iOS verfügbar — eine Einschränkung, die Nutzer im Android-Ökosystem vor Alternativen zwingt.
Die Technologie dahinter: Was KI sieht — und was sie nicht sieht
Wer die Möglichkeiten dieser Systeme realistisch einschätzen will, muss auch ihre Grenzen kennen. Computer-Vision-Modelle sind auf Trainingsdaten angewiesen. Wenn diese Daten bestimmte Bevölkerungsgruppen, Schriften, Sprachen oder Umgebungen unterrepräsentieren, spiegelt sich das in der Erkennungsleistung wider. Handschriften in seltenen Sprachen, nicht-lateinische Schriften oder schlecht beleuchtete Umgebungen stellen weiterhin Herausforderungen dar.
Zudem sind aktuelle Systeme bei der Beschreibung sozialer und emotionaler Kontexte begrenzt: Ironie in einer Mimik, die Stimmung in einem Raum, subtile soziale Signale — das sind Bereiche, in denen menschliche Wahrnehmung der maschinellen nach wie vor überlegen ist. Be My Eyes' Hybridmodell adressiert genau diesen Punkt, indem es bei Bedarf menschliche Helfer einschaltet.
Echtzeit-Übersetzung und multilinguale Verarbeitung sind ein weiterer wachsender Bereich: Systeme, die nicht nur beschreiben, was sie sehen, sondern fremdsprachige Texte simultan übersetzen, erweitern die Nutzbarkeit erheblich. Wie weit diese Technologie bereits fortgeschritten ist, zeigt ein Blick auf den Markt für Echtzeit-Übersetzung per Kopfhörer, der eng mit visuellen Assistenzsystemen verwandt ist.
Infrastruktur als Voraussetzung: Netzabdeckung und Gerätezugang
KI-gestützte Sehassistenz funktioniert nur so gut wie die zugrundeliegende digitale Infrastruktur. Cloudbasierte Dienste benötigen stabile Internetverbindungen — und die sind keineswegs überall selbstverständlich. In ländlichen Regionen Deutschlands und Österreichs gibt es weiterhin Versorgungslücken, die den praktischen Nutzen solcher Anwendungen einschränken.
Netzausbau und Technologiewandel sind dabei direkt relevant: Die schrittweise Abschaltung älterer Mobilfunkstandards, wie sie etwa bei A1 Telekom Austria mit dem Ende des 2G-Mobilfunkstandards vollzogen wird, schafft Kapazitäten für modernere Standards — hat aber auch Auswirkungen auf ältere Endgeräte, auf die manche einkommensschwächere Nutzergruppen angewiesen sind. Marktkonsolidierungen wie die Übernahme von Three durch Vodafone sollen langfristig die Netzqualität verbessern, werfen aber regulatorische Fragen zur Versorgungspflicht auf.
Auch der Gerätezugang bleibt eine soziale Frage. Hochwertige Smartphones mit leistungsfähiger Kamera und ausreichend Prozessorkapazität sind Voraussetzung für viele dieser Anwendungen — und nicht für alle erschwinglich. Statista-Daten zeigen, dass die Smartphone-Durchdringung unter älteren Menschen und in einkommensschwächeren Haushalten deutlich geringer ausfällt. Barrierefreiheit durch Technologie droht so selbst zur Barriere zu werden, wenn der Zugang zu Endgeräten nicht mitgedacht wird.
Gesetzliche Rahmenbedingungen und politischer Handlungsdruck
Die Europäische Union hat mit dem European Accessibility Act verbindliche Anforderungen an die Barrierefreiheit digitaler Produkte und Dienstleistungen formuliert. Ab Mitte dieses Jahres gelten diese Anforderungen für einen Großteil privater Anbieter — ein Paradigmenwechsel gegenüber bisherigen Regelungen, die sich primär auf öffentliche Stellen bezogen.
Der AI Act der EU enthält darüber hinaus spezifische Anforderungen an Transparenz und Nichtdiskriminierung bei KI-Systemen — relevant auch für Assistenztechnologien, die Entscheidungen über die Informationsvermittlung an vulnerable Nutzergruppen treffen. Bitkom hat in einer Stellungnahme darauf hingewiesen, dass deutsche Unternehmen bei der Umsetzung barrierefreier digitaler Angebote erheblichen Nachholbedarf haben.
Für die Hersteller assistiver KI-Systeme bedeutet das sowohl Chance als auch Verpflichtung: Der regulatorische Druck schafft Nachfrage, stellt aber auch Anforderungen an Nachvollziehbarkeit und Zuverlässigkeit, die nicht alle aktuellen Systeme gleichermaßen erfüllen.
Interessant ist dabei die Parallele zu anderen KI-Plattformstrategien: Auch Finanzdienstleister wie PayPal, das sich zur Technologie-Plattform mit KI-Fokus transformiert, integrieren KI zunehmend als Kernelement ihrer Nutzerschnittstellen — mit ähnlichen Fragen zu Transparenz, Datenschutz und Inklusion. Und während auf politischer Ebene kontroverse Debatten wie jene um den neuen Heizungsgesetzentwurf des Wirtschaftsministeriums die öffentliche Aufmerksamkeit binden, vollzieht sich die digitale Transformation assistiver Technologie weitgehend unterhalb der medialen Wahrnehmungsschwelle.
Ausblick: Smartglasses, räumliches Sehen und die nächste Generation
Die nächste Entwicklungsstufe assistiver KI-Technologie für Sehbehinderte liegt in der wearable Integration — also der Einbettung in tragbare Geräte wie Smartglasses. Systeme wie Envision AI kooperieren bereits mit Brillenherstellern, um Echtzeit-Bildanalyse direkt ins Sichtfeld zu bringen, ohne dass ein Smartphone in die Hand genommen werden muss. Das reduziert die kognitive Last und erhöht die Alltagstauglichkeit erheblich.
Räumliches Sehen — die Fähigkeit, Tiefe und dreidimensionale Strukturen zu erfassen — ist ein weiterer Forschungsschwerpunkt. Aktuelle Smartphones können mit ihren Mehrkamera-Systemen und LiDAR-Sensoren (letztere in bestimmten Apple-Modellen verbaut) bereits rudimentäre Tiefeninformationen liefern. Diese Daten, kombiniert mit KI-Analyse, könnten künftig präzisere Navigationsunterstützung ermöglichen — etwa die Warnung vor Hindernissen auf dem Gehweg in Echtzeit.
Investitionen in Basisinfrastrukturen wie Quantencomputing, etwa die Beteiligung der Schwarz-Gruppe am Quantencomputer-Startup Eleqtron, deuten darauf hin, dass langfristig auch Rechenkapazitäten entstehen könnten, die heutige On-
Weiterführende Informationen: BSI Bundesamt fuer Sicherheit














