Warum eine KI einen menschlich generierten Alternativtext nicht ersetzen wird

Durch diesen Beitrag von Dr. Elizabeth Fernandez inspiriert, möchte ich heute der Frage meine persönliche Antwort geben, ob durch künstliche Intelligenz bzw. maschinelles Lernen generierte Bildbeschreibungen und Alternativtexte für Grafiken diejenigen vom Menschen in Zukunft überflüssig machen werden.

Seit mehreren Jahren macht die Erkennung von Bildern durch Computer erhebliche Fortschritte. Weit über die reine Texterkennung hinaus werden inzwischen Menschen, Objekte wie Bäume oder andere Pflanzen, Möbel, Tiere usw. erkannt. Große Firmen wie Facebook, Apple, Microsoft und Google bauen diese in ihre Dienste ein. Mit dem iPhone 11 kann man als Blinder heute Fotos aufnehmen und bekommt schon vor dem Betätigen des Auslösers angesagt, was VoiceOver in dem Bild zu erkennen glaubt. Und diese Bildbeschreibungen helfen tatsächlich, wenn auch nur bedingt. Bei Texterkennung, also z. B. gescreenshottetem Text, klappt das zumeist schon ganz ordentlich. Gerade Microsoft’s Seeing AI App ist da sehr gut bei.

Chrome geht inzwischen sogar so weit, Screen-Reader-Nutzern anzubieten, Bildern ohne Alternativtext eine durch die Erkennung ihrer Cloud generierte Bildbeschreibung hinzuzufügen. Im auf Chromium baiserten neuen Edge-Browser von Microsoft ist diese Funktion zur Zeit zwar deaktiviert, aber Microsoft wird sie sicher auch bald mit seiner eigenen Bilderkennung verdrahtet haben. Es besteht bei einigen durchaus die Befürchtung, dass diese bald dazu führen könnte, dass Webentwickler die Alternativtexte nicht mehr einpflegen, weil das ja auch die KI der Dienste übernehmen könnte. Ich glaube aber nicht, dass das passiert.

Zum einen werden die Tools zum Testen auf Barrierefreiheit fehlende Alternativtexte weiterhin vehement anmeckern. Außerdem gibt es z. B. bei Twitter selbst dann einen Alternativtext für Bilder, nämlich das Wort „Bild“, wenn keine Bildbeschreibung durch den Verfasser hinterlegt wurde. In diesem Fall greift also die Funktion von Chrome gar nicht.

All diese Lösungen haben außerdem ein Problem. Ihnen fehlt eine Komponente, die sich so bald durch kein neuronales Netz, keine künstliche Intelligenz, ersetzen lassen wird: Die menschliche Komponente. Intuition, Empathie, Emotionalität, Erfahrung, all das, was die Lebenserfahrung ausmacht und uns erlaubt, die reinen Fakten in einem größeren Zusammenhang zu stellen. Jedes Bild ist mehr als die Summe seiner Einzelteile, es gibt eigentlich immer eine weitergehende Bedeutung, die eigentliche „Message“ des Bildes. Die meisten Sehenden können diese erfassen, weil die Menschen einen bestimmten Ausdruck haben, es im Hintergrund o. ä. noch einen weiteren Zusammenhang gibt, eine Situationskomik besteht, oder durch das Arrangement der vorhandenen Objekte eine bestimmte Nachricht zum Ausdruck gebracht wird.

Diese Zusammenhänge sind es, die uns Menschen der KI überlegen machen. Und die Tatsache, dass Menschen nicht so leicht durch zusätzliche und unsinnige Informationen in die Irre zu führen sind wie das folgende Beispiel aus Dr. Fernandez‘ Artikel:

The first – DNNs are easy to fool. For example, imagine you have a picture of a banana. A neural network successfully classifies it as a banana. But it’s possible to create a generative adversarial network that can fool your DNN. By adding a slight amount of noise or another image besides the banana, your DNN might now think the picture of a banana is a toaster. A human could not be fooled by such a trick. Some argue that this is because DNNs can see things humans can’t, but Watson says, “This disconnect between biological and artificial neural networks suggests that the latter lack some crucial component essential to navigating the real world.”

Zusammengefasst bringt sie das Beispiel einer Banane. Diese allein auf einem Bild wird von den meisten KIs heute als Banane erkannt. Fügt man dieser aber weitere Komponenten wie einen weiteren Gegenstand hinzu, einen Hintergrund oder macht das Bild aus anderen Gründen unschärfer, erkennt die KI plötzlich vielleicht etwas ganz anderes. Das menschliche Auge lässt sich aber nicht so leicht täuschen bzw. unsere Erfahrungen lehren uns, das Unsinnige herauszufiltern und trotzdem als Hauptmotiv die Banane zu erkennen.

Diese zwei Komponenten sind es, die eine Beschreibung eines Bildes durch einen Menschen der von einer KI erzeugten Beschreibung auf lange Sicht, und ich wage sogar zu behaupten, für alle Zeiten, überlegen machen werden. Emotionalität ist etwas sehr subjektives, aber bestimmte Motive erzeugen in einer Mehrheit der Menschen eines bestimmten soziokulturellen Hintergrundes in der Regel zumindest ähnliche Assoziationen und somit Interpretationen. Aber so etwas ist nicht in reine Logik pressbar. So etwas ist nicht durch Algorithmen, und sei es noch so ausgeklügelt und vielschichtig analysiert, darstellbar. So wird eine KI vielleicht irgendwann alle Komponenten eines Bildes erkennen, einen Tisch, um den mehrere Personen stehen, und diese auch alle identifizieren können, Gegenstände, die auf diesem Tisch liegen, vielleicht auch das Motiv eines Posters oder Bildes an der Wand im Hintergrund. Aber was die bestimte Situation tatsächlich ist, darstellt, welche Bedeutung gerade diese Zusammenkunft haben könnte, wird sie dennoch nicht erfassen können.

Ich habe also eine gute Nachricht für euch Webentwickler: Ihr werdet auf lange Zeit hin weiterhin Bildbeschreibungen für eure Webseiten einbauen müssen. Und ich werde genau so lange weiter einen Teil meiner Arbeit darin haben, euch daran zu erinnern. 😉