Zum Inhalt springen
Lila Roboter mit quadratischem Kopf, zwei Armen und zwei Beinen, steht auf einer glatten Oberfläche.

Alternative Texte BFSG- und DSGVO-konform mit KI generieren

Einblicke in die Funktion des KI-Generators von alternativen Texten, mit dem auch die Verarbeitung von großen Bildermengen kein Problem ist.

Mit der Veröffentlichung von ChatGPT Ende November 2022 begann eine neue technologische Ära: Sogenannte Sprachmodelle wurden der Öffentlichkeit zugänglich gemacht. Der Hype ließ nicht nach, sondern wird durch weitere Fortschritte immer wieder entfacht. Es lohnt der tiefergehende Blick, wie künstliche Intelligenz (nachfolgend mit KI abgekürzt) bereits sein Potenzial entfacht, Prozesse, Organisationen und ganze Branchen zu verändern. Im Kontext digitaler Barrierefreiheit betrifft das neue Möglichkeiten, Barrieren abzubauen und damit die Teilhabe von Menschen mit Behinderungen zu verbessern. Ein Beispiel sind alternative Texte. Insbesondere, wo sich viele Unternehmen mit der Umsetzung des Barrierefreiheitsstärkungsgesetzes (BFSG) konfrontiert sehen und einen großen Bestand an Bildern beschreiben müssen, kann KI im Arbeitsprozess helfen.

Bilder mit KI analysieren und beschreiben

Alternative Texte sind Beschreibungen, die Bildern hinzugefügt werden, um ihren Inhalt für Menschen zugänglich zu machen, die die Bilder ohne Weiteres nicht sehen können. Diese Texte werden von Screenreadern vorgelesen. Sie können aber auch relevant sein, wenn es technische Probleme gibt und das Bild nicht geladen werden kann. Browser zeigen in diesem Fall den alternativen Text anstelle des Bildes an, um die Informationen trotz der technischen Barriere zugänglich zu machen.

In der Praxis ergibt sich häufig ein Problem mit dem redaktionellen Aufwand. Es fällt nicht jedem leicht, die wichtigen Bestandteile eines Bildes zu benennen. Neben den Grundlagen, wie ein alternativer Text auszusehen hat, braucht es Übung, die Essenz eines Bildes zu formulieren. KI-Generatoren von alternativen Texten für Bilder schaffen eine einfache Abhilfe. Sprachmodelle mit Bilderkennung analysieren dabei das Bild und geben einen Vorschlag für einen alternativen Text zurück. Bessere Generationen erlauben auch die Überlieferung eines Kontextes. Denn der Kontext entscheidet letztlich, was relevant ist; nicht das Bild allein. Ein Beispiel: Ein Bild zeigt eine Frau mit einem Regenschirm. In einem Artikel über das Wetter wäre der treffende alternative Text möglicherweise: »Eine Frau schützt sich mit einem Regenschirm vor leichten Regen«. In einem Beitrag zur Stadtplanung hingegen wäre relevanter: »Eine Frau mit Regenschirm steht auf einem schmalen, engen Gehweg«. Solche Unterscheidungen sind wichtig, weil die Community sich präzise Beschreibungen wünscht.

Qualitätskontrolle

KI ist aber kein Selbstläufer. KI-Modelle können Bildinhalte fehlinterpretieren oder wichtige Eigenschaften übersehen. Herausfordernd ist, bei abstrakten oder besonders komplexen Bildern korrekt zu gewichtig, welche Details relevant sind. Sorgsam müssen auch Diagramme überprüft werden, weil die Texterkennung (je nach Modell und Prompt) manchmal nicht zuverlässig ist. Auch die Tonalität ist entscheidend: KI-Modelle neigen ohne entsprechenden Prompt oft zu einem euphorischen Werbesprech, aber Bilder müssen neutral und sachlich beschrieben wird. Die möglichen Mängel treffen aber uneingeschränkt auch bei von Menschen verfassten alternativen Texten zu. Von Menschen verfasste alternative Texte fordern mehr Zeit, aber sind nicht pauschal besser.

Sinnvoll ist bei größeren Beständen, die KI als Hilfe zu nutzen, aber eine menschliche Qualitätskontrolle einzusetzen.

Der Generator von barrierefreies.design

Seit Anfang des Jahres biete ich einen entsprechenden KI-Generator an. Im Unterschied zu vielen Generatoren, die vor allem danach kamen, sind die Grundfunktionen für einen großzügigen täglichen Umfang kostenlos. Außerdem setze ich auf Microsoft Azure als Cloudpartner, der versichert, dass die KI-Berechnungen innerhalb der europäischen Union stattfinden und keine Daten genutzt werden, um Modelle zu trainieren. Die Erfordernisse der DSGVO werden unter anderem damit erfüllt. Zudem ist die gleichzeitig-multilinguale Generierung möglich.

Bilder in einem großen Umfang generieren

Für verschiedene Shops, Institutionen und Unternehmen habe ich Bilder zu Hunderttausenden verarbeitet. Den Prompt konnte ich durch diese Erfahrungen stetig weiterentwickeln. Auch individuelle Anforderungen können im Prompt berücksichtigt werden. Diese Einstellungen und sämtliche weitere Parameter werden von der Software entsprechend archiviert, sodass auch mögliche Folgeaufträge ein konsistentes Ergebnis erzielen.

Das Interface zeigt einen lila Spielzeugroboter auf einer lila Oberfläche. Es enthält Felder für Titel, Alt-Text und eine Qualitätsprüfung mit Statistiken.

In jedem Auftrag ist eine Qualitätskontrolle enthalten. Randomisiert wird ein gewisser Prozentsatz der Ergebnisse menschlich geprüft und gegebenenfalls verbessert, entweder komplett händisch oder eine erneute Generierung (ggf. auch mit einer Anpassung am Prompt).

Die Anlieferung der Bilder erfolgt als schlichte Textdatei mit einer Liste von URLs der Bilder oder idealerweise einer Exceldatei. Neben der URL in einer Spalte lässt sich auch der Kontext in einer weiteren Spalte übergeben, etwa die Produktbezeichnung oder -kategorie. Hier stehe ich gerne beratend zur Seite. Es können auch weitere Spalten übergeben werden, etwa eine Bild-ID in ihrem CMS, die den späteren Import erleichtert.

Porträtbild von Marvin Siefke

Marvin Siefke

barrierefreies.design
Einen Kaffee spendieren