essay

Im Bildraum von Big Data Unwahrscheinliche und unvorhergesehene Suchkommandos: Über Dall-E 2

Von Roland Meyer

© Roland Meyer & Dall-E 2

 

Ein «scam» sei das alles, nichts weiter als eine Betrugsmasche, so wetterte der Künstler David OReilly Anfang Juli in einem viel beachteten Instagram-Post. Die Rede war von DALL-E 2, einem KI-Modell zur Bildgenerierung, das beliebige Texteingaben, sogenannte Prompts, in hochauflösende Bilder übersetzt, mit zum Teil erstaunlichen Ergebnissen. Solche Fundamentalkritik war neu. Seit seiner Vorstellung im April hatte DALL-E in den sozialen Medien überwiegend Faszination, ja Begeisterung ausgelöst, was nicht zuletzt an der geschickten Marketingkampagne des Entwicklers OpenAI lag: Die erste Version wurde, angeblich um Missbrauch vorzubeugen, nur einem exklusiven Kreis von User*innen zugänglich gemacht, der dann sukzessive erweitert wurde – allerdings viel zu langsam für viele, die sich auf die Wartelisten eingetragen hatten. Die Auserwählten wiederum entlohnten den ihnen gewährten Zugang nicht nur mit ihren Nutzungsdaten, sondern zumeist auch damit, dass sie begannen, ihre KI-generierten Bilder auf Instagram, Twitter und Facebook zu teilen. Aus Beta-Tester*innen wurden so Influencer*innen: eine perfekte Hype-Maschine.

Die Kritik blieb entsprechend verhalten, und betraf vor allem das Problem des algorithmic bias, mit dem sämtliche auf Machine Learning beruhenden Technologien zu kämpfen haben. Im Fall von DALL-E stellte sich zum Beispiel rasch heraus, dass die Software bei Prompts wie «CEO» und «successful» überwiegend Bilder männlicher, bei «assistant» und «sad» dagegen zumeist solche weiblicher Personen anbot – wohl ein Grund dafür, dass auf den Bildern des offiziellen Instagram-Accounts von DALL-E 2 so häufig Katzen im Weltraum, Skateboard fahrende Teddybären und ähnlich harmlose Putzigkeiten zu bewundern sind. Inzwischen hat OpenAI nachgebessert, wenngleich nur auf der Ebene des Text-Interfaces: Im Hintergrund mischt die Software, ohne Wissen der User*innen, regelmäßig Angaben wie «woman» oder «black» in die Prompts, um die Diversität der Ergebnisse zu erhöhen.

Das war es aber nicht, was OReilly empörte. Seine Kritik galt dem zugrunde liegenden Geschäftsmodell des von Elon Musk gegründeten und von Microsoft finanzierten Unternehmens: der massenhaften Auswertung von im Netz verfügbaren Bilddaten. Die Arbeit unzähliger Fotograf*innen und Illustrator*innen, so sein Vorwurf, würde ohne deren Wissen und Einwilligung angeeignet, um ein KI-Modell zu trainieren, das einer privaten Firma Profite bringen sollte. OReillys Intervention reagierte unmittelbar auf die Ankündigung von OpenAI, ab sofort in die «offizielle» Beta-Testphase einzusteigen, was nicht nur hieß, bis zu einer Million neuer User*innen einzuladen, die Software auszuprobieren, sondern auch mit der Einführung eines Bezahlmodells einherging. Nur noch 15 Prompts pro Monat (statt zuvor 50 am Tag) sollten fortan gratis sein, den Rest lässt sich OpenAI bezahlen. Doch wessen geistiges Eigentum sind eigentlich die digital generierten Bilder, die nun rund dreizehn Cent pro Eingabe kosten sollten? Für OReilly handelt es sich letztlich um kaum etwas anderes als um algorithmisch verfeinerte Plagiate – Produkte einer Black Box, die die Ausbeutung der individuellen Kreativität von Generationen in ein undurchsichtiges Geschäftsmodell verwandelt hat.

Man muss diese Einschätzung nicht teilen, um zu sehen, dass hier Fragen angerissen werden, die über die müßige, bislang im Feuilleton vorherrschende Debatte, ob KI-Modelle wie DALL-E nun so etwas wie «Kunst» schaffen könnten oder nicht, weit hinausgehen – Fragen, die den Wert von Einzelbildern unter den Bedingungen der massenhaften digitalen Verfügbarkeit riesiger Bilddatenarchive betreffen. DALL-E und seine Konkurrenzprodukte wie Crayon oder Midjourney, so wird langsam deutlich, sind vielleicht mehr als nur der neueste, rasch wieder vergessene KI-Hype, der uns von weit problematischeren Einsatzfeldern maschinellen Lernens ablenken soll. An ihnen und mit ihnen wird vielmehr derzeit darüber verhandelt, was Bildproduktion überhaupt bedeutet, wenn nahezu jedes nur vorstellbare künftige Bild bereits als statistische Möglichkeit in einem von Bildern der Vergangenheit aufgespannten, latenten Bildraum vorhanden scheint. 

Tatsächlich gleicht der Prozess der Bildgenerierung mit DALL-E, zumindest aus User*innensicht, weit eher einer Suchanfrage als einem Produktionsvorgang. Und diese Suche im Bildraum von Big Data kann sich durchaus langwierig gestalten, wie das Beispiel der Juni-Ausgabe der amerikanischen Cosmopolitan anschaulich macht. Für das Cover ihrer «A.I. Issue» wollte die Cosmo-Redaktion, auch sie begeisterter Teil der Hype-Maschine, DALL-E das Bild einer weiblichen Astronautin auf dem Mars generieren lassen. «Stark» sollte sie sein, eine «Kämpferin», zugleich «präsidial». Doch war es nicht einfach, der Software das gesuchte Ergebnis abzutrotzen: Mal wirkte die Astronautin nicht selbstbewusst, ein anderes Mal nicht weiblich genug. Anders als auf dem Cover behauptet, entstand das finale Covermotiv daher nicht in 20 Sekunden, sondern bedurfte eines aufwendigen «Prompt-Engineerings», der iterativen Optimierung der Texteingabe auf Basis von trial and error. An deren Ende entstand eine Formel, deren Länge bereits den komplizierten Findungsprozess erahnen lässt, der dahintersteckt: «wide-angle shot from below of a female astronaut with an athletic feminine body walking with swagger toward camera on Mars in an infinite universe, synthwave digital art».

Mittlerweile zirkulieren Handbücher im Netz, die Vorschläge zur optimalen Formulierung von DALL-E-Prompts versammeln, und User*innen auf Social Media tauschen sich über Tricks aus, wie sie mit der Software die besten Ergebnisse erzielen. Einfacher (und häufig interessanter) allerdings, als die KI dazu zu bringen, ihre Ausgaben einer vorgefassten Bildvorstellung anzunähern, scheint es, sich schlicht von ihr überraschen zu lassen. Wie, zum Beispiel, stellt sich DALL-E das Ende des Kapitalismus vor, was generiert es, wenn man es nach einem Selbstporträt fragt? Die nicht selten skurrilen, manchmal auch unheimlichen Bilder, die dabei zu Tage treten, offenbaren das beachtliche Meme-Potential der Technologie. Vor allem die Bilder der frei verfügbaren Variante DALL-E mini, die sich mittlerweile auf Druck von OpenAI in Crayon umbenennen musste, schienen eine Zeit lang auf Twitter allgegenwärtig. Gemessen daran, was etwa der Account @weirddalle an abgründigen Einblicken in die neuen KI-generierten Bildwelten liefert, muten weit aufwändigere Produktionen wie das Cosmo-Cover seltsam gestrig an.

In beiden Fällen jedoch, und das scheint ein zum Verständnis entscheidender Aspekt, geht die sprachliche Beschreibung der Bildfindung voran. Solche Priorität der Sprache gegenüber dem Bild ist bildhistorisch keineswegs neu, denkt man etwa an die barocke Emblematik oder die komplexen Bildprogramme der christlichen Ikonografie. Doch DALL-E-Prompts fungieren weniger als schriftliche Vorgaben, die dann mehr oder minder getreu bildlich umgesetzt werden, denn als Fahndungsaufrufe, zu denen die Software aus dem latenten Raum möglicher Bilder die aus ihrer Sicht passendsten Entsprechungen hervorbringt. Dies ähnelt, bis in das Design des Interfaces hinein, der sprachbasierten Funktionslogik der allermeisten Bilddatenbanken, etwa solchen, die Stock-Fotografie und andere kommerziell verwendbare Bildvorlagen verwalten. Der Wert von solchen Bildern auf Vorrat bemisst sich an ihrer archivischen Auffindbarkeit, also ihrer vorgängigen Verschlagwortung: Ein Bild, das im Angebot der Agenturen nicht, oder zumindest nicht unter dem passenden Stichwort auffindbar ist, erscheint wertlos, nahezu unabhängig von seiner ästhetischen Qualität. Während man jedoch in der Stock-Datenbank nur bereits Vorhandenes und Verschlagwortetes finden kann, dienen DALL-E-Prompts der Fahndung nach Noch-nicht-Vorhandenem und bislang Unbeschriebenem.

Statt also auf erwartbare Abfragen hin optimiert zu sein, eröffnet DALLE-E einen Möglichkeitsraum für unwahrscheinliche und unvorhergesehene Suchkommandos. Vor allem ermöglicht es die Formulierung von Suchbefehlen, denen kein vorgängiges Bild, nicht einmal in der Vorstellung, entsprechen muss. Wörter lassen sich frei, auch kontrafaktisch oder gar sinnlos kombinieren. Das verbindet Dall-E mit dem historischen Surrealismus, auf den sein Name, ein Kofferwort aus Dalì und Wall-E, dem Roboter aus dem Pixar-Film, anspielt: Die «zufällige Begegnung von Nähmaschine und Regenschirm auf einem Seziertisch» kann man aufschreiben, ohne bereits ein Bild davon zu haben. Die Verschränkung der absurden Traumlogik sprachlicher Kombinatorik mit der visuellen Konventionalität vieler der bildlichen Vorlagen, aus denen sich die generierten Bildwelten speisen, scheint auch der Grund dafür, dass nicht wenige der Bilder von Dall-E wie eine seltsame Mischung aus Surrealismus und Stock-Fotografie wirken. In gewisser Weise realisiert sich mit ihnen, was Fredric Jameson einmal von MTV behauptet hat: ein «Surrealismus ohne Unbewusstes». Dessen infrastrukturelle Voraussetzung ist die umfassende, nicht zuletzt durch millionenfaches anonymes Clickworking geleistete sprachliche Vorerschließung digitaler Bildwelten, nämlich das Vorhandensein riesiger bereits annotierter Bildermengen, an denen solche KI-Modelle trainiert werden können.
Die Logik grenzenloser Kombinatorik erstreckt sich dabei nicht allein auf die Bildinhalte, sondern ebenso auf ihre Darstellungsweisen. Bei der Formulierung von Prompts operieren Motiv («a female astronaut …») und Stil («synthwave digital art») als getrennte Parameter, und historische Stile lassen sich scheinbar beliebig vom Werk ihrer Autor*innen ablösen – was OReilly von Plagiaten sprechen lässt. 
Vor allem jedoch wird dabei der Stilbegriff radikal entgrenzt und enthierarchisiert: Stil kann hier den Individualstil eine*r kanonisierten Künstler*in meinen, aber ebenso die Bildqualitäten bestimmter technischer Medien oder den Look populärkultureller Bildwelten. Für DALL-E erscheinen der Pinselstrich Courbets, die Anmutung eines Polaroid-Foto wie die Ästhetik von Science-Fiction-Heften der 1950er Jahre austauschbar, ja ineinander übersetzbar und sogar kombinierbar. Dem Namen nach sind zwar alle diese styles noch an Individuen, Apparate, Genres und historische Zeitschichten gebunden, in der Produktionslogik des KI-Modells sind sie aber nichts weiter als typische visuelle Muster, extrahiert aus einem latenten Raum möglicher Bilder, der durch sprachliche Suchkommandos erschlossen wird.
In diesem Bildraum von Big Data existieren auch endlose Mengen von Bildern, die (beinahe) aussehen wie gewöhnliche Fotografien, aber keine Fotografien sind. Fotografischer Realismus ist für DALL-E nur eine weitere Stilvariante, kein privilegierter Modus des dokumentarischen Weltzugangs. Und dieser fotorealistische Stil simuliert eher visuelle als optische Aspekte des Fotografischen. Denn anders als etwa Games-Engines, Architektur-Renderings oder CGI-Effekte nutzt Dall-E kein dreidimensionales Modell einer physischen Wirklichkeit, die nach optischen Gesetzen und den Regeln der Perspektive berechenbar wäre, sondern rekombiniert und synthetisiert visuelle Texturen, Atmosphären und Anmutungen. Besonders «realistische» Effekte lassen sich dabei erzielen, wenn der Prompt bereits Angaben zur fotografischen Technik, etwa zu Objektiven und Verschlusszeiten enthält. 

Doch auch diese Angaben fließen nicht in eine Simulation des fotografischen Apparats ein – es handelt sich bloß um typische Bildattribute, die in der Logik des Modells mit wiederkehrenden visuellen Qualitäten korrelieren, nicht anders als Qualitätsbehauptungen wie «perfect photograph». Wir haben es also mit berechneten Bildern zu tun, die nicht auf vorgängigen Modellen der Wirklichkeit beruhen, sondern auf der nachträglichen statistischen Auswertung von Bildern und ihren Beschreibungen. Dabei entstehen räumliche Szenarien, die häufig auf den ersten Blick plausibel wirken, aber bei genauerer Betrachtung lauter widersprüchliche Details offenbaren: Türen, die weder geöffnet noch geschlossen werden könnten, schwankende Böden mit verwirbelten Fliesenmustern, Reihen von Kinosesseln, die zu amorphen Blöcken verschmelzen, Absperrbänder, die in der Luft zu schweben scheinen. 

Was DALL-E zu sehen gibt, sind keine Bilder der Welt, sondern Bilder aus Bildern – ja letztlich Bilder über Bilder. Das Archiv der sprachlich erschlossenen und digital mobilisierten Bilder der Vergangenheit wird dabei, über alle Zeiten hinweg und jenseits aller etablierten Werthierarchien, zur scheinbar unerschöpflichen Quelle visueller Muster, die sich beliebig extrahieren, variieren und transformieren lassen. Darin bloß eine Kränkung für die menschliche Kreativität, gar einen Schwindel zu sehen, greift zu kurz. Vielmehr markieren solche KI-Modelle eine entscheidende Etappe auf dem Weg der fortschreitenden Erschließung virtueller Bildarchive als produktiver Datenressource – mit ökonomischen wie ästhetischen Konsequenzen, die erst langsam erahnbar werden.