De week in techLaurens Verhagen
Hey Google, maak een schilderij
‘Een kom soep als een planeet in het universum, in de stijl van een jaren 60-poster’. En hup, daar is in een handomdraai het fraaie resultaat: precies wat er is gevraagd. Iets anders dan? Een astronaut op een paard, in de stijl van Andy Warhol? Ook geen probleem.
Aan het werk is geen razendsnelle kunstenaar van vlees en bloed, maar kunstmatige intelligentie. Dit AI-programma is DALL-E, een combinatie van Salvador Dalí en de animatiefilm WALL-E. De eerste versie hiervan zag vorig jaar het licht en was al indrukwekkend. Het project van AI-bedrijf OpenAI borduurde voort op diens fameuze GPT-3 neurale netwerk, dat eerder al opzien baarde met een min of meer zelfgeschreven essay. Wat DALL-E zo aansprekend maakt, is de combinatie van taal en beeld. Het programma is getraind met grote hoeveelheden afbeeldingen inclusief de omschrijving die daarbij hoort en is in staat oneindig veel geheel nieuwe afbeeldingen te produceren op basis van een talige opdracht. De nieuwe afbeeldingen worden pixel voor pixel opgebouwd: het begint met ruis en eindigt met een paard, astronaut of kom soep.
Onlangs lanceerde OpenAI een tweede versie van DALL-E, die nog veel indrukwekkender werk verricht. Allereerst zijn de afbeeldingen kwalitatief veel beter: groter en gedetailleerder. Verder heeft DALL-E 2 een paar nieuwe trucs geleerd. Het programma is nu in staat om een reeks variaties te maken op basis van een tekstopdracht. Verder kan het ook bestaande afbeeldingen aanpassen door een onderdeel naadloos te vervangen door iets anders. Bijvoorbeeld een hond op een bank door een pizzadoos, inclusief de schaduwen die erbij horen.
Het is op technisch vlak bijzonder indrukwekkend. Ook is het niet moeilijk voor te stellen dat de combinatie mens/machine tot nieuwe creatieve uitspattingen kan komen. Tegelijk ligt bij dit soort krachtige technologieën het gevaar van misbruik op de loer. De makers zijn zich hier terdege van bewust. DALL-E is op dit moment nog niet voor iedereen te gebruiken: slechts een klein groepje onderzoekers heeft toegang. Iedere nieuwe afbeelding wordt nu nog door mensenogen gecontroleerd. Verder is het systeem getraind met specifiek materiaal dat moet voorkomen dat er ongewenste beelden worden geproduceerd. Denk aan: expliciete seksuele afbeeldingen, haat, zelfverminking, geweld of politieke situaties. Als de ontwikkelaars de kust veilig achten, zal DALL-E ongetwijfeld door iedereen kunnen worden gebruikt.
OpenAI heeft inmiddels concurrentie van Google, die met Imagen een vergelijkbaar programma heeft ontwikkeld. Of soms zelfs beter. Google geeft in zijn onderzoekspaper het voorbeeld ‘A panda making latte art’. DALL-E maakt daar een kopje cappuccino van met melk in de vorm van een panda, terwijl Google het wat beter doet: een pandabeer die zelf een mooie cappuccino maakt. De opdracht ‘A horse riding an astronaut’ is trouwens voor beide programma’s nog te lastig. Google heeft geleerd van eerdere fouten en wijst op het gevaar van verkeerd gebruik én op het risico van per ongeluk ingeprogrammeerde vooroordelen en stereotypen. Dat is de reden dat ook Imagen nog niet publiekelijk beschikbaar is. Hoe jammer ook, het is een terechte beslissing.