Zo maak je een griezelig echte nepvideo

In akelig overtuigende nepvideo’s zeggen en doen beroemdheden en politici dingen waar je, zacht gezegd, nogal van opkijkt. Er zijn al apps waarmee iedereen zo’n video zou kunnen maken. Is dat zo? Proberen maar. 

Het trainingsmodel van FakeApp in actie Foto de Volkskrant
fotografie ©Koen Hauser, styling Gerdien van Halteren, kleding Nikki Duijst Foto Koen Hauser

John F. Kennedy heeft de toespraak die hij op 22 november 1963 in Dallas zou houden nooit uit kunnen spreken. En toch zijn er vorige maand, bijna 55 jaar na zijn dood, geluidsopnamen gepubliceerd van die speech. Dat is nog alleen spraak. Taylor Swift acteerde nooit in een pornofilm en toch bestaan er beelden van porno waarin zij de hoofdrol speelt. Barack Obama sprak nooit exact dezelfde tekst uit met exact dezelfde mimiek als George W. Bush en toch is er een filmpje waarop je hem precies dat ziet doen. Amazon-topman Jeff Bezos is niet de buikspreekpop van Volkskrant-journalist Bard van de Weijer en toch lukte het ons Bezos met het nodige kunst- en vliegwerk Nederlands te laten spreken – daarover straks meer.

Onderzoekers en specialisten op het gebied van artificiële intelligentie zijn al langer bezig met fotoshoppen in video, vaak met griezelig overtuigend resultaat. Zo presenteerden onderzoekers van de Universiteit van Washington vorig jaar video’s waarin ze bijvoorbeeld Obama dingen lieten zeggen die hij nooit heeft gezegd. Met behulp van kunstmatige intelligentie die ze trainden met veertien uur videomateriaal van de echte Obama maakten ze als het ware een synthetische versie van de voormalige president, inclusief zijn mond. Hierna was het mogelijk om de kunstmatig gecreëerde Obama elke gewenste zin te laten uitspreken.

Video’s van de universiteit laten een surrealistische parade van beroemdheden zien wier woorden simultaan door collega-beroemdheden worden uitgesproken. Lord of the Rings-acteur Ian McKellen zegt precies hetzelfde als Bond-acteur Daniel Craig in een bestaand interview, oud-president George Bush bestuurt Hillary Clinton. En Daniel Craig. En Barack Obama. En Arnold Schwarzenegger. De kijker blijft in verwarring achter. Het ziet er allemaal bedrieglijk echt uit.

Nog een voorbeeld. In november 2017 vindt in de Stadsschouwburg in Amsterdam het jaarlijkse TEDx-evenement plaats. Tussen de artiesten en wereldverbeteraars is daar ineens een livevideoverbinding met president Trump. ‘Geloof niet zomaar alles wat je ziet, want het kan wel nep zijn. Net als ik’, spreekt Trump de verblufte zaal toe. Dan ineens het besef: dit klopt niet. De stem waarmee Trump spreekt, dat is toch dezelfde die eerder de veel bekeken America First the Netherlands Second-video van Zondag met Lubach insprak? En is het wel Trump? Ja, dat wel. Maar er klopt ook iets niet. Zijn mond spreekt de woorden uit, maar het lijkt niet helemaal soepel te gaan. En inderdaad: het is een digitale Trump, een soort moderne variant van de populaire Spitting Image-poppen van jaren terug.

Wie video’s wil maken die zo echt mogelijk lijken, heeft een goed gelijkende stem nodig. Daarvoor is geen imitator meer nodig: stemmen kunnen worden nagemaakt. Vorige maand maakte het Schotse bedrijf CereProc de reconstructie openbaar van de speech die John F. Kennedy nooit meer heeft kunnen geven. CereProc heeft eenzelfde procedé toegepast als met beelden wordt gedaan: op basis van heel veel beschikbare geluidsfragmenten werd een synthetische versie van Kennedy’s stem gemaakt. En zo kon de tot leven gebrachte Kennedy alsnog zijn twintig minuten durende speech uitspreken. Er is weinig fantasie voor nodig om te bedenken wat het combineren van deze doorbraken op het gebied van geluid en beeld voor resultaat heeft.

De onderzoeken komen niet uit de lucht vallen: twee jaar geleden presenteerde de Stanford Universiteit Face2Face waarbij onder anderen een getrainde computersimulatie van president Poetin de hoofdrol vervult. In realtime imiteert deze niet van echt te onderscheiden nep-Poetin de lipbewegingen van een acteur. En niet alleen de lipbewegingen, ook zijn mimiek, zoals het trekken met de wenkbrauwen. In Nederland, in het Science Park van de Universiteit van Amsterdam, wordt vergelijkbaar onderzoek gedaan. Theo Gevers, hoogleraar computer vision, geeft hier leiding aan de groep die zich bezighoudt met gezichtsanalyse door middel van kunstmatige intelligentie. Eerder noemde hij het tegenover de Volkskrant de heilige graal: de poging om het menselijk gezicht zo nauwkeurig in kaart brengen dat je er zonder zichtbare overgangen iedere emotie op kunt projecteren. Natuurlijk kan dergelijke techniek, zoals altijd, voor verkeerde zaken worden aangewend, geeft Gevers toe. Maar evengoed voor het tegendeel: om juist nepvideo’s te ontmantelen.

De filmpjes van dit soort onderzoeken waarmee het grote publiek nu kennismaakt, zijn fascinerend. Gevers benadrukt hoe hard het gaat. Mensen zijn nu al onder de indruk van een pratende drol op een iPhone X, maar dat is volgens hem nog niets vergeleken bij wat er op ons afkomt. Toen vorig najaar de iPhone X op de markt kwam, ging veel aandacht uit naar de zogenoemde animoji. Hierbij nemen 2D-plaatjes (een aap, een vos, een robot, en inderdaad ook een drol) de lip- en oogbewegingen over van de iPhone-eigenaar. Ook het onder andere via Snapchat populaire ‘faceswappen’ (twee mensen zitten voor de camera van hun mobiel en de software verwisselt en vermengt op hetzelfde moment hun gezichten) stelt nog weinig voor in vergelijking met de techniek achter de video’s zoals ook de groep van Gevers die maakt. 

Toch blijkt het ook zonder grondige kennis van neurale netwerken en kunstmatige intelligentie mogelijk van deze technieken gebruik te maken. Dankzij Google bijvoorbeeld, dat zijn interne gereedschapskist om AI-algoritmes te ontwikkelen, TensorFlow, voor iedereen beschikbaar stelt. De eerste die daar voor een groot publiek succes mee boekt, is een gebruiker van het populaire forum Reddit die met hulp van onder andere dit pakket zelf aan het knutselen slaat. Niet met een hoogstaand doel: het lukt hem video's te fabriceren waarbij hij de gezichten van vrouwen als actrice/model Gal Gadot of zangeres Taylor Swift op de lichamen van pornoactrices plakt. Deze nieuwe vorm van ‘faceswapping’ wordt onder de naam Deepfakes (naar het alias van de gebruiker) een instant rage op Reddit. ‘Google gaf ons krachtig AI-gereedschap en de wereld maakte er porno mee’,  zo vat nieuwssite Quartz de plotseling geboren rage samen.

Binnen de kortste keren abonneren vele tienduizenden liefhebbers zich op het aan de creaties van Deepfakes gewijde kanaal op Reddit. Niet lang daarna maakt een andere Reddit-gebruiker een programmaatje, FakeApp, dat knutselaars een groot deel van het werk uit handen neemt. Handige programmeurs gaan zelf aan de slag en leven zich uit op het digitaal verwisselen van gezichten. En ook op hen oefent porno weer een bijzonder grote aantrekkingskracht uit, al is er ook iemand die aan de slag gaat met een Star Wars-film en het werk van een dure studio dunnetjes overdoet.

Hadden de onderzoekers al laten zien dat wie nepvideo’s kan maken anderen kan laten zeggen wat hij wil, de Reddit-gebruikers laten anderen doen wat ze willen: ze laten beroemdheden optreden in expliciete porno. Dat is wat eenvoudiger dan de serieuzere voorbeelden: in de porno hoeft niet gesproken te worden. Het resultaat lijkt dus al snel natuurgetrouwer. In de beste gevallen zien de beelden er zelfs griezelig echt uit.

Maar is het echt eenvoudig om nepvideo’s te maken?

Motherboard, de site die het fenomeen in december als eerste onder de aandacht van het grote publiek brengt, omschrijft FakeApp als een ‘gebruiksvriendelijke applicatie die iedereen in staat stelt om dit soort video’s te maken’. Is dat echt zo: zitten we nu al in een wereld waarbij we onze ogen letterlijk niet meer kunnen geloven?

We gaan op onderzoek uit en gaan zelf aan de slag. Om evidente redenen niet met porno uiteraard. Het idee: ik wil Amazon-topman Jeff Bezos woorden in de mond  leggen die door Volkskrant-collega Bard van de Weijer worden uitgesproken.  Waarom Bard en Jeff? Omdat ze wat betreft haardracht – beiden kalend – gelijkenis vertonen. Dit is een van de voorwaarden voor een succesvol resultaat. Dat er nog heel veel extra voorwaarden volgen, blijkt al snel.

Ik vind Hay Kranen bereid de klus op zich te nemen. Kranen is programmeur (in het verleden onder andere bij de VPRO en de Volkskrant) en dus bovengemiddeld handig met computers en code. Hij is geen specialist op het gebied van zelflerende systemen of gezichtsherkenning. Wat dat betreft is deze wereld van de deepfakes en nepvideo’s voor hem even nieuw als voor de gemiddelde Volkskrant-lezer.

Kranen gaat met het nodige enthousiasme aan de slag. In eerste instantie met zijn eigen laptop. Maar hij is geen serieuze gamer of bitcoinminer en heeft dus niet hun dure en krachtige grafische kaart voor het zware rekenwerk. Hij komt er al snel achter dat er zoveel rekenkracht nodig is voor de klus dat dit niet opschiet. Zijn computer zou letterlijk dagenlang aan het loeien zijn om zijn taken tot een goed einde te brengen.

Clouddiensten bieden gelukkig uitkomst en Kranen huurt zware computers bij Amazon. Vervolgens gaat hij in de weer met FakeApp en de diverse varianten hierop die inmiddels beschikbaar zijn. Deze gratis softwarepakketten doen allemaal hetzelfde: ze knopen reeds beschikbare AI-onderdelen (zogenoemde libraries) aan elkaar, zoals TensorFlow van Google of Dlib (voor machine learning). FakeApp zelf ziet er bedrieglijk gebruiksvriendelijk uit. Drie basisknoppen, dat is alles: ‘extract’, ‘train’ en ‘convert’. Plus de mogelijkheid om aan de instellingen te knutselen.

Maar dan begint het pas. Na drie dagen fulltime experimenteren, vloeken, klooien, proberen, weggooien en weer opnieuw proberen komt er daadwerkelijk een video uitrollen: Jeff Bezos die iets in het Nederlands zegt. Maar wel overduidelijk nep is: de overgangen tussen Bezos en de rest van de video zijn vrij abrupt. Dit is dan het resultaat van ‘hard werken, heel veel tijd en heel veel computerkracht’. Eufemistisch noemt Kranen het ‘een beetje teleurstellend’.

Het pakket is geen feest, blikt Kranen terug: ‘Het zit tjokvol problemen en foutmeldingen.’ Ook zijn er weer andere programma’s (vaak in terminal-stijl: groene knipperende lettertjes op een zwarte achtergrond) nodig voor deeltaken, zoals het opknippen van een video in losse beelden. Al met al voelt het voor Kranen als ‘een Ikea-pakket waar belangrijke onderdelen van ontbreken en waar geen handleiding van is.’ Om een beter begrip van het hele proces te krijgen, helpt het om de deelstappen in versimpelde vorm te noemen:

1.Begin met video’s met de bekende figuur die uiteindelijk dingen moet gaan zeggen. In dit geval: Jeff Bezos. Hoe meer trainingsmateriaal hoe beter. Verschillende gezichtspunten, verschillende gezichtsuitdrukkingen, verschillende belichtingen. Maar wel zo veel mogelijk recht van voren gefilmd. Alles begint met een kwalitatief goede dataset. Het is de belangrijkste les die iedere AI-specialist boven zijn bed heeft hangen: je kunt nog zulk goed AI-gereedschap hebben, als je data slecht zijn, ben je kansloos.

2.Een gespecialiseerd programma (het weinig gebruiksvriendelijke ffmpeg bijvoorbeeld) knipt een video op in losse frames, losse plaatjes. Een interview van een paar minuten levert zo al snel honderden bruikbare afbeeldingen op. Vijfhonderd afbeeldingen is het minimum.

3.FakeApp haalt hier vervolgens de gezichten uit. Als de interviewer ook in beeld is, wordt ook die meegenomen. Deze afbeeldingen moeten dus weer handmatig worden verwijderd.

4.Voor de oorspronkelijke video (het interviewtje met collega Bard van de Weijer) is het van belang een niet al te scherpe video te gebruiken. Het risico is anders dat een wat vaag plaatje van het gezicht van Jeff Bezos contrasteert met scherpe beelden er omheen.

5.Deze video wordt ook weer opgeknipt waarna FakeApp het gezicht eruit haalt.

6.Hierna begint het trainen. Dit is een intensief proces en kan vele uren kosten. Het programma maakt feitelijk een geabstraheerd model van het gezicht op basis van 64 gezichtspunten. Hiermee kunnen goed gezichtsuitdrukkingen worden weergegeven.

7.Bij de stap ‘convert’ vindt de magie plaats: het ene gezicht wordt door het andere vervangen. De tekst van Bard wordt uitgesproken door Jeff, zo is het idee.

8.Dit zijn echter nog altijd losse plaatjes die dus weer met een ander programmaatje moeten worden samengevoegd tot een video. Daarna moet er ook weer audio overheen worden gelegd.

FakeApp in actie Foto de Volkskrant

Nogal wat gedoe dus, met als uiteindelijk resultaat een blokkerig geheel in onnatuurlijke belichting. Zo eenvoudig is het allemaal toch niet. Het zit Kranen niet lekker. Op een avond logt hij nog een keer in bij zijn gehuurde Amazon-kasten en doorloopt het hele proces nog een keer. En nog een keer. Nog meer video’s en foto’s van Jeff Bezos om het datahongerige beest te trainen. Hij blijft aan de instellingen kneden totdat het ineens ergens op lijkt. De perfecte nepvideo is het nog altijd niet, maar het is genoeg om de kijker voor even in de beruchte uncanny valley te krijgen: het ongemakkelijke gebied waar een computercreatie bijna levensecht is, maar je voelt dat er iets niet klopt. De belofte van een gebruiksvriendelijk programma wordt allerminst waargemaakt, maar Kranen is overtuigd: ‘Het duurt echt niet lang voordat hier wél appjes voor komen die iedereen kan gebruiken.’

Dat denkt ook Marcel van Gerven, hoogleraar kunstmatige intelligentie aan de Radboud Universiteit. ‘De ontwikkelingen gaan razendsnel. We moeten vooral niet vergeten hier een heel belangrijke les uit te trekken: je kunt niet meer zonder meer geloven wat je ziet en hoort.’ Van Gerven ziet overigens niet alleen maar negatieve effecten. ‘Waar je nu nog dure studio’s voor nodig hebt, daar kan je straks een overleden acteur tot leven wekken in een hele nieuwe rol met behulp van die nieuwe AI-technieken. Dat wordt relatief eenvoudig.’ En de angst om voor de gek gehouden te worden? ‘Er zullen ook weer systemen komen die kunnen detecteren wat echt is en wat niet. Daar waar het menselijke oog het laat afweten, gaat kunstmatige intelligentie ons helpen.’

En hoe liep het nou af met die porno? De deepfakes gingen al snel weer terug naar de krochten van het web. Reddit sloot de aan deepfakes gewijde sub-reddits en zelfs grote pornosites als Pornhub beloofden de nepporno te weren van hun sites omdat ze zonder instemming van de beroemdheden worden gemaakt. Maar die pratende drol op uw mobiele telefoon krijgt ongetwijfeld over enige tijd gezelschap van Trump, Poetin, Kennedy, Cruijff of andere al dan niet levende beroemdheden om uw eigen gezichtsuitdrukking op te projecteren.

En hoe zit het dan met geluid?

Adobe, de maker van Photoshop, presenteerde twee jaar geleden al VoCo, een programma dat kan worden omschreven als ‘Photoshop voor gesproken tekst’. In combinatie met het laatste videogereedschap is dat een dodelijke combinatie. Het programma is echter nog altijd niet op de markt. Dat dit soort technieken geen verre toekomstmuziek zijn, bewijzen niet alleen de Kennedy-nabootsers uit Schotland, maar ook de dienst Lyrebird. Hier kan iedereen zijn eigen stem invoeren om daar een synthetische variant van te maken. En zo hoor je jezelf een tekst van Shakespeare uitspreken, terwijl je dat nog nooit hebt gedaan.

Meer dan alleen verwisselde gezichten

U ziet een video van een auto die door een zomers landschap rijdt. Groene bomen, wolkjes in een blauwe lucht. Fake! Fabrikant Nvidia (onder andere grafische kaarten) deed de wereld onlangs versteld staan met een studie waarin zijn kunstmatige intelligentie bewees om verontrustend echte nepvideo’s te maken. De oorspronkelijke opnamen lieten helemaal geen zomerse taferelen zien, maar een somber landschap met kale bomen. Met behulp van Nvidia wordt van de winter een zomer gemaakt. Dag wordt nacht, zon wordt regen: het kan allemaal.

fotografie ©Koen Hauser, styling Gerdien van Halteren, kleding Nikki Duijst Foto Koen Hauser
fotografie ©Koen Hauser, styling Gerdien van Halteren, kleding Nikki Duijst Foto Koen Hauser
fotografie ©Koen Hauser, styling Gerdien van Halteren, kleding Nikki Duijst Foto Koen Hauser

.

Meer over

Wilt u belangrijke informatie delen met de Volkskrant?

Tip hier onze journalisten


Op alle verhalen van de Volkskrant rust uiteraard copyright. Linken kan altijd, eventueel met de intro van het stuk erboven.
Wil je tekst overnemen of een video(fragment), foto of illustratie gebruiken, mail dan naar copyright@volkskrant.nl.