Kunstmatige intelligentie Man vs Robot

Eerst schaken, toen Go, nu videogames: waarom het nuttig is om kunstmatige intelligentie spelletjes te leren spelen

Beeld OpenAI

Kunstmatige intelligentie krijgt de ene na de andere videogame onder de knie en verslaat zelfs professionele gameteams. Computers spelletjes laten doen, kan ze aan een langetermijnvisie helpen.

Beduusd hangen ze in hun stoelen, de mannen van OG; een van de beste professionele videogameteams ter wereld. Een van hen heeft zijn hand voor de mond geslagen, een ander lacht ongemakkelijk naar zijn medespelers:

Zojuist zijn ze voor de tweede keer achter elkaar verslagen in Dota 2, een strategiegame waarin je in een team de toren van de tegenstander moet verwoesten met een bende fantasiefiguren. Zeg maar gerust: ze zijn volledig onder de voet gelopen. En wel door een zelflerend computerprogramma met de naam OpenAI Five.

Eerst was het schaken, toen het Chinese bordspel Go, nu wordt de computer goed in videogames. Afgelopen januari, een paar maanden voor de spraakmakende overwinning van OpenAI Five, versloeg een computerprogramma van Google DeepMind meerdere gameprofs met het sciencefiction strategiespel StarCraft II:

Toen de computer werd gedwongen om net als mensen op één plek op het speelveld tegelijk te kijken – wel zo eerlijk, natuurlijk – wist een menselijke prof met moeite een potje te winnen.

Reuze geinig, maar uiteindelijk draait dit onderzoek niet om videogames. Zoals het verslaan van de wereldkampioen Go in 2016 – indertijd wereldnieuws – ook nooit een einddoel was voor wetenschappers die zich met kunstmatige intelligentie bezighouden.

Oog voor de langere termijn

Waar het wel om gaat, is het bouwen van intelligente systemen die oog hebben voor de langere termijn, die kunnen improviseren en rekening houden met veel factoren tegelijk, legt Frans Oliehoek uit, universiteit hoofddocent kunstmatige intelligentie aan de Technische Universiteit Delft. ‘Momenteel is kunstmatige intelligentie vooral goed in afzonderlijke besluiten. Classificeren of iets een appel of een peer is, bijvoorbeeld. We willen toe naar systemen die goed zijn in het uitvoeren van een ingewikkelde reeks acties en daarbij rekening houden met onverwachte veranderingen in de omgeving.’

Waarvoor je zulke systemen met langetermijnvisie nodig hebt is nog een beetje speculeren, zegt Oliehoek, maar hij denkt zelf aan het automatisch regelen van verkeersstromen in een druk stadscentrum. Of autonome voertuigen, zoals auto’s of (zweef)vliegtuigen. Of systemen voor winkelketens die autonoom de inkoop en transport van goederen regelen. ‘En er kunnen nog veel andere toepassingen mogelijk blijken.’

Geduchte tegenstander

Nadat het kunstmatig intelligente OpenAI Five de Dota 2-kampioenen versloeg, werd het programma een aantal dagen vrijgegeven zodat wie maar wilde ertegen kon spelen. Doel was erachter komen of er echt geen fundamentele zwakte te bespeuren was in de speelstijl van de kunstmatige intelligentie. Dat bleek niet zo te zijn – en dat is nog zacht uitgedrukt. Van de iets meer dan 7000 potjes, verloor OpenAI Five er een luttele 42. Daarmee won de kunstmatige intelligentie 99,4 procent van deze wedstrijden

Een van de belangrijkste manieren waarop kunstmatige intelligentie met dergelijke vaardigheden wordt getraind, heet reinforcement learning (leren door versterking). Daarbij vertel je een computer van tevoren wat goede uitkomsten zijn, bij een game bijvoorbeeld een zo hoog mogelijke score. De computer, die nog geen flauw benul heeft van goede tactieken, gaat vervolgens min of meer in het wilde weg aan de slag en houdt bij welke gedragingen de beste uitkomsten oplevert. Die gedragingen worden versterkt – vandaar de term. Zo krijgt hij zijn taak langzaam maar zeker steeds beter onder de knie.

Videogames zijn ideaal voor zo’n leerproces. De omgeving is gecontroleerd en de regels zijn duidelijk, terwijl spellen toch complex kunnen zijn. Neem Dota 2, met zijn grote verscheidenheid aan speelbare figuren, weidse speelveld en waslijst aan bruikbare voorwerpen. Spelers moeten onder meer rekening houden met de hoeveelheid grondstoffen die ze bezitten en de juiste timing om het gevecht aan te gaan. En waar je met een bordspel als Go het hele speelveld overziet, blijft er bij games verborgen wat zich elders op de kaart of zelfs om de hoek bevindt.

Toenmalig wereldkampioen Go, de Zuid-Koreaan Lee Sedol, nadat hij is verslagen door kunstmatige intelligentie van Google DeepMind. Beeld AP

En er is een ander groot voordeel: je kunt computers in hoog tempo héél veel potjes laten spelen. OpenAI Five, dat de Dota 2-kampioenen versloeg, had er ten tijde van die overwinning het equivalent van 45 duizend jaar aan menselijke speeltijd opzitten. Dat moet efficiënter, wil deze technologie betekenisvol worden in de praktijk, aldus Oliehoek.

Begrijpen hoe computers leren

Om dat te bereiken, moeten onderzoekers en ontwikkelaars beter begrijpen hóe computers leren tijdens reinforcement learning, legt hij uit. Tijdens dat proces richt een computer zelf een neuraal netwerk in; een losjes op de hersenen gebaseerd netwerk dat bestaat uit een heleboel onderling verbonden processortjes. Die bevatten samen alle stukjes informatie over, in dit geval, hoe je een game moet spelen. Voor onderzoekers is het vrijwel onmogelijk om aan het einde van de rit te ontwarren hoe dat ingewikkelde geheugen precies in elkaar steekt.

Ook om meer inzicht te krijgen in dit proces, lenen videogames zich uitstekend. Zo presenteerde Google DeepMind onlangs een intelligent programma dat schietspel Quake III Arena kan spelen, in capture the flag-modus. Het doel is in teams de vlag van de tegenstander te stelen en naar de eigen basis te brengen, terwijl je de eigen vlag verdedigt. Daarbij ziet het programma hetzelfde als menselijke spelers, het krijgt alleen de pixels op het scherm en de scores als input:

De computer bleek uitstekend in staat in teams samen te werken, zowel met andere kunstmatig intelligente spelers als met menselijke. Hij kreeg zelfs door dat tegenstanders weer tot leven komen in hun eigen basis. Dus ging hij daar zitten wachten, zodat hij hen kon verrassen met een aanval.

Om beter te begrijpen hoe zulke slimmigheidjes worden bedacht en opgeslagen door een computer, besloten de onderzoekers van Google DeepMind het neurale netwerk tijdens de training in de gaten te houden. Zo konden ze bijvoorbeeld zien in welke volgorde de computer het spel oppikte; eerst herkende het de thuisbasissen en de vlag, pas later ging hij op zijn teamgenoten letten.

De onderzoekers zagen verder individuele ‘neuronen’ (losse processors in het grote netwerk) oplichten in specifieke spelsituaties, bijvoorbeeld als een teamgenoot de vlag vasthield. Het neurale netwerk maakt dus een soort herinneringen aan die de volgende zet helpen bepalen, zegt Oliehoek ‘Je ziet dat de computer verschillende spelsituaties in feite onthoudt, dat is fascinerend. Eerder zagen we vooral dát een leerproces werkte, niet hoe.’

Kunstmatige intelligentie kan wel meer dan spelletjes spelen

Kunst maken, bijvoorbeeld, van schilderijen tot muziek. Alhoewel, in hoeverre kun je bij de creaties van computers werkelijk spreken van kunst?

Ja, zelfs het maken van parfums behoort tegenwoordig tot de mogelijkheden van kunstmatige intelligentie. Deze meesterparfumeur maakt daar al gebruik van.

Soms dichten we apparaten ook meer intelligentie toe dan terecht is. Zoals de wereldberoemde robot Sophia, die net een mens lijkt als ze spreekt - mits ze van tevoren weet waar de gesprekken over gaan.

Meer over

Wilt u belangrijke informatie delen met de Volkskrant?

Tip hier onze journalisten


Op alle verhalen van de Volkskrant rust uiteraard copyright. Linken kan altijd, eventueel met de intro van het stuk erboven.
Wil je tekst overnemen of een video(fragment), foto of illustratie gebruiken, mail dan naar copyright @volkskrant.nl.
© 2019 de Persgroep Nederland B.V. - alle rechten voorbehouden