Zo leerde robotprofessor Pieter Jonker robots lopen, voetballen en diepte zien: 'Het zijn net mensen'

'Het duurt lang om fout gedrag af te leren'

Hij leerde ze lopen, voetballen en diepte zien. Afgelopen vrijdag nam robotprofessor Pieter Jonker afscheid van de TU Delft.

Pieter Jonker past voorafgaand aan zijn afscheidsrede zijn kostuum bij de firma Kloeg in Delft. Foto Ivo van der Bent

U gaat genieten van een welverdiend pensioen?

'Sinds september ben ik officieel weg bij de TU. Maar ik heb de laatste jaren drie bedrijven opgericht. Bij een daarvan, Robot Care Systems, dat de robotrollator Lea ontwikkelt, zijn nu dertig man in dienst. Rustig zal het nog niet worden.'

De robot heeft een imagoprobleem, lijkt het. Er wordt gewaarschuwd voor killer robots. Ze pikken onze banen in.

'Moderne robots zijn zelflerend, daardoor kunnen ze mensen uit eenvoudige banen verdringen. Ze kunnen doden. Maar ze zijn niet van zichzelf slecht. Een foute robot heeft een foute leraar.'

Hun goed- of slechtheid zit dus in ons?

'Het is net als bij mensen: als je een robot iets verkeerds leert, duurt het heel lang om hem fout gedrag weer af te leren. Hij kan ook een jeugdtrauma oplopen.'

Een trauma? Hoe dan?

'Het brein van een zelflerende robot werkt met een soort opzoektabel. Om te leren lopen, kan hij kiezen uit miljoenen variabelen, waarvan de meeste niet leiden tot lopen. Zie het als een taartpunt waarbij in slechts een klein hoekje de informatie zit om je been op de juiste manier te verzetten. Als een robot een beweging maakt die in de buurt komt van lopen, beloon je hem, zodat hij in deze hoek van de tabel terugkeert en gaat variëren.

'Als de robot eenmaal zo vaak is beloond dat hij min of meer heeft leren lopen, dan zal hij vooral in de buurt van de taartpunt waar hij de meeste beloning heeft gekregen blijven zoeken. Daardoor zal hij steeds beter leren lopen. Maar als hij zichzelf fout gedrag heeft aangeleerd, is dat vervolgens lastig te veranderen. Net als bij mensen.'

Belonen werkt beter dan straffen?

'Dat zagen we bij de voetbalrobots die we ooit hebben gemaakt. We gaven ze straf als ze botsten, want dat mag niet. Het gevolg was dat robots uiteindelijk het veld uit liepen, omdat ze daar niet konden botsen. Dan kregen ze geen straf.

'De kans op botsen bij voetbal is groot en de kans op niet botsen juist klein. Ik ontdekte: als je de robot eerst leert botsen, gaat het snel. Kan hij eenmaal botsen, draai je het om: dit mag juist niet. Dat werkt veel beter. Zoals je een scherpschutter kunt leren in één keer een dodelijk schot te lossen. Vervolgens leer je hem zo te schieten dat het niet dodelijk is. Dat noem ik wel de Gert & Hermien-methode. Die zongen eerst pornoliedjes, tot ze in de Here raakten. Toen gingen ze heel vroom zingen. Gewoon omdraaien.

'Als je een robot straft, wordt hij bang. Toen robot Leo leerde lopen, viel hij telkens. Ik had het idee: vallen is pijn is straf. Zo leert hij het vallen af en gaat hij lopen. Waarop Leo gespreid ging staan in een zeer stabiele houding. Hij viel niet meer en deed precies wat ik van hem vroeg.'

Het zijn net mensen.

'Optimaliseren is intelligentie. Leren is optimaliseren. Of eigenlijk is het kunnen voorspellen intelligentie. Wanneer begint een oorlog? Wat voor weer wordt het morgen? Als je dat kunt, bent je intelligent. Robots moeten dus kunnen voorspellen wat er gebeurt om goed met mensen te kunnen samenwerken.

'Neem Lea, die helpt bij revalidatie of ouderen in huis ondersteunt. Zo'n apparaat moet niet aan iemand gaan lopen sjorren om hem naar een andere plek te krijgen. Als iemand valt, moet hij blijven staan en degene helpen bij het opstaan, maar zo dat de mens zelf zijn spieren blijft gebruiken. Lea loopt ook precies even snel als de mens die ze begeleidt. De robotrollator moet dienend zijn. Niet proberen slimmer te zijn dan de mens. Een veel gemaakte fout.'

Welk onderzoek zou u nog willen doen?

'Spieren printen in 3D. Of een mens scannen en hem in 3D naprinten. Om dit te kunnen, moet ik weten hoe de kleine hersenen werken; het cerebellum, het motorische gedeelte. Als ik dat kan nabouwen en een cerebellumachtig brein kan printen, zou dat een grote stap zijn.'

Voorlopig nog genoeg te doen dus.

'Haha, ik heb nog voor dertig jaar werk.'