Computers kraken captcha zonder miljoenen voorbeelden; grote stap in kunstmatige intelligentie
© AP

Computers kraken captcha zonder miljoenen voorbeelden; grote stap in kunstmatige intelligentie

Onderzoekers hebben een vorm van kunstmatige intelligentie ontwikkeld die beelden herkent op een manier die lijkt op hoe mensen dat doen. Het is ze daarmee gelukt captcha's te kraken - de vervormde, doorgestreepte en kleurige letters die bezoekers van websites moeten overtikken om te bewijzen dat ze geen spamrobot zijn.

Het was eerder al gelukt captcha's te ontcijferen, maar het nieuwe aan deze methode is dat er nu veel minder voorbeelden nodig zijn om de computer te trainen. Het resultaat wordt gezien als een fundamentele stap voorwaarts in kunstmatige intelligentie.

Captcha's zijn vijftien jaar geleden bedacht in de strijd tegen internetrobots die invulformulieren op websites afstruinden om deze te kunnen misbruiken voor het versturen van spam of het onbeperkt deelnemen aan onlinepeilingen. Het herkennen van patronen in een ogenschijnlijk chaotisch geheel is iets wat voor mensen relatief makkelijk is, maar waar computers grote moeite mee hebben. Jarenlang golden captcha's daarom als een effectief filter tegen robotspam.

Miljoenen voorbeelden

Het herkennen van patronen in een ogenschijnlijk chaotisch geheel is iets wat voor mensen relatief makkelijk is, en waar computers grote moeite mee hebben

De afgelopen jaren is beeldherkenning zo sterk verbeterd dat computersystemen met behulp van zogenoemde neurale netwerken de letter- en cijferbrij konden ontcijferen. Google toonde in 2014 aan dat hun systeem 99,8 procent van de ingewikkeldste captcha's kon oplossen; beter dan de mens. De captcha was dus al gekraakt. Dat ging niet eenvoudig: voordat ze goed werden herkend, moest het systeem worden gevoed met miljoenen voorbeelden. Een van de grote uitdagingen voor het onderzoek naar kunstmatige intelligentie was om dit proces minder data-intensief te laten verlopen; dus zonder miljoenen voorbeelden.  

Dit lijkt nu gelukt, aldus een studie die donderdagavond in Science verscheen. De onderzoekers, onder leiding van neurowetenschapper Dileep George, maakten gebruik van zogenoemde generatieve modellen. Hierbij wordt 'voorkennis' in het systeem gestopt. 'In het geval van captcha's is het systeem bijvoorbeeld al verteld dat de kleur of structuur van de letters niet belangrijk hoeven te zijn', zegt hoogleraar kunstmatige intelligentie Eric Postma aan de Tilburg Universiteit. 'Dat hoeft dan niet meer te worden geleerd, waardoor het trainen veel sneller gaat.'

Bekende parameters

Het resultaat is indrukwekkend

Eric Postma, hoogleraar kunstmatige intelligentie

De resultaten ogen spectaculair: waar een veelgebruikt bestaand beeldherkenningspakket 7,9 miljoen beelden nodig had om captcha's te ontcijferen, had het zogenoemde generatieve model van de onderzoekers slechts 1.406 voorbeelden nodig.

Het menselijk brein werkt op vergelijkbare wijze: doordat we al enorm veel voorbeelden hebben van beelden, kunnen we nieuwe snel herkennen. Dit geldt niet voor het aanleren van nieuwe vaardigheden, zegt Postma. Bijvoorbeeld wie leert autorijden. 'Daarbij is sprake van veel onbekende parameters, bijvoorbeeld hoe je je spieren moet aanspannen bij het schakelen, hoe je moet remmen en sturen.' Het vergt bij de meeste mensen daarom flink wat rijlessen om te slagen. 'Maar als je eenmaal je rijbewijs hebt en in een nieuwe auto stapt, rij je zo weg, omdat veel van die parameters dan al ingebakken zitten', aldus Postma.

Bij beeldherkenning is het de kunst om de niet-veranderlijke patronen vast te leggen, terwijl de flexibiliteit van het systeem in stand blijft, stelt de hoogleraar. Dat de onderzoekers daar nu in lijken te zijn geslaagd, markeert mogelijk een fundamentele volgende stap in de ontwikkeling van beeldherkenning met kunstmatige intelligentie, zegt Postma. 'Het resultaat is indrukwekkend.'