kunstmatige intelligentie

Hoe stereotypen in de zoekmachine belanden (en er moeilijk uit te halen zijn)

Met de resultaten die ze geven versterken zoekmachines nogal eens stereotypen en vooroordelen. Hoe komt dat en hoe kan het anders?

Kim Bakker
null Beeld Getty
Beeld Getty

Tik ‘ceo’ in bij Google Afbeeldingen. Resultaat? Bijna allemaal witte mannen in pak. ‘Verpleegkundige’. Google zoekt en vindt: vrijwel alleen maar foto’s van blonde vrouwen in witte ziekenhuisjassen.

Nog eentje dan. ‘Bouwvakker’. Een pagina vol mannen, maar kijk eens aan, twee vrouwen op de derde rij. Dat lijkt al wat inclusiever. Maar piept daar nu een string boven de klusbroek uit en is dat op die rechterfoto niet een sexy carnavalspakje? Uitgerekend de enige twee vrouwen op de pagina worden nogal seksistisch neergezet.

Het blijft niet bij seksisme. In 2016 kwam een twitteraar tot de ontdekking dat de zoekopdrachten ‘inappropriate hairstyles for work’ nagenoeg alleen maar afbeeldingen van zwarte vrouwen opleverde. ‘Appropriate hairstyles’ dan? Witte, veelal blonde vrouwen waren het resultaat. De Amerikaanse onderzoeker en schrijver Safiya Noble vertelt in haar boek Algorithms of Oppression dat ze porno te zien kreeg toen ze zocht op ‘black girls’, niet de rolmodellen voor haar nichtjes die ze eigenlijk hoopte tegen te komen.

Die pornografische resultaten laat Google inmiddels niet meer zien. De techgigant is zich ervan bewust ‘dat zoekresultaten vooroordelen en stereotypen kunnen weerspiegelen van het internet en de echte wereld’, laat een woordvoerder weten. ‘Wij delen een diepe bezorgdheid hierover en werken actief aan schaalbare oplossingen.’ Toch leidde interne kritiek vorig jaar tot het ontslag van onderzoeker Timnit Gebru. Zij begon onlangs haar eigen instituut dat onderzoek doet naar het gebrek aan diversiteit in kunstmatige intelligentie.

‘Ceo’ googelen en alleen maar mannen zien, dat kan echt niet meer, vindt ook Hilary Richters, als directeur bij adviesbureau Deloitte verantwoordelijk voor het onderwerp digitale ethiek. We denken nog te vaak dat uitkomsten van kunstmatige intelligentie (AI), zoals zoekmachines, neutraal zijn, zegt Richters, terwijl ze in werkelijkheid groepen mensen enorm kunnen benadelen. ‘Een weergave van een bevooroordeelde samenleving’ noemt ze de zoekresultaten. ‘De stereotypen die wij in ons offlineleven allemaal hebben, zien we erin terug.’

null Beeld Getty
Beeld Getty

Hoe komen die zoekresultaten tot stand? Dat is een samenspel van data, algoritmes en ons eigen onlinegedrag, legt Jim Stolze uit, de bedenker van de Nationale AI-cursus (‘die heb ik ontwikkeld omdat kennis over AI net zo belangrijk is als een zwemdiploma’). ‘De resultaten worden gerangschikt op basis van populariteit. De websites die het vaakst worden gelinkt of geciteerd, trekken zo nog meer bezoekers, ten koste van andere. Adverteerders kunnen plekken kopen, onder meer helemaal bovenaan.’

Niet iedereen krijgt dezelfde lijst zoekresultaten te zien bij een gelijke zoekopdracht, zegt Stolze. ‘Google kan van alles laten meewegen: gender, woonplaats, hobby’s, de browser die je gebruikt. Dat is niet alleen maar handig voor Google en slecht voor de gebruiker, zoals vaak wordt gezegd. Het is juist ook heel servicegericht. Daardoor hoeft de gebruiker zich niet een weg te banen door een wirwar van zoekresultaten die hij toch niet aanklikt.’

Taalmodellen

Tot zover de rangschikking, hoe zit het met de inhoud? Dat begint met een enorme hoeveelheid ongefilterde teksten, van essays tot tweets tot forumberichten, zegt Rochelle Choenni, die aan de Universiteit van Amsterdam onderzoek doet naar kunstmatige intelligentie. Algoritmes zoeken daar patronen in en leren zo de taalgebruikers steeds beter kennen. Het resultaat is een taalmodel, zegt Choenni, als het ware een samenvatting van al die bevindingen. Om afbeeldingen te kunnen zoeken, werkt het taalmodel samen met een soortgelijk model dat getraind is met afbeeldingen. Zo leren de modellen wat wij in beeld willen zien als we een zoekopdracht invoeren.

Ter vergelijking: het is alsof iemand zonder enig gevoel voor koken in een keuken wordt neergezet met een stapel kookboeken. Vol enthousiasme gaat hij aan de slag. Hoe meer recepten hij maakt, hoe meer data hij verzamelt. Op een dag krijgt hij een verzoek: één pasta alla norma, per favore. Razendsnel weet hij: pasta koken, knoflook persen, aubergine in de pan: het recept kan hij dromen, het staat wel vijf keer in zijn kookboeken. Elke keer met een iets andere twist, maar dat geeft niet: de overeenkomsten heeft hij onthouden.

Een taalmodel werkt ook zo: het is een verzameling patronen in data, gevonden door algoritmes. Aan de hand daarvan voorspelt het wat de gebruiker van een zoekmachine wil weten. Dat is heel handig, zegt Odette Scharenborg, die aan de TU Delft onderzoek doet naar kunstmatige intelligentie. ‘Het taalmodel voorspelt, op basis van wat hij eerder heeft gezien, wat een volgend woord gaat zijn. Net zoals de kok die weet welke stap er volgt op de vorige als hij pasta alla norma maakt.’

Het resultaat kan heel authentiek overkomen, creatief zelfs, maar is dat niet. Net als de kok zonder kookgevoel, is het taalmodel alleen in staat om patronen in de data te gebruiken. Het kan er geen eigen twist aan geven, het kan niet zelf nadenken, enkel reproduceren wat het kent.

Oude ideeën

Het taalmodel neemt de normen en waarden over die doorschemeren in de teksten waarmee het is getraind. Die normen en waarden zijn cultureel bepaald en niet altijd of niet meer wenselijk, zegt Scharenborg. Om bij de kookmetafoor te blijven: als de kok alleen maar kookboeken met vlees ter beschikking heeft, komt de vegetariër er in zijn restaurant bekaaid vanaf, zelfs als vegetarisme intussen de norm zou zijn.

Zo houdt de kok oude ideeën in stand, net als een taalmodel dat getraind wordt met teksten van internet. Digitale-ethiekexpert Richters: ‘De data waarvan een model leert, komen altijd uit het verleden. Er hebben tot nu toe altijd meer mannen aan de top gestaan dan vrouwen: dat komt dus ook naar voren als je googlet op ‘ceo’.’ Hoewel er een verschuiving gaande is en steeds meer vrouwen topfuncties bereiken, loopt het model achter.

Dat de data online worden verzameld, vertekent ook, aldus Richters. ‘Niet iedereen heeft een internetverbinding en niet iedereen is er even actief. De hardste schreeuwers en de mensen met de meeste macht en het meeste geld, pakken er de meeste ruimte.’

Zou het helpen als de teams die deze taalmodellen maken diverser zouden zijn? Nee, zegt onderzoeker Choenni, zo werkt een taalmodel niet. ‘Er komt geen mens aan te pas bij het verzamelen van die teksten. We kunnen elkaar dus helemaal niet op dingen wijzen; we weten ook eigenlijk helemaal niet zo goed hoe een taalmodel nu precies tot zijn uitkomsten komt. Hooguit kunnen we onze stem laten horen bij het corrigeren van eventuele vooroordelen.’

Rochelle Choenni onderzoekt kunstmatige intelligentie aan de Universiteit van Amsterdam: 'De makers van de modellen moeten zich blijven afvragen: wat hebben we gedaan om vooroordelen te voorkomen?' Beeld
Rochelle Choenni onderzoekt kunstmatige intelligentie aan de Universiteit van Amsterdam: 'De makers van de modellen moeten zich blijven afvragen: wat hebben we gedaan om vooroordelen te voorkomen?'

Haar vakgenoot Scharenborg beaamt dat zelfs de mensen die er dagelijks mee werken niet goed begrijpen wat er allemaal gebeurt in een taalmodel. ‘We weten wel dat het veel beter is in het analyseren van grote hoeveelheden tekst dan mensen. Deels omdat wij vooroordelen hebben, een machine heeft die niet.’ Maar dat ontslaat de onderzoekers niet van hun verantwoordelijkheid voor een goede uitkomst, vindt ze. ‘Het maakt het alleen maar belangrijker om goed te screenen en proberen te begrijpen wat dat model doet. Daar heeft een divers team wel meerwaarde.’

Associaties

Scharenborg noemt recent onderzoek van Choenni en haar collega’s als voorbeeld. Daaruit blijkt dat de stereotypen in de taalmodellen niet rotsvast zijn. Choenni en haar collega’s voegden nieuwe teksten toe aan taalmodellen waarin ze eerder stereotypen waren tegengekomen. Choenni: ‘Als we de modellen trainden met artikelen van het linkse tijdschrift The New Yorker, zag je bijvoorbeeld dat de associaties met ‘police officer’ negatiever werden. Als we artikelen van het rechtse Fox News gebruikten, werden de associaties met ‘police officer’ juist positiever.’ Onderzoek als dit is een belangrijke eerste stap, vindt Scharenborg. ‘Met dit soort gecontroleerde experimenten kunnen we zelflerende taalmodellen beter gaan begrijpen.’

Maar, zegt Choenni, menselijk ingrijpen is niet dé oplossing. ‘Als je bewust bepaalde teksten toevoegt of weglaat, zoals wij deden in dit onderzoek, ga je voor een soort god spelen. Moet je dat wel willen?’ Ook zij vindt dat de makers van de taalmodellen en de zoekmachines verantwoordelijkheid dragen: ‘Zij moeten zich blijven afvragen: wat hebben we gedaan om vooroordelen te voorkomen? En daar moeten ze transparant over zijn tegen de gebruiker.’

Met dat laatste kan een begin worden gemaakt door de gebruikers van de zoekmachine erop te wijzen dat de resultaten die ze zien niet neutraal zijn, maar de uitkomst van ingewikkelde algoritmes waarin niet iedereen gelijk wordt gerepresenteerd. Dat kan al met een simpele pop-up: ‘Disclaimer: wat je ziet op deze pagina is geen correcte representatie van de werkelijkheid’, suggereert Richters. Perfect is het niet, geeft ze toe, want niet iedereen zal er iets mee doen, maar een begin is het wel. ‘Je moet mensen in de gelegenheid stellen om te weten wat er gebeurt onder de motorkap.’

Gaat die disclaimer er komen? Daar wil de woordvoerder van Google niet op ingaan. Dus blijft het voorlopig bij een mentale disclaimer: een stemmetje in het achterhoofd dat de gebruiker bij elke zoekopdracht zachtjes toefluistert dat iederéén verpleegkundige, bouwvakker of ceo kan worden.

Meer over

Wilt u belangrijke informatie delen met de Volkskrant?

Tip hier onze journalisten


Op alle verhalen van de Volkskrant rust uiteraard copyright.
Wil je tekst overnemen of een video(fragment), foto of illustratie gebruiken, mail dan naar copyright @volkskrant.nl.
© 2022 DPG Media B.V. - alle rechten voorbehouden