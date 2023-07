Mark Dingemanse is als wetenschapper werkzaam aan de Radboud Universiteit. Beeld Jiri Buller / de Volkskrant

Schrijf een voorstel voor een speech. Maak een samenvatting van deze tekst. Stel een beleefde mail op aan een ontevreden klant. Bijna iedereen kent inmiddels ChatGPT als hulpmiddel. En, vooruit, misschien ook concurrent Bard van Google. Maar de wereld kent veel meer van dit soort programma’s, die in de basis allemaal hetzelfde werken. De achterliggende taalmodellen zijn getraind met gigantische hoeveelheden teksten, waarna de programma’s op basis van een instructie van de gebruiker nieuwe teksten genereren.

Anders dan ChatGPT zijn veel van die alternatieven open source, wat wil zeggen dat de broncode publiekelijk beschikbaar is en iedereen deze mag gebruiken of aanpassen. Andreas Liesenfeld, Alianda Lopez en Mark Dingemanse van de Radboud Universiteit vergeleken deze programma’s en vroegen zich af hoe open en transparant ze écht zijn. En ook al is ChatGPT (net als bijvoorbeeld Bard) geen open source, ze namen de marktleider ter vergelijking ook in de studie mee. Taalwetenschapper Dingemanse ziet een ‘zorgelijke trend’.

Over de auteur

Laurens Verhagen schrijft voor de Volkskrant over technologie, internet en kunstmatige intelligentie. Daarvoor was hij onder andere hoofdredacteur van nu.nl.

Waarom dit onderzoek?

‘De komst van ChatGPT zette de afgelopen maanden de wereld op zijn kop. Automatisch teksten genereren blijkt voor veel mensen aantrekkelijk. Het probleem is dat niemand precies weet hoe het achterliggende model in elkaar zit. Openheid is cruciaal voor wetenschappelijk onderzoek en uiteindelijk ook voor het bouwen van betrouwbare AI. Wat zijn de beperkingen en de risico’s van dergelijke systemen? Hoe komen ze tot hun antwoorden? Met welke teksten zijn ze precies getraind? Als we echte vooruitgang willen boeken, hebben we open alternatieven nodig.’

Iedereen, zelfs OpenAI (het bedrijf achter ChatGPT) schermt met de term ‘open’. Maar open is dus niet altijd open?

‘Klopt. We keken naar verschillende aspecten van openheid. Bij ‘open code’ gaat het bijna altijd goed. Dat betekent dat ik op eigen houtje de code kan inspecteren. Maar er is veel meer. Is bijvoorbeeld duidelijk welke trainingsdata zijn gebruikt? Begin dit jaar jubelde OpenAI dat de laatste versie van ChatGPT met succes een juristenexamen kon afleggen. Maar misschien is het model wel met juristenexamens getraind, en dan is het ineens een stuk minder indrukwekkend.

‘Het probleem is dat we dat niet kunnen controleren. OpenAI doet daar heel geheimzinnig over, vermoedelijk uit angst voor nog meer rechtszaken. Nu al klagen diverse auteurs en consumenten over het gebruik van hun teksten in de trainingsdata. De meeste open source-programma’s zijn gelukkig wel transparant op dit punt, wat overigens het auteursrechtprobleem nog niet wegneemt.’

Een deel van de tabel van de Radboud Universiteit, die voortdurend wordt aangevuld met nieuwe modellen. Beeld Radboud Universiteit

Toch zie ik ook ook bij de open source-programma’s soms slechte waarderingscijfers. Waar gaat het fout?

‘Hebben de makers hun code en keuzes over de gebruikte softwarearchitectuur goed gedocumenteerd? Lang niet altijd, want het kost veel tijd. Wat verder geen enkel project goed doet: het publiceren van wetenschappelijk onderzoek over hun taalmodel. Ook dit heeft met haast te maken: niemand wil achterblijven. Een blogpost is blijkbaar genoeg. Het is een zorgelijke trend, want op die manier is er geen kwaliteitscontrole door andere wetenschappers.’

Op de mysterieuze afkorting RLHF scoren de chatprogramma’s ook slecht. Wat is dat?

‘RLHF staat voor Reinforcement learning from human feedback. De modellen hebben nog altijd veel menskracht nodig. RLHF zorgt ervoor dat chatbots vloeiend werken. Ze konden al veel langer coherente tekst uitspuwen, maar in de interactie voelden ze stroef. Precies voor dat aspect zijn mensen nodig. Zij krijgen telkens verschillende antwoorden van een chatbot voorgeschoteld, en moeten dan aangeven welk antwoord het beste is. Arbeidsintensief handwerk, maar uiterst belangrijk. Vergelijk het met het tuitje dat banketbakkers gebruiken om room te spuiten. Zonder tuitje wordt het een bende. Bij alle modellen is niet duidelijk genoeg hoe dit onderdeel er precies uitziet.’

Bovenaan jullie ranglijst staat Bloomz. Wat is dat?

‘Ik ben daar erg van onder de indruk. Het is het resultaat van een enorme Europese samenwerking, BigScience genaamd. Dit collectief bouwde het meest open model en geeft als enige ook duidelijk inzicht in de energiekosten van dit soort modellen.’

Kan zo’n open model in de praktijk concurreren met ChatGPT?

‘Daar ben ik niet primair in geïnteresseerd. Ik voel me wat dat betreft een beetje zoals een sportwetenschapper bij een tour waarin ook Lance Armstrong meedoet. Het heeft weinig zin om je af te vragen hoe anderen het doen ten opzichte van hem als je niet weet wat hij allemaal inneemt. Als wetenschapper wil ik vooral weten hoe het onder de motorkap werkt en wat we ervan kunnen leren over de taal en de mens, niet of ik de hoogste score eruit kan persen. Alleen op dat diepere begrip dat fundamenteel onderzoek levert kun je vervolgens verder bouwen.’

Doet ChatGPT helemaal niets goed?

‘Ik heb daar best ontzag voor, maar op een cynische manier. De infrastructuur van ChatGPT is vanaf het moment dat OpenAI zich op het grote publiek richtte, november vorig jaar, ingericht op het oogsten van zoveel mogelijk van onze collectieve intelligentie, zonder deze vervolgens met de rest van de wereld te delen. De hoeveelheid verse data die ze ermee kunnen binnenharken, is ongeëvenaard. Standaard bewaart OpenAI bijvoorbeeld de chats die je met ChatGPT hebt. Ook vragen ze je om duimpjes omhoog of omlaag te geven als feedback. Dat is heel slim gedaan.’

Verlies je het uiteindelijk niet van de Googles en OpenAI’s?

‘Kwaliteit zonder openheid is niets waard. We hopen dat ons onderzoek een steentje bijdraagt aan een veel breder programma van wetenschappers die kritisch en bewust omgaan met deze technologie. Volgens mij is dat ook de kracht van wetenschap: dat we samen een vuist kunnen maken. We moeten ons ook niet laten opjagen door alle ontwikkelingen. ChatGPT is vanwege de gesloten aard en het winstoogmerk ongeveer de slechtste keuze die je momenteel kunt maken als je een chatbot verantwoord wilt gebruiken in onderzoek, onderwijs, of waar dan ook.’