Interview

De psychologie van gebrekkig onderzoek

Interview Methodologe Michele Nuijten

Het merendeel van de onderzoeken in de psychologie houdt bij herhaling geen stand. De Tilburgse methodologe en co-auteur van deze schokkende studie Michele Nuijten legt uit waar het misgaat, en hoe het anders kan.

Michele Nuijten. Beeld Adrie Mouthaan

Op een terras van de campus van de Universiteit van Tilburg klapt Michèle Nuijten haar laptop open en wijst naar een reeks punten in een grafiek. Kijk: daar zijn ze nou. Bewijs dat er iets niet lekker zit in de wetenschap, vertelt de promovenda 'menselijke factoren in de statistiek'. In een ideale wereld zouden de punten min of meer op één lijn liggen, legt ze uit. En dat is nu overduidelijk niet het geval. De puntenwolk staat helemaal schuin, alsof hij een scheve bek trekt naar iedereen die denkt dat wetenschap altijd alleen maar de waarheid spreekt.

Achter elke punt in de grafiek, vertelt Nuijten, gaat een psychologisch onderzoek schuil, naar een en hetzelfde fenomeen. En eigenlijk zouden al die onderzoekjes min of meer hetzelfde moeten vinden. Maar dat is niet het geval. Aan de punten zie je het meteen: hoe kleiner het aantal proefpersonen dat men in een studie onderzocht, des te sterker het effect dat men vond. Rara hoe kan dat?

Nuijten weet het wel. Kleine testjes geven meer variatie in de uitkomsten. Gooi maar eens zes keer met een dobbelsteen: je gooit dan heus niet ieder cijfer één keer. De ene keer gooi je wat meer enen, de andere keer meer vieren of zessen misschien. Alleen: in de grafiek die Nuijten toont, zijn alleen de mooie uitkomsten over. Zeg maar de steekproeven waarin men veel zessen gooide. Alsof een onzichtbare hand alle studies die géén mooie uitkomst hadden, heeft weggeveegd.

'Publicatiebias'

Dat is precies wat er is gebeurd, vertelt ze. In de wetenschap zijn het de mooiste uitkomsten die de vakbladen halen - een effect dat in het methodologenlingo 'publicatiebias' heet. Studies die niets bijzonders opleveren, blijven vaak ongepubliceerd. Iedereen wil toch shinen met een mooie ontdekking? Het gevolg is dat de wetenschap mooie en opmerkelijke resultaten voortrekt en een te mooi beeld van de werkelijkheid schetst. Terwijl de 'niets aan de hand'-resultaten, de lelijke eendjes van de wetenschap, onopgemerkt blijven.

Het probleem stond deze week volop in de schijnwerper, nadat een groot herhaalproject van honderd psychologische studies had geleerd dat 60 tot 70 procent bij herhaling met andere proefpersonen en door andere onderzoekers een wezenlijk andere uitkomst oplevert. Een griezelig en inktzwart resultaat, want het kan betekenen dat het meeste onderzoek is gebaseerd op drijfzand. Laat dat eens op u inwerken - het mééste onderzoek. Gebaseerd op toeval en ruis.

En, laat dat duidelijk zijn, de psychologen zijn de enigen niet. Celbiologen die 53 als 'landmark papers' aangemerkte studies uit het onderzoek naar kankermedicijnen herhaalden, vonden maar zes keer dezelfde uitkomst. In de neurobiologie - de 'hersenscan-kunde' - blijkt maar 5 procent van de studies gebouwd op statistisch solide grond. En in de farmacologie, economie, materiaalwetenschap en biochemie komt meer dan 85 procent van alle studies uit op positieve resultaten: ófwel deze wetenschappers zijn écht geniaal, óf het is een teken dat ook hier de minder glanzende uitkomsten ongepubliceerd blijven.

Onbetrouwbaar

Herhalen dus maar die studies, om de effecten te bevestigen? Zo simpel ligt het niet, betoogde Nuijten deze zomer in het vakblad Review of General Psychology. Kijk maar naar de grafiek op haar laptop. De kleine studies zijn zó onbetrouwbaar, dat ze het gemiddelde vervormen. De 'replicatieparadox', noemt Nuijten dat: je kunt een studie overdoen tot je een ons weegt, zo lang de aantallen proefpersonen klein zijn en de mooiste resultaten worden voorgetrokken, zal herhaling een steeds schever beeld van de werkelijkheid geven, in plaats van een accurater beeld.

Vervelend is dat zelfs wetenschappers dat verkeerd aanvoelen. 'Intuïtief denk je al snel: hoe meer replicaties, hoe beter', zegt Nuijten. Ze enquêteerde honderden studenten en wetenschappers, en ontdekte hoe diep dat gevoel zit: 93 procent van de studenten, 84 procent van de sociaal-wetenschappers en 93 procent van de methodologen dacht dat je beter kunt zeggen hoe 'waar' iets is, als het verschijnsel in kwestie wordt bevestigd met een gepubliceerde kleinere vervolgstudie.

En wetenschappers zijn ook maar mensen. Nuijten is er openhartig over: 'Als je een zo goed mogelijke weergave van de werkelijkheid wilt, zou je grote steekproeven nemen, van grote aantallen proefpersonen. Maar we zijn met zijn allen zó gefocust op resultaten. Als je op moet voor een tenure (onderzoeksaanstelling, red.) of je proefschrift moet af, is het strategischer om in plaats van één groot onderzoek met 100 proefpersonen, vijf testjes met 20 proefpersonen te doen. En dan de mislukte experimenten terzijde te schuiven.'

Dat hoort toch niet?

'Ik denk niet dat er een kwade gedachte of onwil achter zit. Een bijzonderheid van de psychologie is dat er enorm veel theorieën en keuzemogelijkheden zijn. In de natuurkunde is je theorie weerlegd als er in een experiment iets anders gebeurt dan verwacht. Maar in de psychologie is er dan vaak wel een andere theorie waarmee je uitkomst wél te rijmen valt. Dus is de kans groot dat je zegt: ik zal wel iets fout hebben gedaan. Het experiment is mislukt, maar wacht, het regende die dag. Vanuit de wetenschap is het allemaal te rechtvaardigen.'

Michèle Nuijten

Michèle Nuijten (Utrecht, 1990) studeerde cum laude af in de psychologie aan de Universiteit van Amsterdam en doet sinds 2012 promotieonderzoek naar de menselijke factoren van statistiek, bij de afdeling methodologie van sociale- en gedragswetenschappen aan de Universiteit van Tilburg. Ze is co-auteur van de grote psychologische replicatiestudie die vorige week verscheen in Science.

Het klinkt wel erg vergoelijkend voor de psychologie.

'In elk onderzoeksveld waar statistiek een rol speelt, spelen dit soort effecten. Wat dat betreft is de psychologie een beetje de zondebok. Maar het is dan ook een buitengewoon moeilijk veld. Mensen zijn supervariabel. Je kunt niets direct meten, alles moet via een omweg. Een verschijnsel als depressie kun je op talloze verschillende manieren meten. Ik merk het zelf ook. Ik ben de hele dag met dit onderwerp bezig, en nóg moet ik soms uitkijken dat ik niet denk: wacht eens, achteraf gezien kan ik mijn onderzoeksuitkomsten misschien beter op die en die manier analyseren.'

Wat moet er in uw optiek gebeuren om de problemen op te lossen?

'Openheid van zaken is denk ik het allerbelangrijkste. Werk zo dat andere mensen het nog kunnen narekenen, want daar gaat het uiteindelijk om: dat we achter de waarheid komen.

'Ik denk dat er, zeker sinds de affaire-Stapel, overigens al veel is veranderd. Hier in Tilburg is het inmiddels verplicht om je meetgegevens op een centraal punt op te slaan. Daarnaast zijn er steeds meer vakbladen met preregistratie: voordat je gaat beginnen met meten stuur je je hele onderzoeksopzet op. Die wordt beoordeeld en als men akkoord is, wordt je onderzoek geplaatst, ongeacht de uitkomst van je metingen.'

Test uw statistische instinct

Zelfs wetenschappers trappen vaak in de vele tegen-intuïtieve valkuilen die de statistiek rijk is, betoogt methodologe Michèle Nuijten. Probeert u het zelf eens.

1 Een bepaald psychologisch verschijnsel is in twee laboratoria onderzocht, met telkens zes experimenten op groepjes van 20 personen. In laboratorium A leverden alle zes de experimenten bewijs voor het verschijnsel. In laboratorium B maar vier. Welk onderzoek vertrouwt u het meest?

2 U bent dokter en wilt van een behandeling weten hoe effectief ze is. De behandeling is onderzocht bij 200 patiënten. Maar binnenkort verschijnt de uitkomst van een replicatiestudie bij nog eens 40 patiënten. Is het slim als u daarop wacht?

3 U heeft een experiment bedacht om een bepaald psychologisch verschijnsel te onderzoeken. Al na tien proefpersonen blijkt uit de cijfers dat het effect bestaat. Mag de fles champagne al open?4 Effect X wordt aangetoond in maar liefst vijf onderzoeken. In al die onderzoeken is de kans dat de bevinding toeval is, iets kleiner dan een op twintig (p < 0,05, in jargon; bij p = 0 is het effect er zeker). Kunt u er nu van op aan dat X echt bestaat?

4 Effect X wordt aangetoond in maar liefst vijf onderzoeken. In al die onderzoeken is de kans dat de bevinding toeval is, iets kleiner dan een op twintig (p < 0,05, in jargon; bij p = 0 is het effect er zeker). Kunt u er nu van op aan dat X echt bestaat?

Veel wetenschappers zeggen: het komt door het systeem. De publicatiedruk. Wetenschappers moeten scoren.

'Tja, ik snap wel waarom men kwantiteit als maat van kwaliteit heeft genomen. Dat is makkelijk te tellen. De hamvraag is: kun je kwaliteit ook anders meten? Er zijn wel ideeën om bij beursaanvragen niet al je artikelen mee te sturen, maar alleen de drie beste. Er zijn zelfs mensen die een quotum voorstaan: je mag maar twee artikelen per jaar publiceren. Of misschien moeten we een soort methodologische checklist hanteren. Het vakblad Psychological Science experimenteert met een systeem waarbij je letterlijk stickers kunt verdienen: als je de data deelt of je studie hebt gepreregistreerd bijvoorbeeld. Dat klinkt heel erg groep 3, maar het is denk ik slim. Reken maar dat je niet de enige zonder sticker wil zijn.'

Hoe kun je als gewone burger inschatten welk onderzoek nog te vertrouwen is?

'Als je weinig van statistiek weet, is denk ik de beste vuistregel om je af te vragen: bij hoeveel mensen is dit eigenlijk onderzocht? Duizenden, of hebben ze het getest op vier kinderen? En bedenk daarbij: hoe subtieler het effect dat ze onderzoeken, des te grotere steekproef men nodig heeft om er iets over te zeggen. Overigens zou ik, als het gaat om beslissingen die van belang zijn voor je dagelijks leven, sowieso nooit blindelings afgaan op iets dat je ergens leest: onderzoek wijst uit dat.'

Hoe is het eigenlijk met uzelf? Het lijkt me op feestjes lastig uit te leggen dat u werkt in een veld waarin aan zes op de tien resultaten een luchtje zit.

'Ik ben zelf methodoloog, dus ik heb er weinig last van. En daarnaast heb ik in mijn vriendenkring veel jonge onderzoekers. Die zijn vooral positief. Dat we dit enorme replicatieproject van de grond hebben gekregen, dat zo ontzettend veel wetenschappers hieraan onbaatzuchtig hebben meegedaan... Het is echt een grote stap voor de wetenschap, en zo voelen de mensen om mij heen dat ook.'

Antwoorden test uw statistische instinct

1 Laboratorium B. Bij kleine proeven is de kans dat zes experimenten achter elkaar positief uitpakken heel klein. 'Stel dat je effect echt bestaat', zegt Nuijten, 'dan nog is het erg onwaarschijnlijk dat je het met al die experimenten oppikt. Daarvoor zijn de studies gewoon niet sterk genoeg.'

2 Nee. De replicatiestudie is zo klein dat de uitkomst niet erg betrouwbaar is en vermoedelijk is vervormd door publicatiebias (zie tekst). Als u de uitkomst meerekent, vervuilt dat de uitkomsten van de grotere studie, in plaats van dat het die aanvult.

3 Nee. Bij zo'n laag aantal proefpersonen is de kans dat u te maken heeft met toeval levensgroot. Over 100 proefpersonen kan het effect heel goed weer zijn verdwenen.

4 Nee, integendeel. Als X echt bestaat, is het zo goed als uitgesloten dat álle vijf onderzoeken precies dezelfde toevalskans vinden. Nuijten: 'Als er een effect is, moeten heel veel p-waarden bij de nul zitten, en maar heel weinig in de buurt van die 0,05. En dat is niet wat je ziet.'

Meer over

Wilt u belangrijke informatie delen met de Volkskrant?

Tip hier onze journalisten


Op alle verhalen van de Volkskrant rust uiteraard copyright. Linken kan altijd, eventueel met de intro van het stuk erboven.
Wil je tekst overnemen of een video(fragment), foto of illustratie gebruiken, mail dan naar copyright@volkskrant.nl.