Herhaal en faal: psychologie zit in een crisis

Crisis in de psychologie: het ene na het andere gevonden effect sneuvelt als een onderzoek wordt herhaald. Toch zegt dat lang niet altijd iets.

'Het behoud van onze goede reputatie is een evolutionair diepgeworteld motief dat zelfs op subtiele wijze, via een paar papieren ogen, geprikkeld kan worden', aldus Paul van Lange. Beeld Stefan Glerum

De psychologie zit in een diepe dip. Want als onderzoekers studies van anderen overdoen, levert dat slechts in vier van de tien gevallen hetzelfde resultaat op. Wat is dat voor flutwetenschap? Het ene na het andere psychologische inzicht lijkt te verkruimelen waar we bij staan, kopte (ook) de Volkskrant. Is het echt zo erg?

Als leek verwacht je dat experimenten die herhaald worden, altijd dezelfde uitkomst hebben als de oorspronkelijke studie. Dat is een illusie. Niet alleen in de psychologie. Een ballon die je vanaf grote hoogte naar beneden laat zeilen, zal er nooit precies even lang over doen om de grond te raken. Zelfs niet als je wacht tot de weersomstandigheden nagenoeg gelijk zijn.

Het is realistischer om te verwachten dat herhaalonderzoek in pakweg 70 procent van de gevallen dezelfde uitkomst oplevert. De meeste wetenschap werkt immers niet met absolute zekerheden, maar met waarschijnlijkheden. Dus ook herhaalonderzoek is niet 100 procent betrouwbaar. Dat verkleint sowieso de kans op een precieze herhaling. Maar er is meer aan de hand dan statistiek en kansberekening.

Een experiment minutieus herhalen is lastiger dan je denkt. Zelfs in de exacte wetenschappen. Proefmuizen die in een lekker warm laboratorium wonen, reageren anders op een medicijntest dan wanneer ze zitten te vernikkelen bij 18 graden. Ook hun voedsel doet ertoe, de lichtsterkte in het lab en ga zo maar door. Allemaal zaken waar pillenonderzoekers nog niet zo lang rekening mee houden - omdat ze het niet wisten. In natuurwetenschappelijk onderzoek kunnen onbenulligheden als een ander merk schroefje waarmee de instrumenten in elkaar zijn gezet al verschil maken.

Grillig gedrag

In de psychologie is het exact kopiëren van onderzoek extra lastig, omdat de mens het moeilijkste onderzoeksobject is dat er is. Gedrag is per definitie grillig en makkelijk beïnvloedbaar door, bijvoorbeeld, een echtelijke ruzie, buikpijn of een doorwaakte nacht.

Om dicht bij het oorspronkelijke onderzoek te blijven, gebruiken herhaalonderzoekers zo veel mogelijk dezelfde onderzoeksopzet en materialen. Dat was de Tilburgse emotiepsycholoog Ad Vingerhoets ook van plan toen hij in 2011 een Israëlisch experiment ging herhalen waarin was aangetoond dat vrouwentranen feromonen bevatten die mannen de seksuele lust ontnemen. Maar de vrouwenfoto's waarmee de seksuele appetijt werd gemeten, waren volgens de Nederlandse proefpersonen zo onaantrekkelijk dat hun lustgevoel al op nul zat nog vóór ze ook maar een vrouwentraan hadden geroken.

Dus gebruikte Vingerhoets foto's van dames - ook nog deels ontkleed - die de deelnemers wel aantrekkelijk vonden. Na vier mislukte replicatiepogingen gaf Vingerhoets het op. In vrouwentranen zit volgens hem geen stofje waardoor mannen niet meer opgewonden kunnen raken. Het leverde hem een fikse ruzie met de Israëliërs op. Als Vingerhoets zijn werk goed had gedaan, had hij zeker effect gevonden, vonden ze in Israël. Zo redeneren veel ontgoochelde wetenschappers van wie werk niet met succes gereproduceerd kan worden.

Deze bevindingen uit de psychologie zijn in elk geval onomstreden

- Vriendschap is essentieel voor mentale en fysieke gezondheid.
- Sociale uitsluiting (ook milde vormen daarvan) doet pijn.
- Empathie is een belangrijke drijfveer om te helpen.
- De wens om een goede reputatie in stand te houden bevordert wenselijk gedrag.
- De meesten van ons hebben een onrealistisch positief beeld van zichzelf, hun relatie en hun eigen groep.
- Negatieve informatie beklijft beter dan positieve.
- Veel mensen gaan er - ten onrechte - vanuit dat anderen alleen uit zijn op eigen belang en financieel gewin.

Achttal voorwaarden

Maar wat is de zeggingskracht van een experiment als het effect alleen behaald kan worden onder een achttal voorwaarden, waaronder 1. met foto's van Amerikaanse vrouwen, 2. in een speciaal laboratorium voor geuronderzoek, 3. uitgevoerd in de ochtenduren, 4. met huilende vrouwen die geen make-up dragen en 5. hun tranen eerst over de wangen laten biggelen alvorens ze op te vangen in een potje.

'Als je zó veel moet doen en nalaten om een bepaald effect te bereiken, zegt het weinig of niets over de rauwe werkelijkheid', vindt cultuurpsycholoog Ruud Abma van de Universiteit van Utrecht. Daar is hoogleraar psychologie Paul van Lange van de VU het niet mee eens. 'Soms is men in de psychologie op zoek naar subtiele effecten en die worden makkelijk tenietgedaan door andere subtiele veranderingen in de omgeving. Hoe kleiner het resultaat, des te kleiner de kans dat het repliceert. Wat ook meespeelt is dat er voor menselijk gedrag vaak vele oorzaken met elkaar concurreren. Kleine veranderingen in de omgeving kunnen dat proces beïnvloeden met een andere uitkomst tot gevolg.'

Als voorbeeld noemt Van Lange een studie uit de evolutionaire wetenschappen: 'Eyes wide open'. Een werkgever zet bij de koffieautomaat een doos voor een vrijwillige bijdrage voor de melk. De werknemers gooien daar meer geld in als er een poster in de buurt hangt met daarop een paar ogen dan wanneer er een poster met bloemen hangt. Vreemde ogen dwingen, zo luidt de theorie. 'Het behoud van onze goede reputatie is een evolutionair diepgeworteld motief dat zelfs op subtiele wijze, via een paar papieren ogen, geprikkeld kan worden', aldus Van Lange.

'Ogen-effect'

Anders gezegd: als we ons bekeken voelen, gedragen we ons meer in overeenstemming met fatsoensnormen. Dat is een betrekkelijk klein effect. En kleine effecten laten zich moeilijker repliceren. Essentieel zijn de condities waaronder het zich voordoet, aldus Van Lange, die enkele variaties van deze studie uitvoerde. Bijvoorbeeld: als de ogen wegkijken, worden mensen niet vrijgeviger en treedt het 'ogen-effect' niet op.

Misschien willen we te graag psychologische wetmatigheden blootleggen die altijd en overal opgaan. 'Daar zijn er niet zoveel van', denkt Abma. Het is tijd om wat pretenties te laten varen, vindt hij. 'Ik denk dat onderzoekers niet zozeer universele claims moeten doen, maar moeten laten zien onder welke omstandigheden zich de effecten voordoen - en onder welke niet.'

Volgens Van Lange gebeurt dat allang, maar in het publicitaire geweld rond wetenschappelijke bevindingen sneuvelt vaak de notie dat de uitkomst voorwaardelijk is.

Neem het beroemde gehoorzaamheidsonderzoek van Stanley Milgram uit 1963 waarin proefpersonen de opdracht krijgen 'leerlingen' die foute antwoorden geven te straffen met (fatale) stroomstoten. Wat van de uitkomst is blijven hangen, is dat 65 procent van de proefpersonen tot het uiterste ging. Maar het boeiende aan de studie was vooral onder welke voorwaarden dat gebeurde. Als de proefpersoon het slachtoffer kende of met hem in dezelfde ruimte zat, daalde de animo om iemand onder stroom te zetten enorm. Zelfs de kleding van de onderzoeksleider deed ertoe. Als hij een witte jas droeg, nam de gehoorzaamheid toe.

Tekst gaat verder onder het videofragment

Als we ons bekeken voelen, gedragen we ons meer in overeenstemming met fatsoensnormen. Beeld Stefan Glerum

'Iets' verrassends

Er is nog een reden waarom je geen replicatiesucces van 100 procent kunt verwachten. In tijdschriften staan vooral studies die 'iets' gevonden hebben, liefst iets verrassends. Stel dat het fenomeen van die vrouwentranen tien keer is onderzocht waarbij er acht keer geen effect optreedt en twee keer wel. Dan wordt doorgaans alleen het onderzoek-met-effect gepubliceerd. De kans dat zo'n verrassend effect bij herhaalonderzoek opnieuw gevonden wordt is natuurlijk klein. Je hebt meer kans op succes als je de acht studies-zonder-effect repliceert.

Het roept de vraag op: zijn al die replicatieprojecten zelf eigenlijk wel goede wetenschap? Er wordt volop gesteggeld over methoden en statistiek, en over de wijze waarop men studies voor replicatie selecteert.

Onderzoekers van de New York University legden vorige maand in tijdschrift PNAS de vinger op een andere gevoelige plek. Uit hun analyses blijkt dat het een bepaald soort experimenten is dat weinig kans maakt dezelfde uitkomst te genereren bij herhaling. Namelijk experimenten die gevoelig zijn voor cultuur, religie, huidskleur, locatie (stad/platteland), tijdsgewricht en economische omstandigheden. 'Contextgevoeligheid doet ertoe', heet het artikel waarin wordt geopperd dat de replicatiecrisis minder groot is dan hij lijkt.

Een voorbeeld van een contextgevoelige studie is het beroemde priming-experiment van John Bargh van de universiteit van Yale uit 1996. Daarin gingen mensen langzamer lopen als ze een woordspelletje hadden gedaan met termen die gekoppeld zijn aan oud, zoals 'grijs', 'eenzaam', 'bingo' en 'Florida'. Door die woorden waren ze (onbewust) in een bepaalde geestesgesteldheid gebracht ('geprimed').

Context

Belgische en Britse psychologen die het experiment een kwart eeuw later herhaalden, vonden dat effect niet. 'Misschien niet zo gek', zegt cultuurpsycholoog Abma, 'Europeanen zijn geen Amerikanen. Maar vooral: in de tussenliggende 25 jaar zijn we de term oud eerder gaan associëren met actieve senioren dan met mensen die met één been in het graf staan. Eigenlijk kun je ruim twintig jaar later niet hetzelfde resultaat verwachten.' Termen als bingo en Florida roepen in de VS bovendien meer associaties op met ouderen dan in Europa.

Vier op de tien experimenten die worden overgedaan in de psychologie, leveren niet hetzelfde resultaat op. Dat wil niet automatisch zeggen dat de onderliggende fenomenen niet bestaan. Neem priming. Het spraakmakende experiment van Bargh moet misschien geschrapt uit de lesboeken, maar het verschijnsel zelf niet. Geen enkele wetenschapper betwijfelt dat sociale informatie ons gedrag kan beïnvloeden, zonder dat we het in de gaten hebben. De vraag is alleen: onder welke voorwaarden werkt priming?

Context doet er overigens ook in andere disciplines toe, benadrukte de hoogleraar methodologie Hans Philipsen eind vorig jaar op zijn blog. In het gezondheidsonderzoek werden vroeger heldere effecten gemeten van (beweeg)programma's op cholesterol. Nu niet meer. Dat komt niet doordat het oude onderzoek niet deugt, maar omdat mensen nu meer bewegen dan vroeger en werk maken van hun cholesterol.

Minder dramatisch dan het lijkt

Terug naar de psychologie. Een score waarbij slechts 40 procent van de experimenten die worden overgedaan hetzelfde effect laten zien, is dus minder dramatisch dan het lijkt. Maar dat het percentage omhoog moet, staat buiten kijf. Tijdschriften eisen grotere steekproeven. Over de kwaliteit van de statistiek wordt volop gedebatteerd: het meten van subtiele effecten vereist een andere benadering.

Want als je statistisch kunt aantonen dat proefpersonen boven kansniveau kunnen voorspellen waar op het computerscherm een erotische afbeelding zal verschijnen, zoals Daryl Bem van de Universiteit van Cornell in 2011 voor elkaar kreeg, dan deugt je statistiek niet. Toen Nederlandse collega-psychologen er betere (conservatievere) statistiek op los lieten, verdween het effect als sneeuw voor de zon. Veel psychologen realiseren zich nu beter dat het statistische onderscheidingsvermogen van de gemiddelde studie in de psychologie laag is: pakweg 50 procent. Dat betekent dat als er een effect gevonden wordt, de kans dat je dit de volgende keer níét aantoont, 50 procent is. En dat het daarom tijd is voor aanscherping van de methoden.

De psychologie zit in een crisis. Maar als het om replicaties gaat, scoren psychologen beter dan menig ander vakgebied. Van de laboratoriumstudies naar nieuwe medicijnen kan maar 11 tot 25 procent met succes worden herhaald. Daar hoort u veel minder over. De farmaceutische industrie gaat er niet publiekelijk over discussiëren. Dat psychologen dat wel doen, betekent niet dat psychologisch onderzoek niet deugt. Hoewel ze zichzelf ook kwetsbaar maken, door te willen bewijzen dat mensen in de toekomst kunnen kijken.

Recent replicatie-rumoer: koekje erbij?

Wilskracht als een spier die uitgeput kan raken: een recent groot herhalingsonderzoek haalt het fenomeen onderuit.

'Heb ik dan al die jaren rookwolkjes nagejaagd?' blogde een wanhopige Michael Inzlicht van de universiteit van Toronto, toen begin dit jaar duidelijk werd dat het fenomeen ego-depletion, waar hij tien jaar van zijn werkzame leven aan heeft gewijd, niet gerepliceerd kan worden. Ego-depletion wil zeggen dat wilskracht te vergelijken is met een spier. Een spier die vermoeid en uitgeput kan raken. Het klinkt heel aannemelijk, dat aan onze zelfbeheersing een grens zit. Dat we vatbaarder zijn voor verleidingen van snoep of sigaretten als we vermoeid zijn door eerdere mentale uitdagingen.

De pionier van deze theorie, de Amerikaan Roy Baumeister, zette in 1998 een aantal proefpersonen met een lege maag in ofwel een ruimte vol versgebakken chocoladekoekjes ofwel een ruimte met radijsjes. Er mocht niet van de koekjes en radijsjes worden gegeten. Toen beide groepen daarna (onoplosbare) puzzels moesten oplossen, haakten de mensen uit de koekjesgroep eerder af: ze hadden hun wilskracht verbruikt aan het weerstaan van de koekjes.

Het fenomeen is vaak onderzocht. Meestal kwam het effect eruit. Soms niet. Twee Australische psychologen namen daarom twee jaar geleden het initiatief om 23 universiteiten allemaal hetzelfde, vooraf vastgelegde onderzoek naar ego-depletion te laten doen - met behulp van een gestandaardiseerde computertaak om het onderzoek minder gevoelig te maken voor 'ruis'. Over de opzet werd vooraf overlegd met de expert Baumeister.

Conclusie van het project: als ego-depletion bestaat, is het een klein effect, dicht bij nul. De uitkomst wordt deze zomer gepubliceerd in Perspectives on Psychological Science, maar staat nu al in ruwe vorm op internet.

Onderzoeker Inzlicht viel in een 'zwart gat', blogde hij. 'Het is alsof de grond onder mij vandaan schuift en ik niet langer weet wat echt is en wat niet.' Roy Baumeister heeft spijt van zijn medewerking aan het replicatieproject. Hij gaat de replicatie aanvechten. Wordt vervolgd.

Meer over

Wilt u belangrijke informatie delen met de Volkskrant?

Tip hier onze journalisten


Op alle verhalen van de Volkskrant rust uiteraard copyright. Linken kan altijd, eventueel met de intro van het stuk erboven.
Wil je tekst overnemen of een video(fragment), foto of illustratie gebruiken, mail dan naar copyright@volkskrant.nl.