Onderzoekers zijn vaak te stellig en generaliseren te makkelijk

Psychologen trekken verkeerde conclusies uit verkeerd statisch onderzoek...

Hij deed zijn onderzoek onder psychologen omdat hijzelf psycholoog is. Maar hij denkt dat wetenschappers in andere vakgebieden het niet beter doen. Rink Hoekstra (1977) promoveert 8 oktober aan de Rijksuniversiteit Groningen op het onderzoek The use and usability of inferential techniques.

Kern van zijn verhaal: onderzoekers interpreteren onderzoeksresultaten vaak incorrect en doen daardoor stelliger uitspraken dan ze op basis van hun onderzoek kunnen waarmaken. Dat komt doordat ze zwart-wit-uitspraken doen waar nuanceringen meer op hun plaats zouden zijn, en ze te gemakkelijk resultaten die uit een steekproef zijn verkregen, generaliseren naar een hele populatie.

Grote ‘boosdoener’ in dit proces is de zogeheten significantietoets. Hoekstra: ‘Dat iets statistisch significant is, wil niet zeggen dat het in de praktijk ook relevant is. Zo kan bij een grote steekproef een heel klein effect al tot een significant resultaat leiden, terwijl zo’n klein effect zelden interessant is.’

Significantie wordt vastgesteld aan de hand van een p-waarde, die op basis van de meetresultaten wordt berekend. Hoekstra: ‘Naarmate die p-waarde kleiner is, duidt dat op een grotere kans dat er een effect in de populatie is. In de regel wordt in onderzoek een grenswaarde van 0.05 gehanteerd: een p-waarde van 0.045 wordt dan als significant beschouwd, en een van 0.055 niet. Maar dat is een arbitraire grens.’

In de praktijk is er nooit wel of niet een verschil; er is altijd een bepaalde mate van verschil. Het zwart-witresultaat van een significatietoets moet daarom worden genuanceerd door de effectgrootte te meten. Bereken je die, dan weet je niet alleen dát er een verschil is, maar ook hoe groot het is.

Wil je vervolgens op basis van steekproefresultaten iets zeggen over de effectgrootte van een verschil in een bepaalde populatie, dan kun je daarvoor een betrouwbaarheidsinterval (BI) bepalen.

Hoekstra: ‘Stel bijvoorbeeld dat uit je steekproef blijkt dat mannen en vrouwen 10 centimeter in lengte van elkaar verschillen. Dat betekent niet per se dat dit verschil in de populatie óók precies 10 centimeter is. Zo zegt een 95 procent-BI voor lengteverschillen tussen mannen en vrouwen dat loopt van 8 tot 12, dat je 95 procent zeker bent dat mannen gemiddeld 8 à 12 cm langer zijn dan vrouwen.’

In het handboek voor psychologisch onderzoek wordt een BI bij het rapporteren van effecten sterk aangeraden, maar toch zie je dat wetenschappers dat zelden uitrekenen, zegt Hoekstra. ‘Waarschijnlijk omdat de psychologen die de artikelen beoordelen, ook zijn opgegroeid in een traditie waarin de significantietoets, en dus niet het BI, centraal staat.’

De toets lijkt zelfs aan belang te winnen, omdat onderzoekers hun vragen vaak zó formuleren, dat ze de toets gemakkelijk kunnen toepassen. Significant wordt zo algauw relevant; en dus interessant voor een stukje in de krant.

De lezer die wil opletten of hij niet door opgewonden wetenschappers of journalisten bij de neus wordt genomen, krijgt van Hoekstra de volgende adviezen: ‘Een significant effect betekent niet per se een relevant effect. Bedenk ook dat de afwezigheid van effect in een populatie niet bewezen kan worden op basis van een steekproef. Dat soort claims moet je altijd wantrouwen.’

Meer over

Wilt u belangrijke informatie delen met de Volkskrant?

Tip hier onze journalisten


Op alle verhalen van de Volkskrant rust uiteraard copyright. Linken kan altijd, eventueel met de intro van het stuk erboven.
Wil je tekst overnemen of een video(fragment), foto of illustratie gebruiken, mail dan naar copyright @volkskrant.nl.
© 2020 DPG Media B.V. - alle rechten voorbehouden