Waarom statistici willen dat de wetenschap strenger wordt

De p-waarde, de kans dat een resultaat toeval is, moet kleiner

Tig keer achter elkaar kop gooien, kan dat nog toeval zijn? Tot nog toe wist iedere wetenschapper hoe je dat bepaalt. Maar nu moet alles anders.

Foto Noël Loozen

Een opstand? Och, zegt statisticus Casper Albers van de Rijksuniversiteit Groningen nuchter, dat is misschien ook weer wat overdreven. 'Op Twitter lijkt het inderdaad of we elkaar de tent uit vechten, maar daar is alles heftiger dan in het echte leven. Zó ver liggen de opvattingen ook niet uit elkaar', zegt hij aan de telefoon.

Dat neemt niet weg dat Albers een van de duidelijkste stemmen is in een wereldwijd debat onder statistici en methodologen, dat dezer dagen tot een voorlopig hoogtepunt lijkt te komen. Hij is helder. Zakelijk. Ook voor niet-statistici goed te volgen. En hij heeft een simpel motto: gebruik in geval van statistiek vooral zelf je verstand.

Vorige week reageerde Albers met een groep internationale collega's scherp op een artikel van tientallen andere vooraanstaande statistici, dat deze zomer verscheen. Dat artikel ging over een ogenschijnlijk simpele kwestie: wanneer besluit je dat het resultaat van een proef of test echt iets betekent en wanneer zou het ook stom toeval kunnen zijn?

De boodschap was een heldere: onderzoekers moeten veel strenger voor zichzelf zijn. In technische termen: de kans dat een gepubliceerde bevinding op toeval berust, mag niet 5 procent zijn, zoals al sinds mensenheugenis de afspraak in de wetenschap is, maar tienmaal kleiner. Een half procent kans dat een resultaat op toeval zou kunnen berusten. Een p-waarde kleiner dan 0.005, heet dat in jargon (wiskundigen definiëren kansen tussen 1 en 0).

Op die manier zullen wetenschappelijke tijdschriften niet langer volstaan met toevalstreffers, de media niet voortdurend ontdekkingen en doorbraken melden die later niet waar blijken, waardoor geen nieuwe geneesmiddelen op de markt komen die toch niet blijken te werken als puntje bij paaltje komt.

Het artikel, waarin de p-waarde van minder dan een half procent als nieuwe norm wordt geïntroduceerd, was nadrukkelijk bedoeld als een steen in de vijver van de statistiek. Het verscheen op 22 juli met 72 prominente namen erboven. Grote wetenschapsbladen als Nature en Science schreven er direct flinke nieuwsstukken over. Een revolutie, was de teneur, grappend wel p-volutie genoemd. De wetenschap stelt orde op zaken.

Terecht, zegt de Amsterdamse psycholoog en hoogleraar methoden Eric-Jan Wagenmakers, een van de auteurs, over al die aandacht. Het raakte het hart van wat hij de reproduceerbaarheidscrisis in de wetenschappen noemt, het probleem dat meer en meer wetenschappelijke publicaties bij nader inzien toch niet blijken te kloppen. Wanneer tests of experimenten worden overgedaan, komen er opeens geen overtuigende resultaten meer uit. Niet omdat er eerst iets fout was gedaan, maar omdat het eerste resultaat toch gewoon toeval was.

Lachen om 0.05

Lang niet in alle wetenschappelijke vakgebieden geldt dat een p-waarde van 5 procent afdoende bewijs is voor een nieuwe ontdekking. Deeltjesfysici lachen bijvoorbeeld om de suggestie dat daarmee iets te bewijzen zou zijn.

Voor de ontdekking van het befaamde higgsdeeltje in deeltjeslab CERN was in 2012 een p-waarde van 1 op de 3,5 miljoen nodig, voor niemand meer twijfelde. Overigens is zoiets voor de meeste sociale wetenschappen totaal niet haalbaar, erkende deeltjesonderzoeker Ivo van Vulpen van het Nikhef (Nationaal instituut voor subatomaire fysica) vorige week in het weekblad De Groene Amsterdammer. Voor zo'n lage p-waarde zijn biljoenen deeltjesbotsingen nodig. Psychologen en medici mogen met duizenden proefpersonen of patiënten al blij zijn.

Die reproduceerbaarheidscrisis werd tien jaar geleden aangezwengeld door de onvermoeibare Amerikaanse epidemioloog John Ioannidis, sindsdien een wereldberoemde luis in de pels van de wetenschappen. De meeste gepubliceerde resultaten zijn fout, schreef Ioannidis.

Maar waardoor dan? Doordat we te snel roepen dat er iets is ontdekt, dringt sindsdien tot steeds meer wetenschappers door. Te vaak worden voorlopige uitschieters in een test of experiment aangezien voor the real thing, en om die reden ook gepubliceerd. Kernpunt van de huidige discussies is dat uitgerekend de statistiek, vak van precisie, dat te gemakkelijk laat gebeuren. Veel onderzoekers zijn geen statisticus, die raadplegen een expert of gebruiken standaardsoftware als het statistiekpakket SPSS. Als daar een aanvaardbare p-waarde uitrolt, kan de vlag uit en het beoogde artikel de deur uit. Minder dan 5 procent? Champagne!

Een voorbeeld figureerde eerder in Nature. De jonge Amerikaanse psycholoog Matt Motyl ontdekte dat politiek gematigde mensen letterlijk meer kleuren grijs kunnen zien dan extreem linkse of rechtse mensen. Hij haalde dat opmerkelijke resultaat, met een p-waarde van 0.01, uit zijn proefjes met 2000 proefpersonen. Het kennelijk significante resultaat was al bijna aangeboden bij een vooraanstaand tijdschrift toen de reproduceerbaarheidscrisis uitbrak en Motyl besloot de studie toch nog eens over te doen. De nieuwe poging gaf vergelijkbare patronen. Maar nu met een p-waarde van 0.59. De kans dat de bevindingen toeval waren, was dus bijna 60 procent. Weg studie. Weg publicatie, behalve wat later als afschrikwekkende casestudy in een artikel van Motyls promotor Brian Nosek.

Wat is er precies mis? Eigenlijk, zegt methodoloog Eric-Jan Wagenmakers van de UvA, is het heel geleidelijk misgelopen met de wetenschap. In de jaren dertig van de vorige eeuw stelde de Brits-Australische statisticus Robert A. Fischer voor dat een onderzoeksuitslag pas relevant zou moeten heten als de kans kleiner dan 5 procent is dat die toeval is. Omdat het dan vermoedelijk geen toeval is. 'Wat Fischer zei was: als je een paar keer onder de 5 procent uitkomt, kun je een wat hardere uitspraak doen. Maar gaandeweg is dat tot gouden regel verheven: p kleiner dan punt nul vijf is goeie wetenschap.' Iedere getrainde onderzoeker, zegt Wagenmakers ook, weet dat dat eigenlijk te ruim is. 'Maar mensen gedragen zich nu eenmaal naar de regels van het spel.'

Het vergde een crisis om de wetenschap wakker te schudden. Mensen als Ioannidis lieten zien dat een aanzienlijk deel van gepubliceerd onderzoek geen stand hield bij herhaling. Dat is niet alleen pijnlijk voor onderzoekers en bladen, maar kan bijvoorbeeld in de medische research tot geldverspilling of verkeerde middelen leiden. En het zelfreinigend vermogen van de wetenschap was tegelijk ver te zoeken. De meeste wetenschappelijke tijdschriften eisen origineel nieuw werk, geen reproductie van bestaand onderzoek.

Na jaren discussie leken de statistici aller landen er deze zomer uit. In plaats van de klassieke 5 procent zou een strengere p-waarde-drempel van 0,5 procent veel problemen oplossen. 'Deze eenvoudige stap zou direct de reproduceerbaarheid verbeteren van wetenschappelijk onderzoek in veel gebieden', schreven de statistici, onder wie Wagenmakers en Ioannidis. De literatuur, die vol staat met studies met een p-waarde van 0.05 was niet per definitie fout. Maar die waarde zou niet meer significant genoemd moeten worden, eerder suggestive: wetenschappelijk bemoedigend. 'Interessant misschien, maar vooral een aanleiding voor nader onderzoek', zegt Wagenmakers.

Zaak geregeld, leek het. Een ontdekking is in het vervolg pas een ontdekking als de kans dat het toeval is, kleiner is dan een half procent. Streng. Helder. Opgelost.

Klopt, beaamt Casper Albers in Groningen in de vorige week gepubliceerde kritiek. Tienmaal minder kans dat een resultaat toch toeval lijkt, maakt inderdaad een claim dat er iets is ontdekt sterker, zegt hij. Maar ten koste van wat, is de vraag die critici als Albers nu opwerpen op initiatief van de jonge Eindhovense statisticus (en fervent twitteraar) Daniël Lakens. Diens uitgangspunt is duidelijk: 'Wat we willen voorkomen is dat wetenschappers het ene decreet inruilen voor het andere. Met een kleinere p-waarde los je het ene probleem op, maar creëer je vanzelf ook andere.'

Het punt is vooral dat tienmaal minder kans op toeval in de resultaten heel veel extra werk betekent. Er zijn meer data nodig om het toeval te temmen, meer proefpersonen, meer wetenschappers, meer tijd en geld voor analyses. Lakens: 'In feite komt het erop neer dat alleen rijke instituten en universiteiten die stap zullen kunnen zetten. Onderzoek kost wat het kost, dus een scherpere p-waarde betekent dan minder onderzoek. Of gemakkelijk even wat vragenlijstjes op internet zetten, in plaats van proefpersonen gebruiken.'

Een ander gevaar van een scherpere p-waarde, waarschuwen Lakens en zijn medecritici in hun nieuwe artikel, is dat je ook inspirerende hints over het hoofd zult gaan zien. 'Voor een nieuw geneesmiddel kan dat een vreselijke misser betekenen. Als mensen zonder middelen zeker dood gaan, moet je misschien wat minder strikt in je statistiek zijn.'

Belangrijke les is wat betreft Casper Albers dat een striktere statistische norm lang niet altijd nodig is voor interessante wetenschap. 'In een verkennende studie mag het er best wat losser aan toegaan', zegt hij. 'Waar het om gaat is dat auteurs hun verstand gebruiken en in hun verslaggeving precies vertellen wat ze doen en waarom, in plaats van alles achter dat ene getalletje verstoppen. Openheid is cruciaal.'

Al was het maar omdat dat getalletje een doel in zichzelf blijkt te kunnen worden. Albers Eindhovense collega Daniël Lakens liet in eerdere studies al eens zien dat in sommige vakgebieden, waaronder takken van zijn eigen psychologie, opvallend veel publicaties een p-waarde van nét onder de 5 procent noteerden. Statistisch is daarvoor geen reden, het lijkt er eerder op dat auteurs hun uiterste best hadden gedaan om de p net onder de kritische grens te trekken. Dat kan, weten alle experimentatoren. P-hacking, zoals het heet, is een kwestie van slim corrigeren, wel of niet bepaalde metingen of meetseries meenemen.

Het is voor Albers nog een reden on af te stappen van een vaste grens voor de significatie van een resultaat. 'Sommige bevindingen zijn niet snoeihard, maar interessant om nader te bekijken. Andere zijn te belangrijk om te negeren. En veel harde resultaten zijn wetenschappelijk helemaal niet zo interessant.'

Dat beaamt zelfs de Amsterdamse methodoloog Eric-Jan Wagenmakers, een van de bedenkers van de voorgestelde tienmaal strengere p-norm. Hij heeft met de zaak geworsteld, bekent hij. 'In principe ben ik helemaal niet voor het gebruik van een grenswaarde voor significantie. Maar statistiek is een lastig vak, ik weet dat veel mensen graag een concrete leidraad hebben. Dan die 0.005 maar, denk ik dan. Die voorkomt in elk geval een hoop onhoudbare verhalen in de bladen en pijnlijke stukken in de krant.'

Kop of munt

Bij de aftrap van het WK voetbal in Rusland, volgend jaar, zal een munt bepalen wie er begint. Maar hoe weten we of die munt eerlijk is? Een testje moet uitkomst bieden. We gooien tienmaal met de munt. Bij een eerlijke munt verwachten we ongeveer vijfmaal kop en vijfmaal munt. Maar het toeval speelt mee en dus kan het ook zes om vier zijn, of misschien zelfs nog extremer. Wanneer moeten we argwaan krijgen?

Stel we gooien tienmaal kop. De kans daarop bij een eerlijke munt is 1 op 1024, nog geen promille. Dit is zo onwaarschijnlijk dat we de munt moeten afkeuren voor de opening van het toernooi. Maar wat als we negen keer eenzelfde kant boven krijgen? Die optie vergt wat meer rekenwerk, maar de kans erop is 20 op 1024, dus rond de 2 procent. Of dat te verdacht is of niet, is een kwestie van afspraken. In de wetenschap is nu een bovengrens van 5 procent kans op toeval gangbaar. In dat geval is 2 procent nog steeds te verdacht en moet de munt worden afgekeurd.

Volgens een groeiende groep statistici is de 5-procentsnorm echter te ruim. Zij stellen een p-waarde van een half procent voor. In dat geval zal de munt bij negen keer dezelfde kant boven niet worden afgekeurd, 2 procent kan nog steeds toeval zijn. Pas tienmaal kop (of munt) is dan een aanleiding voor maatregelen.

Vervang de aftrap van een voetbalwedstrijd door de vraag of een test laat zien dat een medicijn tegen kanker werkt, en de afspraak over wat relevant is en wat niet is opeens van levensbelang.