Doping voor de data is overal

Een onderzoeker die een interessant effect alleen kan aantonen als hij de uitschieters in zijn waarnemingen weggooit, mag dat niet zomaar doen. Maar in de praktijk is zulke datamassage aan de orde van de dag. Ook eerlijkheid is in de wetenschap nu eenmaal een relatief begrip.

Opeens was het er, het getal. Het stond in een persbericht, en in een fatsoenlijk wetenschappelijk vakblad, en er was een hoogleraar die het getal toelichtte - dus haalde het vorige maand breeduit alle media. In de eerste vier jaar na het rookverbod in de openbare ruimte, zo ging het, zijn er in Nederland 'meer dan 16 duizend gevallen van acute hartstilstand' voorkomen. Volgens het vakblad Heart waren het er zelfs 16.638. Er is eigenlijk maar één probleem: het is uiterst onwaarschijnlijk dat het getal klopt.


Het getal kwam niet van de eerste de beste, maar van een groep onderzoekers onder leiding van Onno van Schayck, hoogleraar preventieve geneeskunde in Maastricht, wetenschappelijk directeur van een onderzoeksschool, kroonlid van de Gezondheidsraad en sinds een paar weken overigens ook lijstduwer voor de ChristenUnie.


De onderzoekers hadden het aantal acute hartstilstanden onderzocht, niet in Nederland, maar in Zuid-Limburg, waar men bruikbare cijfers kon krijgen van de ambulancediensten. Die hakte men in drieën: vóór het rookverbod (2002-2004), direct erna (2004-2008) en met het rookverbod in de horeca erbij (2008-2010). De uitkomst, zoals verwoord in het vakblad Heart: 'Na de introductie van het landelijke rookverbod op de werkplek in 2004 werd een significante afname van het aantal hartstilstanden buiten het ziekenhuis waargenomen in Zuid-Limburg.' Reken dat losjes om naar heel het land, en je komt uit op 16.638.


Een op het oog onberispelijke bevinding, die redelijk aansluit op ander onderzoek. Er was alleen wel iets raars. Het aantal hartstilstanden lag in 2002, toen er op het werk en in de trein nog werd gerookt, iets láger dan na invoering van het rookverbod.


Van Schayck zag het anders. Tussen 2002 en 2004 was er een forse, onverklaarbare toename van het aantal hartstilstanden. En toen, in 2004, hield die stijging op. Dat moet door het rookverbod komen, licht Van Schayck desgevraagd toe: 'Het feit dat de trend significant veranderde, wijst erop dat het zeer onwaarschijnlijk is dat die observatie op toeval berust.'


Drie onafhankelijke experts, die de studie op verzoek van de Volkskrant bestudeerden, zijn het niet met hem eens. Het is zoiets als een opstijgend vliegtuig volgen, en als het horizontaal gaat vliegen vaststellen dat het kennelijk neerstort, omdat zijn baan is veranderd. 'De verandering in de trend is significant, maar die significantie wordt niet gedreven door de daling van na 2004 maar door de stijging tussen 2002 en 2004', constateert in het Leids Universitair Medisch Centrum hoogleraar medische statistiek Hein Putter. De experts komen allemaal tot hetzelfde oordeel: veel waarschijnlijker is dat Van Schayck een toevallige hobbel heeft aangezien voor een gezondheidseffect. 'De onderzoekers geven een aantal redenen, maar noemen de belangrijkste niet: toeval.'


De menswetenschappen hebben een idioot probleem: het gaat te goed. Wat wetenschappers ook zoeken en voor welke hypothese ze ook bewijs zoeken, ze vinden het. Een recente studie door de Britse sociaal-wetenschapper Daniele Fanelli bracht aan het licht dat hypothesen in de klinische geneeskunde haast negen op de tien keer blijken te kloppen. Ook de economen, microbiologen, farmacologen en immunologen zitten haast altijd goed als ze een idee aan de werkelijkheid toetsen. Dat hoort eigenlijk niet. Ze zouden er ook weleens naast moeten zitten.


De psychologen en psychiaters spannen de kroon. Voor meer dan negentig procent van alle hypothesen die men er onderzoekt, vindt men klinkend bewijs.


Althans, dat is als je afgaat op de ontdekkingen in de vakbladen. Voor een deel zal dat komen doordat onderzoek dat niets oplevert niet wordt gepubliceerd, maar er is meer aan de hand.


In een studie met de onvergetelijke naam 'Waarom de meeste gepubliceerde onderzoeksbevindingen niet kloppen' keek de Grieks-Amerikaanse arts John Ioannidis wat er na tien jaar was geworden van artikelen in de meest toonaangevende medische vakbladen. Zijn conclusie: zo'n 40 procent van de ontdekkingen bleek naderhand domweg niet waar. Hadden de onderzoekers geluk gehad, of de boel moedwillig bedrogen misschien?


Het zit anders, blijkt uit twee recente, hilarische experimenten. In 2009 toonden onderzoekers van de universiteit van Californië in Santa Barbara aan dat een dode zalm in de hersenscanner net zoals een proefpersoon reageert als je hem plaatjes laat zien. En vorig jaar toonden drie psychologen in het vakblad Psychological Science aan dat mensen die luisteren naar When I'm Sixty-Four van de Beatles, daardoor opeens anderhalf jaar jonger worden. Beide teams hadden zich keurig aan de wetenschappelijke regels gehouden.


De reden is een spook met vele namen - datamassage, onderzoeksvrijheidsgraden, datamarteling - en waart rond door het niemandsland aan de grens van het toelaatbare. De wetenschappelijke mazen van de wet, zeg maar. 'Het is geaccepteerd gebruik voor onderzoekers om verschillende analytische alternatieven te verkennen, om te zoeken naar combinaties die 'statistische significantie' halen en dan alleen te melden wat 'werkt'', signaleren de Beatles-onderzoekers, Joe Simmons, Leif Nelson en Uri Simonsohn van de Wharton-universiteit van Pennsylvania en de universiteit Berkeley van Californië.


En dat is echt iets anders dan cijfers verzinnen, benadrukt Simonsohn desgevraagd. 'Het is zoiets als bij het berekenen van een fooi in het restaurant afronden in je voordeel. Het hoort niet, maar het gaat zonder kwade bedoelingen. Gegevens fabriceren is het restaurant overvallen.'


'Dit is de doping van de wetenschappelijke concurrentie', signaleerden drie sociaal-wetenschappers onder leiding van marketingonderzoeker Leslie John in alweer een ander kritisch artikel. 'De steroïden die de prestaties kunstmatig opkrikken.'


Leslie John inventariseerde wat tweeduizend psychologen zoal aan datamassage deden en kwam twee maanden geleden met schokkende cijfers. Het achterhouden van resultaten die niet goed uitkomen, doet 78 procent. 72 procent controleert tijdens het experiment of de uitkomsten al 'goed genoeg' zijn of dat het experiment nog even moet doorgaan. Ruim 60 procent gooit metingen pas weg nadat men heeft vastgesteld of dat het resultaat wel ten goede komt; 39 procent verfraait de resultaten door afrondingen te gebruiken; en ruim de helft stelt achteraf zijn hypothese bij om beter voor de dag te komen.


Daarnaast zijn er de volstrekt geoorloofde statistische technieken om een weerbarstige reeks metingen toch aan de praat te krijgen. De gereedschapskist is schier onuitputtelijk - en laten we eerlijk zijn: bestaat uit gereedschap dat wetenschappers gewoon hard nodig hebben. Op welk moment begint en eindigt een experiment? Welke waarneming bestempel je tot 'uitschieter' die niet mag meedoen? Welke statistische analyse pas je toe, en welke correcties breng je aan?


Neem Onno van Schayck, die bezweert 'volstrekt integer' en 'in opperste zorgvuldigheid' naar de hartstilstanden te hebben gezocht. Geen twijfel daarover - het valt alleen op dat hij wel érg zijn best heeft gedaan. 'We hebben een heel uitvoerige discussie gehad met Heart', vertelt Van Schayck. 'Dus hebben we zeer uitgebreid met onze eigen statisticus nog allerlei extra technieken geprobeerd die we niet in het artikel hebben gezet, met als inzet: zouden we er met nog wat verfijndere technieken betere zaken uit kunnen halen?' Onder meer een 'principal component analysis' en een 'poissonregressie' kwamen langs. 'Hebben we allemaal gedaan', zegt Van Schayck. 'Dan zei de statisticus van Heart: kijk daar nog eens naar, of er dan niet iets meer uit komt.'


Totdat Van Schayck zat met een analyse die weliswaar volgens de regelen der kunst is en statistisch significant, maar waarvan een van de door de Volkskrant geraadpleegde experts zegt: 'Ik viel echt van mijn stoel toen ik dit hoorde.' Van Schayck: 'Je moet roeien met de riemen die je hebt, en veel scherper dan we nu gevonden hebben, kan eigenlijk niet. Het liefst hadden we natuurlijk een gerandomiseerd gecontroleerd experiment gedaan (een experiment waarbij een rookverbod bij één groep wel en een ander niet wordt ingevoerd). Maar dat kan niet.'


Van Schayck maakt dan ook een voorbehoud: 'We kunnen inderdaad niet onomstotelijk aantonen dat de verandering in de trends door het rookverbod veroorzaakt is. In het licht van observaties in andere soortgelijke studies lijkt dit wel de meest waarschijnlijke verklaring.' Een voorbehoud, dat in de persberichten en de samenvatting van het artikel is verdwenen. 'Het effect van rookvrije wetgeving op de incidentie van plotselingen hartstilstanden in Nederland', is de titel van het artikel; 'Minder hartstilstanden door rookverbod' de kop boven het persbericht.


Toen in Rotterdam hoogleraar consumentengedrag Dirk Smeesters werd betrapt op onregelmatigheden in zijn onderzoek, was dit zijn verweer: 'Ik dacht dat ik een gevalideerde methode gebruikte. Zeggen dat ik fraude heb gepleegd, is niet correct.' Statistici die de cijfers van Smeesters hebben gezien, denken daar anders over, maar met één opmerking raakt Smeesters de gevoelige plek: 'Ik pleit ervoor dat er duidelijkere regels komen, om klaarheid te scheppen in de grijze zone.'


Gemakkelijker gezegd dan gedaan, vindt onder meer mathematisch psycholoog Eric-Jan Wagenmakers (Universiteit van Amsterdam). 'In de praktijk is het wel heel moeilijk om datamassage uit te bannen. Stel, je vindt een verwacht effect net niet als je alle proefpersonen analyseert, maar wel als je de uitschieters eruit gooit. Je kunt dan eerlijk zijn en zeggen dat je het zo hebt gedaan, maar een tijdschrift zal die eerlijkheid niet belonen', redeneert hij. 'Als de onderzoekers die zichzelf zulke flexibiliteit in de data-analyse toestaan allemaal ontslag nemen, dan staan de universiteitsgebouwen half leeg.'


Ideeën voor beterschap zijn er wel - en bij haast allemaal draait het om: meer openheid. Volgens Simmons, Nelson en Simonsohn moeten wetenschappers vooraf duidelijk vastleggen wat ze allemaal wel en niet van plan zijn, en na afloop alles wat ze hebben gemeten opschrijven, op welke manier ze dat hebben gedaan, en wat dat opleverde.


'Het criterium om proefpersonen al dan niet uit te sluiten mag niet worden ingegeven door het eindresultaat', stelt Wagenmakers vast. In een commentaar op de zaak Smeesters benadrukt Wagenmakers bovendien 'hoe belangrijk het is dat men vasthoudt aan een primaire statistische regel: de data mogen maar één keer worden gebruikt.' Ook de door de Volkskrant geraadpleegde experts pleiten voor soberheid. 'Een principe dat ik hanteer is: als je met het oog niets ziet (in een puntenwolk, red.), zal er waarschijnlijk ook wel niks zijn,' zegt Putter.


De wetenschap is er voorlopig niet mee geholpen. Foute resultaten blijven vaak nog decennialang nagalmen door de vakliteratuur en kunnen hele onderzoekslijnen op het verkeerde spoor zetten, signaleert Simmons. 'Ons doel als wetenschappers is niet zoveel artikelen publiceren als we kunnen, maar om de waarheid te ontdekken en te ontleden. Velen verliezen dat doel uit het oog.'


Het besef dat de geloofwaardigheid van de wetenschap op het spel staat, begint steeds duidelijker door te klinken. Zo zijn er nu al jonge wetenschappers die het vak gedesillusioneerd de rug toekeren. Een informeel door de Volkskrant gesproken promovenda won meerdere prijzen met haar onderzoek in de geneeskunde, maar richt zich inmiddels meer op de kliniek. Eén van de redenen: het voortdurende gemasseer met de data. 'Als medicus krijg je te maken met drie statistici die allemaal op een iets andere manier naar de data kijken. En wat eruit komt hangt daar sterk vanaf. Vroeger dacht ik: alles wat in New England Journal of Medicine staat is waar. Nu ben ik veel kritischer geworden.'


IN DE DATAMASSAGESALON

Een aantal populaire trucs om data te masseren. Veel van de technieken zijn, afhankelijk van het vakgebied en de studieopzet, gewoon toegestaan.

Spreid je kansen

Voer meerdere experimenten uit. Meldt alleen de experimenten die iets opleveren.


Speel met je eindpunt

Analyseer de cijfers die je verzamelt tussentijds. Houd op met meten als je een significant resultaat hebt bereikt, ga wat langer door als dat nog niet zo is.


Schoon cijfers op

Gooi onwelgevallige cijfers achteraf weg door ze om wat voor reden ook 'ongeldig' te verklaren.


Schud de schalen

Als een vragenlijst meerdere 'condities' heeft (bijvoorbeeld 'helemaal eens/eens/oneens/helemaal oneens'), probeer dan verschillende combinaties uit (neem bijvoorbeeld alle 'eensen' en 'oneensen' bij elkaar, gebruik alleen de 'helemaal eens/oneens' etcetera). Of vergelijk alleen de uitersten: mensen die nooit koffie drinken, versus mensen die overmatig koffie drinken.


Data mining

Graaf net zo lang met verschillende statistische technieken in de cijfers tot je een verband vindt dat significantie heeft.


Strooi met 'afhankelijke variabelen'

Meet hetzelfde 'ding' op verschillende manieren, bijvoorbeeld aan de hand van verschillende vragen op een vragenlijst. Gebruik vervolgens alleen de manier die resultaat oplevert.


Creatief met covarianten

Corrigeer voor 'verstorende factoren' (zoals wonen in de stad bij een studie naar longkanker), maar laat daarbij sommige verstoorders weg of ken ze juist meer gewicht toe.


Vergeet de bevolkingscorrectie

De meeste uitkomsten moeten worden gecorrigeerd voor demografische factoren zoals leeftijd of geslacht. Door hier creatief mee om te springen (welke leeftijdsgroepen wel en niet bijvoorbeeld), kan een ander beeld ontstaan.


Meer over

Wilt u belangrijke informatie delen met de Volkskrant?

Tip hier onze journalisten


Op alle verhalen van de Volkskrant rust uiteraard copyright. Linken kan altijd, eventueel met de intro van het stuk erboven.
Wil je tekst overnemen of een video(fragment), foto of illustratie gebruiken, mail dan naar copyright @volkskrant.nl.
© 2019 DPG Media B.V. - alle rechten voorbehouden