Analyse Bevolkingsonderzoek universitaire ziekenhuizen

Medisch massaonderzoek bevat potentieel goud – maar in de praktijk gaat het mis

Tienduizenden Nederlanders laten zich jarenlang volgen door arts-onderzoekers in universitair medische centra. Vrijwillig en voor de wetenschap. Zulk bevolkingsonderzoek levert talloos veel metingen op, maar ook een hoop schijninzichten, blijkt uit onderzoek van de Volkskrant.

Hebt u het al gehoord? Veel tv-kijken leidt tot overgewicht bij kinderen. Fijnstof tijdens de zwangerschap beperkt de hersengroei. Zit niet te veel en voorkom diabetes. Eet lekker veel fruit en groente, dat scheelt gezichtsrimpels later. O, en ouderen die koffie drinken hebben een lager valrisico.

Deze vondsten hebben iets met elkaar gemeen. Ze zijn allemaal afkomstig uit de wetenschappelijke ‘goudmijnen’ van universitaire ziekenhuizen in Nederland: langlopende bevolkingsonderzoeken, de zogeheten cohortstudies. Elk van de acht universitair medische centra (umc) doet een of meer van die cohortonderzoeken en publiceert daaruit tientallen tot honderden vondsten per jaar. Het wetenschappelijk goud zit hem in de grote hoeveelheden ingevulde vragenlijsten, bloedmonsters en andere medische gegevens van tienduizenden Nederlanders die vrijwillig meedoen. Zoals de vijftienduizend inwoners van de Rotterdamse wijk Ommoord. Of de achtduizend kinderen in Amsterdam die met toestemming van hun ouders vanaf de baarmoeder tot aan de basisschool worden gevolgd – en verder.

Toch hangt er een bijzonder prijskaartje aan de goudmijnen. Naast de jaarlijkse onderhoudskosten – miljoenen euro’s uit belastinggeld en donaties – krijgen de onderzoekers een stapel aan medische gegevens voor de kiezen: een statistisch oerwoud dat de ongelofelijke complexiteit van de menselijke gezondheid weerspiegelt. Daartussen liggen klappers van inzichten te wachten – het ijzersterke verband tussen roken en longkanker is dankzij cohortonderzoek ontdekt – maar die zijn zeldzaam. De zoektocht richt zich daarom steeds vaker op subtiele verbanden die moeilijk te onderscheiden zijn van ruis. En dát vergroot de kans op toevalstreffers en schijninzichten.

Twijfelachtige vondsten

Juist die twijfelachtige vondsten vinden geregeld hun weg naar buiten, soms zelfs als relevante ontdekking in de pers, blijkt uit een rondgang van deze krant. Met twee onafhankelijke statistici controleerden we negentien willekeurig gekozen wetenschappelijke publicaties uit cohortonderzoek van vier umc’s, allemaal uitgelicht als belangwekkend bericht op de websites van de instellingen zelf.

Bij slechts twee studies hadden de statistici geen op- of aanmerkingen: één onderzoek gaf ruiterlijk toe niets te vinden, terwijl een andere studie een nieuwe manier bevestigde om botbroosheid te voorspellen bij ouderen.

Maar bij vijftien studies – over onder meer luchtvervuiling, dieet, en zwangerschap – constateerden de statistici dermate wankel zoekwerk dat de conclusies of aanbevelingen over de vondsten grotendeels op drijfzand berusten. Vaak waren er aanwijzingen voor dredging: de zoektocht is dan gaandeweg aangepast om een ‘vondst’ te forceren. Zo zouden baby’s met een kleinere hoofdomtrek later vaker slaapproblemen krijgen, maar bij nadere inspectie is die relatie minimaal en volgens de statistici onzorgvuldig aan elkaar geknoopt: waarschijnlijk gaat dit om een toevalsresultaat.

De situatie is tekenend voor de medische onderzoekswereld. Waar de psychologie inmiddels veel maatregelen neemt om twijfelachtige resultaten tegen te houden, lopen medici erg achter, constateerde de Gezondheidsraad nog in 2016. Aan de universitaire ziekenhuizen, met hun grote gegevensbanken waar veel uit te halen valt, is de kans op schijnresultaten dan ook heel reëel, zegt Patrick Bossuyt, hoogleraar klinische epidemiologie aan het Amsterdam UMC en commissielid van het Gezondheidsraadrapport. Universitaire ziekenhuizen publiceren vooral véél vondsten, ongeacht de kwaliteit ervan of het nut voor de geneeskunde, aldus het rapport.

Kritische collega-wetenschappers zien de massaproductie aan twijfelachtige publicaties met lede ogen aan. Hoogleraar interne geneeskunde Yvo Smulders van het VUmc noemt het ‘een hoop bagger’, waar de medische wereld ‘geen bal’ mee opschiet. Zo bekeek Smulders een reeks van zulke studies over vrouwen die tijdens de zwangerschap een hoge bloeddruk of suikerziekte hadden en hun latere gezondheidsrisico’s, om er een Europese richtlijn over te kunnen schrijven. ‘Ik dacht vooraf dat dat best goed onderzoek zou zijn, maar ik ontdekte: het rammelt aan alle kanten. En ik dacht: ál die artikelen die daarover verschenen… De meeste zijn echt betrekkelijk zinloos.’

De Wageningse epidemioloog en hoogleraar Marianne Geleijnse is een stuk optimistischer over cohortonderzoek, dat ze onmisbaar vindt voor het opstellen van richtlijnen, maar herkent dat er regelmatig twijfelachtige studies voorbijkomen. Die zijn dan niet bruikbaar voor bijvoorbeeld de adviezen van de Gezondheidsraad, waar ze vicevoorzitter van is. ‘Als je ziet hoeveel er uiteindelijk toch weer afvalt: dan mankeert er dit of dat aan. Dat hadden die onderzoekers wel beter kunnen doen.’

De zaak van de eenzame diabetespatiënten

Eenzaamheid vergroot de kans op suikerziekte, meldt het Maastricht UMC+ vlak voor de Kerstdagen. Gebaseerd op onderzoek van een cohort van duizenden mensen binnen de Maastricht Studie. De wetenschappers schrijven dat het misschien zelfs mogelijk is diabetesgevallen te voorkomen als mensen uit hun sociaal isolement worden gehaald.

Maar de onderzoekers erkennen dat hun vondst misschien door iets veel simpelers kan worden verklaard: mensen die last krijgen van hun suikerziekte, zitten misschien steeds vaker thuis en voelen zich daardoor eenzamer. Het is in dat geval dus de ziekte die eenzaamheid in de hand werkt, in plaats van andersom.

In een reactie zeggen de onderzoekers dat ze niet te streng wilden zijn: omdat het onderzoek nog in een verkennende fase zit, zou het belangrijk zijn om geen nieuwe verbanden over het hoofd te zien.

Die redenering ontbreekt in het onderzoek zelf, maar volgens de Maastrichtse onderzoeksleider Coen Stehouwer is dat een gebruikelijke wetenschapsvisie die vakgenoten wel zullen begrijpen. Dat het verband nog niet helemaal bewezen is zal iedereen die het artikel leest begrijpen, voegt hij daaraan toe.

Juweeltjes

Zonde, want zulk bevolkingsonderzoek kán heel nuttig zijn, haasten de critici te zeggen. Dat bewijst een van de oudste cohortonderzoeken ter wereld wel. Dat ging in 1948 van start in het Amerikaanse stadje Framingham en was destijds baanbrekend: voor het eerst hielden medici systematisch bij wat mensen aten, hoeveel ze bewogen en wat hun bloedwaarden waren, allemaal om hun risico op hartziekten te bepalen. Zo’n vijfduizend inwoners lieten zich elke twee jaar volledig doormeten en vulden lange vragenlijsten in.

Dat bleek de moeite waard. De Framingham-studie leverde levensreddende inzichten op. Sigaretten roken, een hoog cholesterol en een hogere bloeddruk bleken de kans op hart- en vaatziekten te vergroten. Dat betekende een omslag in denken: zeg maar gerust de kiem van de moderne preventiegeneeskunde.

‘Als je morgen naar de dokter gaat omdat je je zorgen maakt over je kans op hart- en vaatziekten, dan gebruikt de huisarts een risicofunctie die deels gebaseerd is op Framingham’, legt Bossuyt uit.

Het ongekende succes van het Framingham-cohort inspireerde. En dus begonnen hoogleraren aan de Nederlandse umc’s elk hun eigen cohorten op te zetten. Zo gaf het ErasmusMC in Rotterdam in 1989 het startschot voor Ergo, een van de langstlopende cohorten in Nederland. Achtduizend 55-plussers deden bij het begin mee. Speerpunten zijn typische verouderingsproblemen: dus niet alleen metingen aan het hart van de deelnemers, maar ook aan hun botten, hersenen, ogen en huid.

En jawel: uit de weelde aan medische informatie distilleren de Rotterdammers belangrijke inzichten. Voor het eerst maken ze het aannemelijk dat dementie niet zomaar een ouderdomsziekte is, maar soms eerder toeslaat wanneer de kleine bloedvaten in de hersenen verkalken door een ongezonde leefstijl. De Ommoord-inwoners die sigaretten roken krijgen ook veel vaker netvliesslijtage.

Kennis die er anders niet was geweest, zegt Martijn Katan, emeritus hoogleraar voedingsleer aan de Universiteit van Amsterdam. Want in een gebruikelijk experiment kun je onmogelijk kerngezonde mensen verplichten om tegen hun zin sigaretten te gaan roken voor de wetenschap, gewoon om te zien wat dat met hun hersenen of ogen doet.

Lukrake vondsten

Maar de moeilijkheid bij zulk onderzoek is dat veel leefstijlproblemen en gezondheidsgewoonten innig met elkaar verstrengeld zijn en daarmee moeilijk uit elkaar te houden. Zeker bij subtielere verbanden. Dat een ongezond eetpatroon bijvoorbeeld iets meer gezichtsrimpels veroorzaakt, zoals een umc-onderzoek uit onze rondgang concludeerde, is waarschijnlijk gewoon het gevolg van het feit dat ongezonde eters vaak ook roken en zo hun huid verouderen: een regelrecht schijnverband uit de goudmijn.

Die verstrengelingen maken het lastig om een echt nieuw, nuttig verband te vinden. Veel vondsten die deze krant naliep zijn dan ook open deuren: moeders met overgewicht krijgen zwaardere kinderen, alcohol drinken tijdens de zwangerschap is niet goed voor het kind, mensen met diabetes zitten vaak op de bank en ongezonde kinderen kijken vaker televisie. Dat wekt bij de statistici de indruk dat er vooraf niet lang genoeg wordt nagedacht over het nut van het onderzoek, maar dat er lukraak naar verbanden wordt gezocht.

Wat niet meehelpt, is dat het zoeken naar verbanden een industrie op zich is geworden. Jonge onderzoekers in opleiding verrichten de bulk van het uitzoekwerk en van hen wordt verwacht dat ze minstens twee tot drie artikelen publiceren voordat ze promoveren – ‘liever nog zes tot acht’, zegt Bossuyt. Een flinke productie dus, ook omdat er veel van deze promovendi aan cohortonderzoek werken: zo zijn er vijftig bezig met het doorploegen van het Generation R-cohort, een zwangerschapsonderzoek onder tienduizend Rotterdamse vrouwen en hun pasgeboren kinderen.

Daar komt bij dat medische promovendi lang niet altijd verder willen in de wetenschap, maar vaak artsen zijn die hun cv willen verrijken om hun kans te verhogen op een baan en opleidingsplaats als medisch specialist. Om snel tot een ‘vondst’ te komen, bestaat de verleiding om de medische gegevens zo in te delen dat er ‘iets’ uitkomt. Vernuftige computerprogramma’s die ruisverbanden beloven weg te ruimen bieden schijnzekerheid. ‘Je drukt op een knop en dan zou roken geen rol meer spelen’, zegt Katan. ‘Nou, dat is dus niet waar. Men is dus half wetend en half niet-wetend bezig met het creëren van illusies. En dat is een serieus probleem, want het deugt niet wat daar gebeurt.’

De zaak van de huilbaby’s

‘De stress en de zware zorg die een moeder van een huilbaby ervaart, kunnen de ontwikkeling van haar kind beïnvloeden’, meldt de website van het Amsterdam UMC. Huilbaby’s zouden later meer kans hebben op stemmings- of gedragsproblemen, volgens onderzoek onder de ruim drieduizend kinderen van het zogeheten ABCD-cohort. Moeders met huilbaby’s verdienen daarom zorg om ergere problemen te voorkomen, luidt de boodschap.

Maar dat valt helemaal niet met enige zekerheid uit het onderzoek te concluderen. Om te beginnen hebben de medici geen oorzaak en gevolg tussen huilbabystress en gedragsproblemen vastgesteld, maar slechts een verband. Ze konden niet uitsluiten dat andere achterliggende stressoorzaken – gezondheidsproblemen of misschien wel aanleg bij moeder én kind – de betreffende gedragsproblemen bij de kinderen losmaakten.

Daarnaast zijn er tekenen dat de onderzoekers uitgebreid hebben zitten vissen naar een verband, zegt statisticus Maarten van Smeden van het LUMC. Zo bepaalden ze de mate van probleemgedrag en moederstress door hun scores in te delen op heel specifieke afkapwaarden: voor de ene maat gold de hoogste 20 procent als problematisch, voor een andere weer de hoogste 10.

Hoe dan ook bleek het uiteindelijke effect van huilbaby-zijn op probleemgedrag later nagenoeg verwaarloosbaar. Waar onder de niet-huilers ongeveer 5 op de 100 kinderen probleemgedrag vertoonden, gold dat voor de huilbaby-kinderen bij 7 op de 100 gevallen. Met zo’n klein effect, dat ook door ruis kan worden veroorzaakt, is er weinig reden om de stevige aanbevelingen in het onderzoek serieus te nemen, aldus Van Smeden.

AMC-onderzoeker Tanja Vrijkotte, tevens projectleider van deze studie, vindt dat de conclusies moeten worden gezien als een ‘tussenstand’. De afkapwaarden zijn volgens haar niet gekozen om een gewenste uitkomst te krijgen, maar om ze waar mogelijk af te stemmen op eerder onderzoek.

Goede intenties

De hoogleraren die de cohortstudies leiden erkennen dat de druk voor onderzoekers om alsmaar vondsten te publiceren een verleiding is die moet worden weerstaan, zeker omdat er veel te halen valt uit de goudmijn vol medische gegevens. ‘Dit onderwerp gaat me zeer aan het hart’, mailt hoogleraar epidemiologie Arfan Ikram van het Erasmus MC, tevens onderzoeksleider van het ouderencohort Ergo. Hij spreekt van ‘terechte’ vragen. ‘We herkennen het probleem’, zegt Coen Stehouwer, leider van de Maastricht Studie, het cohortonderzoek aan het umc daar.

De onderzoeksleiders proberen naar eigen zeggen op allerlei manieren te voorkomen dat hun promovendi lukraak vissen naar twijfelachtige gezondheidsverbanden. Zo moet aan het Maastricht UMC+ elke promovendus vooraf een analyseplan aanleveren, aldus Stehouwer, en daarvan mag iemand niet afwijken. Bij het Amsterdam UMC is sinds vorig jaar ook zo’n controle ingevoerd.

Aan het Erasmus MC, waar verreweg de meeste Nederlanders vrijwillig deelnemen aan cohortonderzoek, geldt zo’n uitgesproken regel niet, al werken de onderzoekers ook daar met analyseplannen. Sowieso moeten alle promovendi in Rotterdam maandenlang cursussen epidemiologie volgen om de ‘kwaliteit te waarborgen’, aldus Ikram. Dat is vaak voldoende om zonder hulp van een statisticus het onderzoek te doen, voegt zijn collega en hoogleraar Vincent Jaddoe eraan toe, onderzoeksleider van Generation R. ‘Natuurlijk gaat dat niet altijd goed’, zegt hij, ‘maar je moet ervan uitgaan, en daar zijn de promovendi en hun primaire begeleiders zelf verantwoordelijk voor, dat dit op een goede wijze en met de goede intentie gebeurt.’

Kortom: de onderzoeksleiders zien het algemene probleem wel, maar hebben er wat betreft hun eigen groep vertrouwen in dat ze goed werk afleveren. Ze kunnen zich dan ook niet vinden in de kritiek dat veel van hun vondsten tot nu toe uitvergrotingen zijn van twijfelachtige schijnverbanden. Ze wijzen erop dat cohortonderzoek langzaamaan wel degelijk bepaalde gezondheidsverbanden steeds harder maakt: zoals hoe roken tijdens de zwangerschap vooral schadelijk is tijdens de laatste drie maanden tot de bevalling.

Dat er daarnaast een groot aantal kleinere, ‘zachte’ verbanden wordt gepubliceerd – die de statistici als twijfelachtig bestempelen – moet bovenal worden gezien als een ‘tussenstand’ of ‘voortschrijdend inzicht’, zeggen ze. Verbanden tussen huilbaby’s en gedragsproblemen, fruit en gezichtsrimpels, of luchtvervuiling en hersenverschillen behoren tot een verkenning, oftewel ‘exploratief’ onderzoek, die hoe dan ook bruikbare kennis oplevert. Het is aan anderen om in vervolgonderzoek de volgende stap te nemen.

Foto Krista van der Niet

Poortwachter

Arts-onderzoeker Smulders kent die argumenten. ‘Kennis, zeggen ze dan. Je kunt wel zeggen dat je niet weet wat het oplevert, dat vind ik prima, maar het kost wel handenvol geld dat je niet aan ander onderzoek kan uitgeven.’

Katan vindt het ‘tussenstand’-argument eveneens discutabel. ‘Het is een eufemisme voor: het zal wel niks wezen, maar je weet maar nooit. Als je dat toch wilt publiceren, moet er een waarschuwing bij dat het speculatief en verkennend is en dat niemand er consequenties aan moet verbinden.’ 

Maarten van Smeden, statisticus van het LUMC en een van de methodologen die door deze krant werd ingeschakeld, vindt het argument bovendien niet netjes tegenover de deelnemers aan cohortonderzoek. ‘Dat zijn toch duizenden mensen die telkens weer urenlang vragenlijsten invullen en naar het ziekenhuis komen voor onderzoek.’

Liever zien sommige critici dat de cohortonderzoeksleiders nóg strenger opportunistisch vissen tegengaan. Verplicht niet alleen zo’n analyseplan voor de promovendus, maar stationeer ook een strikte poortwachter tussen de onderzoeker en de medische gegevens om onbeperkt gesnuffel te verhinderen, stelt de door de Volkskrant geraadpleegde statisticus Casper Albers van Rijksuniversiteit Groningen. Zelf zit Albers in een dergelijke poortwachterscommissie die onderzoekers mondjesmaat voorziet van alleen de gegevens die bij hun vraag passen. In een reactie zegt Generation R-onderzoeksleider Jaddoe ook met dergelijke ‘data managers’ te werken.

De volgende stap, erkennen ook sommige onderzoeksleiders, is om hun aanpak transparanter te maken voor de buitenwereld. Dat haakt aan bij het ideaal van open science, waarbij elke stap die een wetenschapper zet vrij toegankelijk te volgen is voor onafhankelijke buitenstaanders. Die kant gaat het sowieso op, denkt Frank Miedema, decaan van het UMC Utrecht en een van de weinigen die zich actief inzet om de prestatiecultuur in medisch onderzoek terug te dringen.

Uit eigen beweging zullen de cohortonderzoeksleiders niet zomaar het roer omgooien richting open science en mínder, maar kwalitatief betere publicaties, zo is de verwachting. Medisch onderzoek uitvoeren kost geld, dat wordt op dit moment vooral uitgedeeld aan wetenschappers die veel publiceren. Volgens Albers onthult dat een ‘ingewikkeld groepsspel’, waarbij het beter zou zijn als alle biomedici zouden stoppen elkaar te beconcurreren met publicaties om fondsenwerving, maar niemand daarmee de eerste wil zijn: die loopt namelijk geld mis en kan de winkel sluiten.

Zo blijft de stroom aan gezondheidsverbanden voorlopig aanhouden: ‘twijfelachtig’ volgens de critici, ‘exploratief’ volgens de onderzoeksleiders. Dat betekent volgens statisticus Albers dat er een groot probleem is: hier wordt drijfzand op drijfzand gebouwd, zegt hij. ‘Zelfs als het vervolgonderzoek hierop degelijk is, is de fundering dat niet. Uiteindelijk zal alles een keer als een natgeregend zandkasteel in elkaar zakken. Maar goed, niet voordat de betrokken onderzoekers hun papers, doctorstitels en prestigieuze onderzoeksbeurzen binnen hebben. Na hen de zondvloed.’

Dit artikel is tot stand gekomen met medewerking van Casper Albers van de Rijksuniversiteit Groningen en Maarten van Smeden van het Leids Universitair Medisch Centrum (LUMC).

De zaak van de luchtvervuilde hersenen

De normen voor luchtverontreiniging en fijnstof moeten omlaag, aldus een persbericht van het Erasmus MC. Dat werd groot nieuws, onder meer in de Volkskrant, dat ook twee onafhankelijke wetenschappers bevestigden. De Rotterdamse onderzoekers vonden in het zogeheten Generation R-cohort onder duizenden kinderen aanwijzingen dat vieze lucht de hersenontwikkeling van kleuters al in de baarmoeder belemmert. Omdat vooral hersengebieden voor zelfbeheersing worden getroffen, verhoogt luchtverontreiniging op die manier vooral de kans op verslaving en adhd, schrijven de onderzoekers – iets dat ook bij krantenredacties terechtkomt.

Pakken we de studie erbij, dan blijkt er niet zomaar een opmerkelijk verband tussen luchtverontreiniging en hersenontwikkeling te ontwaren. Bijvoorbeeld: geen enkel hersengebied was kleiner bij kinderen die in relatief slechtere luchtkwaliteit opgroeiden, zoals vlak bij de snelweg of de Rotterdamse haven.

Alleen bij sommige delen van de hersenschors bleek er iets loos: voor elke portie luchtvervuiling van 5 microgram fijnstof waren die ongeveer eentwintigste millimeter dunner. Of dat om een groot of een klein deel van de schors gaat blijft onduidelijk, want die getallen ontbreken in het onderzoek. Bij navraag aan onderzoeksleider Vincent Jaddoe zou het om ongeveer 1 procent verschil in dikte gaan. ‘Dat is zoiets als de reistijd van A naar B van 1 uur en 40 minuten verkorten met een minuut’, zegt de Groningse statisticus Casper Albers, die de studie voor de krant ontleedde.

Bovendien konden de wetenschappers moeilijk uitsluiten dat die iets dunnere hersenschors te wijten viel aan andere leefstijlfactoren, zoals slechter eten, minder beweging of ouders die vaker roken. ‘Boterzacht’, noemt Albers het onderzoek.

Jaddoe benadrukt dat de studie ‘exploratief’ was en netjes de beperkingen van de vondsten beschrijft. Wel is hij het ermee eens dat het persbericht veel te stellig was en de studie niet kon aantonen of een ietwat dunnere hersenschors echt gezondheidsgevolgen heeft.

Meer over