Zes valkuilenMedicijnonderzoek

Coronamedicijn werkt! Of wacht, toch niet. Hé, nu weer wel!

Hoe kan het dat studies naar middelen tegen het coronavirus, zoals remdesivir en hydroxychloroquine, elkaar zo vaak tegenspreken? De zes valkuilen van het medicijnonderzoek.

Beeld Rein Janssen

Hoera, er is een medicijn tegen covid-19, jubelden media in april. Virusremmer remdesivir, door de Californische farmaceut Gilead ontwikkeld tegen ebola, zou de sterftekans van covid-19-patiënten verkleinen en hun ziekteduur zeker vijf dagen verkorten. Vrijwel tegelijkertijd verschenen er berichten met een tegengestelde boodschap: het middel haalt geen klap uit, kijk maar naar de tegenvallende resultaten uit China. Sindsdien volgen de studies naar remdesivir elkaar in rap tempo op. Voor- en tegenstanders van het middel slaan hun opponenten op sociale media om de oren met publicaties die het eigen gelijk bevestigen. Het voorlopige slothoofdstuk in de remdesivir-soap kwam toen de Wereldgezondheidsorganisatie op 20 november het advies uitbracht om het middel niet meer te gebruiken voor covid-19-patiënten. Een groot internationaal onderzoek met resultaten uit dertig landen gaf de tegenstanders voorlopig gelijk.

Dat betekent niet dat een tweede reeks remdesivir-afleveringen is uitgesloten – net zo min als dat het laatste woord is geschreven over al die andere veelbesproken medicijnen, zoals het malariamiddel hydroxychloroquine, of regeneron (het medicijn met antistoffen dat Trump kreeg). ‘In de wereld van medisch onderzoek is er nooit honderd procent zekerheid’, zegt Andrea Peeters, methodologisch expert van Maastricht UMC+. Dat in enkele maanden tijd zoveel tegenstrijdige studies over dezelfde geneesmiddelen zijn verschenen, verbaast haar niet: studies met uiteenlopende resultaten door verschillen in opzet zijn in de medische wetenschap nu eenmaal aan de orde van de dag. Wel gaat het nu allemaal een tandje sneller dan normaal, omdat medische wetenschappers wereldwijd alles op alles zetten om medicijnen en vaccins te vinden. Zes redenen waarom onderzoeken die eerst veelbelovend lijken later alsnog kunnen struikelen.

Valkuil 1: Een resusaap is geen mens

Remdesivir was oorspronkelijk bedoeld als medicijn tegen ebola, alleen bleek het niet erg effectief. Toen het coronavirus om zich heen begon te grijpen, probeerden de onderzoekers van Gilead of hun medicijn de ziekte covid-19 toevallig beter te lijf ging. En bingo, laboratoriumproeven op cellen in petrischaaltjes gaven hoopgevende resultaten. Vervolgonderzoek met twaalf geïnfecteerde resusapen wakkerde de hoop nog verder aan: de zes aapjes die onmiddellijk na besmetting met het coronavirus remdesivir kregen toegediend, werden nauwelijks ziek. Hun longen bleven zo goed als schoon.

Dat een middel op zes apen werkt, wil alleen niet zeggen dat hetzelfde geldt voor mensen. Pas als het medicijn zich heeft bewezen in experimentele studies op mensen, is er aanleiding voor een feestje. Veel experimentele medicijnen halen al ruim voor die tijd de krantenkoppen als ‘grote doorbraak’, omdat persafdelingen van farmaceutische bedrijven de stap van proefdier naar mens voor het gemak vaak even vergeten. Remdesivir is daarop geen uitzondering.

Beeld Rein Janssen

Valkuil 2: Een controlegroep ontbreekt

De eerste wetenschappelijke publicatie over een remdesivirbehandeling bij mensen gaf opnieuw reden tot optimisme: bijna zeven op de tien patiënten gingen erop vooruit volgens het artikel  in het New England Journal of Medicine. De auteurs sloten hun conclusie wel af met een waarschuwing: om de effectiviteit van remdesivir beter te meten, waren andere studies nodig met een controlegroep die een placebo (nepmedicijn) ontvangt. Een controlegroep is een groep mensen die qua omvang, maar ook qua eigenschappen vergelijkbaar is met de groep mensen die het medicijn krijgt. Als een medicijn werkt, moeten de resultaten bij de controlegroep slechter zijn dan bij de groep die het medicijn heeft gekregen.

De controlegroep was bij de eerste studie afwezig: 53 patiënten kregen remdesivir en dat was dat. De onderzoekers konden niet weten wat er gebeurd zou zijn als de patiënten geen remdesivir hadden gekregen.

Een controlegroep is vaste prik in onderzoek dat is opgezet volgens de ‘gouden standaard’: het onderzoeksprotocol dat de meest betrouwbare en valide resultaten geeft. Of een patiënt het medicijn of de placebo krijgt, moet een kwestie zijn van willekeur – alsof je een munt opgooit. Volgens dat protocol moet het onderzoek verder ‘dubbelblind’ zijn: noch de patiënten, noch de betrokken artsen mogen weten wie het medicijn krijgen en wie de controlebehandeling. Anders zouden ze hun gedrag kunnen aanpassen. Artsen zouden het nieuwe medicijn bijvoorbeeld vaker kunnen voorschrijven aan kwetsbare mensen die meer baat hebben bij medicatie. Zo zijn er allerlei regels die moeten waarborgen dat eventuele positieve uitkomsten ook werkelijk het resultaat zijn van het medicijn en niet van toeval of van andere factoren.

Er kleeft wel een nadeel aan deze gouden standaard, zegt methodoloog Rolf Groenwold van het LUMC. ‘De onderzoekers willen de middelen testen in een zo ‘schoon’ mogelijke situatie, zodat ze alleen het effect van de geneesmiddelen meten. Andere medicijnen zouden dat effect kunnen beïnvloeden. Daardoor zitten er meestal veelal relatief jonge, gezonde mensen in de onderzoeksgroep zonder andere aandoeningen.’ Degenen die het meest te lijden hebben van covid-19 zijn oudere mensen met nog meer onder de leden. Zelfs als onderzoek volgens de gouden standaard is uitgevoerd, staat dus nog niet vast wat de medicijnen voor effect zullen hebben op nieuwe doelgroepen. Ook door genetische en andere individuele verschillen kan een medicijn dat gemiddeld goed werkt voor afzonderlijke patiënten tegenvallen.

Valkuil 3: De patiëntkeuze stuurt de uitkomsten

Geef patiënten het malariamiddel hydroxychloroquine vanaf de eerste dag van hun ziekenhuisopname en het risico dat ze op de intensive care belanden halveert. Dat was althans het verhaal dat onder meer de NOS begin oktober bracht naar aanleiding van Nederlands onderzoek. De Zwolse onderzoekers zelf hielden terecht een slag om de arm, want het betrof ‘observationeel onderzoek’. Dat wil zeggen dat onderzoekers niet een experiment volgens de gouden standaard opzetten, maar dat ze terugkijken in de tijd, gebruikmakend van gegevens die ziekenhuizen aandragen: wie heeft welke behandeling gekregen en welke effecten heeft dat gehad?

Het voordeel is dat ze vrijwel meteen aan de slag kunnen met allerlei data. Tijdens de eerste golf ontbrak het onderzoekers simpelweg aan tijd om een ‘gerandomiseerde studie’ op te zetten – een experiment waarbij willekeur bepaalt wie het medicijn krijgt en wie niet. Helaas kleven er ook nadelen aan deze terugkijkende aanpak, waarvan het selectie-effect het belangrijkste is.  Dat effect zorgt ervoor dat de uitkomsten van de behandelde groep beter of slechter zijn dan die van de controlegroep, omdat de groepen vooraf al niet vergelijkbaar waren.

Artsen behandelen hun patiënten nooit op basis van willekeur, ze nemen allerlei factoren in overweging. Hoe oud is een covid-19-patiënt, heeft hij ook nog diabetes, hoeveel ademnood heeft hij? Deze overwegingen zijn in retrospectief soms moeilijk te achterhalen.

Een arts die bijvoorbeeld weet dat chloroquine negatieve bijwerkingen kan hebben voor het hart, zal dit medicijn niet snel voorschrijven aan hartpatiënten. Daardoor komen deze patiënten bij een onderzoek naar chloroquine automatisch terecht in de controlegroep. Wanneer dit netjes wordt gedocumenteerd, kunnen de onderzoekers daar bij hun analyse achteraf rekening mee houden. Vaak spelen echter overwegingen een rol die niet zijn te achterhalen, of leidt logistieke pech tot een selectie-effect. ‘Stel, op de derde dag van de covid-19-opname startte de behandeling met het medicijn’, vertelt Groenwold ter illustratie. ‘Dat betekent dus dat iemand tot die tijd heeft moeten overleven. Degenen die voor dag drie doodgingen, komen dan in het onderzoek automatisch terecht in de groep zonder het medicijn. Zo krijg je geen eerlijke verdeling. Dat gebeurt niet bewust, maar dit is een van de valkuilen bij retrospectieve studies.’

Bij gerandomiseerd onderzoek is de kans op een selectie-effect kleiner, maar niet afwezig. Onderzoekers moeten de uitval van patiënten gedurende het onderzoek bijvoorbeeld goed kunnen verantwoorden, omdat anders ook hier een selectie-effect kan ontstaan.

Valkuil 4: De gegevens zijn niet zuiver

‘Ik kan de bloedvaten niet vinden om bloed af te nemen met drie lagen handschoenen, zelfs als ik goed zoek. Mijn bril en beschermbril zijn mistig, omdat ik het heet heb en het is erg moeilijk om dingen te doen, zoals aantekeningen maken en medicijnadministratie. Ik moet de medicijnen vlak bij mijn gezicht houden om de woorden te kunnen lezen. Ik ben erg nerveus en geïrriteerd, omdat ik zoveel werk te doen heb, maar niet goed zie.’

Aan het woord is een anonieme Chinese verpleegkundige, die haar ervaringen beschrijft voor een onderzoek dat in juni zou verschijnen in The Lancet. Het kleinschalige onderzoek beschrijft veelvoorkomende problemen waar Chinese ziekenhuismedewerkers tijdens de eerste coronagolf tegenaan liepen. Peeters denkt dat de meeste problemen wereldwijd herkenbaar zijn: het zware werk, de fysieke uitputting, het gevoel van onmacht, de angst besmet te raken of anderen te besmetten, de chaos op de werkvloer. 

Zulke omstandigheden, denkt Peeters, doen wetenschappelijk onderzoek geen goed. Om wat voor type medicijnonderzoek het ook gaat, er zijn altijd veel gedetailleerde gegevens nodig over de patiënten, de situatie waarin ze de behandeling kregen en de resultaten van de behandeling. Peeters vermoedt dat de kwaliteit van de ziekenhuisdata tijdens de eerste covid-19-golf door de uitzonderlijke omstandigheden soms te wensen overliet. ‘Die hectiek kan leiden tot onnauwkeurigheden in de uitvoering van het onderzoek, bijvoorbeeld in de dosering van de medicijnen.’

Ook Groenwold vreest dat de stress van de eerste coronagolf de kwaliteit van de verzamelde data niet altijd ten goede kwam. ‘Het was zo druk. Leeftijd en geslacht zijn makkelijk vast te stellen, maar geldt dat ook voor de reden waarom de ene patiënt een medicijn wel kreeg voorgeschreven en de andere niet? Zijn patiënten met overgewicht echt gewogen, of alleen bekeken? Hoe kleiner het effect van een medicijn is, des te belangrijker is de rol van dit soort factoren.’

Valkuil 5: Er is sprake van een toevalstreffer

Hoe groter de groep patiënten die is onderzocht, des te kleiner is de kans dat de uitkomsten het resultaat zijn van stom toeval. De eerder genoemde studie over remdesivir (zonder controlegroep) behelsde maar 53 patiënten – veel te weinig om verreikende conclusies op te baseren. Omdat covid-19 een nieuwe ziekte is, zijn experimenten met grote groepen patiënten nog schaars. Wel zijn er regels om de rol van toeval zo veel mogelijk te beperken. Bij gerandomiseerd onderzoek volgens de gouden standaard moeten wetenschappers van tevoren vastleggen wat de spelregels worden. Wanneer begint het onderzoek en wanneer is het afgelopen? Naar welke effecten kijken we? Hoeveel proefpersonen krijgen de behandeling? Dat alles is van belang om te berekenen hoe groot de kans is op een toevalstreffer. Alleen een kans van kleiner dan 5 procent kan wetenschappelijk gezien door de beugel.

Wanneer onderzoekers het met deze regels niet zo nauw nemen, slaagt de studie niet voor de toets van het College ter Beoordeling van Geneesmiddelen (CBG), vertelt Ton de Boer, CBG-voorzitter en hoogleraar Grondslagen van de Farmacotherapie aan de Universiteit Utrecht. ‘Wij willen bijvoorbeeld weten of er een interim-analyse was. Stel dat het effect van medicijnen veel groter is dan gedacht, dan kan het onethisch zijn om met de placebobehandeling door te gaan.’ In dat geval moeten de onderzoekers wel statistisch kunnen aantonen dat hun experiment nog steeds voldoet aan de vereisten. Hoe minder mensen er zijn behandeld, des te groter is immers de kans op toevalstreffers. Cruciaal is daarom het eindpunt van de metingen. Als dat niet van tevoren vastligt, kunnen onderzoekers net zo lang doorgaan met het voorschrijven van een medicijn, totdat ze eindelijk net voldoende positieve resultaten binnen hebben om te mogen spreken van ‘effect’.

Een andere manier om toevalstreffers te bestempelen als echte effecten, staat bekend als ‘data fishing’: net zo lang vlooien in de resultaten tot er een effect opduikt dat formeel de 5-procentnorm doorstaat. Wanneer een medicijn gemiddeld geen enkel effect heeft, kunnen onderzoekers bijvoorbeeld kijken of in een subgroep – bijvoorbeeld patiënten met verhoogde bloeddruk, of mannen met prostaatproblemen – puur toevallig toch net wat meer mensen genezen dan in de controlegroep. Hetzelfde gevis kan leiden tot het vinden van ‘effecten’ waarnaar de onderzoekers oorspronkelijk niet eens zochten. 

Bij observationeel onderzoek is de kans daarop wat groter, omdat de onderzoeksopzet van tevoren niet zo streng wordt vastgelegd. ‘Je moet resultaten altijd in een context zien’, zegt Groenwold over dit probleem. ‘Als je verwacht dat een middel een bepaald effect heeft, bijvoorbeeld op basis van het moleculaire werkingsmechanisme, of omdat eerdere studies het effect al hebben aangetoond, dan zijn positieve resultaten overtuigender. Maar als je verwacht dat een middel de bloeddruk verlaagt en in plaats daarvan blijkt je haar er sneller door te gaan groeien, terwijl dat nooit eerder is aangetoond, dan vind ik dat niet overtuigend. Je moet iets weten van de context om een studie goed te kunnen beoordelen.’

Toevalstreffers vallen uiteindelijk door de mand als hetzelfde onderzoek elders nogmaals plaatsvindt en de resultaten totaal verschillen. ‘Eén onderzoek is eigenlijk geen onderzoek’, zegt Groenwold. ‘Repliceren, repliceren, repliceren, daar gaat het om.’

Valkuil 6: ‘Eén studie is geen studie’

Een enkele studie over de effectiviteit van een medicijn zegt vaak dus niet zoveel. Een hele stapel studies met allemaal tegenstrijdige conclusies maakt het er ook niet veel duidelijker op. Overzichtsstudies, ook wel meta-analyses genoemd, kunnen in dat geval helderheid scheppen. ‘We nemen dan een aantal goed uitgevoerde, gerandomiseerde studies met vergelijkbare opzet en kwaliteit’, zegt Peeters. ‘Ze moeten onder meer dezelfde medicijnen bestuderen, dezelfde dosis hanteren en dezelfde typen patiënten.’ 

Het is belangrijk dat álle relevante studies die aan deze voorwaarden voldoen, worden meegenomen. Overzichtsanalyses die bijvoorbeeld expres alleen de studies met positieve resultaten verwerken, tellen niet. Als dat allemaal goed zit, is het mogelijk om de uitkomsten als het ware bij elkaar op te tellen om een nieuwe, preciezere schatting van het effect te berekenen. Omdat het gaat om veel grotere aantallen patiënten dan bij de afzonderlijke studies, is de betrouwbaarheid van een overzichtsstudie veel groter. Ook geeft deze vaak betere inzichten over het effect van een medicijn op subgroepen, bijvoorbeeld mensen met overgewicht. En terwijl kleine effecten bij kleinschalige studies vaak onopgemerkt blijven, verschijnen ze bij meta-analyses soms alsnog op de radar.

De eerdergenoemde grote studie van de WHO was geen overzichtsstudie, maar een groot experiment, opgezet volgens de gouden standaard, waar elfduizend volwassen patiënten uit 30 landen aan deelnamen. Het ging over het gebruik van remdesivir, hydroxychloroquine en nog wat medicijnen. Bij geen van de middelen vonden de wetenschappers een overtuigend effect. Betekent dit nu dat we kleinschalige onderzoeken over deze medicijnen voortaan naar de prullenbak kunnen verwijzen? Nee, maar Peeters zou wel graag zien dat zelfbenoemde experts die in de media met zulke studies schermen, wat minder hoog van de toren blazen. ‘Kleinschalige resultaten kunnen nuttig zijn om iets uit te proberen, maar iets op grote schaal toepassen is echt een ander verhaal. Daarvoor moet je veel meer onderzoeksresultaten hebben. Pas als meerdere studies in dezelfde richting wijzen, ben je als onderzoeker geneigd om in de werking te geloven. Helaas zijn er geen shortcuts in de wetenschap.’

Snel publiceren voor betere carrière

Onbetrouwbare data, toevalstreffers, patiënten die niet op de doelgroep lijken – aan medische studies kan van alles mankeren. Vaak zal dat niet de bedoeling zijn, maar de druk op wetenschappers om zo veel mogelijk te publiceren werkt slordigheden in de hand. Bovendien vormt die druk een gevaarlijke prikkel om onderzoeksresultaten net wat rooskleuriger voor te stellen dan de feiten rechtvaardigen. ‘Voor onderzoekers is het belangrijk positieve resultaten te genereren’, zegt Alexandra Vennekens van het Rathenau Instituut. ‘Positieve resultaten krijg je makkelijker gepubliceerd, waardoor je weer beter fondsen kunt werven voor nieuw onderzoek. Wetenschappers zitten gevangen in een vicieuze cirkel.’

Het is een internationaal probleem dat wordt aangeduid met publish or perish: wie niet genoeg publiceert, verdwijnt onherroepelijk van het wetenschappelijke toneel. Vennekens sprak een paar jaar geleden met tachtig wetenschappers van UMC’s om uit te zoeken in welke mate dit probleem hun parten speelt. ‘Kwaliteit wordt in de medische wetenschap vooral geassocieerd met publicaties en citatiescores (het aantal keren dat anderen naar een publicatie verwijzen, red.). De concurrentie is heel groot. Veel mensen hebben tijdelijke contracten en de enige manier om hun financiële positie te verbeteren, is publiceren in toonaangevende tijdschriften.’

Veel onderzoekers zijn zich bewust van dit probleem en erkennen dat de kwaliteit van het onderzoek eronder lijdt. In Nederland is vorig jaar daarom een project begonnen om een cultuuromslag teweeg te brengen. Ook andere prestaties, zoals lesgeven of patiëntenzorg, moeten een grotere rol gaan spelen bij de beoordeling van onderzoekers. Op de korte termijn maakt de coronacrisis de situatie er in elk geval niet beter op. ‘De druk om te presteren wordt nu nog verder opgevoerd’, zegt Vennekens. ‘Proefopzetten worden minder solide en tijdschriftredacties zijn misschien wat minder kritisch, omdat ze snel willen publiceren. Dat alles leidt tot publicaties die vervolgens weer worden teruggetrokken. Het is allemaal niet in het belang van de wetenschap.’

‘In de wereld van medisch onderzoek is er nooit honderd procent zekerheid’, zegt Andrea Peeters, methodologisch expert van Maastricht UMC+.Beeld Kemta Mumc
Meer over

Wilt u belangrijke informatie delen met de Volkskrant?

Tip hier onze journalisten


Op alle verhalen van de Volkskrant rust uiteraard copyright. Linken kan altijd, eventueel met de intro van het stuk erboven.
Wil je tekst overnemen of een video(fragment), foto of illustratie gebruiken, mail dan naar copyright @volkskrant.nl.
© 2021 DPG Media B.V. - alle rechten voorbehouden