Computers kunnen net zo goed ziekten herkennen als artsen - of beter

De dilemma's van AI in de zorg

Zo langzamerhand kunnen computers net zo goed ziekten als kanker of tuberculose herkennen als artsen - of beter. Toch worden ze nog weinig ingezet. De dilemma's van AI in de zorg.

Bram van Ginneken laat in zijn werkkamer van het Radboudumc in Nijmegen een CT-scan (een 3D-röntgenfoto) zien van longen. Links een recente scan, rechts een scan van een jaar eerder van dezelfde patiënt. Een radioloog bekijkt dit soort afbeeldingen op de aanwezigheid van bijvoorbeeld kanker.

In het voorbeeld van Van Ginneken is er in de recentere afbeelding een minuscuul balletje ontstaan, slechts zichtbaar voor het zeer geoefende oog van de radioloog, die laag voor laag door de 3D-afbeelding scrollt. Vervolgens laat de hoogleraar functionele beeldanalyse zijn eigen software zien, die hetzelfde werk doet als de goed geoefende radioloog: het nauwgezet bestuderen van afbeeldingen en speuren naar minuscule afwijkingen die kunnen duiden op - in dit geval - kanker. De software heeft geen enkele moeite het balletje te vinden en slaat direct alarm. Het balletje wordt met een dikke rode lijn omcirkeld en voorzien van de juiste afmetingen. Dat is belangrijk bij een volgende momentopname, om groei te kunnen meten.

Overal waar je mensen naar foto's laat kijken, kun je ook computers gebruiken

Van Ginneken

Gebruik van computers

'Overal waar je mensen naar foto's laat kijken, kun je ook computers gebruiken', zegt Van Ginneken, die al in 2001 als natuurkundige promoveerde op de analyse door computers van röntgenbeelden. Hij schreef vier jaar aan een computerprogramma dat van een digitale thoraxfoto (een röntgenfoto van de borstkas) moest vertellen of de persoon op de foto tuberculose heeft of niet. In de jaren na zijn promotie is het hard gegaan.

De omslag kwam in december 2012, toen een diep neuraal netwerk genaamd AlexNet het record verpletterde in de jaarlijkse wedstrijd voor computerprogramma's in het herkennen van duizend objecten in willekeurige foto's. 'Daarvoor werd er ook wel vooruitgang geboekt, maar met hele kleine stappen. Vijf jaar geleden werd het foutpercentage in één klap gehalveerd van 30 naar 15 procent. Iedereen stond perplex', aldus Van Ginneken.

Zelflerende computers

Inmiddels zitten de zelflerende computers die gebruikmaken van zogenoemde deep learning neurale netwerken op ongeveer 2 procent. De netwerken zijn extreem goed geworden in het systematisch doorploegen van grote hoeveelheden afbeeldingen om deze vervolgens te ordenen, te classificeren en er afwijkingen uit te halen. Op basis van ook weer grote hoeveelheden trainingsdata kan het systeem zo tot beslissingen of inzichten komen.

Vandaar dat netwerken die met afbeeldingen werken steeds vaker worden ingezet, op uiteenlopende gebieden van het blootleggen van imitaties van kunstwerken tot zelfrijdende auto's en gezichtsherkenning voor beveiligingsdoeleinden. En zeker ook in de gezondheidszorg, waar artsen altijd degenen waren die op zoek gingen naar afwijkingen, of dat nu op scans gebeurt door de radioloog, onder een microscoop door een patholoog of met het blote oog door een huidarts.

Het is nauwelijks voor te stellen, maar nog maar een paar jaar geleden was de AI-wereld in rep en roer omdat een deeplearningnetwerk een kat kon herkennen in een bak met afbeeldingen. En nu? Nu zitten we op het omslagpunt waarbij computers in specifieke taken even goed of zelfs beter zijn dan getrainde artsen. Van Ginneken is zelf de eerste die hier nuances bij plaatst: 'Er komen steeds meer studies die aantonen dat de computer het beter doet dan de arts. Dat is indrukwekkend, maar het zijn wel allemaal onderzoeken in studieverband, van één ziekenhuis. Het is nog wel wat anders om dit te vertalen naar álle omstandigheden, voor alle ziekenhuizen met al hun verschillende apparatuur. Je moet dus nog een slag om de arm houden.'

We zitten op het omslagpunt waarbij computers in specifieke taken beter zijn dan getrainde artsen

Thirona

Van Ginneken heeft zijn eigen softwarebedrijf, dat is ontstaan aan het Radboudumc. Thirona maakt niet alleen software voor het diagnosticeren van kanker of tuberculose, maar ook van ouderdomsblindheid. Bij dat laatste scant de software het netvlies en slaat alarm als daar onvolkomenheden worden aangetroffen. Een ander in Nijmegen ontsproten softwarebedrijf, Screenpoint, is gespecialiseerd in mammogrammen voor het vroegtijdig diagnosticeren van borstkanker.

Al deze software maakt gebruik van deeplearningnetwerken. Thirona en Screenpoint bevinden zich in een steeds drukker wordend speelveld van start-ups die zich bezighouden met AI in de gezondheidszorg. Zij moeten zien te concurreren met grote en gevestigde namen als Google, IBM, Microsoft of het Nederlandse Philips. Deze laatste nam vorige week nog Analytical Informatics over, een Amerikaanse start-up die slimme software voor radiologisch onderzoek maakt.

Verrassend genoeg lopen Europa en de Verenigde Staten niet voorop in het zelfstandig gebruik van de nieuwste mogelijkheden. De software is weliswaar al heel lang op de markt, maar altijd ter ondersteuning van artsen. Niet onlogisch: zeker in de eerste jaren, vanaf eind vorige eeuw, was de kwaliteit volstrekt onvoldoende. Maar nu de software beter wordt, zou deze de arts toch zo langzamerhand kunnen gaan vervangen? In de Verenigde Staten is dit sowieso niet aan de orde, legt Van Ginneken uit. Het gebruik is daar bijzonder streng gereguleerd: de software mag nooit autonoom, zonder arts, worden gebruikt.

In Europa zou het in theorie eenvoudiger moeten zijn: fabrikanten hoeven alleen aan te tonen dat hun apparatuur veilig is. Maar ook hier wordt kunstmatige intelligentie alleen nog op de markt gebracht als ondersteuning van de arts. En zelfs dat nog mondjesmaat, in verschillende testen, want er is nog de nodige scepsis.

Van Ginneken weet zeker dat in Europa de arts zal worden vervangen. 'Op het moment dat keihard is aangetoond dat de software het beter doet dan de arts, gaat het hoe dan ook gebruikt worden. Dat zie je nu al: zodra een arts ziet dat de software werkt, is hij om.'

Ziekenhuisdirecties zullen daarbij nog andere voordelen zien: aanzienlijke kostenbesparingen. Maar er zijn meer uitdagingen dan alleen technische. Juridische bijvoorbeeld: wie is er verantwoordelijk als er een fout wordt gemaakt? Het zijn dezelfde nieuwe ethische problemen waarmee fabrikanten van zelfrijdende auto's nu te maken hebben. Een ander probleem is een stuk prozaïscher: geld. Sommige fabrikanten vragen per foto een vergoeding aan het ziekenhuis, maar verzekeraars zijn hier nog helemaal niet op ingespeeld, ook al kan het op termijn veel geld besparen omdat er minder fouten worden gemaakt of omdat artsen deels kunnen worden vervangen. 'Het is hier allemaal nog te nieuw. In de Verenigde Staten zijn ze op dit punt verder. Daar worden dat soort mammogrammen door verzekeraars vergoed.'

Gevaren

Je moet als arts bijzonder sterk in je schoenen staan om de diagnose van de software te negeren

Van Gineken

Critici van het gebruik van slimme beeldherkenningssoftware wijzen nog op twee andere nadelen: overdiagnose en de te nauwe blik van de computer. Ook Van Ginneken ziet die gevaren. 'Je moet als arts bijzonder sterk in je schoenen staan om de diagnose van de software te negeren. Als de computer zegt: ik denk dat het kanker is, durf je daar dan tegenin te gaan?'

Een vals alarm is niet alleen een kwestie van extra kosten, er zitten ook gezondheidsrisico's aan vast. Sommige ingrepen om erachter te komen of er echt sprake van kanker is, zijn zeer ingrijpend. Zo kan de patiënt bij de afname van een klein stukje weefsel uit zijn long op de intensive care terechtkomen. Dat is dus geen ingreep die je als arts zomaar wilt doen. Vandaar dat softwarefabrikanten veel werk steken in het visualiseren van hun scores. De computer moet kunnen uitleggen waarom hij alarm slaat.

Puur cijfermatig valt het met dat gevaar van overdiagnose wel mee, zegt Van Ginneken. 'Wij hebben een deeplearningnetwerk gemaakt dat beter presteert dan alle artsen. Het verschil met de beste arts is heel klein, maar met de minder goede een stuk groter.' Dit betekent dat de software niet alleen minder dingen over het hoofd ziet, maar ook minder vaak ten onrechte alarm slaat. 'Is het perfect? Nee, ook geavanceerde software maakt fouten. Maar dat doet een arts ook, vaker zelfs.'

De tekst gaat door onder de afbeelding.

Breder kijken

Het andere vaak opgeworpen bezwaar is dat radiologen veel breder kijken dan de computer met zijn nauwe blik. Als een radioloog naar een 3D-scan tuurt op zoek naar vlekjes die kunnen duiden op kanker, zal hem een verwijding van de aorta niet ontgaan. Waar de computer naar één ding kijkt, kijkt de arts naar wel duizend dingen.

Maar zelfs bij de gevallen waar de computer aantoonbaar beter presteert, zal invoering nog een tijd op zich laten wachten. 'Ook als keihard wordt aangetoond dat iets werkt, duurt het met medische innovaties meestal een jaar of vijftien voordat het op de markt is.' Dat dat gaat gebeuren, weet de hoogleraar zeker. 'Waar het gaat om grote aantallen en waar de taak steeds hetzelfde is: dat wordt volledig geautomatiseerd. Op gezondheidscentra komt een CT-scanner met software te staan. Kwestie van adem inhouden en na vijf seconden heb je je rapportje. Dan kun je het goedkoop houden en dan hebben de artsen tijd voor specifieke gevallen.'

Mark van Buchem, hoogleraar neuroradiologie in het Leids Universitair Medisch Centrum, kijkt uit naar de invoering van geavanceerde software in de zorg: 'Kom maar op! Ik weet dat er collega's zijn die sceptisch zijn, maar ik zie het als een uitkomst. Er ligt zoveel verborgen informatie te wachten. Met behulp van software kun je bijvoorbeeld eerder alzheimer aantonen.' Voorwaarde is dan wel dat de arts toegang heeft tot grote normatieve databases met vergelijkbaar materiaal. Met AI wordt het werk volgens Van Buchem alleen maar interessanter omdat de radioloog waardevollere diagnostiek kan leveren via toegang tot grote klinische datasets met niet alleen radiologische informatie, maar ook informatie over zaken als genetica en metabolisme. Maar voorlopig is die AI alleen nog geschikt voor heel specifieke taken, zegt ook Van Buchem.

Afrika

Op termijn is het onverantwoordelijk dat mensen auto's blijven besturen

Uitspraak van Elon Musk

Wie een idee wil krijgen van deze toekomst kan nu al in Afrika een kijkje nemen. Daar wordt software zoals die van Thirona al veelvuldig ingezet. De software voor het aantonen van tuberculose in thoraxfoto's wordt op 150 plekken in 24 landen gebruikt. De bereidheid om computers te gebruiken is daar veel groter dan in het Westen, net zoals in Azië het geloof in technologie veel groter is. Voornaamste reden is de staat van de gezondheidszorg in Afrika. In veel landen zijn er gewoonweg geen mensen om foto's te beoordelen. AI-software is daar dan een uitkomst. Op congressen haalt Van Ginneken graag, enigszins provocerend, de uitspraak van Elon Musk aan dat er maar één conclusie is: op termijn is het onverantwoordelijk dat mensen auto's blijven besturen. 'Ik laat dan scans zien waar maar liefst vier artsen iets essentieels hebben gemist, terwijl de software wel alarm sloeg. En dan zeg ik, net als Musk: er kan maar één conclusie zijn...'

Andere toepassingen van AI in de zorg

Deeplearningbeeldnetwerken worden voor steeds meer gebieden in de gezondheidszorg ingezet. Zo worden ook in de pathologie (het bestuderen van cellen of weefsel) indrukwekkende resultaten geboekt. Een recentere toepassing is onderzoek naar vroegtijdige alzheimer. Onderzoekers van de Universiteit van Bari claimen dat hun algoritmen tien jaar eerder alzheimer kunnen ontdekken op basis van MRI-scans dan medisch specialisten. De volgende stap is om hetzelfde met parkinson te doen. Ook voor het aantonen van een verhoogde kans op depressiviteit (al vertoont iemand nog geen enkel uiterlijk kenmerk) worden deeplearningnetwerken ingezet bij het analyseren van MRI-scans. Verder komen er laagdrempelige apps op de markt, van het opsporen van erfelijke syndromen op basis van gezichtsherkenning tot de app VisualDx die doktoren helpt bij de juiste diagnose van huidaandoeningen. De iPhone-app maakte een foto en de app vergelijkt dit met een database van 32 duizend foto's.

AI is uiteraard niet beperkt tot het analyseren van beelden. Zo probeert IBM met zijn AI-platform Watson voorspellingen te doen op basis van het doorploegen van grote hoeveelheden data die worden vergeleken met andere patiëntdossiers.