Het almaar groeiende datamonster: Help, de wetenschapper verzuipt!

De hoeveelheid data die de wetenschap produceert, neemt elk jaar met eenderde toe. Hoe voorkomen wetenschappers dat zij verdrinken in de datazee?

Het almaar groeiende datamonster Beeld Michiel Schuurman

Zit uw iCloud weer vol? Begint de harde schijf te pruttelen omdat ze tot de nok gevuld is met bytes? Is uw databundel altijd halverwege de maand op? Niet alleen gewone stervelingen worstelen met de hoeveelheid gegevens die ze produceren, verslepen en bewaren; de wetenschap kan er ook wat van. Wetenschappelijke instrumenten zijn zo goed geworden, dat de opslag en bewerking van al die data geregeld tot problemen leidt.

De datazee zwelt bovendien steeds sneller aan: volgens de Europese Commissie met jaarlijks 30 procent. Wetenschappers zijn bezig multi-petabytes hooibergen te creëren, waarin het terugvinden van die waardevolle ene speld steeds lastiger wordt, waarschuwde Scientific Computing World vorig jaar. Wat zijn de drie belangrijkste uitdagingen waar onderzoekers tegenaan lopen?

Uitdaging 1: Hoe vind je de speld in de hooiberg?

Het heelal is overal in de Leidse werkkamer van Huub Röttgering. Aan de wanden hangen posters waarop quasars te zien zijn en zwarte gaten uit de begintijd van het universum. De minieme kleurige vlekjes zijn dertien tot veertien miljard jaar oud en geven sterrenkundigen als Röttgering een kijkje op de kraamkamer van het universum.

De beelden zijn gemaakt door Lofar, 's werelds grootste radiotelescoop die strekt van Ierland tot Polen en waarvan het kloppend hart zich bevindt op een terp bij het Drentse Exloo. Lofar speurt de hemel af met duizenden radioantennes die met elkaar verbonden zijn.

'Om zo'n kaart te kunnen maken, moet je eerst een hele lijst afwerken', zegt Röttgering. Om te beginnen is daar de hoeveelheid data die Lofar produceert. U was zo blij met uw nieuwe harde schijf van een terabyte? Lofar vult hem in acht seconden. Om een kiekje van het heelal te maken moet Lofar acht uur meten. Dat zijn 3.600 harde schijven.

Huub Röttgering, hoogleraar observationele kosmologie, Sterrewacht Leiden.

Dat is veel, zegt de hoogleraar observationele kosmologie aan de Sterrewacht Leiden. Maar het is niet alleen de hoeveelheid data die de Leidse sterrenkundigen voor een probleem stelt. Het is vooral, zegt hij, de hoeveelheid rekenwerk die de data oplevert. Op zijn Mac toont Röttgering waar de onderzoekers tegenaan lopen.

Ten eerste is daar de kwestie tijd. Je moet van elke van de duizenden ontvangers precies weten hoe laat welk signaal uit de ruimte binnenkomt. Als je niet tot op de nanoseconde weet waar welk signaal binnenkomt, krijg je beeldvervormingen in de tijd, zegt Röttgering. Dan eindig je met een onscherpe 'foto', alsof de camera niet goed heeft scherpgesteld. Dus moet elke ontvanger exact gelijk lopen. Dat kan door ze allemaal een atoomklok te geven, maar dat is te duur. De klokken gelijk zetten, gebeurt daarom achteraf. Door te vergelijken en terug te rekenen.

Volgende probleem: Lofar ziet de complete hemel. Een klassieke telescoop met een spiegel kijkt slechts naar een klein deel. Doordat Lofar 'alles' ziet, heb je extra veel verstoringen. 'Je hebt te maken met reflecties van passerende vliegtuigen, auto's, andere radiostations, mobiel telefoonverkeer, windmolens', zegt Röttgering, vanwege de ophef die de mogelijke komst van windmolens in Drenthe veroorzaakte onder sterrenkundigen. De hoeveelheid verstoringen is zo groot dat het lijkt alsof je vanuit Leiden luistert naar iemand die een telefoongesprek voert in Rotterdam. Om die eruit te halen is enorm veel computerkracht nodig, en die wordt geleverd door supercomputers in Leiden, Groningen en Amsterdam.

Dan is er nog de trillende ionosfeer, die er voor zorgt dat de sterren die wij zien twinkelen. Die twinkeling zien radiotelescopen ook. Maar wat voor aardlingen een romantisch gezicht is, is voor radiosterrenkundigen een gekmakende dans. Röttgering toont een 'ruwe' opname, waarop te zien is hoe het zwerk een dronkemanspolka lijkt uit te voeren. In elke kijkhoek is de verschuiving net iets anders, en ook per ontvanger verschillen de verschuivingen ten opzichte van elkaar. 'Die twinkeling is honderd tot duizend keer zo groot als de scherpte van je telescoop', zegt de hoogleraar. Dat moet worden gecorrigeerd. En opnieuw vergt dat enorme rekenkracht.

Wifi is te danken aan sterrenkunde

Draadloos internet had niet kunnen bestaan zonder de kennis opgedaan door sterrenkundigen. Hun kennis over het wegfilteren van ruis, wordt toegepast bij wifi.

Een van de problemen waarmee de radiosterrenkunde te maken heeft is een fenomeen dat ghosting wordt genoemd: reflecties van signalen die het oorspronkelijke signaal verstoren. Bij uw wifi-router in de gang - in feite een radiozendertje - gebeurt hetzelfde. Het signaal dat het station uitzendt weerkaatst tegen muren, het plafond en de vloer, waardoor valse echo's het bij de ontvanger verstoren.

Sterrenkundigen hebben algoritmen ontwikkeld die de stoorsignalen weghalen. 'Alleen dit al rechtvaardigt het bestaan van de sterrenkunde', zegt Huub Röttgering.

Lofar ontvangt vooral ruis. De onderzoekers scheppen hooiberg na hooiberg hun supercomputers in, om slechts heel af en toe een speld te vinden. En de spelden die ze vinden zijn meestal niet zo interessant. Van de tien miljoen meest afgelegen zwarte gaten willen ze er een stuk of honderd hebben: de verste en dus de oudste. Die bevatten informatie over het begin van het universum. Als je weet hoe deze eruitzien, kun je aan de hand van jongere versies zien hoe ze zich hebben ontwikkeld de afgelopen miljarden jaren.

Röttgering loopt naar zijn recentste babyfoto van het heelal. De poster op A0-formaat toont een stuk of dertig gekleurde vlekjes, dat zijn jonge quasars en zwarte gaten. Elke poster meet 25 duizend bij 25 duizend pixels. 'Om dit op een beeldscherm te laten zien heb je vierhonderd monitors nodig', zegt hij. En dit is nog maar een uitsnede. Om de hele hemel in kaart te brengen, zijn drieduizend van deze posters nodig, gemaakt uit 20 petabyte aan data. 'Dat is echt veel.'

Om de schaal van het probleem te schetsen: het uitrekenen van deze ene kaart, waarvan de gegevens in acht uur werden verzameld, duurde twee jaar. Dat complete heelal lijkt dus een onmogelijke opgave. Och, zegt Röttgering, dat valt wel mee. 'We hebben bijgeleerd. We kunnen deze kaart nu in een week maken. Over een jaar of vijf hebben we het complete heelal.'

Uitdaging 2: Wat mag het kosten?

Dag en nacht zoeft hij door, de taperobot in het datacentrum van deeltjeslab CERN in Genève. Roetsjt over rails langs de kasten, stopt en neemt er de tapecassette uit met de gezochte meetgegevens, brengt die naar de uitleesunit en stopt hem erin. En op weer, naar de volgende.

In totaal, zegt datamanager Jan van Eldik van CERN, staan in de uitgestrekte hal op het labterrein ongeveer 60 duizend tapes met ruwe data: de elektronische bliepjes en piepjes uit de vier grote detectoren waaruit met rekenen en vernuft sporen kunnen worden gereconstrueerd van deeltjes die vrijkomen bij de protonbotsingen in de versneller.

Rond de tapebank is een heel onderhoudsprogramma van kracht. 'Al was het maar omdat de gebruikte apparatuur helemaal niet bedoeld is om eindeloos te schrijven en herschrijven, zoals wij doen', zegt Van Eldik. De hardware, namelijk, is het standaardspul van Oracle en IBM dat gewone datacenters voor eenmalige back-ups gebruiken. Hier op CERN gaan ze drieduizend keer mee, daarna wordt een kopie gemaakt en gaat de oude eruit. Afgeschreven.

Als er érgens sprake is van een datavloed, is het op CERN. Als de LHC-versneller op zijn top draait komen er per seconde signalen vrij van ongeveer een miljard protonbotsingen. Om dat bij te benen, komt het aan op scherpe keuzen. Niet alles wordt opgeslagen of zelfs bewerkt, zogeheten triggers beoordelen of iets de moeite waard kan zijn.

Van de voortdurende stortvloed aan signalen gaat door die filtering maar een fractie naar het datacentrum van het lab, rond de vijf-, zeshonderd events per seconde. Met elk event ongeveer een megabyte aan informatie, pakweg een foto met een iPhone, genereert CERN op volle kracht zo'n 10 gigabyte per seconde aan waardevolle data. 'Dit jaar alleen al zo'n 50 petabyte', zegt Van Eldik.

Een stapel van zo'n honderd miljoen cd's, maar tape, hoe ouderwets het ook klinkt, is een veel handzamer medium om de vloed aan meetgegevens te bewaren. En veel goedkoper. In de tapebank is ruimte voor 600 petabyte opslagcapaciteit, allemaal onder handbereik van fysici die op zoek zijn naar de interessante spelden in de hooiberg.

Het klinkt gigantisch, en dat is het ook, zegt Van Eldik. 'Maar het is geen onmogelijke taak, technisch. Het is meer de vraag hoeveel geld je ervoor overhebt om data te bewaren. Met meer geld kun je de filters bij de experimenten verder open zetten en dus meer data opslaan.' Eerder maken de databeheerders van het lab zich zorgen over meer aardse zaken als het stroomverbruik en de koeling en veiligheid. Onder meer daarom worden de data ook nog eens verdeeld over twaalf gelieerde deeltjeslabs en instellingen wereldwijd. Daaronder ook het Nikhef-laboratorium in Amsterdam, dat niet toevallig op de backbone van het Europese internet staat en gelieerd is met rekencentrum SARA op dezelfde campus, Science Park.

Bij die aangesloten labs zit ook een groot deel van de rekenkracht die nodig is om uit de meetgegevens zinnige natuurkunde te peuren. In deeltjesfysica komt het aan op het interpreteren van de sporen die in de detectoren ontstaan na botsingen. Dat vergt niet zozeer massieve rekenkracht, als wel massale rekenkracht, zegt Van Eldik. 'Een event is een megabyte, dat is te overzien. Waar het vooral op aankomt is dat je heel veel events vlot wilt kunnen doorrekenen. Ideaal om parallel te doen dus.'

Om die reden staat, het zal buitenstaanders wellicht verrassen, op CERN geen supercomputer. In plaats daarvan runt het rekencentrum van het lab in een fabriekshal zo'n 13 duizend computerservers. Geen speciaal spul, gewone computers die draaien op Linux - ook gratis. Ook hier, zegt Van Eldik, geldt dat de rekenkracht op CERN meer een kwestie is van geld, voldoende elektriciteit en koelingscapaciteit, dan van grenzen aan wat de techniek vermag. 'De datavloed baart vooral de managers zorgen.'

Uitdaging 3: Hoe combineer je gegevens?

Waar sterrenkundigen, meteorologen en medisch biologen worstelen met de hoeveelheid data die op ze afkomt, speelt in de sociale domeinen weer een ander probleem. Daar is het vooral de enorme variëteit aan data die wetenschappers hoofdbrekens bezorgt. 'Er worden in de sociale wetenschap vaak combinaties van databronnen gemaakt, maar van de analyse die je daar op doet en de uitkomsten die je krijgt, weet je eigenlijk niet altijd hoe zinnig die zijn', zegt Maarten van Steen, hoogleraar gedistribueerde computersystemen en wetenschappelijk directeur van CTIT, het academische ict-instituut van de Universiteit Twente.

Neem onderzoek naar het Internet of Things, waar Van Steen zich onder meer mee bezighoudt, de talloze apparaatjes en sensoren die verbonden zijn met internet. Ze geven automatisch waterstanden door, of geven een seintje als de koeien gemolken dienen te worden. Van Steen gebruikt het IoT en wifi voor het traceren van mensenmassa's via hun smartphone, bijvoorbeeld om tijdens festivals te zien hoe groepen zich bewegen. De analyses daarvan kunnen gebruikt worden om te voorspellen waar het druk gaat worden.

Van Steen heeft onder meer onderzoek gedaan bij het TT Festival in Assen. Door in de stad scanners op te hangen, kan aan de hand van mobiele telefoons worden nagegaan hoe bezoekers zich bewegen. Gaan ze van podium naar podium, of nemen ze juist andere routes? 'Je maakt daarbij enorm veel metingen over tijd en locatie', zegt hij. 'Die gegevens wil je gaan combineren. Wie is waar op welk moment? Dat zijn ontiegelijk veel combinaties.'

Drie dagen meten in Assen leverde 50 miljoen detecties op. Met de methode die de hoogleraar gebruikt, kunnen individuele bezoekers worden gevolgd - de data worden geanonimiseerd -, maar de onderzoekers willen graag ook groepen kunnen onderscheiden. 'Hoe zijn groepen samengesteld? Zijn er tien groepen die hetzelfde hebben gedaan?'

Om dit soort vragen te kunnen beantwoorden op basis van een reuzenwolk data vergt, het wordt voorspelbaar, rekenkracht. Meer dan voorhanden is soms, zelfs met de snelste computers, zegt de hoogleraar. Dus moet er gereduceerd worden. Onnodige data moet eruit. Lastig, zegt Van Steen, 'omdat je uit de databerg niet kunt zien wat nuttig is en wat niet.'

Van sommige data weet je dat ze geen informatie toevoegen. 'Bijvoorbeeld als mensen van A naar B lopen, maar ondertussen een rondje maken.' Zo'n vaak onnodig cirkeltje kost wel rekenkracht. Door slim gegevens weg te gooien, kan de dataset tot een factor twee worden verkleind.

Maar hoe weet je zeker of je niet de verkeerde data weggooit, zegt Van Steen. Om dat te achterhalen moeten modellen worden getest. Dat kan met andere bronnen, zoals bijvoorbeeld met Twitter. Sommige twitteraars delen locatie-informatie en die kan worden gebruikt om eerder vergaarde data te testen. Of door het gewoon te vragen. Tijdens de TT in Assen leek het op een bepaalde plek niet druk. 'Maar de organisatie zei dat daar een aantal cafés was waar het altijd heel bedrijvig is.' De data waren dus niet in overeenstemming met de werkelijkheid en er was aanpassing van de modellen nodig.

Nog veel lastiger is het om context uit data te halen. Zo willen de Twentse onderzoekers bijvoorbeeld achterhalen of mensen naar binnengaan bij een coffee corner of een sportschool. 'Dat moet je op basis van bezoekerspatronen kunnen afleiden. Maar hoe?' Hoe veel mensen gaan naar binnen, hoe lang blijven ze? Dat kan een indicatie zijn. Om dit te kunnen vaststellen zijn complexe algoritmen nodig. En opnieuw rekenkracht. En dan willen de onderzoekers de resultaten het liefst real-time, in plaats van achteraf.

Diamonds are for data

Diamanten zouden weleens kunnen helpen in onze zucht naar data-opslag: onderzoekers zijn erin geslaagd in een stukje diamant met de lengte van een rijstkorrel en de dikte van een vel papier een hoeveelheid data op te slaan die honderd keer groter is dan wat op een dvd past. Hierbij wordt gebruik gemaakt van kleine imperfecties in diamanten. Een miljoen keer meer data dan een dvd ligt in het verschiet, zeggen de wetenschappers in Science Advances.

De volgende stap is om systemen zelf beslissingen te laten nemen. Bijvoorbeeld door op festivals bepaalde gebieden automatisch af te sluiten, of door de bezoekersstroom te verleggen. 'Daarvoor hebben we nu nog crowd experts nodig, en dat zal nog wel even zo blijven', zegt Van Steen.

Kunstmatige intelligentie kan helpen patronen te ontdekken in allerlei soorten gegevens, zegt Rob van Nieuwpoort, als bijzonder hoogleraar efficient computing for eScience aan de Universiteit van Amsterdam en verbonden aan het Nederlands eScience centrum, een organisatie die data-intensief wetenschappelijk onderzoek ondersteunt. Denk aan de wetenschapper die vogeltrek wil onderzoeken. Hij geeft vogels een sensor mee die onder meer hun vleugelslag meet, als een soort stappenteller. Hij kijkt naar weerdata, waarnemingen door vogelaars, en hij krijgt gps-data, schetst Van Nieuwpoort. Uit al deze soorten data kunnen met behulp van machine learning patronen worden herkend, waaruit misschien blijkt waarom er ineens veel minder nakomelingen zijn.

Heel mooi, maar je weet nooit zeker of de juiste patronen zijn herkend, zegt Van Nieuwpoort. 'Machine learning is een black box, je weet niet precies wat er gebeurt.' Dat maakt reproduceerbaarheid van dit type onderzoek ingewikkeld. Als volgend jaar de wind net even anders waait, kunnen de uitkomsten heel anders zijn.

Rob van Nieuwpoort, bijzonder hoogleraar efficient computing, Universiteit van Amsterdam.

Betrouwbaarheid van big data is dus een issue, zegt Van Nieuwpoort. Zelfs bij een vakgebied als sterrenkunde. Natuurlijk kun je je telescoop altijd opnieuw metingen laten doen, de meeste sterren veranderen niet zo snel. Hier wordt zo veel data vergaard, dat je dingen moet weggooien, anders stik je in je gegevens. 'Alleen weet je ook nu nooit zeker of je de juiste gegevens weglaat.' Betere instrumenten die meer data opleveren, hoeven hierdoor niet per se tot betere data te leiden, zegt Van Nieuwpoort.

eScience probeert wetenschappers te ondersteunen bij het verkrijgen van goede data, en bij de analyse daarvan. Dat gebeurt onder meer door 'gewone' wetenschappers te koppelen aan computerexperts. Een bioloog kan precies duidelijk maken welke gegevens hij nodig heeft en welke weg kunnen, zegt Van Nieuwpoort. De computerwetenschapper weet hoe dat moet. Resultaat: betere gegevens, is het idee. 'Uiteindelijk komt het dus toch neer op intermenselijke communicatie, ook bij big data', aldus Van Nieuwpoort.

Loopt de wetenschap tegen de grenzen aan? 'Het is een beetje van alle tijden', relativeert sterrenkundige Huub Röttgering. 'Zeker in de sterrenkunde. Zodra er een nieuw apparaat komt, krab je je even op je kop en moet je bedenken hoe je al die nieuwe gegevens gaat bolwerken.'

'Eigenlijk', zegt Röttgering, 'hebben we gewoon een tekort aan data.' Sterrenkundigen willen liever nog veel meer, omdat ze dan verder kunnen kijken, en in meer detail. 'We willen dieper. Als je met een factor honderd kan inzoomen op een object is beter.' De in aanbouw zijnde radiotelescoop Square Kilometre Array kan aan deze zucht naar meer voldoen. Al zal zijn komst betekenen dat de berg ruis nog immenser zal zijn. 'Maar', zegt Röttgering, 'we komen er wel uit.'


Hulp uit de gamesindustrie

Een van de mogelijkheden om de bergen datagruis sneller door te vlooien is het gebruik van grafische processors. Dit zijn rekeneenheden die in de gamesindustrie zijn ontwikkeld om snelle beeldberekeningen te doen. Doordat ze volledig zijn toegesneden op een taak, werken ze honderd tot duizend keer sneller dan 'gewone' processors.

Sterrenkundigen hebben zich sinds enkele jaren gestort op technieken om deze gpu's te gebruiken voor hun berekeningen. In Groningen worden gpu's gebruikt om de eerste verwerking te doen van de data die daar van alle radiostations binnenkomt. Niet het hele proces kan nog door gpu's worden gedaan, omdat alle software ervoor herschreven moet worden. Beeldchips spreken een andere taal dan gewone processors. Herschrijven is kostbaar.

Een andere truc is het verdelen van taken, iets wat in computertermen parallelisatie wordt genoemd. Door het totale spectrum waarop Lofar data ontvangt op te knippen in bijvoorbeeld vijfduizend afzonderlijke stukjes, kunnen de berekeningen over vijfduizend processors worden verdeeld die alle een deel voor hun rekening nemen. Vervolgens tel je alle 'plaatjes' weer bij elkaar op.

Probleem hier, is de slechte signaal/ruisverhouding, zegt Huub Röttgering. Het verschil tussen informatie en ruis wordt door het opknippen zo klein dat het nuttige signaal niet meer ontdekt kan worden. Dus moet je zo veel kanalen samenvoegen tot je dat onderscheid weer kunt maken.


Ruimtetelescoop Gaia

De Europese ruimtetelescoop Gaia, die bijna drie jaar geleden werd gelanceerd om de locatie en de beweging van een miljard sterren in het melkwegstelsel in kaart te brengen, is ook een grootleverancier van wetenschappelijke bulkdata. Hoewel de hoeveelheid ruwe gegevens die de satelliet naar de aarde stuurt nog wel meevalt. 'Die past bij wijze van spreken op mijn laptop', zegt Anthony Brown, de Leidse sterrenkundige die verantwoordelijk is voor de gegevensverwerking van het project. Zo'n 40 gigabyte per dag komt er binnen, zo'n 73 terabyte in vijf jaar.

Pas als de ruwe data worden bewerkt, zwelt de gegevensberg op, tot vermoedelijk een petabyte als de missie is afgerond. Vooral in het ordenen (ze zodanig in databases rangschikken dat de software ermee uit de voeten kan) en het controleren of alle gegevens juist zijn ontvangen, gaat veel werk zitten, zegt Brown.

Maar de grootste bottleneck is het transport van al die bits. De gegevens komen binnen in Madrid, waarna ze worden verstuurd naar een van de vijf aangesloten academische datacentra in Europa voor verwerking. Het verschepen van al die bytes gaat in de praktijk soms trager dan gedacht, zegt Brown. Doordat de capaciteit van de datalijnen van de universiteiten beperkt is, en ze ook gebruikt worden door andere onderzoekers, ontstaan weleens opstoppinkjes op de digitale snelweg.

Het wetenschappelijk onderzoek loopt er geen vertraging door op, al had Brown het liefst gezien dat alle dataverwerking in één instituut was gedaan. Dan hadden er geen gegevensmeren heen en weer te hoeven gepompt en konden onderzoekers bij elkaar zitten, wat ook de menselijke communicatie ten goede komt. 'Maar dit is zowel politiek als in de praktijk lastig uitvoerbaar', zegt Brown.

Meer over

Wilt u belangrijke informatie delen met de Volkskrant?

Tip hier onze journalisten


Op alle verhalen van de Volkskrant rust uiteraard copyright. Linken kan altijd, eventueel met de intro van het stuk erboven.
Wil je tekst overnemen of een video(fragment), foto of illustratie gebruiken, mail dan naar copyright @volkskrant.nl.
© 2019 DPG Media B.V. - alle rechten voorbehouden