Cijfer lijsters

Het factchecken veranderde een paar jaar geleden het politieke debat. Nu worden de WK-analisten ontmaskerd. De datafetisjisten rukken op.

Op een avond zoals er zo veel waren de laatste tijd schoof Mart Smeets aan op de rode bank van Studio Brasil. Smeets houdt niet van voetbal, dat zegt hij graag. Hij is de man van het basketballen, het schaatsen en het fietsen, maar voetbal - nee, laat dat maar aan anderen over.


Niettemin nam hij plaats naast Henry Schut om te praten over voetbal. En als Smeets iets zegt, doet hij dat met overtuiging. Over Mario Balotelli bijvoorbeeld, spits van het Italiaanse elftal: 'Deze man is in staat om in 27 doelpogingen - ik heb ze geteld - 8 keer te scoren. Dat is een gigantisch hoog gemiddelde. Er zijn weinig voetballers in de wereld die dat kunnen.'


Verfrissend zo'n uitspraak: het is altijd fijn als iemand in een praatprogramma uitstijgt boven de vrijblijvende anekdotiek en kroegpraat die het genre domineren. Nergens wordt zo veel lucht gebakken en verplaatst als in voetbalanalyses op tv. Als iemand dus eens wat keiharde feiten en cijfers erbij pakt, levert dat meestal nieuwe, interessante inzichten op.


Als de cijfers kloppen tenminste.


Thomas Boeschoten (27) kreeg via Twitter de vraag of dat zo was. Als datadocent van de Universiteit Utrecht en blogger van catenaccio.nl buigt hij zich regelmatig over statistieken. Hij kwam er snel achter dat Smeets niet goed kan tellen. Het aantal schoten was onduidelijk (op doel of niet?) en het aantal doelpunten klopte ook al niet. Sterker, gekeken naar een heel seizoen scoorde Balotelli ondergemiddeld.


'Mart Smeets neemt zijn collega's de maat', schreef Boeschoten, 'maar heeft ondertussen geen flauw idee wat de betekenis is van de gegevens die hij zelf op televisie bespreekt. Hij bejubelt een speler op basis van onduidelijk gedefinieerde statistieken die hij lukraak interpreteert.'


De cijfermatige afrekening was tekenend voor dit WK: aan alle kanten rukken de datafetisjisten op, ze pikken de lege hulzen en nattevingeranalyses van het leger aan voetbaldeskundologen niet meer. En dat slaat aan: in de digitale kiosk Blendle verkopen de sportstukjes van catenaccio.nl beter dan die van De Telegraaf. Op Twitter houden talloze accounts duizenden volgers realtime op de hoogte van de laatste feitjes. Zoals het factchecken een paar jaar geleden het politieke debat veranderde, is nu de arena van WK-analisten aan de beurt.


Bert van Marwijk, bijvoorbeeld, dacht bij de wedstrijd Australië-Nederland iets slims gesignaleerd te hebben: 'Robben en Van Persie spelen meer samen dan Messi en Neymar, die alles alleen doen.' Klinkt plausibel. Toch? 'Nu de feiten', twitterde catenaccio. 'Messi verstuurde 70 passes, Neymar gemiddeld 36, Van Persie 24 en Robben 23. Aantal kansen voor ploeggenoten gecreëerd: Messi 4, Neymar 3, Robben 2 en Van Persie 0.'


Ook de publieke opinie wordt onder vuur genomen: 'Voor de mensen die denken dat Kuyt de meeste meters maakte', twitterde Tussen de linies, een ander blog over voetbalstatistieken. 'Robben: 10.258 m, Wijnaldum: 10.114 m, Blind: 10.103 m, Sneijder: 9.912 m, Kuyt: 9.695 m.'


Zelfs tijdens totale euforie beroepen dit soort liefhebbers zich op harde data, getuige een tweet van Tussen de linies, direct na de 2-1 tegen Mexico: 'JAAAAAAAAAA! KLAAS-JAN HUNTELAAR! 5 balcontacten, één assist, één goal!'


De opmars van data in sportverslaggeving beperkt zich niet tot Nederland. Met name in de Verenigde Staten, maar ook in Duitsland en Engeland, is dezelfde tendens waar te nemen. Traditionele kranten als The Washington Post wagen zich aan sportdata, maar ook zakenbank Goldman Sachs doet WK-voorspellingen. Statisticus Nate Silver, bekend van griezelig precieze voorspellingen van de Amerikaanse verkiezingen, maakte met zijn blog FiveThirtyEight in 2013 onder veel bombarie de overstap van The New York Times naar ESPN. De WK-voorspellingen zitten er vaak genoeg naast, maar er staan ook veel interessante data-artikelen op de site.


Zo was een doorwrochte analyse van de prestaties van Messi vorige week één van de populairste stukken online. De auteur kwam tot de conclusie dat Messi zo goed is dat hij 'onmogelijk is'. Een grafiek van het totale aantal goals en assists ten opzichte van het aantal gespeelde wedstrijden sinds het WK van 2010, liet zien dat Messi samen met Ronaldo op eenzame hoogte staat. Hun stipjes waren zo ver verwijderd van de amorfe massa dat het haast lachwekkend was. En zo waren er nog talloze andere grafieken waarin het Messi-stipje als een eenzame ster aan de hemel stond.


De grafieken tonen dat data pas echt tot leven komen door geslaagde visualisaties. Een kale opsomming zegt - in een oogopslag - weinig. Sinds dit WK is de heatmap helemaal ingeburgerd: een warmtekaart waarop inzichtelijk is gemaakt waar de spelers liepen. Henk Hoijtink van Trouw schreef dat de Italiaanse middenvelder Pirlo zich op een 'bar klein gedeelte van het veld voortbewoog'. Catenaccio twitterde snel de heatmaps: de waarheid liet weinig heel van de bewering.


Ook interessant: de wave-visualisaties van statistiekbureau Infostrada Sports. Aan beide kanten van een lijn is aan de hand van de aanvallende productie van twee ploegen - schoten, corners, vrije trappen, et cetera - de fluctuaties van een wedstrijd te zien. In de wedstrijden van Nederland tegen Chili en Mexico viel het bijvoorbeeld op dat het aanvallende vermogen van de tegenstanders van Oranje zeer vlak en mat was. 'Critici zeggen dat Nederland pas na die 1-0 goed begon te voetballen', schreef analist Simon Gleave in zijn datarubriek De Zestien op volkskrant.nl, 'maar voor de 1-0 was het solide.' De datagolven toonden zijn gelijk.


Het gebruik van data in sport is niet nieuw. In sporten als honkbal en basketbal is het niet vreemd als een transfer puur op statistieken is gebaseerd. Ook in het voetbal wordt steeds meer gewerkt met analyses op basis van tot cijfers gereduceerde prestaties. En op tv zien we al een aantal jaar allerlei statistieken in beeld: het aantal meters dat een speler heeft afgelegd, het aantal passes dat is aangekomen, het aantal schoten op het doel, het percentage balbezit.


Toch heeft het betrekkelijk lang geduurd tot statistieken doordrongen in de reguliere verslaggeving. Kale cijfers zijn niet altijd verhalen en dat is waar het allemaal om draait in de sportjournalistiek. Niet zelden zijn krantenjournalisten wars van cijfers.


Nu is de tijd rijp: data zijn overal voorhanden. Via bureaus als Opta en Infostrada komen allerlei statistieken online. Openbare bronnen als squawka.com, whoscored.com, Four Four two Stats Zone van de site fourfourtwo.com, statsbomb.com en de FIFA zelf bieden een eindeloze hoeveelheid aan datasets. In wezen kan iedere liefhebber datajournalistiek bedrijven. En dat is ook vaak het geval.


'Je ziet dat veel wetenschappers, statistici en andere mensen die handig zijn met data, veelal jonge enthousiastelingen, in hun vrije tijd journalistiek bedrijven', zegt Michiel de Hoog, die op basis van data over voetbal schrijft voor De Correspondent en de Volkskrant. 'In Amerika heb je Colin Trainor, een accountant, en James Grayson, een wetenschapper, die interessante voetbalblogs schrijven. Zelf werk ik samen met Sander IJtsma, die chirurg is. Hij doet de cijfermatige analyses erbij voor de lol. Ik schrijf het verhaal.'


Het verhaal van datajournalistiek in de sport is tot dusver het verhaal van de rebellen versus de gevestigde orde. Vooral catenaccio.nl maakt er een sport van de grijze mannen op tv en van de krant op hun plek te zetten. 'Ons werk komt voort uit een frustratie over wat ontbreekt in de sportjournalistiek', zegt Boeschoten, een van de drie vaste redacteuren van Catenaccio. 'Veel journalisten doen hun huiswerk niet. Er zijn veel analisten of commentatoren die zich verspreken of het verkeerd zien - dat is menselijk, dat kan gebeuren. Maar ik ben allergisch voor mensen die dik worden betaald en zich slecht voorbereiden.'


Als voorbeeld noemt hij het ontbreken van Daryl Janmaat in de wedstrijd tegen Mexico. 'Niemand begreep dat bij de NOS. Maar als je even naar de statistieken kijkt, zie je dat zijn passzuiverheid tegen Chili beroerd was: slechts 53 procent.' Toen Youri Mulder Bruno Martins Indi kopsterk noemde, factcheckte Boeschoten de bewering: de verdediger verloor tijdens het WK alle drie zijn kopduellen. En in de eredivisie verloor hij 24 van 49 kopduels. 'Mulder roept dat alleen omdat Martins Indi 1.87 meter is.'


Data kunnen volgens Boeschoten op twee manieren worden gebruikt: om mythes te ontkrachten of te bevestigen. En om nieuwe inzichten te verschaffen. Boeschoten: 'Na de wedstrijd AC Milan-Ajax zei Louis van Gaal dat Nigel de Jong te veel balverlies leed. Maar hij bleek een passzuiverheid van 100 procent te hebben. En hij werd ook nauwelijks van de bal gezet. Dat komt door het beeld dat van zo'n speler bestaat: een botte werker, tikkeltje lomp, geen fijnzinnige passer. Met data kun je de beeldvorming rechtzetten.' Toch zijn data niet zaligmakend. Verkeerde interpretaties zijn snel gemaakt. 'Assists worden nog steeds veel gebruikt als graadmeter', zegt De Hoog. 'Maar we weten allang dat het een onnauwkeurige variabele is. Als een briljante voorzet niet wordt afgemaakt, is het immers geen assist. Je bent als voorzetter afhankelijk van de spits.'


Boeschoten stoort zich vooral aan feiten zonder context. 'Er wordt vaak gestrooid met cijfers zonder dat het in een breder verhaal past. We weten dat er geen enkele relatie is tussen balbezit en de uitslag, toch wordt dat percentage er telkens bij gepakt. Bij Duitsland-Portugal werd gezegd dat het gelijk opging omdat ze allebei dertien schoten hadden gelost. Maar er werd niet vermeld dat Duitsland van veel kansrijkere posities schoot. Cristiano Ronaldo schoot uit onmogelijke hoeken.'


Hij stelt voor iedere tv-analist te koppelen aan een statisticus. 'Samen kijken ze naar de wedstrijd en testen de interpretaties van de analist.' Is dit een open sollicitatie? Lachend: 'Nou, we hebben de NOS zo vaak afgezeken dat ik elke illusie heb laten varen dat we nog worden uitgenodigd.'


1-5 in data


Na de 1-5 van Spanje-Nederland toonde The New York Times overtuigend aan hoe hoog op het veld de Spanjaarden verdedigden, waardoor Oranje de mogelijkheid kreeg met dieptepasses aanvallen op te zetten: 14 schoten, waarvan 11 op het doel en 5 in het doel. In een fotosequentie werd de kopgoal van Van Persie en de assist van Blind in beeld gebracht. Overigens schatte The Washington Post de kansen van Nederland vooraf slecht in: Oranje zou niet door de groepsfase komen vanwege een onhoudbaar doelpuntenratio (weinig kansen, veel doelpunten). Ook data kunnen ernaast zitten.

Meer over

Wilt u belangrijke informatie delen met de Volkskrant?

Tip hier onze journalisten


Op alle verhalen van de Volkskrant rust uiteraard copyright. Linken kan altijd, eventueel met de intro van het stuk erboven.
Wil je tekst overnemen of een video(fragment), foto of illustratie gebruiken, mail dan naar copyright @volkskrant.nl.
© 2019 DPG Media B.V. - alle rechten voorbehouden