Ionica Zag een getal

Statistiek, wie snapt het nou echt?

Statistiek, wie snapt het nou echt? Geregeld werk ik aan een onderzoeksproject waar op een gegeven moment iets van statistiek nodig is. Vaak kijkt iedereen dan mijn kant op. Op zichzelf een begrijpelijke gedachte: ‘Studeerde wiskunde, schrijft columns over getallen: die zal wel goed zijn in statistiek.’ Alleen deden we bij wiskunde nooit experimenten en leerden we al ­helemaal niet hoe je data uit de echte wereld analyseert.

Pas sinds ik onderzoek doe naar ­wetenschapscommunicatie, met experimenten en alles, verdiep ik me in statistiek. Het is een prachtig vakgebied, hels ingewikkeld ook. Vaak beginnen senior collega’s te stamelen als ik hun iets vraag over statistische analyses in hun werk en verwijzen ze me snel naar iemand anders die er vast meer van weet.

Vorige maand verscheen er een wetenschappelijk artikel dat liet zien hoe moeilijk het kan zijn om een ogenschijnlijk simpele vraag te beantwoorden met een statistische analyse. In deze studie kregen 29 onderzoeksteams dezelfde vraag: geven scheidsrechters bij voetbal eerder een rode kaart aan spelers met een donkere huidskleur dan aan spelers met een lichte huidskleur? Alle teams kregen ook precies dezelfde gegevens over ruim tweeduizend voetballers – met bijvoorbeeld ­informatie over hun rode kaarten en de scheidsrechters die hun wedstrijden floten.

Hoe zou jij dit aanpakken? Zou je bijvoorbeeld mee­nemen dat sommige scheidsrechters nu eenmaal sneller een rode kaart trekken? Zou het iets uitmaken als een scheidsrechter al veel wedstrijden met dezelfde speler heeft gefloten? Hoe zit het met de verdeling van rode kaarten over speel­posities op het veld? En hoe zit het dan weer met de verdeling van huidskleuren over die ­posities? Moet je daar allemaal rekening mee houden?

Kortom: de vraag is helemaal niet zo eenvoudig als hij lijkt, je moet om de gegevens te analyseren een heleboel keuzen maken over wat je wel en niet meeneemt en daarna kun je ook nog uit allerlei ­methoden kiezen.

Dat deden dus 29 teams allemaal op basis van precies ­dezelfde vraag en informatie. Ze kozen allemaal een andere aanpak, met net andere gegevens die ze wel en niet meenemen. Uiteindelijk concludeerden twintig teams dat er een significant effect was: donkere spelers kregen meer rode kaarten; wel ­liepen hun schattingen van hoe sterk dit effect was nogal uiteen. Negen teams vonden helemaal geen effect. Overigens was een ruime meerderheid van de teams het er na het bekijken van alle analyses over eens, dat er waarschijnlijk wel een effect is van huidskleur op rode kaarten, maar dat onbekend is hoe dat komt.

De verschillen in hun uitkomsten bleken niet te ­verklaren uit de expertise van de teams of de vooroordelen van onderzoekers over rode kaarten en huidskleur. Het zat vooral in kleine, vrijwel willekeurige verschillende keuzen. Kortom: het lijkt erop dat je dezelfde vraag met precies dezelfde data op verschillende manieren kunt aanpakken, die op zichzelf allemaal verstandig zijn, maar wel een ander ­resultaat geven.

Statistiek, wie snapt het nou echt? Ik zorg in elk geval dat ik voortaan bij elk project waar iets van statistiek nodig is, op tijd een expert erbij vraag en daarna zoveel mogelijk openheid geef over de keuzen die we hebben ­gemaakt.

Bron: Many Analysts, One Data Set: Making Transparent How Variations in Analytic Choices Affect Results

Meer over

Wilt u belangrijke informatie delen met de Volkskrant?

Tip hier onze journalisten


Op alle verhalen van de Volkskrant rust uiteraard copyright. Linken kan altijd, eventueel met de intro van het stuk erboven.
Wil je tekst overnemen of een video(fragment), foto of illustratie gebruiken, mail dan naar copyright@volkskrant.nl.