Ruis overheerst
Blogger Nate Silver wist al lang wie de Amerikaanse verkiezingen zou winnen. Hij schreef een boek over de kunst van het voorspellen. 'We gebruiken de informatie die ons aanstaat en negeren de rest.'
Nate Silver: The Signal and the Noise
Penguin Books, 544 pagina's, ca. €30,-.
In een aantal opzichten leek de Amerikaanse verkiezing van vorige week op die van vier jaar geleden. Net als toen won Barack Obama met gemak. Net als toen leek die overwinning een verrassing: wie het nieuws over de verkiezingen volgde, kreeg waarschijnlijk de indruk dat er een nek-aan-nekrace gaande was. Net als in 2008 had een klein aantal analisten die ruime overwinning voorspeld. Voorop: Nate Silver, in 2012 onafhankelijk datablogger, werkend voor The New York Times. En, overeenkomst vier: na de verkiezingen vertelden de media die zijn analyse hadden genegeerd hetzelfde verhaal: dit wonderkind wist allang dat Obama ruim zou winnen.
Zou het bij de verkiezingen van 2016 weer zo gaan? Silver behandelt deze specifieke vraag niet in zijn boek over de kunst en wetenschap van het voorspellen, The Signal and the Noise. Maar wie het boek leest, concludeert waarschijnlijk dat 2016 niet veel anders zal zijn. De reden is dat er simpelweg te veel gegevens beschikbaar zijn om alleen relevante informatie dominant te laten zijn in de verslaggeving. De ruis overheerst het signaal.
Nate Silver (34) heeft zijn leven in het teken gezet van het doen van voorspellingen. Hij ontsnapte aan een saaie baan als consultant bij KPMG door geld te verdienen als (internet)pokeraar en honkbalstatisticus. In het poker moet je aan de hand van weinig informatie inschatten hoe je tegenstanders ervoor staan, in het honkbal kun je aan de hand van veel informatie precieze voorspellingen doen over de prestaties van spelers, en dus hun waarde.
In het honkbal is het goed mogelijk om uit statistieken waarheid te destilleren. Het spel is al decennia hetzelfde en dus zijn de statistieken zuiver. Met zuivere data kun je veel te weten komen, en dit is kortstondig een voordeel geweest voor clubs die het signaal uit die data filterden - met name de Oakland A's, wier succesverhaal is verfilmd in Moneyball (2011).
Maar het signaal zien door de ruis is moeilijk. En dit wordt steeds moeilijker in een digitale wereld. Silver schrijft dat dagelijks 2,5 quintiljoen bytes informatie het licht zien; tegenwoordig 'Big Data' genoemd. Silver ziet de kansen die Big Data bieden, maar wijst vooral op de gevaren. Het totaal aan informatie mag toenemen, het totaal aan nuttige informatie niet. 'Het meeste is slechts ruis' schrijft Silver, 'en de ruis neemt sneller toe dan het signaal.'
Hoofdstukken over de financiële crisis, klimaatverandering en aardbevingen illustreren het gevaar hiervan. Kredietbeoordelaars extrapoleerden oude cijfers over de huizenmarkt naar het heden en onderschatten de kans op een crash.
Kloppende voorspelling
De discussie over klimaatverandering is de afgelopen jaren omgeslagen doordat sceptici te veel waarde toekennen aan recente jaren waarin de temperatuur niet of nauwelijks steeg. Tragikomisch is de beschrijving van pogingen om aardbevingen te voorspellen. Om de zoveel tijd doet iemand op basis van een onnavolgbare theorie een kloppende voorspelling, waarop de wetenschap jaren bezig is om aan te tonen dat de theorie niet klopt.
Big Data zijn niet genoeg. Er moet een theorie achter steken en die moet getoetst worden met veel data. Silver wil dat we bayesiaans gaan denken, naar de 19de-eeuwse Engelse denker Thomas Bayes. Een voorbeeld: terwijl mammografieën een accuratesse van 75 procent hebben, is de kans dat een 40-jarige vrouw positief test op kanker toch maar 10 procent. Waarom? Omdat veel 40-jarige vrouwen tests ondergaan en er daarom vrij veel onterechte positieve diagnosen uitrollen.
Maar dat betekent minder als je (kloppende) bayesiaanse uitgangstheorie is dat borstkanker bij 40-jarige vrouwen extreem zeldzaam is.
Dit is moeilijk te begrijpen voor het menselijke brein, schrijft Silver. De mens heeft de neiging om snel patronen uit informatie te destilleren. Maar zoals hij het in zijn verhandeling over politieke verslaggeving stelt, 'als we te veel informatie te verwerken krijgen, gaan we er selectief mee om. We gebruiken de informatie die ons aanstaat en negeren de rest.'
Dit lokte Silver in 2007 naar de politieke verslaggeving, die 'zelfs bleek afstak bij zoiets als sport, waar de 'Moneyball-revolutie' de verslaggeving aanzienlijk had verbeterd.'
Ruis overheerst, volgens Silver. Een van de redenen is dat er elke dag een uitzending of een krant moet verschijnen, terwijl lang niet elke dag iets wezenlijks gebeurt. 'Veel nieuwsverhalen zijn opvulling, verpakt in verhalen die zijn vormgegeven om hun betekenisloosheid te verhullen.'
Een andere zwakte is de voorkeur voor alles wat afwijkt. Als tien peilingen zeggen dat een Republikein voor ligt in een race, dan is volgende peiling die hem als koploper aanwijst, oninteressant. Een peiling die de Democraat als winnaar ziet, hoe inaccuraat ook, krijgt wel aandacht. Dit kan serieuze gevolgen hebben. Rick Santorum won de Republikeinse voorverkiezing in Iowa nadat een peiling van CNN hem - onterecht - als snelste stijger aanwees. Verhalen naar aanleiding van deze uitslag maakten Santorum populairder.
Dit komt niet alleen door statistische ongeletterdheid, denkt Silver. Er is ook een markt voor foutieve informatie. Media zijn gek op scherpe, stellige, en afwijkende standpunten. Hij interviewt de psycholoog Philip Tetlock, die in zijn studie Expert Political Judgment aantoonde dat de meest uitgesproken commentatoren de slechtste voorspellingen doen. Big Data zouden hen kunnen helpen betere voorspellingen te doen, maar velen selecteren daaruit alleen de informatie die hun oorspronkelijke opvattingen ondersteunen.
Dit zou dan ook de reden kunnen zijn dat Silvers nauwkeurige aanpak ook in 2016 afwijkend is. Hij neemt een gewogen gemiddelde van alle beschikbare peilingen. Dat wil zeggen dat hij weegt naar hun historische nauwkeurigheid - een peiling van een peiler die het vroeger vaak goed had, weegt zwaarder. Na elke verkiezing, lokaal of landelijk, heeft hij zo een (licht) aangescherpt beeld van de werkelijkheid. Maar hoe goed gedocumenteerd de aanpak ook is, er is nog steeds voldoende ruis om dit signaal te dimmen.
undefined