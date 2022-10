De naam S10 is een elegant gecomprimeerde versie van ‘Stien’. Als je de tekst van haar nummer De diepte compacter wilt opschrijven, dan kun je bijvoorbeeld ‘Tadadadadadadadada’, vervangen door ‘Ta 78 x da’.

Bij verliesvrije datacompressie kun je uit het gecomprimeerde bestand het oorspronkelijke bestand weer precies terugtoveren. Dit is niet vanzelfsprekend, denk aan de blokkerige foto’s die je soms ziet: daar is het fotobestand zo verkleind dat je niet meer terug kunt naar het oorspronkelijke plaatje.

Laatst kwam ik een prachtig wiskundig bewijs tegen dat een methode voor verliesvrije datacompressie nooit kan werken voor álle bestanden. Als je een methode hebt die minstens één bestand kleiner maakt, dan bestaat er onvermijdelijk een bestand dat door diezelfde methode juist groter wordt.

Het is een bewijs uit het ongerijmde: je begint met het tegenovergestelde van wat je wilt bewijzen, redeneert vanuit daar volgens een aantal volkomen logische stappen, net zo lang tot je een tegenstelling tegenkomt. Omdat al je stappen logisch en correct waren is de enige mogelijke conclusie dat je eerste aanname niet klopte.

In dit bewijs redeneren we over bestanden die opgeslagen zijn als een eindige reeks bits (die elk 0 of 1 kunnen zijn). We nemen aan dat er een compressiemethode bestaat die minstens één bestand omzet naar een output die korter is dan het origineel én dat deze methode alle andere bestanden niet langer maakt dan ze waren. (Bestanden langer maken is namelijk niet zo’n heel handige vorm van compressie.)

Nu volgt er een klein beetje notatie: Laat M het kleinste getal zijn zodat er een bestand B bestaat met lengte M dat in een korter bestand wordt omgezet. Laat N de lengte zijn van de gecomprimeerde versie van dit bestand.

Omdat N kleiner is dan M, zal elk bestand van lengte N precies even lang blijven wanneer het gecomprimeerd wordt (want M was de kleinste lengte die omgezet kon worden in een korter bestand en we hebben aangenomen dat onze methode bestanden nooit groter zal maken).

Hoeveel bestanden van lengte N zijn er? Elke van de N bits kan 0 of 1 zijn, daarmee zijn er in totaal 2N verschillende bestanden mogelijk.

Deze bestanden worden door de compressiemethode allemaal omgezet in één of ander bestand met lengte N. Daarnaast wordt ook het grotere bestand B gecomprimeerd tot een bestand met lengte N. Dat zijn dus samen 2N+1 gecomprimeerde bestanden van lengte N, terwijl het aantal mogelijke bestanden van deze lengte slechts 2N is. We hebben één bestand te veel en dat betekent dat er twee verschillende input-bestanden zijn die tot precies hetzelfde gecomprimeerde bestand leiden. Dit maakt het onmogelijk om uit dit gecomprimeerde bestand te bepalen wat het oorspronkelijke bestand was.

Dit betekent dat onze oorspronkelijke aanname niet kan kloppen: er bestaat dus geen compressiemethode die minstens één bestand kleiner maakt en verder alle andere bestanden niet langer maakt dan ze waren. Dus elke zinvolle verliesvrije compressiemethode maakt minstens één bestand juist groter dan het was. Zoals S10 zong: ‘Ken je het gevoel dat, dat je droom niet uitkomt?’