Webgebruiker helpt boeken ontcijferen

Gebruikers van het internet helpen zonder dat ze het beseffen mee met de digitalisering van oude boeken, kranten en documenten...

Onderzoekers van de Carnegie Mellon Universiteit in Pittsburgh hebben daartoe een algemeen gangbaar beveiligingsmechanisme op websites een tweede functie gegeven.Op de website Science-express van het tijdschrift Science van deze week beschrijven projectleider Luis von Ahn en collega's een methode om gratis mee te liften op het menselijke vermogen om gehavende woordbeelden correct te ontcijferen.Dat CAPTCHA-systeem wordt vooral toegepast om zeker te weten dat een mens toegang wil tot een site, bijvoorbeeld om aan een blog te werken, een geen webrobot. Daartoe wordt een aantal lettertekens schots en scheef en deels gehavend grafisch weergegeven. De gebruiker moet dan de tekst intikken om toegang te krijgen.In plaats van willekeurige letter- en cijfercombinaties biedt het aangepaste reCAPTCHA-systeem van Von Ahn beelden van gescande woorden aan waarover bij grote scanprojecten van documenten en boeken twijfels bestaan. Als drie gebruikers op het web dezelfde oplossing aangeven, registreert het systeem dat als de correcte ontcijfering van het gevraagde woordbeeld.Zogeheten OCR-software, programma's die gescande tekst omzetten in digitale tekst, scoren nooit honderd procent correct, door drukfouten, beschadigingen of vervaagde inkt. Mensen zijn daarin veel beter.Volgens Von Ahn worden dagelijke wereldwijd 100 miljoen CAPTCHA opgelost door webgebruikers. Het aangepaste systeem is al een jaar in gebruik op enkele duizenden sites. Daarbij zijn 1,2 miljard woordbeelden opgelost en meer dan 440 miljoen woorden ontcijferd. Dat is het equivalent van zo'n 17600 hele boeken. Met de hand zou zoiets ondoenlijk en onbetaalbaar zijn.