Er ligt een goudmijn te wachten op historici met goede beeldherkenningssoftware

Verslag uit de jungle is ook jungle van papier

In de archieven van Naturalis in Leiden ligt een goudmijn te wachten op historici. Maar de 17 duizend pagina's aantekeningen van 19de-eeuwse wetenschappelijke avonturiers vormen een te grote kluif voor menselijke onderzoekers. Beeldherkenning moet uitkomst bieden.

19-de eeuws materiaal uit de collectie van de Naturalis: een oerang-oetan op Borneo

Avonturiers vulden tussen 1820 en 1850 doos na doos met tekeningen en observaties van vogels, apen, slangen en wat er verder maar leefde in Nederlands-Indië, en met opgezette beesten en andere preparaten. Dat deden ze in opdracht van koning Willem I, die de delfstoffen, flora en fauna in de kolonie in kaart wilde hebben.

In boeken en verhalen die het publiek in het moederland bereikten, beschreven de onderzoekers hun expedities als eenzame belevenissen in de wildernis. Maar klopt dat beeld wel? Notities, kladjes en ander ongepubliceerd materiaal in de Naturalisdozen vertellen een ander verhaal. En dat maakt de duizenden pagina's interessant voor historicus Andreas Weber (Universiteit Twente).

'Uit aantekeningen blijkt dat expedities ondersteuning kregen', legt hij uit. 'Dat onderzoekers lokale gidsen hadden, jagers die beesten voor hen schoten en koelies die paden voor hen hakten door moeilijk begaanbare gebieden. Maar naarmate de onderzoekers hun aantekeningen verder uitwerkten, raakten de lokale helpers uit beeld en maakten de onderzoekers van zichzelf alleenwerkende helden - zoals het publiek in die tijd verwachtte. Naar dat soort informatie ben ik op zoek en daarvoor wil ik de papieren snel kunnen doorzoeken.'

Aanjager

Weber is samen met beeldherkenningsexpert Lambert Schomaker (Rijksuniversiteit Groningen) aanjager van een beeldherkennigsproject dat de duizenden pagina's leesbaar moet maken voor een computer. 'Ik had de dozen bij Naturalis bij eerder onderzoek weleens ingekeken', zegt Weber. 'Het was prachtig materiaal maar voor één onderzoeker was er geen beginnen aan.'

Ook voor biologen zijn de Naturalisdozen interessant. Ze bevatten een ecologische geschiedenis van 19de-eeuws Indonesië. Met informatie over de zilvergibbon op West-Java bijvoorbeeld, waarover de Commissie noteerde: 'Hun luid geschreeuw (...) weêrgalmt uren wijd door de groote, eenzame daalen en spelonken.' Inmiddels is West-Java overvol met mensen en is de zilvergibbon bedreigd. De papieren van de Natuurkundige Commissie vertellen hoe de flora en fauna er twee eeuwen geleden uitzag.

Javaanse zilvergibbon

Zaak is dus die informatie toegankelijk te maken. 'In de teksten staat Nederlands, Duits, Latijn, Grieks en af en toe Maleis', licht Weber het probleem toe. 'En tekeningen en teksten staan dwars door elkaar, op één pagina.'

Daar ligt werk voor Monk, een systeem dat automatisch handschriften en plaatjes kan herkennen, ontwikkeld door het team van Schomaker. Monk speurt groepjes pixels af van ingescande handschriften en laat zich door mensen vertellen wat het 'ziet'. Het woord gibbon bijvoorbeeld, of een tekening van zo'n dier. Anders dan andere beeldherkenningssoftware leert Monk dus niet individuele letters te combineren tot woorden, en beelddetails zoals haren en ogen tot een dier. Het krijgt in één keer hele begrippen aangeleerd.

Herkennen

'Samen met vrijwilligers labelen we die begrippen in de scans', legt Weber uit. 'Daardoor leert de software ze te herkennen.' Daarvoor moet Monk veel voorbeelden krijgen voorgelegd, want handgeschreven versies van het woord gibbon kunnen onderling sterk verschillen en tekeningen nog meer. Elke keer dat Monk een nieuwe versie van een woord of een beeld krijgt 'uitgelegd', leert het bij.

De vraag is nu hoeveel uitleg Monk nodig heeft om alle teksten en tekeningen in de Naturalisdozen te begrijpen. 'Er zijn inmiddels 1.500 pagina's gelabeld, dus er moet nog veel gebeuren', zegt Weber. 'Het zou mooi zijn als Monk over vier jaar, aan het einde van het project, bijvoorbeeld een tekening van een muis zou kunnen herkennen.'

Als Monk daarin slaagt, en historici en biologen binnenkort elektronisch kunnen grasduinen door de Naturalisdozen, wachten wereldwijd nog allerlei uiteenlopende handschriften om te leren en baaierds aan informatie om te ontsluiten.

Meer over

Wilt u belangrijke informatie delen met de Volkskrant?

Tip hier onze journalisten


Op alle verhalen van de Volkskrant rust uiteraard copyright. Linken kan altijd, eventueel met de intro van het stuk erboven.
Wil je tekst overnemen of een video(fragment), foto of illustratie gebruiken, mail dan naar copyright@volkskrant.nl.