geschiedenis

Hoe kunstmatige intelligentie historici helpt de geschiedenis beter te begrijpen

Van de analyse van de Dode Zeerollen tot het leesbaar maken van drie miljoen pagina’s van onder meer de VOC: steeds vaker schakelen historici de hulp in van kunstmatige intelligentie. ‘Dit is een geweldige, revolutionaire manier om historisch onderzoek te doen.

null Beeld Thomas Nondh Jansen - Huis van het Boek
Beeld Thomas Nondh Jansen - Huis van het Boek

Op zaterdag 11 april 1678 om ongeveer elf uur ’s avonds werd het Indonesische eiland Banda Neira getroffen door een aardbeving. Twee dagen later, 13 april om negen uur ’s avonds, beefde de aarde op de Banda-eilanden opnieuw en datzelfde jaar op 11 juli was er weer een aardbeving. Er werd geen schade gemeld, maar toen het eiland vijf jaar later opnieuw werd getroffen door een aantal bevingen, raakte volgens oude handschriften een kerk zo zwaar beschadigd dat die niet meer te herstellen was.

Jarenlang lagen de beschrijvingen van de aardbevingen opgeborgen in archiefkasten; 120 bevingen, van 1674 tot 1786, in handgeschreven notities in brieven en rapporten van de Verenigde Oostindische Compagnie (VOC). Dankzij een enorm digitaliseringsproject van het Nationaal Archief zijn nu drie miljoen bladzijden woord voor woord doorzoekbaar, waardoor gegevens over historische natuurrampen, slavernij, koloniale handel, klimaat, conflicten en epidemieën razendsnel toegankelijk zijn voor historici en andere onderzoekers.

De drie miljoen pagina’s oude handschriften, verspreid over verschillende collecties, werden letter voor letter getranscribeerd (overgeschreven naar tekstbestanden) met computermodellen die met artificiële intelligentie (AI) waren getraind voor zogenoemde handwritten text recognition (HTR). Het project staat niet op zichzelf. Steeds vaker werken historici en andere onderzoekers uit traditionele alfarichtingen samen met computerwetenschappers aan het ontcijferen of analyseren van oude archieven en documenten.

Hebreeuwse manuscripten

Zo transcribeerde het Stadsarchief Amsterdam met gebruik van artificiële intelligentie het archief van de Amsterdamse notarissen tussen 1578 en 1915. De Fryske Akademy en de Radboud Universiteit ‘luisterden’ met kunstmatige intelligentie naar duizenden uren radiomateriaal van Omrop Fryslân, en Groningse onderzoekers analyseerden ondersteund door AI het handschrift op een van de Dode Zeerollen, de oudst bekende Hebreeuwse manuscripten van het Oude Testament. Zo ontdekten ze dat het oude geschrift twee auteurs had – of in ieder geval twee verschillende handschriften. Die ontdekking, gepubliceerd in wetenschappelijk tijdschrift Plos One, was onlangs wereldnieuws.

Voor de analyse van oud materiaal gebruiken onderzoekers zogeheten neurale netwerken en deep learning, eenvoudig gezegd: computeralgoritmen die je stapje voor stapje kunt trainen om informatie, in dit geval scans van oude handschriften, te interpreteren. Dat geeft historici de mogelijkheid om verder en vollediger te zoeken in oude stukken. Het biedt ook andere mogelijkheden. De Amsterdamse postdoctoraal onderzoeker Gamze Saygi gebruikte data uit het Amsterdamse notarissenarchief in een driedimensionaal historisch model van de Bloemstraat in de Jordaan. Haar collega Bob Pierik gebruikte digitale informatie uit het Stadsarchief om bijvoorbeeld het paardenbezit in 18de-eeuws Amsterdam weer te geven op de kaart.

Neurale netwerken

Wie documenten uit de 17de en 18de eeuw wil lezen, moet van goeden huize komen. Het 17de-eeuwse klerkenhandschrift waarin archiefstukken van bijvoorbeeld de VOC en de West-Indische Compagnie (WIC) zijn geschreven, is alleen met moeite te ontcijferen. Om het materiaal te kunnen lezen, is speciale training en vooral veel oefening nodig. Dat maakt handmatige transcripties arbeidsintensief en duur. Door neurale netwerken te trainen om oude handschriften te lezen, wordt het werk ineens een stuk overzichtelijker en komt transcriptie van complete archieven, met honderdduizenden of zelfs miljoenen pagina’s, binnen bereik. En dat is het begin van een revolutie.

Het trainen van neurale netwerken gebeurt aan de hand van zogeheten gelabelde data, vertelt Lambert Schomaker, hoogleraar computerwetenschappen en kunstmatige intelligentie aan de Rijksuniversiteit Groningen. Daarbij krijgt de computer een hoeveelheid zogeheten sensordata en de bijbehorende beschrijving – in het geval van een archiefstuk is de ‘sensordata’ een gescande pagina en de beschrijving een handgemaakte transcriptie van de tekst. Met die gegevens maakt het computeralgoritme een model van hoe de pennestreken en de krullen op het papier zich verhouden tot de tekst. Met dat model kan de rest van het archief door het algoritme worden gelezen.

Met dank aan Huis van het boek Beeld Thomas Nondh Jansen
Met dank aan Huis van het boekBeeld Thomas Nondh Jansen

Schomaker, die sinds de jaren tachtig bezig is met handschriftherkenning door computers, werkte met Groningse collega’s aan een neuraal netwerk dat het handschrift van de Grote Jesaja-rol ‘las’, een van de Dode Zeerollen. Preciezer: het netwerk leerde met door mensen gemaakte gelabelde data pixel voor pixel het onderscheid tussen de inkt van het oude handschrift en het papyrus waarop geschreven was, iets dat met de duizenden jaren oude papyrusrollen lastiger is dan het misschien klinkt.

Met het verschil tussen inkt en papyrus genereerde de computer een handschriftpatroon. ‘Zo’n patroon is afhankelijk van de manier waarop iemand z’n pen vasthoudt en van de grootte van de hand en van karakteristieke spierbewegingen. Zo kun je onderscheid maken tussen schrijvers, zelfs als dat met het blote oog niet te bewijzen is’, aldus Schomaker.

Algoritmen voor de analyse van oude handschriften zijn inmiddels vrij algemeen beschikbaar. Schomaker werkte de afgelopen jaren aan Monk, een onlinesysteem voor het herkennen van handschriften en gedrukte teksten. Onderzoekers aan de universiteit van Innsbruck maakten een vergelijkbaar systeem, Transkribus, dat onder meer werd gebruikt door het Nationaal Archief en het Stadsarchief Amsterdam.

Nationaal Archief

De transcriptie van een deel van het VOC-archief door het Nationaal Archief was onderdeel van het project ‘De ijsberg zichtbaar maken’, vertelt projectleider Liesbeth Keijser van het Nationaal Archief. ‘Daarbij ging het niet alleen om handschriften van de VOC, maar ook om 19de-eeuwse notariële archieven van het Noord-Hollands Archief en Regionaal Historische Centra.’

Aanvankelijk ging het om ongeveer twee miljoen pagina’s, zegt Keijser. ‘Later hebben we daar nog één miljoen pagina’s van de West-Indische Compagnie aan toegevoegd.’

Om de 17de- en 18de-eeuwse strepen en krullen te kunnen vertalen naar tekst, had computerprogramma Transkribus 7.706 pagina’s gelabelde data nodig. ‘We hebben een dwarsselectie van de collectie gemaakt, verspreid over archieven en periodes. Die stukken werden door een team van zes experts stuk voor stuk handmatig getranscribeerd’, zegt Keijser. Die basis van bijna achtduizend pagina’s – ongeveer twintig minuten werk per bladzijde – werd aan de computer gevoerd.

‘Het trainen van een handschriftmodel kost daarna een paar dagen’, zegt Keijsers collega Vincent Noppe. Hij verzorgde de technische kant van het transcriptieproject. Dat trainen gebeurde in stapjes: het algoritme transcribeerde een pagina die werd verbeterd door de handschriftexperts en daarna opnieuw aan de computer werd gevoerd. Uiteindelijk haalde de computer zo een nauwkeurigheid van tussen de 93 en 97 procent.

Die nauwkeurigheid lijkt bescheiden: 95 procent betekent dat in iedere twintig letters gemiddeld één typefout zit. ‘De opbrengst van je invoerdata neemt na verloop van tijd vrij snel af’, legt Keijser uit. ‘Dat betekent dat je voor die laatste paar procent nauwkeurigheid héél veel meer handmatige transcripties moet invoeren, en daar hangt ook een prijskaartje aan. Ik stond voor de keus tussen kwaliteit en kwantiteit. Een nauwkeurigheid van rond de 95 procent is een respectabel, bruikbaar resultaat en dus heb ik hier gekozen voor kwantiteit. We wilden zo veel mogelijk materiaal zo goed mogelijk ontsluiten.’

Vertaling: Vrijdag 22=e d:o
heden agtermiddagh omtrent 5: uiren, heeft men Een sware aertbevingh gevoelt, dog god loff, zonder schade nog afgelopen Beeld Nationaal Archief
Vertaling: Vrijdag 22=e d:oheden agtermiddagh omtrent 5: uiren, heeft men Een sware aertbevingh gevoelt, dog god loff, zonder schade nog afgelopenBeeld Nationaal Archief

Het ligt voor de hand om getranscribeerde archieven toegankelijk te maken met een zoekmachine. Historicus Gerhard de Kok, universitair docent aan de Universiteit Leiden en als onderzoeker verbonden aan het Internationaal Instituut voor Sociale Geschiedenis (IISG) in Amsterdam, gaat nog een stap verder: hij gebruikte de teksten om een tweede, nieuw neuraal netwerk te trainen, gericht op de relaties tussen woorden in het archief. Eenvoudig gezegd: welke woorden tref je in een verzameling teksten vaak in dezelfde context?

Slavenopstanden

De Kok noemt als voorbeeld ‘schilderij’, dat je naar verwachting vaak tegenkomt in de buurt van woorden als ‘zeegezicht’, ‘portret’, ‘pronkstuk’, ‘stilleven’, ‘Rembrandt’ en ‘olieverf’. Dat lijkt een nogal triviale exercitie, maar het kan onderzoekers helpen nieuwe archiefstukken te vinden. De Kok gebruikte zijn neurale netwerk bijvoorbeeld om te zoeken naar slavenopstanden in Suriname. ‘Het algoritme kwam toen ik zocht naar ‘opstand’ zelf aanzetten met ‘Bethlehem’, een plantage waar in 1750 een opstand is geweest. Het systeem had zelf geconcludeerd dat de woorden iets met elkaar te maken hebben.’

Een volgende logische stap zou zijn om de computer zogeheten entiteitherkenning bij te brengen, waardoor zoekmachines op termijn onderscheid kunnen maken tussen verschijningsvormen van hetzelfde woord of dezelfde naam – denk aan de stad Amsterdam, het VOC-schip Amsterdam en de kolonie Nieuw-Amsterdam.

‘Dit is een geweldige, revolutionaire manier om historisch onderzoek te doen en we staan aan de vooravond van nog veel grotere veranderingen’, zegt De Kok. Maar, waarschuwt hij, een getranscribeerde tekst op een beeldscherm is een aanvulling. Het is nooit een vervanging voor de historische sensatie die je krijgt als je een honderden jaren oud archiefstuk in handen hebt.

‘Tijdens mijn onderzoek naar slavenhandel bij Elmina, in het huidige Ghana, vond ik het scheepsjournaal van een slavenschip. Uit het document viel fijn zand dat was gebruikt om de inkt na het schrijven te drogen. Afrikaans zand dat uit de geschriften van een Nederlandse slavenkapitein valt; op het papier gestrooid terwijl een paar meter verderop aan boord mensen in ketenen lagen. Die ervaring zal je nooit krijgen met een digitaal archiefstuk.’

De drie miljoen oude handschriften van VOC, WIC en uit de notariële archieven zijn beschikbaar via zoekintranscripties.nl. De website gebruikt AI voor correctie en modernisering van de spelling en voor het herkennen van plaatsnamen en personen.

Wie weet wat er staat?

Het is een oud journalistiek fenomeen: na een gesprek lees je je aantekeningen en die zijn, nou ja, onleesbaar dus. Is het een a of een o, is het een u of toch een n? Er wordt heel wat afgepuzzeld op redacties.

Het ontcijferen van al die telefoonhandschriften valt in het niet bij het werk van de vijfhonderd vrijwillige citizen scientists die twee jaar werkten aan de handmatige transcriptie van de Amsterdamse ondertrouwregisters uit de periode 1580-1810, een project van de Utrechtse hoogleraar Tine de Moor.

Al die arbeid leverde wel een schat aan informatie: de vrijwilligers lazen gegevens van in totaal 93.187 echtparen – ruim 180 duizend individuen met naam, adres, leeftijd, beroep, religie en de namen van de ouders, gegevens die nuttig zijn bij onderzoek naar familieverbanden, huwelijkspatronen of bijvoorbeeld de leeftijd waarop Amsterdammers trouwden. Bij het onderzoek vonden vrijwilligers onder meer aktes van raadspensionaris Johan de Witt en ‘Nachtwacht’ Frans Banning Cocq.

Handgemaakte transcripties zijn kostbaar en tijdsintensief, maar ze hebben wel een belangrijk voordeel, zegt Liesbeth Keijser van het Nationaal Archief: de nauwkeurigheid is groter. De computertranscripties hebben een nauwkeurigheid tussen de 93 en 97 procent terwijl citizenscienceprojecten in de buurt van 100 procent kunnen komen.

Meer over

Wilt u belangrijke informatie delen met de Volkskrant?

Tip hier onze journalisten


Op alle verhalen van de Volkskrant rust uiteraard copyright. Linken kan altijd, eventueel met de intro van het stuk erboven.
Wil je tekst overnemen of een video(fragment), foto of illustratie gebruiken, mail dan naar copyright @volkskrant.nl.
© 2021 DPG Media B.V. - alle rechten voorbehouden