Nieuws Digitalisering Koninklijke Bibliotheek

De Koninklijke Bibliotheek wil alle ‘punt-nl-sites’ archiveren en hoopt daarbij op kunstmatige intelligentie

De Koninklijke Bibliotheek bewaart alles wat wordt gepubliceerd in Nederland, dus ook websites. Daarbij kan kunstmatige intelligentie misschien van pas komen.

Behalve zeven enorme magazijnen heeft de Koninklijke Bibliotheek een serverpark voor de digitale collectie, feitelijk het achtste magazijn. Beeld Beeldstudio KB

Een beetje muffige geur. Wie door de eindeloze gangen van de magazijnen van de Koninklijke Bibliotheek (KB) in Den Haag dwaalt, krijgt associaties met zolders waar dozen oude boeken staan. Hier, in het centrum van Den Haag, wordt alles opgeslagen wat in het Nederlands wordt gepubliceerd en wat over Nederland is geschreven. Van kranten tot literatuur, van pulpboekjes tot porno en van strips tot kookboeken. En dat is veel: zo’n 125 kilometer aan boeken en kranten. Bijna driekwart wordt nooit ingezien; niemand die er belangstelling voor heeft. Althans, nu niet. Het is nu eenmaal de taak van de nationale bibliotheek van Nederland, opgericht in 1798, om alles voor het nageslacht te bewaren. Misschien dat iemand over dertig jaar belangstelling heeft voor de Praktijkgids Windows 95 of Campinggids Roemenië 2003.

De zeven magazijnen houden zich niet aan de grenzen van het gebouw en lopen onder de grond ver door, bijna tot aan het station. Elke week komt er 20 meter boekenplank bij. Maar dat is niet eens de grootste uitdaging; digitale ontwikkelingen dwingen de bibliotheek tot innovatie.

1. Het archiveren van het web

Het contrast tussen de magazijnen met papier en het zoemende serverpark een paar verdiepingen hoger is groot. Hier draait niet alleen het hele computersysteem van de bibliotheek, maar is ook de gehele digitale collectie opgeslagen in rekken met vele terabytes aan geheugen. Feitelijk is dit het achtste magazijn. Hierop bevinden zich ook de kopieën van Nederlandse websites die de KB sinds 2007 archiveert. Niets zo vergankelijk als het web; maar de webarchivarissen van de KB proberen toch momentopnamen in de tijd te stollen. Het is vergelijkbaar met wat het Internet Archive doet, maar dan selectiever én grondiger. Niet alleen de voorpagina wordt bewaard; de KB gaat desnoods tien of meer pagina’s diep. Op dit moment archiveert de bibliotheek 15.400 Nederlandse websites door op gezette tijden die sites te kopiëren en op te slaan. Zonder advertenties overigens, want die zijn voor iedereen anders.

Het is nog een fractie vergeleken bij wat gaat komen, zegt Martijn Kleppe, hoofd onderzoek van de KB. ‘We willen uiteindelijk het gehele Nederlandse web archiveren. Alle punt-nl-sites.’ Los van alle technische uitdagingen moeten eerst juridische hobbels worden genomen. Auteursrechtkwesties hebben er nu al toe geleid dat het webarchief van de KB alleen op locatie in Den Haag is te bekijken.

In het centrum van Den Haag, wordt alles opgeslagen wat in het Nederlands wordt gepubliceerd en wat over Nederland is geschreven. Beeld Beeldstudio KB

2. Inscannen

OCR heet de techniek die al decennia bestaat en waarmee bestaande analoge werken kunnen worden gedigitaliseerd. Een arbeidsintensief werk: pagina per pagina worden boeken en kranten gescand. De software herkent de letters en zet ze om in digitale tekens. De KB begon er in de jaren negentig mee. Containers met boeken gingen naar digitaliseerders in Nederland, terwijl bij een project met Google het verwerken en beschrijven van de boeken in Azië gebeurde. Hoe voortvarend ook, nog steeds is naar schatting slechts 20 procent van alle Nederlandse publicaties gedigitaliseerd, zegt KB-onderzoeker Lotte Wilms.

Een ander probleem is dat de software uit de beginjaren veel slechter was dan nu, met als resultaat dus meer fouten. De KB bekijkt hoe de digitale werken uit die eerste jaren alsnog kunnen worden verbeterd.

Het digitaliseren dient twee doelen, legt Kleppe uit. Het zorgt ervoor dat de werken toegankelijker worden voor het publiek én dat de inhoud altijd beschikbaar blijft. Het eerste is voor iedereen bijvoorbeeld zichtbaar via de dienst Delpher. Hier staan vijftien miljoen krantenpagina’s in, afkomstig van ingescande kranten vanaf 1618 tot 1995. Het publiek kan deze full text doorzoeken door gewoon een zoekterm in te tikken. Zo is bijvoorbeeld in één klap duidelijk dat de term ‘kunstmatige intelligentie’ al in 1963 voor het eerst in een krant wordt genoemd.

3. Kunstmatige intelligentie

De taak van de bibliotheek houdt niet op bij het maniakaal verzamelen, de collectie moet ook ontsloten worden via beschrijvingen en sleutelwoorden. Met de forse toename van digitaal materiaal is de noodzaak dit proces (deels) te automatiseren groot. De afgelopen tweehonderd jaar is het nieuwe materiaal door mensen beschreven. Van veel nieuw toegevoegd werk komen dit soort metadata mee van de uitgever, maar bij ongeveer de helft moet het door de bibliotheek zelf worden gedaan. Dit arbeidsintensieve werk zou binnenkort weleens kunnen worden overgenomen door kunstmatige intelligentie. Of in ieder geval: een flink deel ervan.

Waar uitgevers en mediabedrijven voorzichtig beginnen te experimenteren met de inzet van kunstmatige intelligentie voor het maken van korte samenvattingen, daar concentreert de KB zich in eerste instantie op het automatisch aanmaken van trefwoorden. Deze moeten voldoen aan een standaard van zo’n vijftienduizend vooraf vastgestelde keywords.

‘We zijn steeds beter in staat om teksten door de computer te laten interpreteren’, zegt Kleppe. De KB verkende de afgelopen maanden met onderzoekers van enkele universiteiten en instellingen de mogelijkheden van dit automatisch beschrijven van publicaties. Kleppe noemt dit onderzoek hoopgevend. ‘Ik was blij verrast, maar we zijn er nog lang niet. We zitten echt nog helemaal in de beginfase.’ Kleppe vraagt zich hoe dan ook af of de menselijke titelbeschrijver ooit wel helemaal zal worden vervangen door de computer. ‘Ik denk eerder aan een combinatie mens/machine. De computer komt met suggesties, maar de mens heeft het laatste woord. Ook om te voorkomen dat er vooroordelen in een systeem sluipen.’

De reden dat de nationale bibliotheek dit onderzoek zelf doet en niet een of ander kant-en-klaarsysteem van de plank trekt, is een ethische, legt Kleppe uit. ‘We willen weten hoe een systeem werkt. We moeten het snappen. Het moet voor ons transparant zijn. Als een systeem fouten maakt waardoor bepaalde werken minder makkelijk kunnen worden teruggevonden, dan heeft dat consequenties.’ Maar dat de computer ook bij het traditionele bibliotheekwerk zijn intrede gaat doen, staat als een paal boven water.

De taak van de bibliotheek houdt niet op bij het maniakaal verzamelen, de collectie moet ook ontsloten worden via beschrijvingen en sleutelwoorden. Beeld Beeldstudio KB

Meer webarcheologie:

Waar zo’n beetje elke papiersnipper wordt bewaard, verdwijnen de eerste Nederlandse sites in rap tempo. Maar er zijn plannen om ze op te graven. 

De eerste website van Nederland zag in 1992 het licht. Een historisch moment? ‘Ik vond het gewoon handig.’

Backups als medicijn tegen de vergankelijkheid: de man achter the Internet Archive

Zit er een limiet aan het aantal mensen dat je kunt kennen? Wat bewijst de uitslag van een schriftelijke test eigenlijk? In onze Grote Vragen Podcast beantwoorden we ‘vragen waar je nooit over na hebt gedacht maar plotseling dolgraag een antwoord op wilt hebben’.

Meer over

Wilt u belangrijke informatie delen met de Volkskrant?

Tip hier onze journalisten


Op alle verhalen van de Volkskrant rust uiteraard copyright. Linken kan altijd, eventueel met de intro van het stuk erboven.
Wil je tekst overnemen of een video(fragment), foto of illustratie gebruiken, mail dan naar copyright @volkskrant.nl.
© 2019 DPG Media B.V. - alle rechten voorbehouden