Interview Jelske Dijkstra

Computer leert verschil tussen Fries en Nederlands; archief Omrop Fryslân ‘is cultuurhistorische schat’

Meer dan tweeduizend uur radio-uitzendingen van Omrop Fryslân zijn met spraakherkenningssoftware gedigitaliseerd. Een enorme klus, want hoe leer je een computer het verschil tussen Fries en Nederlands?

Friese jongeren bij een klimaatdemonstratie op de Dam, waarbij in maart zo'n vijfduizend scholieren en studenten meeliepen. Beeld Guus Dubbelman

Van Elfstedenwinnaar Sipke Castelein die terugblikt op de tocht van 1933 tot de Friese chansonnier Douwe Heeringa, of Simon Vestdijk die vertelt over Harlingen, of schoolradio over Fryslân yn’e twadde wraldkriich (Friesland in de Tweede Wereldoorlog) – in het radioarchief van Omrop Fryslân liggen juweeltjes verstopt.

Tussen 1950 en 2000 is 2.300 uur radio bewaard gebleven – hoogtepunten uit de recente Friese geschiedenis, de Friese cultuur en het nieuws. Tot voor kort was dat archief slecht toegankelijk. De uitzendingen stonden op oude banden en voor het terugzoeken van fragmenten was de omroep aangewezen op korte beschrijvingen in een kaartenbak.

Een samenwerkingsverband van onder meer de Radboud Universiteit en de Fryske Akademy en technologiebedrijf GridLine BV digitaliseerde de opnames en trainde spraakherkenningssoftware om Fries en Nederlands uit elkaar te houden.

Het getranscribeerde archief is niet alleen een historische schat, het is ook onderzoeksmateriaal over de verandering van de Friese taal sinds 1950, zegt Jelske Dijkstra van de Fryske Akademy.

Jelske Dijkstra van de Fryske Akademy. Beeld HogeNoorden/Jacob van Essen

Hoe leert een computer Fries?

‘We zijn begonnen met het terugluisteren en handmatig transcriberen van 18,5 uur radio. Dat materiaal hebben we gebruikt om de software te trainen. Het technische deel, uitgevoerd door het Centre for Language and Speech Technology van de Radboud Universiteit, bestond uit het maken van een akoestisch model, een taalmodel – met een soort kansrekening wanneer welk woord volgt op een ander woord – en een Fries en Nederlands uitspraakwoordenboek. De belangrijkste uitdaging was de meertaligheid. Sprekers wisselen soms in één zin tussen Fries en Nederlands en soms ook Engels.’

Dat onderscheid is voor een mens glashelder. Waarom heeft een computer daar moeite mee?

‘Ja, dat is een van de vragen waar de wetenschap mee bezig is. Die zogenoemde code-switching tussen verschillende talen lijkt zelfs bij peuters probleemloos. Ik spreek thuis Fries, m’n man spreekt Bildts [Friese streektaal gesproken ten noorden van Harlingen, red.]. Onze dochter maakt bijna feilloos het onderscheid – en dan spreekt ze ook nog gewoon Nederlands.’

Hoe raakt spraakherkenning in de knoop door die code-switching?

‘Als voorbeeld: het officiële Friese woord voor gereedschap is ark. Zo staat het in het woordenboek. Het punt is dat bijna iedereen gereedskap zegt. De software moet dus herkennen dat daar een vernederlandsing is binnengeslopen in het Fries.’

Andere regionale omroepen zenden ook deels uit in streektaal. Is de techniek die jullie hebben gebruikt daar ook toepasbaar?

‘Ja. Je zou deze methode – met de nodige aanpassingen aan de taalmodellen – goed kunnen gebruiken voor bijvoorbeeld het Gronings of het Limburgs.’

Het archief is inmiddels helemaal getranscribeerd, een deel staat online voor het publiek. Komt er nog een vervolg?

‘Er liggen plannen om de rest van het radioarchief, vanaf het jaar 2000, ook op deze manier te ontsluiten. Verder hebben we nu een gigantisch corpus onderzoeksmateriaal – 2.300 uur gesproken woord, helemaal doorzoekbaar. Daarmee kun je kijken hoe de Friese taal in vijftig jaar is veranderd. Je kunt nagaan of de uitspraak verandert; je kunt kijken hoe het Nederlands het Fries beïnvloedt. Het archief is bovendien een cultuurhistorische schat. Het gaat niet alleen om nieuwsuitzendingen, maar bijvoorbeeld ook om toneelstukken, of om interviews met bekende Friezen. Dat is nu allemaal ontsloten.’

Het archief van Omrop Fryslân is doorzoekbaar: https://zoeken.fame.frl/

Meer over

Wilt u belangrijke informatie delen met de Volkskrant?

Tip hier onze journalisten


Op alle verhalen van de Volkskrant rust uiteraard copyright. Linken kan altijd, eventueel met de intro van het stuk erboven.
Wil je tekst overnemen of een video(fragment), foto of illustratie gebruiken, mail dan naar copyright @volkskrant.nl.
© 2019 DPG Media B.V. - alle rechten voorbehouden