Analyse Vertaal-apps

Google beheerst het Nederlands niet goed, en dat komt deze start-ups mooi uit

De ontwikkelingen in de spraaktechnologie gaan razendsnel. Althans, in het Engels. Nederlandse start-ups springen in het gat.

Beeld Eline van Strien

Pogingen om gesproken naar geschreven tekst automatisch te vertalen bestaan al decennia (zo maakte het Belgische Lernout & Hauspie in de jaren negentig furore op dit vlak, totdat het bedrijf in 2001 ten onder ging na een groot boekhoudschandaal), maar de ontwikkelingen zijn de laatste jaren in een stroomversnelling gekomen door de laagdrempelige beschikbaarheid van kunstmatige intelligentie. 

Alle grote techbedrijven investeren fors in spraaktechnologie, maar daarbij gaat het vooral om het communiceren met apparaten via spraakcommando’s in plaats van getikte tekst. Toch bieden Microsoft, Apple en Google ook spraak-naar-tekstoplossingen. Die werken steeds beter. Althans, in het Engels. In het Nederlands is het nog wat behelpen. Dat laat zich eenvoudig verklaren: het Nederlands is voor deze bedrijven niet interessant genoeg. Kruimelwerk. Nederlandse start-ups rapen deze kruimels nu op. De Volkskrant sprak met twee daarvan. En alvast een spoileralert: Apple en Google hebben het nakijken.

Peter-Paul de Leeuw, oprichter van de piepjonge Amsterdamse start-up Amberscript, heeft een duidelijke ambitie: het beter doen dan Google of een gespecialiseerd bedrijf als Nuance, dat jaren terug de spraaktechnologie van Lernout & Hauspie overnam. De Leeuws bedrijf komt rechtstreeks voort uit een persoonlijke frustratie: ‘Bij mijn vorige werk zag ik Engelse collega’s probleemloos Google Docs gebruiken voor het omzetten van tekst naar spraak, maar bij mijn Nederlandse teksten bleef dat een puinhoop.’ De Leeuw snapt ook wel waarom: alle aandacht gaat uit naar het Engels. ‘Als Google de keus heeft om hun Engelse vertaalmotor 2 procent beter te maken of de Nederlandse 10 procent, dan zal het altijd voor het Engels kiezen.’ Wat daar nog bij komt: er is gewoon veel meer Engels trainingsmateriaal voor handen. 

Heilige graal voor techbedrijven

Spraaktechnologie is zo’n beetje de ­heilige graal voor de grote techbedrijven. Apple, Amazon, Google, Microsoft: ze hebben alle hun eigen assistent waarmee mensen kunnen praten. Siri van Apple is natuurlijk bekend en Google komt later dit jaar ook in Nederland eindelijk met zijn Assistant. Het wachten is hier nog op de praat­palen van Apple en Google: handzame boxjes die opdrachten kunnen uitvoeren. Zoals een specifieke Spotify-speellijst afspelen, een taxi bestellen of het weer voorlezen. In de VS is vooral de paal van Amazon al erg populair.

Amberscript heeft inmiddels een eigen ‘engine’ ontwikkeld: de motor die ervoor zorgt dat Nederlandse audio naar Nederlandse tekst wordt vertaald. Aan die engine wordt volop gebouwd, vertelt De Leeuw, maar nu al moet zijn eigen product 80 tot 90 procent goed vertalen, afhankelijk van de audiokwaliteit. 

Zien is geloven, dus we namen de proef op de som. Een interview zonder microfoons (het gebruik van microfoons wordt aangeraden) met ingewikkelde vaktermen levert nog aardig wat fouten op. Anders is het met een duidelijk gesproken stuk tekst in een microfoon. Hier brengt Amberscript het er wonderbaarlijk goed van af. Een stuk voorbeeldtekst van ongeveer honderd woorden over kunstmatige intelligentie wordt bijna foutloos vertaald. Alleen de term ‘meester-slaafrelatie’ van filosoof Hegel geeft moeilijkheden. Dat wordt ‘meeste slaven relatie’. Niet gek, maar het klopt niet. In de kleine test maken Apple’s Siri en Google Docs exact dezelfde fout. De twee grootmachten maken er voor het overige een potje van. Natuurlijk: het zijn in tegenstelling tot Amberscript gratis programma’s (de optie zit bij Apple bijvoorbeeld in de Notities-app; bij Google zit ze op desktops in de Chrome-versie van Docs), maar het verschil is opvallend.

Peter-Paul de Leeuw, oprichter van Amberscript. Beeld Peter-Paul de Leeuw

Neem een zin als: ‘de kunstmatige intelligentie zal weldra veel imiteren van wat de mens doet, zowel op het fysieke als op het intellectuele vlak.’ Google Docs brouwt er dit van: ‘de kunstmatige intelligentie zal wel braaf veel imiteren van hattum en het doet zo op het fysieke als op het intellectuele vlak.’ En Siri? Die houdt het op: ‘kunstmatig English gensi zal wel profielzool imiteren van dat mens doet zo op het fysieke als op het intellectueel vlak.’ En van Marx en Buber maakt Siri domweg ‘Max de Boer’. Dat kan beter, Siri. 

De Leeuw is ook over zijn eigen software nog lang niet tevreden, maar nu al biedt die aanzienlijke tijdwinst voor mensen die spraak moeten transcriberen, zoals journalisten, studenten, artsen of rechtbankmedewerkers. In eerste instantie richt Amberscript zich op het omzetten van interviews. Inderdaad maakt de software netjes onderscheid tussen de interviewer en geïnterviewde. Naarmate er meer trainingsmateriaal voor de engine beschikbaar komt, moet de machinerie beter worden. Met iedere verbetering die door gebruikers wordt aangebracht, zal dat het geval zijn. Na Nederland wil Amberscript ook andere, kleinere Europese taalgebieden veroveren. Maar wat als Google nu eens echt werk gaat maken van het Nederlands, bijvoorbeeld als de praatassistent later dit jaar ook in onze taal beschikbaar komt? Lachend: ‘Dan hopen we maar dat Google belangstelling voor ons heeft.’

In hetzelfde pand nabij het Amsterdamse Sloterdijk huist een andere start-up: Contexta. De twee bedrijven delen niet alleen de kantoorruimte, maar ook een deel van de technologie. Zo profiteren ze van elkaars kennis en trainingsmateriaal om de zelflerende transcriptiemotor beter te maken. Net als De Leeuw ziet Contexta-oprichter Marc van der Peet de kruimels die Google en andere grote bedrijven laten liggen. ‘Google beheerst het Nederlands gewoon niet zo goed’, aldus Van der Peet. 

Het bedrijfsmodel van Contexta verschilt echter totaal van Amberscript. Contexta specialiseert zich in het automatisch transcriberen van telefoongesprekken om deze vervolgens te labelen en doorzoekbaar te maken. En dat niet alleen: de software kan ook patronen herkennen. Ideaal voor zakelijke klanten dus. De eerste zijn al binnen: Achmea, Essent en de Sociale Verzekeringsbank. Met behulp van de software kunnen ze met één gerichte zoekopdracht terugvinden of een bepaald woord in een gesprek is gebruikt. 

Maar ze kunnen ook trends ontdekken, legt Van der Peet uit. Zoals? ‘Om zeven uur ’s avonds bellen verrassend veel mensen over inlogproblemen in combinatie met cadeaubonnen, ik noem maar wat. Dat is waardevolle informatie voor bedrijven.’ Contexta concurreert hiermee met gevestigde partijen als het Israëlische Nexidia of het Amerikaanse Verint. In augustus volgt een nieuwe investeringsronde: ook Van der Peet heeft de ambitie om meer kleinere Europese taalgebieden te veroveren. 

De originele tekst en de verschillende vertalingen 

Origineel:

Hegel schreef dat een meester-slaafrelatie ten koste gaat van de menselijkheid van beiden. Een groot aantal geleerden, van Marx tot Buber, werd door dit inzicht getroffen en het is iets wat we tegenwoordig niet moeten vergeten.

Niets wijst erop dat we binnenkort over machines beschikken die op een menselijke manier denken, maar er bestaat ook weinig twijfel dat in een wereld waarin alles door internet met elkaar verbonden is de kunstmatige intelligentie weldra veel zal imiteren van wat de mens doet, zowel op het fysieke als op het intellectuele vlak. Dus hoe zal de verhouding zijn tussen ons en onze steeds getalenteerdere evenbeelden?

Google Docs:

Hegel schreef dat de meeste slaven relatie ten koste gaat van de menselijkheid van bijna groothandel geleerde voor Max gruber bad ordediensten getroffen dat is iets wat er tegenwoordig niet moeten vergeten

Niets wijst erop dat we binnenkort over Machines beschikking die op een menselijke manier denken waar bestaat ook weinig twijfelt in een wereld waarin alles door internet met elkaar verbonden is de kunstmatige intelligentie wel braaf veel zal imiteren van hattum en het doet zo op het fysieke als op het intellectuele vlak dus hoe zal de verhouding zijn tussen ons en onze steeds getalenteerde even mailen

Amberscript:

Hegel schreef dat de meeste slaven relatie ten koste gaat van de menselijkheid van beide een groot aantal geleerden van marx tot buber werd door het inzicht getroffen en het is iets wat we tegenwoordig niet moeten vergeten

Niets wijst erop dat we binnenkort over machines beschikken die op een menselijke manier denken maar er bestaat ook weinig twijfel dat in een wereld waarin alles door internet met elkaar verbonden is de kunstmatige intelligentie weldra veel zal imiteren van wat de mens doet zowel op het fysieke als op het intellectuele vlak dus hoe zal de verhouding zijn tussen ons en onze steeds getalenteerder evenbeelden

Apple Siri

Ik wil schreef dat de meeste slaven relatie ten koste gaat van de menselijkheid van bijna een groot aantal geleerden voor Max de Boer door het inzicht getroffen en dat is iets wat we tegenwoordig niet moeten vergeten niets wijst erop dat we binnenkort over machines beschikken die op een menselijke manier denken maar bestaat ook weinig twijfel dat in een wereld waarin alles toch internet met elkaar verbonden is kunstmatig English gensi wel profielzool imiteren van dat mens doet zo op het fysieke als op het intellectueel vlak sowieso vanavond zijn tussen ons en onze steeds getalenteerde even mailen

Meer over

Wilt u belangrijke informatie delen met de Volkskrant?

Tip hier onze journalisten


Op alle verhalen van de Volkskrant rust uiteraard copyright. Linken kan altijd, eventueel met de intro van het stuk erboven.
Wil je tekst overnemen of een video(fragment), foto of illustratie gebruiken, mail dan naar copyright@volkskrant.nl.