Hoe Lubbers soms naar SM leidt

Er is een zoekmachine voor internet ontwikkeld die gewone, in het Nederlands gestelde vragen behandelt. De vraag moet daarvoor eerst taalkundig worden ontleed....

INTERNET ZOALS het er nu bij ligt, is een verward zooitje. Alles staat door elkaar, van serieuze literatuur tot het foldertje van Blokker. Je moet een ervaren internet-gebruiker zijn, wil je vlot kunnen vinden wat je zoekt. Reden voor beginners en zeker voor veel ouderen om internet met schroom te benaderen.

Om die rommelige bibliotheek toegankelijk te maken, zijn er zoekmachines. De meeste vragen om een los steekwoord. Zulke machines pikken alle sites op waarin dat steekwoord voorkomt. Gevolg is dat de gebruiker vaak een wagonlading sites aangeleverd krijgt, zonder veel systeem.

Hoeveel handiger zou het niet zijn wanneer je tegen zo'n zoekmachine normaal kunt praten. Gewoon in een Nederlandse zin opschrijven wat je zoekt. En dan als antwoord graag alleen direct bruikbare sites, zo mogelijk in het Nederlands.

Dat is het uitgangspunt van Q-go (www.q-go.nl), een Nederlandstalige Internet-zoekmachine, die sinds half februari schoorvoetend probeert gewone vragen te beantwoorden. Op de openingspagina van Q-go tikt de gebruiker in: 'Waar kan ik een vlieger kopen'. Als antwoord komen er maximaal negen doorverwijzingen naar sites op internet, die de Nederlandse vliegerwereld in kaart brengen. Is de bedoeling. Want Q-go draait nog niet echt zoals het de makers voor ogen staat, ze sleutelen en prutsen en vijlen er met man en macht aan.

Het ding geeft namelijk op veel vragen ook onzin-antwoorden, associeert er vrij op los en komt ook aan met sites die niks te maken hebben met het gezochte. Net als zoekmachines die werken met steekwoorden, dus.

Het zijn dan ook niet de antwoorden die Q-go opmerkelijk maken, maar de vragen. Dat de zoekmachine uit de voeten kan met een normale vraagzin, betekent dat het ding grammatica kent. Het verricht eerst een reeks taalkundige handelingen voordat het antwoord geeft. En de machine 'snapt' Nederlands: hij 'weet' wanneer met een woord als 'kom' een werkwoord wordt bedoeld, en wanneer vissenkom. De machine 'kijkt' naar de context waarin het woord wordt gebruikt. Een soortgelijke zoekmachine is het Amerikaanse AskJeeves, maar die weet de weg niet in Nederland.

Een aantal initiatiefnemers van Q-go heeft zijn wortels liggen in diverse universteiten. Informaticus ir. Stan van de Burgt werkte aan de Universiteit Twente, drs. Suzanne van Tienen studeerde alfa-informatica aan de Universiteit van Amsterdam. Taaltechnoloog dr. ir. Theo Vosse deed psycholinguïstisch onderzoek aan de Leidse universiteit. Zij passen de principes van de fundamentele taalkunde toe om vraagzinnen te verwerken.

Hun zoekmachine werkt in etappes. De eerste stap is het ontleden van de binnengekomen vraag in een grammaticale boomstructuur. Wat is onderwerp, welke woorden vormen samen het gezegde, wat is lijdend voorwerp?

De boomstructuur brengt in de zin een hiërarchie aan: is het gezochte het onderwerp ('Waar ligt Disneyland?'), dan wel het lijdend voorwerp ('Waar vind ik bergschoenen?') van de zin. Dankzij die ordening wordt bijvoorbeeld ook duidelijk welk werkwoord het belangrijkste is.

In 'Waar kan ik in Friesland een vlieger kopen' is 'kan kopen' het gezegde, waarvan 'kopen' het feitelijke doel is. De machine kent dat werkwoord daarom een groter gewicht toe dan aan 'kan'. Onderin de hiërarchie bepaalt de plaatsaanduiding 'in Friesland' het zoekgebied.

Omdat de meeste vraagzinnen zo specifiek of zo omslachtig zijn geformuleerd dat Q-go er geen antwoord op weet, herschrijft de machine veel vragen tot gelijkwaardige, maar eenvoudiger zoekzinnen, opgebouwd uit trefwoorden die zijn opgenomen in het eigen woordenboek, legt taaltechnoloog Vosse uit. Stel het gegevensbestand bevat het woord 'lippenstift' niet, terwijl de vraag luidt: 'Waar kan ik lippenstift bestellen op het Net'. Q-go vertaalt het specifieke 'lippenstift' via het interne woordenboek naar het algemenere trefwoord 'cosmetica'. Vervolgens gaat het systeem herschrijven. 'Kan ik bestellen' wordt 'bestel ik', 'op het Net' wordt 'online'. De versie waarmee Q-go aan de slag gaat luidt dan: 'Waar bestel ik cosmetica online'.

Maar als Q-go zo goed snapt wat we hem vragen, waarom geeft hij dan toch zo'n hoop onzin-antwoorden? Dat is goeddeels te wijten aan het nog niet op peil zijn van de stappen na het ontleden, aldus Vosse en Van Tienen.

De zoekmachine wil de gebruiker niet opschepen met 1700 sites in antwoord op de vraag naar 'Euro Disney', maar doorverwijzen naar hooguit negen, echt informatieve sites. De machine snuffelt dan ook niet het hele Net af met zo'n trefwoord. Het selecteren van de sites die uiteindelijk in de antwoorden verschijnen, is bij Q-go mensenwerk. Een redactie surft voortdurend op het Net, op zoek naar sites die daadwerkelijk informatief zijn.

Komen er vragen binnen waarop de machine geen antwoord heeft, dan bekijkt de redactie of bijpassende sites alsnog opgenomen moeten worden. Zo heeft die redactie inmiddels ruim dertigduizend sites voorgeselecteerd. Dat is merkbaar onvoldoende om alle vragen te beantwoorden. Er wordt dan ook gezocht naar meer.

Vindt de redactie een zinnige site, dan bedenkt ze er mogelijke vragen bij, gerelateerd aan de trefwoorden in het zelfgemaakte woordenboek. Komen er vragen binnen die in de verte lijken op wat ze zelf hebben verzonnen, of op een steekwoord, dan krijgt de vrager de voorgeselecteerde sites als antwoord.

Vaak lijken onze vragen echter niet op de hunne, of wordt onze vraag op een niet-passend zoekwoord geplakt. Zo verwijst de vraag 'Waar vind ik bergschoenen' naar een site over 'activiteiten voor eenoudergezinnen', omdat ook in die site sprake is van 'wandelen'.

Wordt de zoekmachine geconfronteerd met een sleutelwoord dat hij niet kent, dan gaat het apparaat ervan uit dat het verkeerd is geschreven. Dan komt de spellingcorrector in actie. Zo heeft het kunnen gebeuren dat een vraag naar het onbekende woord 'Lubbers' via de correctie 'rubber' een heel rijtje SM-sites opleverde. Uit dat soort missers, stelt Van Tienen, leer je dat de spellingscorrectie niet verder mag voeren dan een bepaald percentage verandering in wat er oorspronkelijk stond.

Meer over

Wilt u belangrijke informatie delen met de Volkskrant?

Tip hier onze journalisten


Op alle verhalen van de Volkskrant rust uiteraard copyright. Linken kan altijd, eventueel met de intro van het stuk erboven.
Wil je tekst overnemen of een video(fragment), foto of illustratie gebruiken, mail dan naar copyright @volkskrant.nl.
© 2020 DPG Media B.V. - alle rechten voorbehouden