Met de opgenomen data wordt een AI-model getraind, dat voorspellingen doet (in dit geval van de klank) op basis van de trainingsdata. Met een zogenoemd tekst-naar-spraak-systeem kan je de synthetische stem iets laten voorlezen wat je hebt ingetypt. Of je legt de kloon als een stemfilter over de opname van iemand anders heen. In het eerste geval zul je, voor een natuurlijk resultaat, een goed getraind model nodig hebben en waarschijnlijk zelf nog het een en ander moeten bijstellen; hier en daar een pauze inlassen, de toon iets hoger of juist lager draaien. Een mens voelt in een tekst aan waar de klemtonen moeten liggen, of een zin enthousiast of juist onheilspellend moet aanvoelen. Voor een algoritme is zoiets een stuk lastiger. Maar door de kloon over geluidsopname te leggen, kun je de kloon precies die intonatie laten volgen – dat klinkt een stuk natuurlijker.

Om nu echt een goede stem na te maken, heb je én een geluidsopname van hoge kwaliteit nodig, én de juiste software (die alleen kan draaien op krachtige computers) én iemand die handig is in het bewerken van audiofragmenten om oneffenheden weg te poetsen. Maar: de ontwikkelingen gaan heel hard. In het Engels kom je met huis-tuin-en-keukenapparatuur en -apps al een heel eind, omdat er veel meer audiomateriaal in die taal beschikbaar is en taalprogramma’s daarmee getraind zijn. Het zal niet lang duren voordat dit ook voor Nederlandse stemmen het geval zal zijn, voorspellen experts.