The New York Times verbiedt expliciet het gebruik van zijn archief voor het trainen van AI-modellen. De krant paste hiervoor recent zijn voorwaarden aan, zo melden onder andere Adweek en The Verge. Of het nu gaat om teksten, audio, video, foto’s of metadata: AI-bedrijven moeten er vanaf blijven, blijkt uit de aangepaste gebruiksvoorwaarden. Als ze toch data scrapen, volgen er ongespecificeerde boetes of andere straffen, aldus de gebruiksvoorwaarden.

Dat bedrijven als OpenAI of Google zonder toestemming grote delen van het web naar binnen hengelen om hun taalmodellen te trainen, is al een tijdje een bron van ergernis bij mediabedrijven. The Washington Post maakte in april dit jaar inzichtelijk om wat voor sites het gaat bij een van die datasets (Google C4 genaamd). De Groene Amsterdammer deed daarna vergelijkbaar onderzoek voor specifiek Nederlandse data. Ook de artikelen van Nederlandse media zitten volop in de trainingsdata van de taalmodellen.

De maatregel van de Amerikaanse krant kan worden gezien als reactie op de recent gewijzigde gebruiksvoorwaarden van Google, zo schrijft The Verge. Google stelt daarin dat de trainingsdata voor zijn diensten, waaronder chatbot Bard of vertaaldienst Translate, bestaan uit ‘publieke gegevens’, afkomstig van het internet.

Ook videoplatform Zoom paste onlangs zijn voorwaarden aan, wat tot de nodige negatieve reacties bij gebruikers leidde. Zij vermoedden dat hun video-opnamen door Zoom konden worden gebruikt om AI-modellen te trainen. Zoom werd daarop genoodzaakt via een blogpost zijn gebruikers gerust te stellen.

Laurens Verhagen