Exterieur van het hoofdkantoor van Mediahuis Beeld anp

Uitgever Mediahuis van onder andere NRC, De Telegraaf en het Belgische De Standaard nam het voortouw. In de code van de nieuwssites van NRC en De Telegraaf staat expliciet vermeld dat de bots van onder meer OpenAI niet welkom zijn om artikelen naar binnen te harken.

Hiermee volgen de nieuwssites het voorbeeld van bijvoorbeeld The New York Times, CNN, Reuters, The Washington Post en (recent) The Guardian. Dat bedrijven als OpenAI of Google zonder toestemming grote delen van het web naar binnen hengelen om hun taalmodellen te trainen, is al een tijdje een bron van ergernis bij mediabedrijven. The Washington Post maakte in april dit jaar inzichtelijk om wat voor sites het gaat bij een van die datasets (Google C4 genaamd).

De Groene Amsterdammer deed daarna vergelijkbaar onderzoek voor specifiek Nederlandse data. Ook de artikelen van Nederlandse media worden volop gebruikt bij de training van de taalmodellen. ‘Dat zijn toch gewoon ál onze artikelen?’, reageerde Volkskrant-hoofdredacteur Pieter Klok destijds tegenover De Groene.

Halt

Populaire chatbots als ChatGPT zijn mede dankzij al die nieuwsartikelen (maar bijvoorbeeld ook e-books) in staat om, in veel gevallen, indrukwekkende antwoorden te geven op gestelde vragen. Ook al komen die oorspronkelijke artikelen niet één op één terug in de teksten die Bard (van Google) of ChatGPT uitspuwen, hun bestaan was onmogelijk geweest zonder de inspanning van schrijvers en journalisten.

Ook DPG Media vindt het nu tijd om in actie te komen. De Belgische uitgever van onder andere de Volkskrant, AD en Nu.nl besloot deze week zich aan te sluiten bij het groeiende aantal nieuwssites die AI-robots een halt toeroepen. In de komende weken zullen alle DPG-sites een paar regels extra code krijgen.

Een woordvoerder zegt ‘blij’ te zijn dat OpenAI inmiddels belooft wél rekening te zullen houden met de wensen van websitehouders. ‘Maar het is wel jammer dat je voor elke AI-bot apart moet aangeven dat je deze geen toestemming geeft je website voor hun eigen (vaak commerciële) doeleinden te kopiëren.’

Doekje voor het bloeden

Het AI-verbod geldt alleen voor toekomstig gebruik: ‘ChatGPT heeft al alle artikelen en foto’s die wij tot op heden online hebben gepubliceerd zonder toestemming verzameld, gekopieerd, opgeslagen en gebruikt om zijn eigen AI te trainen. Schaamteloos voor eigen gewin. Dat ze nu beloven dat vanaf nu niet meer te zullen doen, voelt wel een beetje als een doekje tegen het bloeden.’ Eerder zette DPG Media al in zijn gebruiksvoorwaarden dat ze geen toestemming geeft voor het dataharken, maar daar hielden de AI-bedrijven zich niet aan.

Ook Nu.nl krijgt het stukje code, maar diezelfde site maakt opvallend genoeg ook gebruik van de diensten van OpenAI. De nieuwssite publiceert sinds vorige week samenvattingen bij sommige van zijn artikelen. Deze worden gemaakt met behulp van ChatGPT.

Het gaat hierbij om een commerciële dienst van OpenAI, waarbij het bedrijf de nieuw ingevoerde teksten niet zal gebruiken om zijn modellen verder te trainen. Maar het wringt wel, erkent de woordvoerder desgevraagd. Nu.nl trekt immers de portemonnee voor een dienst van een bedrijf dat zelf nooit een cent heeft betaald aan uitgevers, zonder wie die dienst niet had kunnen bestaan.

Ook Mediahuis experimenteert nadrukkelijk met AI: onlangs lanceerde de uitgever een sportsite waarbij ChatGPT onder andere de koppen maakt. Net als veel andere media beschouwt de Volkskrant AI daarentegen als hulpmiddel, nooit als eindproduct.