Auteursrechtenorganisatie Stichting Brein heeft een Nederlandse dataset, een verzameling data, offline gehaald die bedoeld was om kunstmatige intelligentie (AI) mee te trainen. Het is volgens de organisatie de eerste keer dat dit in Nederland gebeurt.

Brein spreekt zelf van een "grote dataset" die volgens de organisatie bestaat uit illegale kopieën van tienduizenden boeken, miljoenen regels uit nieuwsartikelen van websites zoals Nu.nl en ondertitels van talloze films en tv-series uit illegale bron. Directeur Bastiaan van Ramshorst zegt ook te weten wie de maker is, maar kan dat vanwege privacyredenen niet zeggen.

Gebruik dataset

De dataset is bedoeld om een zogeheten taalmodel te trainen, in jargon heten deze large language models. De maker van de dataset heeft aan Brein schriftelijk beloofd deze niet meer te gebruiken en heeft ook informatie gegeven over wie deze heeft ontvangen. De stichting kijkt nu of de data ook daadwerkelijk door AI-modellen zijn gebruikt. Als dat het geval is worden partijen hierop aangesproken.

Materiaal dat inbreuk maakt op auteursrecht is een groot probleem bij het trainen van AI. Onlangs bleek nog uit onderzoek van de NOS dat het er sterk op lijkt dat werken van Nederlandse beeldmakers zonder hun toestemming zijn gebruikt voor het trainen van bekende AI-afbeeldinggeneratoren, waaronder DALL-E en Midjourney.

In de VS loopt er op dit moment een rechtszaak tussen The New York Times en OpenAI, de maker van ChatGPT. De krant beschuldigt het bedrijf ervan zonder toestemming massaal krantenartikelen te hebben gebruikt voor het trainen van AI. OpenAI vindt het gebruiken van de data geoorloofd.