Forside * Nyheder

OpenAI har måske trænet sin video-AI på YouTube- og Facebook-videoer

-
(Foto: AI-genereret via ChatGPT/DALL-E)

Firmaet bag ChatGPT har muligvis begået et rettighedsbrud af de helt store og er allerede i YouTube-fedtefadet i forhold til sin GPT-4-sprogmodel

Weekenden bød på hele to af den slags nyheder, der kan sætte en tyk kæp i hjulet på det hastigt voksende og dybt konkurrencebetonede AI-marked. I begge tilfælde ser det ud som om, OpenAI har trænet flere af sine modeller på millioner af YouTube-videoer.

Men det er et brud på YouTubes brugerbetingelser og kan også være et stort copyright-problem at bruge en YouTube-video til at træne en AI-model. Først og fremmest fordi, YouTube-indholdsskabere ikke forventer at de personligt, eller deres indhold, bliver brugt som træningsdata, når de anvender platformen.

Annonce:

”Vores brugerbetingelser gør det klart, at videobidder eller transkriberinger af videoer ikke må downloades fra YouTube”, siger YouTubes CEO, Neal Mohan til Bloomberg. ”Når en indholdsskaber uploader indhold til vores platform, sker det i forventning om at brugerbetingelserne bliver overholdt”, forklarer han. Af samme grund bruger Google angiveligt ikke YouTube-videoer som træningsdata til sine AI’er.

Når YouTube-CEO’en har været nødt til at gå ud med en melding om dette, er det fordi The New York Times over weekenden afslørede, at OpenAI har anvendt millioner af YouTube-videoer til at træne GPT-4, en af de to sprogmodeller, der udgør den nuværende version af ChatGPT.

Er du blevet brugt som træningsdata?

Videoerne skulle angiveligt have været brugt til sproggenkendelse, hvilket formentlig betyder, at de primært indeholder folk, der snakker. Men skulle der f.eks. være indsneget sig musik eller andre rettighedsbeskyttede kreative værker ind i videoerne (uanset om dette er fra kendte eller ukendte kunstnere), er der formentlig tale om et copyright-brud.

Det hjælper ikke på mistanken, at The Wall Street Journal tidligere har rapporteret om at OpenAI forventer at bruge YouTube-videoer til at træne sin kommende sprogmodel, GPT-5. Men så er der også den anden nyhed, nemlig nyheden om at OpenAI muligvis også har brugt YouTube-videoer til at træne sin tekst-til-video-model, Sora.

Sora har imponeret vidt og bredt, især med den ovenstående to minutter lange (og ret syrede) musikvideo, der er stykket sammen af videoer lavet med Sora. Men hvis det viser sig, at OpenAI har brugt YouTube-videoer til at lære Sora at generere både syrede og knapt så syrede videoer, er det ”et klart brud” på brugerbetingelserne ifølge Neal Mohan.

I et interview med The Wall Street Journal indrømmer OpenAIs CEO, Mira Murati, at hun “ikke er sikker på”, om Sora har brugt YouTube-videoer og videoer i Facebook- og Instagram-indlæg som træningsdata. Det er denne bemærkning, der har fået Neal Mohan til at fare i medierne. Hvis der er tale om Facebook- og Instagram-videoer, kan mange flere mennesker være blevet brugt som træningsdata uden at give tilladelse til det.

Annonce:
Her på recordere.dk elsker vi en god dialog. Blot det holdes i en pæn tone, uden personhetz og indenfor emnet. Tak fordi du bidrager positivt. Kommentarer modereres.