Forside Baggrund

Selv på video: Ny vild Google teknologi separerer lyd

-
Google Look to Listen. Screenshot fra YouTube

Google demonstrerer nu hvordan AI (kunstig intelligens) kan benyttes til at adskille lyde, selv på optagelser.

Spioner og detektiver må gnide sig i hænderne ved synet af denne seneste teknologi-demonstration fra Google. En teknologi der på en måde både er cool og skræmmende.

‘Look to Listen’ – Se for at lytte – kalder de teknologien, der går ud på at separere lyden så der kun høres den eller de personer man ønsker, mens resten af lydbilledet er filtreret fra.

En teknologi der også fungerer på video. Så er der en optagelse fra en forsamling, så viser Google hvordan det er muligt at separere lyden så man kun hører én persons tale, eller omvendt så man hører alt anden lyd fra rummet pånær én persons tale.

På første eksempel der benytter de et lidt ældre indslag fra et Team Coco (Conan) tv-show. Udsendelsen lavede sjov med at de havde fået dobbeltbooket to stand-up komikere, og nu var nødt til at lade dem fyre hver deres show af samtidig på scenen.

Artiklen fortsætter efter annoncen

Det er svært at lytte når to personer taler i munden på hinanden, men se så hvad Googles Look to Listen kan gøre:

 

 

På en måde både facinerende og skræmmende. Nu kan teknologien også mundaflæse og genkende stemmer.

Lære hvordan en person lyder, samt hvornår han/hun taler, for derefter kun at præsentere den del af lyden som lige den person har bidraget med i det samlede lydbillede.

Googles team bag illustrerer det på denne måde:

 

 

Dette for den enkle model, i virkeligheden er teknologien bag noget mere avanceret med udnyttelse af AI (kunstig intelligens), computer kraft og algoritmer til at adskille lyd.

 

 

Her et andet eksempel hvordan lyden fra én person kan filtreres og isoleres:

 

 

Eller benyttes til aktiv støjreduktion på en video der allerede er skudt:

 

 

Det vil også kunne benyttes på videokonferencer og videomøder, til at forbedre lyden fra den der deltager i mødet, eller høre hvad der sker i baggrunden fremfor at høre personen i billedet.

 

 

Googles udviklingsteam fortæller at det ikke kun er tale der arbejdes med.

Forskere fra MIT (Massachusetts Institute of Technology) arbejder med teknologi til at isolere andre former for lydgivende objekter i et A/V-signal, eksempelvis forskellige musikinstrumenter synlige i billedet.

Der er ingen tvivl om at sådan en teknologi vil kunne forbedre oplevelsen og hørbarheden på mange områder, men det er også en teknologi der kan forstyrre privatlivets fred endnu mere end internettet og sociale medier allerede gør, og hvad sker der lige for industrispionage og anden spionage med sådan et værktøj ved hånden.

Så på en måde både cool og skræmmende. Hvis der er interesse i mere om teknologien bag, så har Google Research udgivet en rapport der kan hentes som PDF herfra.

 

Annonce