Forside * Nyheder

Ny AI-model har styr på tekst i billederne

-

Stable Diffusion 3 ser ud til at have løst et af de største udfordringer ved tekst-til-billede-generering med AI, nemlig at tekst i billederne giver mening og ikke ligner krymmel.

Sammen med bl.a. Midjourney og DALL-E fra OpenAI var det Stable Diffusion-modellen, der satte gang i det igangværende AI-boom. Det synes allerede længe siden, men før ChatGPT blev ultrapopulær, var det disse tekst-til-billede-AI’er, der introducerede almindelige mennesker med teknologi-interesse for den nye bølge af generative AI’er.

Siden er der sket meget, og der arbejdes med lynets hast på at komme frem til tekst-til-video, der virker. Her har OpenAI for nylig vist resultater frem fra sin Sora-model, der er ret imponerende.

Annonce:

Fokusskiftet til tekst-til-video og ChatGPTs popularitet betyder dog ikke, at tekst-til-billede er en død sild. Tværtimod er netop denne form for AI-brug ved at blive integreret som en del af folks daglige produktivitet, for eksempel gennem billed-generering til f.eks. præsentationer i PowerPoint med Microsofts OpenAI-understøttede AI-assistent, Copilot.

Hos Stability AI er de glade for at lave billeder med astronauter i syrede situationer (Foto: Stability AI)

Således har Stability AI, der står bag Stable Diffusion-modellerne, netop annonceret deres seneste model, Stable Diffusion 3. Der er endnu ikke nogen offentligt tilgængelig demo klar af modellen, men man kan skrive sig op til at blive blandt de første, der kan prøve den af.

Problemer med tekst

Til gengæld viser Stability AI nogle billeder frem, der er genereret med Stable Diffusion 3, og de viser, at det tilsyneladende er lykkedes selskabet at løse et af de største problemer, der er med tekst-til-billede-generering med AI. Det handler om noget så simpelt som tekst.

Man skulle jo tro, at AI-modeller med fokus på tekst-til-billede-generering ville have nemt ved at reproducere tekst. Men som alle, der har prøvet det af vil vide, så bliver tekst ofte noget knudret miskmask-nonsens, når ord og bogstaver skal være en del af et AI-genereret billede. Markedslederen OpenAI fik først deres DALL-E 3-model til at håndtere tekst nogenlunde ordentligt kort før årsskiftet.

(Foto: Stability AI)

Det er dog tilsyneladende ikke noget problem for Stable Diffusion 3. For eksempel skulle billedet øverst være genereret med prompten: ”Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says “Stable Diffusion 3” made out of colorful energy”.

Som man kan se på de øvrige billeder her på siden, der alle skulle være genereret med Stable Diffusion 3, er der ikke noget bøvl med tekst, uanset om teksten befinder sig på en bus, et skilt eller en gammeldaws skoletavle.

Vi venter stadig på at få at vide, hvornår Stable Diffusion 3-modellen bliver tilgængelig for offentligheden.

Annonce:
Her på recordere.dk elsker vi en god dialog. Blot det holdes i en pæn tone, uden personhetz og indenfor emnet. Tak fordi du bidrager positivt. Kommentarer modereres.