Forside * Featured

Googles Gemini v1.5 har et trumfkort i ærmet

-
(Foto: Unsplash/Charles Deluvio/Google)

Gemini 1.5 Pro kan forstå meget større sammenhænge end konkurrenterne og er netop blevet sluppet ud til udviklere og business-brugere.

Der er uden tvivl et kapløb i gang, når det gælder AI. Google og Meta spurter i et forsøg på at overhale OpenAI og firmaets alliance med Microsoft, mens en række andre, større og mindre selskaber bobler op underneden.

For satser Google hårdt på Gemini, selskabets udadvendte AI-model, som for nylig overtog chatbot-rollen efter Bard. Indtil videre har Gemini fået en del opmærksomhed, men har ikke foreløbig ikke hjulpet Google til en føringsposition i AI-kapløbet.

Annonce:

Google håber naturligvis på at dette ændrer sig i fremtiden, og af samme grund er firmaet allerede begyndt at vise den næste version af Gemini, version 1.5, frem til offentligheden og har gjort den tilgængelig for udviklere og erhvervsbrugere fra i dag. Gemini 1.5 Pro en ydeevne, der svarer til den nuværende Gemini-topmodel, Gemini Ultra.

Men Gemini 1.5 Pro har faktisk en trumf på hånden, der måske kan give den et forspring, i hvert fald indtil konkurrenterne haler ind. Det handler om den del af forespørgselsprocessen, der kaldes for context window. Lidt forsimplet sagt dækker denne betegnelse over, hvor meget kontekstuel information, du kan lægge ind sammen med en forespørgsel (teknisk kaldet en query ligesom i database-sammenhænge) til Gemini 1.5 Pro.

Langt foran konkurrenterne

Den nuværende Gemini Pro-model kan håndtere 32.000 tokens. En token er, igen lidt forsimplet sagt, de ”bidder”, som en generativ AI-model deler en query op i for at forstå sidstnævnte korrekt. AI’en analyserer normalt disse både hver for sig og i sammenhæng med hinanden, efterfulgt af en sandsynlighedsberegning af, hvad brugeren  formentlig mener. Derefter kan AI’en udføre forespørgslen eller ordren.

Når du taster en lang query ind i en generativ AI-chatbot såsom Gemini eller ChatGPT, har AI’en mere at arbejde med, og kan komme tættere på, hvad du gerne vil have genereret eller få at vide. Af samme grund er AI’er i stigende grad multi-modale, hvilket betyder at du kan blande forskellige former for information i din query, f.eks. video og tekst, eller lyde og fotos.

Sådan fremviser Google forskellen på Gemini v1.5s context window og konkurrenternes. Men Google forventer endda at tidoble kapaciteten i fremtiden (Foto: Google)

Information, der ikke er tekst, skal dog først analyseres via f.eks. billedgenkendelse, og det kræver flere tokens end almindelig tekst. Derfor er det lige nu begrænset, hvor meget, du kan uploade til de fleste chat-baserede AI-modeller. Selv tekstbaserede dokumenter, du gerne vil have analyseret kan kun have en vis længde for hver query, på grund af token-begrænsningen.

Som nævnt er token-begrænsningen på Gemini Pro lige nu 32.000 tokens. På GPT-4, der er en af modellerne bag ChatGPT, kan du højst inkludere 128.000 tokens i hver query. Men på Gemini 1.5 Pro ryger dette tal op på 1 million tokens.

Spol ved at spørge

Det er naturligvis lidt af et syvmileskridt fremad. Det betyder, at du f.eks. kan uploade næsten en times video og stille spørgsmål om den i en enkelt query. I videoen herunder demonstrerer Google, hvordan dette sker i en 44 minutter lang stumfilm med Buster Keaton.

Her spørger brugeren Gemini 1.5 Pro om, hvornår en bestemt hændelse sker i filmen, hvilket AI’en så tygger lidt på og kommer tilbage med det rigtige svar. Den kan endda gøre det samme multimodalt, baseret på en enkelt stregtegning, der inkluderes i query’en.

Fantasien sætter naturligvis kun grænser for, hvordan dette kan integreres i dagligdagen, men det kan f.eks. betyde, at tidsbaseret ”spoling” i film og TV fra streamingtjenester kan blive suppleret med muligheden for at afgive en stemmekommando om at gå til ”der i filmen, hvor helten møder skurken første gang” eller noget lignende.

Ifølge Googles CEO, Sundar Pichai betyder udvidelsen af context window på Gemini 1.5 Pro til 1 million tokens, at du kan lægge hele ’The Lord of the Rings’-bogserien ind sammen med en forspørgsel. Det siger han i et interview med The Verge. I en business-praksis betyder det, at et mellemstort firma f.eks. vil kunne uploade alle sine finansielle transaktioner fra de senere år, og lade AI’en finde sammenhænge, et menneske næppe ville kunne få øje på.

Annonce:
Her på recordere.dk elsker vi en god dialog. Blot det holdes i en pæn tone, uden personhetz og indenfor emnet. Tak fordi du bidrager positivt. Kommentarer modereres.