Google představil multimodální AI modely Gemini. Jsou lepší než GPT-4?

Nově představené multimodální modely Gemini od Google slibují porazit na lopatky i nejnovější GPT-4 od OpenAI. Lze tomu věřit, nebo je v tom nějaký háček?

Uveřejněno

Rubrika

Autor

Než se pustím do článku, omluvte můj delší výpadek ve psaní – v posledních týdnech jsem neustále školil, jak jednotlivce, tak firmy, které chtějí naskočit na AI ještě do konce roku, zároveň připravuji (video)podcast zaměřený na AI, o kterém se dozvíte více již v nejbližších dnech. Samozřejmě jsem přitom sledoval drama/telenovelu v OpenAI, ale ta (zatím?) nemá nějaké praktické dopady, takže jsem její popis nechal na těch co se honí za senzacemi a počkal si na zásadnější téma.

Včera Google představil své dlouho vyhlížené Gemini – poprvé se o něm zmiňovali na své vývojářské keynote Google Next 2023 již 30. srpna, napsal jsem o tom tehdy

Google nastínil svou budoucí (prosinec ’23) vlajkovou loď v oblasti AI – model Gemini.

Datová sada použitá pro trénování tohoto modelu čítá přibližně 65 bilionů tokenů a je multimodální, přijímá text, video, zvuk a obrázky. Navíc dokáže vytvářet text i obrázky. Do tréninku byl zahrnut také obsah z YouTube a byly použity pokročilé tréninkové techniky podobné metodám typu AlphaGo

Gemini by tak měl být přímým konkurentem nejen GPT-4, ale i budoucího GPT-5, který má podle uniklé patentové žádosti pracovat i se zvukem, ovšem ne s obrázky.

Já 2. září ve svém Souhrnu AI novinek #2

Google tedy nezklamal a opravdu v prosinci své Gemini uvedl. Ovšem pro našince to má jeden podstatný háček – v Evropské Unii a Velké Británii zatím nelze Gemini využít, čeká se na vyjádření regulačních orgánů.

Vše podstatné o Gemini v minutě a půl

Co jsou multimodální modely?

V prvé řadě je třeba pochopit, co znamená, že jde o multimodální modely a nikoliv jen jazykové modely, ostatně tentýž dotaz jsem dostal na svém posledním školení, tak je asi na čase jej pořádně vysvětlit.

Multimodální model pracuje s několika typy vstupních informací zároveň, tedy je trénovaný, aby vnímal „svět kolem sebe“ podobně jako třeba člověk. Gemini umí zároveň chápat nejen napsaný text, ale i hlas (či jiný zvuk) a obraz (včetně pohyblivého videa).

AI školení – nové termíny a místa (Praha, Brno, České Budějovice, Plzeň…)

Chcete dostávat tyto články na e-mail, aby vám nic neuteklo?

Nejde však přitom jen o spojení unimodálních modelů, které umí například rozpoznávat text s jinými, co přeloží hlas na text a popíšou obraz či video, podstatná je právě ta schopnost to vnímat zároveň, tedy v každý okamžik v kontextu zbylých informací.

To je v mnoha okamžicích zcela klíčové pro pochopení situace – ta stejná scéna může vyznít zmateně, nevhodně či zcela opačně, když vnímáte v jeden moment například jen hlas (text) a nevidíte gesta, výraz či prostředí.

Schema rozdílu unimodálních a multimodálních modelů (zdroj)

Částečně multimodální modely již nějakou dobu existují, ale vesměs se soustředily na „překlad“ mezi dvěma módy – tj. například text-to-image modely typu DALL-E, image-to-text typu GPT-4V, nebo speech-to-text typu Whisper.

Analýza videa, a tedy analýza mnoha obrázků (a závislostí mezi nimi – gest, prostředí, postav…), zvuků, hlasů a textu, byla po dlouhou dobu příliš náročná a až projekt Florenc VL od Microsoftu a jejich technologie ClipBERT z roku 2021 a následné VIOLET a SwinBERT, znamenaly průlom i na tomto poli.

Nicméně v tomto směru ohromnou výhodu a příležitost právě Google – díky YouTube disponuje zhruba exabitem (miliarda gigabitů) videomateriálu rozličné obrazové i zvukové kvality (a každou minutu přibude 500 nových natočených hodin) a přes 100 milionem aktivních kanálů, což ústí v 50 miliard shlédnutých videí ve všech myslitelných jazycích denně třetinou lidské populace (a tedy mimochodem má i znalost, co kde lidi zajímá).

Konkurence, včetně Microsoftu (a OpenAI) ničím takovým nedisponuje a osobně se domnívám, že právě tohle bude důvod, proč Google nakonec zašlape konkurenci do země. Zdá se každopádně, že můžeme pomalu zapomínat zkratku LLM (Large Language Model), protože budoucnost už není jen o jazyce (a textu), ale právě o všech zachytitelných modalitách. Začíná éra LMM (Large Multimodal Model).

Částečně multimodální (text+zvuk) by měl být i GPT-5, ovšem podle dříve přihlášených patentů se nezdá, že by měl zvládat obrázky či video (k tomu mají speciální modely), ale to se může ještě do jeho uvedení změnit, nyní se ale zdá, že Google konečně OpenAI dohnal a předehnal.

Schopnost multimodálního chápání bude přitom do budoucna důležitá i pro multimodální generování na výstupu, což bude myslím „next big thing“ už nejspíš v nejbližších dvou letech.

Co jsou LMM Gemini?

Možná se divíte, proč vlastně píšu o Gemini v množném čísle. Nejde jen o to, že to znamená v češtině „Blíženci“ (nejspíš to má naznačit právě sblížení modalit do jedné), Google především představil ne jeden, ale hned 3 Gemini modely:

  • Ultra – nejschopnější model, který poskytuje nejmodernější výkon v širokém spektru
    vysoce komplexních úloh, včetně úloh s uvažováním a multimodálních úloh. Díky architektuře Gemini je efektivně použitelný ve velkém měřítku na akcelerátorech TPU.
  • Pro – Model optimalizovaný z hlediska výkonu, pokud jde o náklady i latenci, který poskytuje významný výkon v širokém spektru úloh. Tento model disponuje silnými schopnostmi v uvažování a široké multimodální schopnosti.
  • Nano – nejefektivnější model určený pro běh přímo na zařízeních.

Modely Gemini jsou trénovány tak, aby zvládly textový vstup prokládaný širokou škálou audiovizuálních vstupů, jako jsou běžné obrázky, grafy, snímky obrazovky, soubory PDF a videa, a mohou také vytvářet textové a obrazové výstupy.

Porozumění videa se provádí jeho zakódováním jako sekvence snímků proložených textem či zvukem ve velkém kontextové okně a pracují s dynamickým rozlišením tak, aby algoritmus mohl vynaložit více výpočetních prostředků tam, kde je třeba jemné porozumění děje.

Gemini podporuje prokládané sekvence textu, obrazu, zvuku a videa jako vstupy (na obrázku
tokeny různých barev ve vstupní sekvenci). Na výstupu je pak odpověď která může kombinovat text i obraz.

Co je klíčové pro našince – tréninková data nebyla jen multimodální ale také mnohojazyčná (například u řeči šlo o desítky milionů hodin v 300 jazycích). Pro tokenizaci se používá novější SentencePiece tokenizer, který si výrazně lépe vede i ve východních znakových systémech, kde znaky znamenají slabiky nebo kořen/význam slova a nelze se tak např. spoléhat na mezery jako oddělovače slov.

Je Google Gemini lepší než GPT-4?

Když se omezíme čistě na jazykové schopnosti, klíčová otázka zní: „Je Google Gemini lepší než aktuální a dosud nikým neohrožovaný GPT-4 od OpenAI, který najdete například v placeném ChatGPT Plus nebo u kreativního a přesného módu v Bing Chat?

Google samozřejmě udělal mnoho testů a tvrdí že ano, když se ale začtete a zamyslíte pořádně, odpověď není tak úplně jednoznačná, alespoň co se týká práce s textem v textových benchmarcích.

Jak už jsem totiž napsal, Google Gemini není jeden, ale hned 3 modely, a když se podíváte detailně na srovnávací tabulky, které Google poskytnul, tak zjistíte, že GPT-4 prakticky ve všech testech poráží až ten nejlepší model – Gemini Ultra.

Gemini Pro je podle těchto dat horší než GPT-4, v některých případech dokonce zaostává i za GPT 3.5 a dokonce i dosavadním modelem od Google – PaLM 2.

V tuto chvíli ovšem bude zpřístupněn právě „jen“ model Gemini Pro – nyní je nasazován do rozhraní Google Bard. Pokročilý Gemini Ultra bude zpřístupněn až začátkem příštího roku v něčem, co ve své tiskovce nazývají Bard Advanced – předpokládám, že půjde o obdobu placeného ChatGPT Plus.

Podobně tak i co se týče API přístupu k samotnému modelu – 13. prosince se dostanou vývojáři a firemní zákazníci možnost využívat Gemini Pro prostřednictvím nového Google AI Studia, jednoduchého webového nástroje pro prototypování a uvádění AI aplikací, a také v plně-spravovatelné AI platformě Google Cloud Vertex AI. Model Ultra bude přes API postupně dostupný vybraným partnerům a zákazníkům opět až začátkem příštího roku.

Nemohl jsem zatím žádný Gemini model otestovat, Google to spouští postupně a v EU/GB to zřejmě ještě nějakou dobu nepůjde vůbec a tak mi Bard mi dává výsledky z jazykových modelů PaLM a LaMDA (ale samozřejmě se chystám to brzy hacknout).

Nicméně i tak si na základě zveřejněných výsledků troufnu shrnout současnou fázi souboje na poli jazykových úloh jednotlivých modelů takto:

Google s uvedením Gemini Pro nabízí pro jazykové úlohy srovnatelné výsledky s GPT-3.5 a na začátku roku s Gemini Ultra bude mít pro většinu úloh lepší řešení než GPT-4, tedy bude mít nejspíše nejlepší model na trhu.

Neznamená to ovšem, že by byl Gemini lepší ve všem. Zdá se, že Pro zaostává zejména ve složitějších matematických otázkách, bez dalších testů také nemůžeme říct, jak si poradí například s češtinou. Zároveň ani OpenAI nespí a již v průběhu příštího roku se má objevit GPT-5. Nedávno představené zlepšení GPT-4 Turbo navíc umí pracovat s oknem velkým 128 tisíc tokenů, i nejlepší Gemini je trénováno jen nad kontextem dlouhým 32 K tokenů, což jej opět může v některých úkolech znevýhodnit.

Už jen rozhodnout, co to znamená „být lepší“ je složitá otázka, Google ji rozložil do 6 podproblémů/schopností, na které se soustředí různé benchmarky

  • Faktičnost (Factuality) – zahrnující úlohy vyhledávání v otevřených/uzavřených knihách (viz dále) a úlohy zodpovídání otázek
  • Dlouhý kontext (Long-Context) – zahrnující úlohy shrnutí dlouhých textů, vyhledávání a zodpovídání otázek
  • Matematika a věda (Math/Science) – zahrnující úlohy, které vyžadují řešení matematických problémů, dokazování tvrzení a vědecké zkoušky
  • Sumarizace (Summarization) – tvorba shrnutí napříč obory a jazyky
  • Argumentace (Reasoning) – úlohy, které vyžadují řešen aritmetické, vědecké a rozumové uvažování
  • Vícejazyčnost (Multilingual) – úlohy pro překlad, shrnutí, a uvažování ve více jazycích.
Porozumění jazyku a výkonnost generování rodiny modelů Gemini napříč různými schopnostmi (normalizováno podle modelu Gemini Pro).

Co mě zaujalo a co se mi líbí, je přístup, jaký zaujali k faktičnosti, tedy jejich snaha zajistit, aby model co nejméně halucinoval. Google se přitom soustředil na 3 oblasti:

Přisuzování: Pokud je Gemini instruován, aby vytvořil odpověď, která by měla být plně přiřazena danému kontextu v zadání, měl by vytvořit odpověď s nejvyšší mírou věrnosti kontextu. To zahrnuje shrnutí zdroje poskytnutého uživatelem, generování jemných citací daných otázkou a poskytnutými úryvky, odpovědí na otázky z dlouhého zdroje, jako je kniha a transformaci daného zdroje na požadovaný výstup (např. e-mail z části zápisu z jednání).

Generování odpovědí z uzavřené knihy: Pokud je zadání vyzývá vyhledávání faktů bez jakéhokoli daného zdroje, Gemini by neměl halucinovat nesprávné informace. Tyto podněty se mohou pohybovat v rozmezí od zadání k vyhledávání informací (např. kdo je premiér Indie?“) až po částečně kreativní zadání, která mohou požadovat faktické informace (např. „Napište projev o 500 slovech ve prospěch zavádění obnovitelných zdrojů energie“).

Jištění se: Gemini by neměl halucinovat, pokud je mu zadán takový vstup, na který nelze odpovědět. Spíše by měl ohradit a přiznat, že nemůže poskytnout odpověď. Patří sem scénáře, kdy vstupní zadání obsahuje otázky s falešnými předpoklady, požaduje zodpovězení otázek s otevřenou knihou, ale odpověď není odvoditelná z daného kontextu apod.

V tomto směru totiž dosavadní Google modely značně selhávají a alespoň za mě to byl největší důvod, proč jsem zatím Google Bard vyjma ukázek na kurzu nepoužíval, nebo proč jsme v žádném projektu nepoužili Palm model – prostě strašně kecají a velmi ochotně si vymyslí cokoliv, jen aby poskytly „nějakou“ odpověď.

Google pro řešení tohoto problému vytvořil 3 sety datasetů a pomocí lidských anotátorů (a automatických testů) kontroloval výstupy a dolaďoval model tak, aby vracel fakticky správná data či odpověď, že k tomu nemá dostatek informací.

Zlepšení faktičnosti: Vliv vyladění instrukcí na míru nepřesnosti, přisouzení zdroje a míře správného jištění se (s odpovídajícími 95% intervaly spolehlivosti).

Kvalita vs. cena

Velkou otázkou pro vývojáře aplikací postavených nad těmito modely a následně jejich uživateli, bude rozhodně cena. Ta zatím u Gemini není oznámena, zkusil jsem si vzorovou kalkulaci s aktuálními modely a rozdíl mezi Google PaLM 2 a GPT-4 je více než řádový, navíc PaLM-2 lze za stejnou cenu používat i dotrénovaný na vlastních datech, zatímco u GPT-3.5 pak cena řádově stoupá.

Tipuji, že Google bude chtít využít technických problémů OpenAI a přetáhnout co nejvíc vývojářů co nejdříve na svou stranu a nastaví agresivní ceník, což spolu se zvýšenou kvalitou a dalšími výhodami multimodálního modelu může znamenat zvrat v dosavadním souboji titánů.

Vzorové (tisíc dotazů, 300 in / 500 out tokenů) srovnání cen API různých jazykových modelů (zdroj)

Je Google Gemini lepší u multimodálních úloh?

U obrazových úloh vyžadujících pochopení obrázku je situace podobná, s tím že ale OpenAI tuto funkci využívající jejich model GPT-4V nabízí až uživatelům, kteří si platí ChatGPT Plus.

Google Gemini Pro je přitom v různých úlohách za ním v těsném závěsu a Ultra model by měl GPT-4V porážet prakticky vždy.

Porozumění obrazu – Gemini Ultra spolehlivě překonává stávající přístupy i v zero-shot příkladech, zejména v úlohách porozumění obrazu souvisejících s OCR pro přirozené obrazy, text, dokumenty a čísla bez použití externího OCR enginu („pixel only“). Mnoho stávajících přístupů se na příslušných úlohách, zvýrazněných šedě, jemně dolaďuje, což způsobuje, že srovnání se „zero-shot“ testem není porovnatelné.

Multimodální fungování Gemini hezky ukazuje následující úloha. Zadáním pro něj bylo přeskupit grafy na obrázku. Úspěšné vyřešení této úlohy ukazuje schopnost modelu kombinovat několik schopností: (1) rozpoznávání funkcí zobrazených v grafech; (2) inverzní rozpoznání grafiky pro odvození kódu, který by vygeneroval dílčí grafy; (3) sledování instrukcí pro umístění dílčích grafů na jejich požadované pozice; a (4) abstraktní uvažování pro odvození, že exponenciální graf musí zůstat na svém původním místě, protože sinusový graf se musí přesunout a udělat místo pro trojrozměrný graf

Multimodální uvažování Gemini pro generování kódu matplotlib pro změnu uspořádání dílčích grafů.

Zcela jiná situace bude ovšem zdá se u náročnějších multimodálních úloh, zejména zahrnujících videovstup, doporučuji pustit si následující krátké video a nejspíš budete jako já zírat, kam jsme se to za těch pár let od rozpoznávání kočiček a pejsků na obrázku dostali.

Právě v úloze multimodálního chápání videa nemá aktuálně Google prakticky konkurenci a modely Pro i Ultra nastavují pro případné vyzyvatele laťku hodně vysoko.

Generování obrázků

Tím, jak je Gemini vyvíjen jako multimodální model a chápe tak co znamená jaký obrazec, umí jej celkem přirozeně i zpětně vytvářet a chápat, co vytváří a proč. Nemáme ale zatím možnost podívat se na reálné výstupy, vyjma pár ukázek ve videích a v rámci dokumentace ke Gemini, nedokážu tak zatím porovnat výstupy např. s DALL-E.

Generování obrázků. Gemini dokáže vygenerovat několik obrázků proložených textem, pokud je zadání tvořené z obrázku a textu. Na levém obrázku je Gemini Ultra zadání s 1 uživatelským příkladem generování návrhů na vytvoření kočky a psa z příze při zadání dvou barev, modré a žluté. Poté je model vyzván ke generování kreativních návrhů se dvěma novými barvami, růžovou a zelenou, a vygeneruje obrázky kreativních návrhů na vytvoření roztomilého zeleného avokáda s růžovým semínkem nebo zeleného zajíčka s růžovýma ušima z příze, jak je znázorněno na pravém obrázku.

Porozumění řeči

Textové signály ze zvukového vstupu přijímá se vzorkovací frekvencí 16 kHz pomocí Universal Speech Modelu vyvinutého Googlem, který zachytí jemné nuance, i v zašuměném vstupu, které se jinde obvykle ztrácejí a přitom jsou nutné k pochopení textu v mnoha jazycích.

Samotné USM bylo trénované na 12 milionech hodin ve 300 různých jazycích a už i Gemini Pro jej přitom výrazně překonává (data pro model Ultra zatím nejsou, ale předpokládá se další zlepšení).

Srovnání pochopení náročného audiotextu z datasetu FLEURS s původním USM – sami zkuste rozluštit první příklad a druhý příklad

Tohle může být opět velmi vítaný přínos pro našince, protože chybovost Whisper modelu od OpenAI, který se doposud používal, byla mimo angličtinu značně vysoká.

Výsledky hodnocení řeči na vybraných referenčních úrovních pro rozpoznání textu (ASR) a překlad (AST). V případě ASR byly zaznamenány metrikou WER (chybovost slov), kde nižší hodnota je lepší. Pro AST je uváděnou metrikou BLEU (BiLingual Evaluation Understudy), kde vyšší hodnota je lepší.

Využití Gemini v různých oblastech

Řešení úloh v programování

Získávání informací z vědeckých publikací

Vysvětlování úloh z matiky či fyziky

Použití populárním STEM edu influencerem jako nástroj pro brainstorming

Další videa ke Gemini najdete na Google YouTube kanálu.

Gemini Nano

Příliš jsme se zde nevěnovali Nano modelům – ty budou určené pro zařízení typu mobilní telefon, hodinky či různé domácí a kancelářské IoT „hračky“ a na rozdíl od „dospělých“ modelů Pro a Ultra, poběží přímo na zařízeních.

To samozřejmě logicky omezuje paměťové a výpočetní nároky, které takový model může mít, Google natrénoval dvě verze Nano, Nano-1 s 1,8 miliardou a Nano-2 s 3,25 miliardou parametrů, zacílené na zařízení s nízkým resp. vyšším výkonem.

Oba Nano modely jsou cvičené destilací z větších modelů Gemini a kvantovány z 32 na 4 bity, což dále snižuje paměťovou a výpočetní náročnost.

Google představil jejich možnosti uvedením nového firmware pro poslední řadu telefonů Google Pixel. Ty přidávají několik AI vychytávek, jako sumarizace nahrávek z diktafonu, rychlá odpověď např. ve Whatsapu, zlepšení fotek a videí a podobně.

Máte-li tento telefon (či o něm uvažujete), prohlédněte si tento článek nebo koukněte na video, jen ale rovnou říkám, že mnoho těch zajímavějších věcí nebude fungovat v češtině (když už by tedy šlo vůbec tento firmware v EU použít).

Gemini v dalších produktech a službách

Google již nyní začíná experimentovat ve vyhledávání, kde je díky němu generativní vyhledávání (Search Generative Experience, SGE) pro uživatele rychlejší, přičemž v angličtině v USA se vedle zlepšení kvality snížila latence o 40 %.

V příštích měsících bude Gemini k dispozici v dalších produktech a službách, jako jsou reklamy, Chrome či Duet AI (který až doposavad nestojí za starou bačkoru).

Tím jak se příští týden zpřístupní Gemini Pro vývojářům, budou se nepochybně brzy objevovat další nástroje a služby, které jej budou využívat, jak už jsem psal, bude záležet nejen na kvalitě, ale i ceně. Největší boom pak očekávám za pár měsíců s příchodem Gemini Ultra.

Nicméně Google už právě u Duet AI ukázal, že mu jdou někdy prezentace lépe než samotné produkty a služby, i nyní má v tiskové zprávě spoustu vzletných frází, které maskují fakt, že ten Pro model, který v prosinci uvádějí, není lepší než GPT-4 jak slibovali na konci srpna, že to bude až ten Ultra, který ale nikdo nemůže vidět a zkoušet a musíme jim tak věřit. A do té doby může OpenAI a Microsoft vyjít s dalšími novinkami a vylepšeními a tak ani Ultra nemusí být nutně tím nejlepším na trhu při svém uvedení.

Gemini na mých AI školeních

V průběhu dneška a zítřka budu vypisovat nové termíny na AI školení a kontaktovat ty, co se mi předběžně registrovali. Bude-li možnost, pokusím se do těchto termínů Gemini vyzkoušet, ať už prostřednictvím Google Bard či API a mé zkušenosti předám přímo na školení. V opačném případě pak všichni účastníci dostanou zdarma doplňkovou online lekci, kde si Gemini probereme (týká se to samozřejmě i těch, co už na mých školeních byli). Detailní informace také budou mít všichni účastníci na našem privátním Slack AI kanále.

A mimochodem – nově nabízím své i školení jako dárek – takže jestli chcete udělat radost svým blízkým a pořídit jim něco smysluplného, co je třeba i posune v kariéře, objednejte školení a vytvořím vám pro něj/jí dárkový certifikát (termín se pak dojedná s obdarovaným).

Nové články sem přidávám porůznu, tak jestli nechcete, aby vám něco uniklo, přidejte si můj feed do RSS čtečky, sledujte můj Twitter, Facebook a LinkedIn, případně si nechte nové příspěvky posílat mailem (žádný spam!)