Google uvedl Gemini 1.5 – nový model zvládající kontext 1 milion tokenů

Google nepolevuje v tempu a uvádí jednu novinku za druhou. Tentokrát překvapil výrazným vylepšením svého základního jazykového resp. multimodálního modelu Gemini. Proč je to důležité?

Uveřejněno

Rubrika

Autor

Stává se pravidlem, že když od rána přednáším na svém kurzu AI, tak že pár hodin předtím některý z velkých hráčů ukáže nějaké zásadní novinky a já pak do noci studuji co je nového. Ani tentokrát mě nenechají pořádně vyspat, nejdřív překvapil Google, když představil nový model, v zápětí mu všechnu pozornost médií odebral OpenAI, když ukázal generování videa z textového zadání.

Já se však budu věnovat dnes jen té první novince, protože z praktického hlediska bude pro většinu z nás asi mnohem užitečnější (a také aktuálnější). Začneme nejdřív zkrácenou verzí oficiální zprávy, můj komentář najdete pod ní.

Oficiální zpráva (zkrácená)

Poznámka: Nechal jsem Google Gemini Advanced lehce zkrátit a přeložit blogový příspěvek Google k jejich novince a převést jej do třetí osoby. Záměrně jej nechávám víceméně beze změn.

Společnost Google oznámila novou verzi své pokročilé umělé inteligence zvanou Gemini 1.5. Tento nový model s 1 milionem tokenů nabízí několik výrazných vylepšení včetně delšího kontextu pro zpracování vstupních údajů a nové architektury označované jako Mixture-of-Experts (MoE), což usnadňuje vývoj efektivnějších systémů umělé inteligence.

CEO Google a Alphabetu Sundar Pichai k tomu uvedl: „Minulý týden jsme uvedli náš nejvýkonnější model Gemini 1.0 Ultra. Od dnešního dne mohou vývojáři a zákazníci využívající cloud začít vyvíjet aplikace také s verzí 1.0 Ultra prostřednictvím Gemini API v AI Studiu a ve Vertex AI.“

Novinky představil Demis Hassabis, CEO Google DeepMind. Nejnovější verze Gemini 1.5 přináší významně vyšší výkon. Jedná se o mezník v přístupu společnosti Google, který staví na nejnovějším výzkumu a technických inovacích v oblasti vývoje základních modelů s umělou inteligencí. Činí Gemini 1.5 efektivnější pro učení i nasazení, díky nové architektuře Mixture-of-Experts (MoE).

První model Gemini 1.5, který bude uvolněn pro testování, se jmenuje Gemini 1.5 Pro. Jedná se o multimodální model střední velikosti, optimalizovaný pro širokou škálu úkolů a svým výkonem se blíží dosud největšímu modelu společnosti, 1.0 Ultra. Obsahuje také průlomovou experimentální schopnost porozumění delším kontextům.

Gemini 1.5 Pro přichází se standardním kontextovým oknem 128 000 tokenů. Omezená skupina vývojářů a korporátních zákazníků však od teď může technologii zkoušet s kontextovým oknem až 1 milionu tokenů prostřednictvím AI Studia a Vertex AI v privátním náhledu. Společnost Google aktivně pracuje na optimalizacích, aby prodloužila kontextové okno pro širší okruh uživatelů, zkrátila odezvu, snížila nároky na výpočetní výkon a celkově vylepšila uživatelskou zkušenost.

Gemini 1.5 Pro dokáže porozumět, uvažovat a identifikovat zajímavé detaily v 402 stránkovém přepisu mise Apollo 11 na Měsíc.
Gemini 1.5 Pro dokáže identifikovat scénu z 44 minutového němého filmu Bustera Keatona, když dostane jako referenční materiál rychlý náčrt skutečného objektu.
Gemini 1.5 Pro dokáže analyzovat až 100 000 řádků kódu a poskytnout užitečná řešení, úpravy a vysvětlení.

AI školení – nové termíny a místa (Praha, Brno, České Budějovice)

Chcete dostávat tyto články na e-mail, aby vám nic neuteklo?

Klíčové výhody Gemini 1.5

  • Vysoce efektivní architektura: Gemini 1.5 je postaven na architektuře Transformer a MoE (Mixture of Experts), díky které využívá specializaci k masivnímu vylepšení efektivity při zachování kvality.
  • Delší kontext znamená užitečnější výsledky: Díky schopnosti zpracovat v jednom dotazu obrovské bloky informací (až 1 hodinu videa, 11 hodin zvuku, rozsáhlé databáze kódu či 700 000 slov) umí Gemini 1.5 pracovat s kontextem v rozsahu, který u jiných modelů umělé inteligence nemá obdoby.
  • Komplexní zpracování různých druhů dat: Gemini 1.5 Pro dokáže v rámci jednoho zadání analyzovat, klasifikovat a sumarizovat velké objemy textových, vizuálních i zvukových dat. Model například umí zpracovat detailní 402stránkový přepis mise Apollo 11 k Měsíci a odpovídat na komplexní otázky týkající se této události.
  • Lepší odhad, větší přesnost: Delší kontextové okno modelu zajišťuje vyšší výkon. Ukazuje to např. benchmark Needle In A Haystack (NIAH), ve kterém Gemini 1.5 Pro nalezl vložený text i v blocích obsahujících milion tokenů – a to s 99% úspěšností.

Vývojáři, kteří mají o testování Gemini 1.5 Pro zájem, se mohou zaregistrovat v AI Studiu. Korporátní zákazníci kontaktují svůj tým podpory Vertex AI.

Můj komentář

Wow. Velikost kontextu, tedy délka textu, se kterým je schopen jazykový model pracovat než začne zapomínat, byla dlouho značným problémem. Ještě v listopadu jste dali nejlepšímu ChatGPT nebo Google modelu několik málo stránek textu a model vám nedokázal spolehlivě odpovědět na elementární dotaz typu jestli je v textu nějaká informace.

Když pak OpenAI uvedla svůj model GPT-4 Turbo a zvedla kontext ze 4 na 128 tisíc tokenů (cca. 100 tisíc anglických slov, polovina když používáte češtinu), byl to značný skok, byť testy různých výzkumníků ukazovaly, že už někde okolo 70 tisíc tokenů ztrácí dech. Navíc samozřejmě při využívání API se platí za jednotlivé tokeny v dotazech a tak se dotazování dlouhého kontextu programátoři obvykle snaží vyhnout.

Výsledek jednoho z testů GPT-4 ve spolehlivosti najít data v dlouhém textu, který ukazuji i srovnání v případě RAG metody (s dotazováním se externí databáze).

Jestliže Google ukazuje téměř stoprocentní schopnost vybavit si kontext v řádu milionu tokenů (a dokonce ukazují i výsledku testy s ještě řádově delším kontextem), pak poráží svého konkurenta rozdílem třídy.

Bohužel, Google se opět dopouští jednoho ze svých marketingových podvůdků, když se chlubí milionovým kontextem, ale reálně (zatím?) uživatelům nabídne „jen“ 128 tisíc tokenů (a ani nevím, jestli jen v API nebo i v aplikaci Gemini, případně jestli v její bezplatné či placené verzi Advanced). Ale i těch 128 tisíc tokenů je pro většinu účelů dost.

Jak moc je 128 tisíc resp. 1 milion tokenů?

Pro zajímavost počet tokenů v anglických textech některých známějších knih, v češtině by byl počet tokenů cca. dvojnásobný (zdroj: můj osobní přepočet)

  • trilogie Pán prstenů: 650 tisíc tokenů (Hobit 135 tisíc tokenů)
  • Vojna a mír: 840 tisíc tokenů
  • všech 7 dílů Harryho Pottera: 1.5 milionu tokenů (nejkratší je první díl s cca. 110 tisíci tokeny, nejdelší 5. díl s cca. 370 tisíci tokeny)

Zajímavé je také, že Google ukázal i multimodální schopnosti a tedy analýzu audia a videa (mimochodem – 1 minuta videa je přibližně 15.5 tisíce tokenů, 1 minuta audia 500 tokenů), kde byl dokonce zcela bez chyby.

Nový model přitom není nějaký osekaný bratříček – naopak, má prý vracet ještě lepší výsledky a dokonce v mnoha testech porážet i „lepší“ model Ultra, který před pár dny zpřístupnili uživatelům v placené verzi svého Gemini (dříve Bard) chatbota, viz Nový Google Gemini Advanced s modelem Ultra – stojí za to?).

Mimochodem – Google taky vylepšil své AI studio (nefunguje z ČR, musíte použít VPN, například v prohlížeči Opera nebo pomocí nějakého pluginu do prohlížeče či aplikace). Nově přibyla možnost nahrávat snímky, videa, soubory, dokonce i celé složky souborů a doptávat se nad nimi (video a obrázky vyžadují ale zřejmě právě nový model Gemini 1.5 Pro, ke kterému zatím nemám přístup).

Jestli máte čas, doporučuji k přečtení celý 58stránkový report

Teď je řada na OpenAI

Google udělal za poslední rok neuvěřitelný pokrok a nové Gemini modely začínají v některých aspektech porážet modely od OpenAI. Ti samozřejmě nespí – proslýchá se, že třeba připravují vlastní vyhledavač a včera pak kontrovali správou o jejich generativním modelu na tvorbu videí Sora.

Chtěl jsem o něm psát, ale je toho plný internet, výstupy jsou úžasné, ale není to veřejně dostupné a tak jsou ve finále jsou stejně nejzajímavější ta vygenerovaná videa, která jsou buď v článku, nebo na X v Replies sekci Sama Altmana, který je v uplynulých hodinách generoval lidem na Xku na přání.

Pracuji na srovnání modelů a chatbotů, ale zřejmě ještě chvilku počkám, abych mohl zahrnout i právě Gemini Pro 1.5 (byť asi nebudu mezi těmi šťastlivci, co si budou moci sáhnout na milionový kontext), bude to zřejmě dost zajímavý souboj.

Z pohledu běžného uživatele nicméně stále chybí klíčové funkce – obdoba asistentů, schopnost plnohodnotně pracovat s internetem, případně kvalitní integrace do Google Workspace aplikací, jako má Microsoft (viz Microsoft uvádí Copilot Pro a zpřístupňuje Copilot for Microsoft 365 pro všechny). Ale nepochybuji, že tam na tom maká každý kdo má ruce.

Gemini tak nyní věnuji více času i na mých AI školení, za pár hodin školím poprvé v Ostravě (resp. Hlučíně u Ostravy), další tu pak mám zítra (v sobotu) a mám ještě asi 2 volná místa, takže jestli máte zájem, můžete se zaregistrovat a přijít. Koncem měsíce pak chystám zas Prahu a Brno. České Budějovice budu muset přesunout na půlku první půlku března. Kromě Gemini se v nich nově věnuji právě i Copilot v Office 365 aplikací, naučíte se vytvářet pokročilé ChatGPT asistenty včetně vlastních akcí…, tak přijďte.

Nové články sem přidávám porůznu, tak jestli nechcete, aby vám něco uniklo, přidejte si můj feed do RSS čtečky, sledujte můj Twitter, Facebook a LinkedIn, případně si nechte nové příspěvky posílat mailem (žádný spam!)