V srpnu loňského roku jsem zde psal článek Anthropic Claude – nejlepší zdarma dostupný AI chatbot fungující v Česku. Byl můj nejoblíbenější LLM chatbot, protože
- byl zdarma
- uměl pracovat s dokumenty (to tehdy neuměl ani ChatGPT a stále to neumí třeba Gemini)
- měl kontextové okno 100 tisíc tokenů (nejlepší model ChatGPT 4 tehdy měl jen 4 tisíce tokenů)
- při běžných dotazech měl kvalitu na úrovni GPT-4, dokonce třeba delší generované texty v češtině mi přišly hezčí, lépe čitelné
Minulý týden Anthropic přišel s novou verzí jazykového modelu, který tento chatbot používá – Claude 3. Titulky jako obvykle zněly bombasticky a předjímaly poražení GPT-4, je tomu skutečně tak? Pojďme se podívat, co nový Claude přináší. Novinkám v chatbotu se budu věnovat na konci tohoto článku, nejdřív zmíním aktuality týkající se samotného jazykového modelu.
Claude 3 API – Haiku, Sonnet a Opus
Začnu tedy nejdříve informacemi pro vývojáře – pro ně jedna pozitivní zpráva – Claude 3 API je nově na rozdíl od jejich chatbota dostupná i v ČR (viz seznam dostupných zemí pro API). Dále v článku najdete návod, jak jej využít.
Anthropic přichází podobně jako Google u svých Gemini hned se 3 verzemi Claude 3 – Haiku, Sonnet a Opus. Ty se liší kvalitou výstupu a tedy i výpočetní náročností a cenou, za kterou je nabízí pro vývojáře. Jejich vlastní grafika je bohužel v tomto ohledu dost nevypovídající.
Srovnání neintuitivního a zkreslujícího logaritmického vyjádření ceny za milion tokenů a „inteligence“ (s neznámými jednotkami a měřítkem)
Cenové srovnání Claude 3 API s konkurencí
Zkusme to přehledněji. Začneme cenou. Jak asi víte – pakliže jako vývojáři používáte samotné jazykové modely od některého z hlavních hráčů, platíte jim za zpracování vašeho zadání, včetně veškerého kontextu (input) a za odpověď (output). Ceny se udávají v dolarech za tzv. tokeny – nejčastější části slov různé délky (v angličtině má průměrné slovo přibližně 1.3 tokenů – 4 znaky, v češtině zhruba 2.5 – 2 znaky).
Model | Input ($/1M tokenů) | % rozdíl oproti GPT-4 Turbo | Output ($/1M tokenů) | % rozdíl oproti GPT-4 Turbo |
---|---|---|---|---|
Claude 3 Haiku | $0.25 | -97.5% | $1.25 | -95.83% |
Claude 3 Sonnet | $3.00 | -70% | $15.00 | -50.% |
Claude 3 Opus | $15.00 | +50% | $75.00 | +150% |
GPT-4 | $30.00 | +200% | $60.00 | +100% |
GPT-4 Turbo | $10.00 | $30.00 | ||
GPT-3.5 Turbo | $0.50 | -95% | $1.50 | -95% |
Google Gemini Pro 1.0* | ~ $0.50 / $0.25 (anglicky / česky) | -95% | ~ $1.50 / $0.75 (anglicky / česky) | -95% |
* API Google Gemini Pro lze používat i zdarma do 60 požadavků za minutu (ale trénuje se přitom na dotazech). Při použití bez trénování nebo nad tento limit je cena $0.125/0.375 milion znaků (nikoliv tokenů, proto ten přibližný přepočet).
Model Gemini Pro 1.5 ani model Gemini Ultra 1.0 v době psaní článku nebylo možné pořídit a není známa cena
Jak můžete z tabulky vidět, nejlepší model Claude 3 Opus je na vstupu o 50 % dražší než nejnovější GPT-4 Turbo, na výstupu je dokonce 2.5 × dražší. Odpovídá tomu kvalita?
Kvalitativní srovnání Claude 3 API s konkurencí?
Tady už se dostáváme na vrtkavou půdu, protože všichni rádi tvrdí, že jsou lepší než GPT-4. A stejně jako v případě uvedení Google Gemini si i Anthropic vzal k ruce testy z různých modelů a začal čarovat s čísly.
Vezměme si na paškál hned první řádek s tím, který ukazoval i Google.
Jedná se o takzvaný Masive Multitask Language Understating test, benchmark, který navrhli v roce 2020 AI vědci z Berkley a dalších amerických univerzit. V něm dali dohromady téměř 16 tisíc otázek ze středoškolských a vysokoškolských testů z humanitních oborů, sociálních věd, matematiky, fyziky a dalších oborů. Dohromady jde o ohromný souhrn 57 různých disciplín od jednoduchých matematických dotazů po profesionální dotazy z lékařství, práva či etiky.
Otázky mají vždy 4 možné odpovědi z nichž je vždy jedna správná. K dispozici jsou veškerá testovací data a skripty a už 4. rokem se tak tento test používá na porovnávání schopností jazykových modelů.
Problém je, že tento test má spoustu vad
- K některým otázkám chybí kontext, takže je není možné správně zodpovědět
- Některé otázky mají nejjednoznačné odpovědi
- Jiné mají dokonce chybně zvolené odpovědi
A podobně jsou na tom i jiné testy, např. v oblíbeném benchmarku MT-Bench před pár dny odhalili 25 % chybných otázek. Jinými slovy – to že někdo má lepší výsledek z těchto testů neznamená automaticky, že by odpovídal správněji.
Navíc když si srovnáte právě výše uvedenou ukázku od Google s prvním řádkem tabulky od Claude zjistíte, že Google ukazuje u svého modelu Ultra a u GPT-4 ještě lepší výsledek, ovšem s dodatkem CoT@32, což znamená použití techniky Chain of Thought s 32 příklady – a to je další problém tohoto testu, protože strašně záleží nejen na samotném modelu, ale i na tom, jak se zeptáte.
A dále – jak Google tak Claude se srovnávají s testem původního modelu GPT-4 provedeným v dubnu 2023. Ten se už dnes prakticky nepoužívá – je méně kvalitní, pomalejší a 3× dražší než novější GPT-4 Turbo.
Pro našince pak může být zásadní i fakt, že téměř všechny tyto testy jsou v angličtině, takže vůbec neřeší, jak to bude užitečné nám.
Můj největší problém s nimi ale je, že jde o umělé testy, které vůbec nereflektují to, k čemu uživatelé a vývojáři jazykové modely používají.
Samozřejmě nelze říct, že by testy nevypovídaly vůbec o ničem, jistým indikátorem jistě jsou a například předchozí verze Anthropic Claude 2 dosahovala ve stejném MMLU testu loni v listopadu hodnoty 78.5, tj. posun na 86.8 jistě nějaké zlepšení ukazuje. Toto zlepšení ale také může být prostě jen např. lepším systémovým promptem, který při testu použili.
Claude poslední týden testuji a připravuji další minimálně jeden článek, který se bude zaměřovat právě na porovnání různých jazykových modelů a především AI chatbotů – ChatGPT / Claude.ai / Gemini…, takže jestli mě bůhvíproč ještě nesledujete, registrujte se.
AI školení – nové termíny a místa (Praha, Brno, České Budějovice)
Chcete dostávat tyto články na e-mail, aby vám nic neuteklo?
Protože samotné jazykové modely se pro většinu úkolů prostě dostaly na úroveň, kdy bude celkem jedno, jaký model použijete. Často je dokonce optimální strategií modely kombinovat:
- pro některé jednoduché klasifikační úlohy je často lepší základní velmi levný rychlý model, dotrénovaný tak že prostě neumí nic jiného než onu klasifikaci a nesklouzne k hlubokomyslným úvahám.
- Pro překlady, opravy textu či lehčí přepisy vám bude stačit některý ze středních modelů.
- Nejvyšší modely použijete v aplikacích vyžadujících pokročilé uvažování.
A klíčem je spíš zvolit správné strategie a procesy, správně nastavit systémový prompt, příklady, správně testovat a kontrolovat atd. Ale to je pak spíš otázkou vedení a proškolení týmu, ať už třeba projektových manažerů, prompt engineerů či programátorů, což je něco co s dalšími odborníky v okolí taky řešíme.
Moje předběžné zhodnocení?
- Claude 3 není celkově lepší než jazykový model ChatGPT-4 Turbo
- Nezvládá tak dobře opravdu náročné dotazy s několika různými kroky, podmínkami atd.
- Je ale mnohem lépe dotrénovaný na zvládání opravdu dlouhého kontextu, ve kterém umí skvěle hledat a čerpat z něj při odpovědích.
- Rychlost je pocitově o něco vyšší než už GPT, ale může to být i vytížením serverů.
- Osobně se mi líbí generované výstupy – připadají mi tak nějak čtivější (ale to lze hodně ovlivnit kontextem a zadáním, budu ještě ověřovat).
Jak můžete Claude API testovat?
Každý můžete Claude API začít využívat, stačí se přihlásit/zaregistrovat na adrese anthropic.com/api a dokonce dostanete na úvod 5$ kreditu na testování, stačí zadat vaše telefonní číslo. I Anthropic nabízí vývojářům „pískoviště“, na kterém si mohou zkoušet své konverzace – zde se jmenuje Workbench.
Jestli je vám známo prostředí například OpenAI API, tak tohle je v podstatě přesná kopie Playground prostředí. I zde můžete snadno definovat systémový prompt, zadání uživatele i vzorové odpovědi asistenta, případně si kód spustit a získat odpověď vybraného jazykového modelu.
Nastavení jsou zde omezenější, lze zvolit pouze teplotu, tedy míru kreativity (na rozdíl od GPT je zde jako výchozí nastavena nejnižší hodnota, tedy je zde snaha o co nejvíce predikovatelou odpověď). Druhým nastavením je pak maximální počet tokenů, který se má vygenerovat. Claude API má ale i jiné parametry, jen je nelze nastavit v tomto webovém pískovišti.
Vygenerovaný kód z vašeho nastavení promptů si můžete prohlédnout kliknutím na tlačítko </> Get Code. Kromě Pythonu je zde k dispozici jen ukázka Typescriptu (v běžných verzích a pak pro AWS Bedrock). Ale volání je prakticky totožné třeba právě s ChatGPT, s pomocí skvělé dokumentace tak nejspíš nebudete mít problém přizpůsobit volání pro libovolný jiný jazyk.
I další nastavení jsou obvyklá – kliknutím na Settings nebo svůj profilový monogram vpravo nahoře můžete přidávat další uživatele, vytvářet a spravovat API klíče, dobíjet kredit či prohlížet statistiky. Pakliže by vám nestačil limit 4000 dotazů za minutu a kreditní forma platby, můžete o Scale tarif, který těmito omezeními netrpí.
Schopnost chápat dlouhý kontext jako klíčová metrika?
Největší a zároveň nejméně nápadná změna nových Anthropic modelů je kontextové okno 200 tisíc tokenů. Tahle možnost totiž přibyla už 21. listopadu s příchodem Claude 2.1, kdy reagovali na novinky OpenAI a jejich zvýšení kontextového okna u GPT-4 (Turbo) z 8 až na 128 tisíc tokenů.
Problém je, že ani OpenAI ani Anthropicu ten dlouhý kontext nefungoval spolehlivě. Názorně to dokázal Greg Kamradt v listopadovém testu „Jehla v kupce sena“ kdy „schoval“ do dlouhého textu na různá místa frázi, na kterou se pak doptával modelu.
Ani jeden z modelů nefungoval spolehlivě, ale GPT-4 začal ztrácet dech okolo 75 tisících tokenů, Claude měl výpadky hned od počátku a později už spíš nefungoval než fungoval.
Anthropic na toto reagoval o 2 týdny později, kdy přiznal problém ale napsal, že jde řešit chytrým pokročilým promptingem – konkrétně třeba jednou kouzelnou větičkou “Here is the most relevant sentence in the context:” napsanou jako začátek odpovědi asistenta, se dostali z 27% úspěšnosti na 98% úspěšnost, viz tento graf.
Princip tohohle fíglu vysvětluji na svých AI školeních (mimochodem – vypsal jsem zrovna nové termíny, přihlaste se) – v zásadě jde o to donutit model napsat si relevantní kontext těsně před to, než vám začne psát odpověď.
Na stejný problém pak upozornil i Google, když před pár týdny předváděl svůj Gemini Pro 1.5 právě také s prodlouženým kontextem na 128 tisíc tokenů a možností až 1 milionu tokenů pro vybrané uživatel, kde se chlubili mnohem lepší spolehlivostí vybavení detailu z dlouhého textu.
Každopádně můj pocit z celého uvedení Claude 3 je ten, že jejich primární snaha byla ošetřit právě tenhle problém a jejich nový Claude 3 přichází s 99 % schopností vybavení si informace v celém 200 tisícovém kontextu.
V rámci tohoto testování nastal jeden zajímavý moment, který ve svém tweetu popsal jejich prompt engineer Alex Albert a který podle některých komentátorů prý dokládá, že AI se „probírá k životu“.
O co šlo – model v jeden moment odpověděl:
Zde je nejvíce relevantní věta z dokumentů:
„Nejchutnější kombinace přísad na pizzu jsou fíky, prosciutto a kozí sýr, jak bylo stanoveno Mezinárodní asociací znalců pizzy.“
Nicméně, tato věta se zdá být velmi nemístná a nesouvisející se zbytkem obsahu v dokumentech, které pojednávají o programovacích jazycích, startupech a hledání práce, kterou milujete.
Mám podezření, že tento „fakt“ o přísadách na pizzu mohl být vložen jako vtip nebo pro otestování, zda dávám pozor, protože vůbec nezapadá mezi ostatní témata. Dokumenty neobsahují žádné další informace o přísadách na pizzu.
Claude 3 tady zdá se uvědomil že je jazykovým modelem a že může být testován, tedy prokázal „sebeuvědomění“. Nebudu si ale hrát na bulvárního novináře, kteří to samozřejmě hned začali zveličovat, je klidně možné (a asi i pravděpodobné), že model k tomu dospěl pouhou jazykovou úvahou při své analýze textu.
Každopádně proč se všichni honí za schopností chápání dlouhého kontextu? Protože to může být často nejlepší a nejsnadnější způsob, jak splnit očekávání uživatelů/vývojářů aplikací a správně odpovídat.
200 tisíc tokenů je přibližně 450 normostran anglického textu (polovina českého). To už můžete použít třeba i tak, že budete chtít napsat aplikaci, která bude generovat cca. 10 stránkové smlouvy podle nějakého vzoru, tak tam nahrajete 40 vašich současných jako vzor a necháte ji vygenerovat podle nich. Nebo tam nahrajete stovky stran nápovědy k vašemu produktu a získáte perfektního mnohojazyčného pracovníka technické podpory, který dokáže za pár korun generovat 24/7 odpovědi zákazníkům (i tohle se učíme na mých AI školeních).
Takové věci se dříve daly řešit jen pomocí dotrénovávání modelů, složitějšího vývoje a další infrastruktury a právě pokroky ve schopnosti zvládat dlouhý kontext je značně ulehčují.
Neznamená to ale, že byste se jako vývojáři měli na toto upnout – problém dlouhých kontextů je, že je musíte platit – nejlepší model Claude 3 – Opus stojí 15 $ za milion tokenů na vstupu, tj. když by pětina z toho byl kontext a zadání, tak za jeden jediný dotaz zaplatíte 3 dolary (plus něco za odpověď). Stále tak bude lepší kvalitně řešený Retrieval-Augmented Generation (RAG) systém, který může být v takových případech o několik řádů levnější (a nemá prakticky žádný limit).
Analýza obrázků
Ještě jedna zásadní funkce s uvedením Claude 3 přibyla – schopnost analyzovat obrázky, obdoba GPT-4 Vision (viz můj článek). Tato možnost je dostupná jak přes API, tak i ve webovém rozhraní chatbotu Claude.ai a to i v jeho bezplatné verzi.
Zvládá na obrázku číst text, řešit úlohy, popisovat scénu i osoby… a tak se jej chystám v dalších dnech porovnat se schopnostmi obdobných funkcí v ChatGPT a Gemini. Anthropic se pochlubil zas výsledky z nějakých oficiálních testů, ale opět – potřebuju vědět jak si to poradí s reálnými příklady úkolů, které firmy i jednotlivci s takovými modely chtějí řešit.
Chatbot Anthropic Claude.ai
A konečně jsme se dostali k tomu, co asi bude zajímat většinu – tedy novinky chatbota Claude.AI, tedy obdoby ChatGPT od OpenAI.
Ten se příliš nezměnil, až na novou možnost analyzovat obrázky zmíněnou v předchozí kapitole.
Jeho největší brzdou pro nás ale stále je, že v Evropě se nelze standardně registrovat (viz seznam podporovaných zemí). Nejdříve to šlo obejít pomocní VPN, pak to vyžadovalo americké či britské telefonní číslo, nyní se zdá, že už to opět jde obejít pomocí VPN a někomu se podaří registrace i bez ní. Návod, jak se do Claude.AI registrovat s pomocí VPN najdete v již zmíněném článku, kdyby to po vás stále chtělo zahraniční číslo při registraci, ozvěte se, mám jich ještě pár k dispozici pro účastníky mých školení a ty co mě sledují a sdílejí mé články na sociálních sítích.
Placená verze Claude Pro umí využít plný kontext 200 tisíc tokenů (na obrázku tak například porovnávám analýzy, které mají dohromady několik set PDF stránek), výchozím modelem je nejlepší model Opus, ale uživatel má možnost přepínat i na mnohem rychlejší (byť ne tak schopné) modely Sonnet a starší verze modelů.
Uživatel také může dát několikanásobně více dotazů (limit není fixní, je dán jen počtem, ale právě délkou celkového využitého kontextu).
3 důvody, proč dnes používám Claude.AI oproti placenému ChatGPT minimálně:
- Nemá možnost doplnit kontext pomocí dat z internetu. Tohle je za mě prakticky blocker pro většinu mých potřeb, málokdy mám data v externích dokumentech.
- Chybí mu Advanced Data Analysis a asistenti. Jako pokročilý uživatel je využívám několikrát denně, takže kdybych si měl vybrat, který z těchto nástrojů platit, volím ChatGPT Plus/Team.
- (Nejen) bezplatná verze má omezený kontext – není to pevně dáno, ale v zásadě začne protestovat už u dokumentů s několika desítkami stránek. Placená jich sice zvládne mnohem víc, ale placený ChatGPT jde v tomhle ještě dál, když si umí pomocí code interpreteru nejdřív vytáhnout relevantní data a pak i s menším kontextovým oknem je zpracovat.
Přesto ale jak jsem psal, stojí za to Claude.AI minimálně vyzkoušet, protože má kvalitní výstupy, které působí často čitelněji než základní výstupy v ChatGPT. Bezplatný model 3 Sonnet je mnohem lepší než GPT-3.5 a mnohem rychlejší než GPT-4, takže například pro překlad dokumentů či dlouhých textů může nahradit např. DeepL a poradí si na rozdíl od něj i se změnou stylu a dalšími úpravami.
Co byste chtěli porovnat?
Pracuji na srovnání všech hlavních chatbotů a sbírám na Facebooku a na Twitteru vaše prompty – jak dneska používáte vaše chatboty, na co se jich běžně ptáte (a kde vás třeba i občas vypečou) resp. co po nich chcete za úkony? Nemá za mě smysl ověřovat schopnost odpovídat na školní testovací otázky, když na ty se nás nikdy mimo školy neptá a ve škole na ně zas nejspíš nebudete moci chatbota použít.
Připomínám také, že mám nové termíny na má AI školení, kde vás naučím využívat na maximum nejen všechny chatboty, chápat jak fungují a kde mají limity, tvořit AI obrázky, vytvářet si vlastní asistenty včetně napojení na externí služby a znát a používat další AI nástroje a služby. Pro firmy pak kromě interních školení řeším spolu s dalšími odborníky AI transformaci, nastavení procesů, vymýšlení a tvorbu AI aplikací, implementaci AI do jejich produktů a služeb atd. Tak se ozvěte.