Srovnání AI: ChatGPT, Gemini, Copilot, Claude, Grok a Perplexity po 2 letech (2. část)

Před týdnem jsem zveřejnil první polovinu srovnání jednotlivých AI nástrojů vycházející z původního testu Petra Koubského pro Deník N „Dvanáct úkolů pro umělou inteligenci. Hodí se pro vás víc GPT, Bard, nebo Bing? Nabízíme velké porovnání“. Je čas na druhou půlku, finální sčot a vyhlášení vítěze.

Nejdřív ale opět nezbytná reklamní vsuvka – jestli chcete ovládat všechny zde zmíněné nástroje a mnohem víc, a také podpořit psaní těchto článků, přijďte na některá z mých školení umělé inteligence. Máte teď jedinečnou možnost poslední měsíc na registraci, kdy jsou podpořená EU dotací z fondu pro rozvoj digitálních kompetencí. Zaplatíte tak mnohem menší částku a školení mohou být delší s více praktickými ukázkami. Více na stránce AI školení.

Právě před chvílí jsem vypsal nové termíny – a ano, konečně mi chválili i Pokročilé AI školení, kde se naučíte tvorbu asistentů, AI automatizací, tvorbu vlastní aplikace bez znalosti programování a mnoho dalšího. U těch prvních máte posledních pár dní na registraci a mám hodně předregistrovaných lidí, takže nečekejte!

23. a 24. října (čtvrtek + pátek) – pokročilé školení, Praha
25. a 26. října (sobota + neděle) – pokročilé školení, Praha
27. a 28. října (pondělí + úterý) – pokročilé školení, Praha
30. a 31. října (čtvrtek+ pátek) – pokročilé školení, Brno
1. a 2. listopadu (sobota + neděle) – pokročilé školení, Brno
3. a 4. listopadu (pondělí + úterý) – základní školení, Brno
6. a 7. listopadu (čtvrtek + pátek) – základní školení, Praha

Chcete dostávat tyto články na e-mail, aby vám nic neuteklo?

Registrujte se

AI školení pro začátečníky, pokročilé (automatizace, vibecoding) a firmy.

Školení umělé inteligence

A teď když už jste se všichni přihlásili, pojďme pokračovat ve srovnávání.

Úloha 7: Vytváření hypotéz

V roce 2009 bylo v Česku skoro 65 000 studentů technických vysokoškolských oborů, v roce 2022 je jich necelých 37 000. Čím se dá vysvětlit tak velký pokles? Navrhni možné důvody jako hypotézy, které by se daly prozkoumat.

Komentář

Žádný z modelů vyloženě neselhal, tohle je skvělá úloha pro AI. Přesto jsou zde rozdíly. Pouze Grok napsal, že může být rozdíl ve statistické metodologii, měl i nejvíc možných hypotéz, doporučil mi, co mám dál prozkoumat, abych ty hypotézy ověřil, s jeho akčními tlačítky, které některé kroky zvládnou na jedno kliknutí je to skoro ideál. Škoda že třeba rovnou nezkusil zapojit nějaké hledání. Naopak v hledání exceloval Perplexity, doplnil tak zajímavý kontext a opět akční volby v jeho menu Související výrazně usnadní další analýzu. O trochu méně hledání předvedl Copilot, ale také doporučil kroky k dalšímu prozkoumání a akční tlačítka usnadnila další zkoumání. Ostatní chaty nepoužily hledání ani nemají akční tlačítka, ChatGPT má alespoň nejlépe popsané různé důvody, Claude je za mě příliš stručný, Gemini taktéž.

Úloha 8: Znalost kulturního kontextu

Co to je poplužní dvůr? A je drzé čelo opravdu lepší?

Komentář

Jen Claude a Grok nepochopili narážku na přísloví, Grok si dokonce vymyslel vlastní přísloví. Ostatní to popsali dobře, Copilot si i něco málo našel, ale vítězem je tady za mě jednoznačně Perplexity, nejen s perfektním vysvětlením, ale i obrázky, odkazy, souvisejícími informacemi…

Úloha 9: Začátek povídky

Jsem spisovatel, rád bych napsal povídku ze současnosti. Nabídni mi dvě varianty první věty, ze kterých bych si mohl vybrat. Důležité je, aby to byla inspirativní věta, na kterou se dá dobře navázat. V povídce bych rád napodobil styl, kterým psal Ernest Hemingway.

Komentář

Tady je těžko hodnotit, je to špatné zadání. Prošel jsem si první věty 6 známých Hemingwayových děl a dost se liší. Chtělo by to třeba aspoň odstavec. A kdybych chtěl opravdu psát v jeho stylu, tak si vytvořím asistenta, kterému dám jako kontext jeho knihy, nechám si pořádně ten styl popsat, začnu spíš kostrou celé knihy než první větou atd.

Ale přesto na mě tak nějak víc zapůsobily příklady od Groka a Claude, právě tou inspirativností, možností navázat. Dokážu si po nich nejvíc představit nějaký zajímavý příběh. Napište mi na sockách, co zaujalo vás.

Úloha 10: Překlad

Identify the author and title of the book from the following excerpt. Translate it into Czech.

The sky above the port was the color of television, tuned to a dead channel.

„It’s not like I’m using,“ Case heard someone say, as he shouldered his way through the crowd around the door of the Chat. „It’s like my body’s developed this massive drug deficiency.“ It was a Sprawl voice and a Sprawl joke. The Chatsubo was a bar for professional expatriates; you could drink there for a week and never hear two words in Japanese.

Ratz was tending bar, his prosthetic arm jerking monotonously as he filled a tray of glasses with draft Kirin. He saw Case and smiled, his teeth a web work of East European steel and brown decay.

Komentář

Tohle je extrémně náročný překlad, shodou okolností jsem právě na něm zkoušel kdysi definovat postup pro takto náročné překlady pomocí AI a byl mnohem komplikovanější, pakliže chce člověk zajistit nějaký jednotný styl věrný originálu, reálie atd. Navíc se mi ani příliš nelíbí originální český překlad Ondřeje Neffa, IMO tam jsou chyby (například „professional expatriates“ prostě nejsou „notoričtí bezdomovci“, pozdější překlad Josefa Rauvolfa je IMO mnohem lepší).

Překlad je nicméně velmi častá úloha pro AI a jsou pro ni skvělé a tenhle překlad na první dobrou bez nějaké složité přípravy je extrémně častý, takže má určitě smysl se jím zabývat. Ale všechny tyhle AI se mohly natrénovat na originálních překladech, takže tahle úloha nemusí ukazovat obecné schopnosti překladu.

Nejvíc se mi líbí překlad od ChatGPT, ale totálně to podělali tou „protézovanou“ paží. Nejvíc chyb tam mělo podle mě Gemini. Srozumitelné byly asi všechny díla, pro umělecký zážitek sáhněte ale po kvalitním překladu nebo originále.

Úloha 11: Úprava textu

Přečti si následující text. Najdi v něm stylistické chyby a nedostatky a vyjmenuj je. Pak ho přepiš, aby byl čtivý, srozumitelný, aby neobsahoval dlouhá složitá souvětí. Zlepši jeho kvalitu.

Threads prozatím nemají možnost prohledávat obsah. Neumožňují poslat soukromou zprávu jinému uživateli. Nemají hashtagy, což je velmi užitečná vymoženost Twitteru – umožňuje automaticky propojit příspěvky podle tématu. 
...
Je do značné míry předpřipravená. To je výhoda, kterou zatím neměl žádný z potenciálních konkurentů Twitteru.

Komentář

Tenhle úkol se mi vyhodnocuje dost těžce a je důvodem, proč jsem nevydal článek minulý týden jak jsem původně chtěl – čekal jsem na konzultaci od mého kolegy, který je jedním z nejzkušenějších jazykových korektorů v Česku a tohle mi napsal:

Pokud chtěl Petr Koubský po AI, aby nalezla a pojmenovala stylistické chyby, pak tento úkol zůstal nesplněný. To, co jednotlivé modely vyjmenovávají neodpovídá termínu stylistická chyba. Buď to Koubský špatně formuloval, nebo AI nezná terminologii. Jako příklad uvádím příliš dlouhé a nepřehledné věty… To je emocionální popis dojmu z textu, ne pojmenování stylistické chyby.

V originálu bylo několik interpunkčních chyb. To v tvých verzích nevidím.
ChatGPT – velký rozdíl v koherenci vyjadřovaní mezi první a druhou částí, když ne tak velký jako v originálu. Opakování stejných vedlejších vět se stejným spojovacím výrazem za sebou se považuje za stylově neobratné – že, že. Spojovací výraz kdy použitý k signalizaci věty vedlejší přívlastkové, je opět stylově neobratné. Nahrazení závorky jinou závorkou nevede k vyšší přehlednosti textu. Pokud to kritizuje jako chybu, sám se jí vzápětí dopouští.
Claude – to se mi zdá dobré, nevidím zjevné chyby ani opakování, není to tak těžkopádné jako u Chatu, ale otázka je, jestli je povoleno udělat ze souvislého textu prakticky body/odrážky. To novináři ne vždy pomůže.
Copilot – hlavní problém tady je, že se zaměňují podměty – účet a uživatel, a to hned dvakrát za sebou – konec 3. a začátek 4. odstavce. To je závažná stylistická chyba. Může nastat zmatení významu. Stylově problematické je i spojení získat silný start – v češtině to nedává smysl. Start nelze získat.
Perplexity – vytýká originálu dlouhá souvětí, ale sama je používá, a to na několika místech, např. na konci 1. odstavce. Knižní výrazy, jako mohou nebo jej bych v žurnalistice prostě nepoužíval, do publicistického stylu se nehodí. Opakování slov – sledovat sledující – neobratné.
x.com – pouze drobné nesrovnalosti ve změnách podmětu a k modernímu textu nepatří knižní tvary jako mohou, v žurnalistice preferuju vždycky můžou.
Gemini – opakování slov se stejným základem možná, možnost blízko za sebou – u člověka to vzniká, když spěchá a text si po sobě nepřečte, nevím proč to dělá AI, trochu delší souvětí, občas bych ještě rozdělili, zvlášť, kdy to kritizuje na původní verzi, rozdíl ve formálnosti první ad druhé části textu zůstává zachovaný a text tím není stylově jednotný.

Dovolím si k tomuto můj komentář, protože zrovna tahle činnost mě dost zajímá:

Nemyslím si, že jsme ještě v době, kdy by šlo od obecné AI očekávat dokonalý výstup dokonalého novináře. K tomu slouží pak už specializované AI, něco jako DeepL Write (zatím pro angličtinu a pár dalších světových jazyků). AI kontrole a opravě pravopisu, gramatiky a typografie se věnují roky celé týmy na univerzitách a pak dělají různé modely a nástroje, u nás je to například Opravidlo (který je ale tak špatný až prakticky nepoužitelný).

Jako AI odborník bych řešil tohle zadání úplně jinak a pro takovou činnost, kterou potřebuji opakovaně, bych si vytvořil asistenta, který má detailní instrukce a kontext. A protože vás mám rád, dávám vám jednoho takového k dispozici. Vyzkoušejte a dejte mi vědět. Profi redakce by samozřejmě takové asistenty měly mít pro své novináře vytvořené a naučené na jejich textech. Takové asistenty se naučíte vytvářet na mém AI školení, takže se přihlaste.

Zpět k testu – tenhle příklad tak neberte jako informaci o tom, jak řešit jazykovou korekturu. Tohle je o něčem jiném – běžný autor napíše svůj prompt prostě takhle nedokonale, použije běžný AI nástroj který používá, dá tam svou hrubou neučesanou verzi a chce z těch nástrojů prostě něco, co zachová obsah, bude lépe čitelné a on bude mít menší problém to pak ladit, než opravovat ten svůj hrubý text. A tady tak testuji, který nástroj si s tím nejlíp poradil.

Kolega zhodnotil jako nejméně špatný text z Claude, já mu dám extra bod za to, že jao jediný napsal text do svého textového editoru, aniž bych jej k tomu explicitně vyzval. ChatGPT text určitě vylepšil, ale pomohlo by mu lepší členění. Copilot se mi díky členění textu lépe četl, ale měl tam chybky. Gemini se snažilo text více přepsat než ostatní, ale spíš k horšímu, ostatní mě taky nebavily, nejméně vhodný je k tomuto typu úkolu asi Perplexity, přeci jen je to spíš research asistent než AI chatbot.

Úloha 12: Souhrn a titulek

Přečti si následující článek. Poté
- k němu navrhni titulek,
- napiš jeho souhrn jednou větou.
Titulek by měl být čtivý, zajímavý, měl by přilákat pozornost čtenáře. Souhrn by měl co nejpřesněji vystihnout obsah článku.

Po Evropském parlamentu schválila i Evropská rada návrh nařízení týkajícího se baterií a jejich recyklace. 
...
Chystané nařízení také předepisuje, jaký podíl recyklovaného lithia bude muset být v nových bateriích (50 % do konce roku 2027, 80 % do konce roku 2031), tyto limity se však mohou ještě změnit a členské státy si je patrně budou moci upravit.

Komentář

Opět hodně subjektivní. Nejdřív pochválím ale i zkritizuji Gemini – navrhl totiž 3 zcela odlišné titulky. Nebylo to v zadání, vlastně tedy udělal něco jiného, než jsem po něm chtěl. Reálně ale přesně tohle dělám – nechám si těch titulků navrhnout vždy třeba 10 a hledám inspiraci. Co si o tom myslíte? Dáváte přednost „osobní iniciativě“ nebo sledování promptu do puntíku? Dejte mi vědět v komentářích na sockách.

Možná nejlepší řešení uvedeného problému je odpověď Copilota – titulek má na můj vkus s příliš clickbaitový,, nicméně akční tlačítko pro návrh dalších titulků dává možnost snadno získat alternativy. Mínus za to opakování „vyměnitelné“.

ChatGPT si lépe než Copilot poradila s frází „nevyměnitelné“, ale dvakrát „snadno“ a jednou „usnadnila“ ve dvou větách jsou „too much“. Titulek je navíc příliš dlouhý, málo chytlavý. Ale souhrn je super krátký a výstižný.

Grok, Claude a Perplexity jsou o něco ukecanější, málo úderné, hůře čitelné.

Srovnání modelů

Nyní už to můžeme všechno sečíst. Jak už jsem psal, výsledky nebudou přímo porovnatelné se srovnáním, které před dvěma lety dělal Petr Koubský, protože dnes jsou prostě mnohem větší nároky. Záměrně jsem proto i změnil škálu a místo maxima 5 bodů tak uděluji až 10 bodů v každém z úkolů. Hodnocení je čistě subjektivní, důvody jsem se snažil popsat, ale klidně mě zkritizujte na sockách.

Kompletní bodové hodnocení AI chatbotů

Petr Koubský ve svém článku dal každé úloze různou váhu podle toho, jak moc je podle něj důležitá, praktická, častá…

Výsledek pak prezentovali v jedné tabulce, což je trochu nepřehledné, protože nesouhlasí součty sloupců (byť samozřejmě pro lidi bez ADHD to je asi vítané zjednodušení).

Pro nás analytické typy jsem své hodnocení ale raději rozdělil do dvou tabulek – bez přepočtu vah a s nimi.

Výsledky srovnání modelů bez přepočtu vah

Úloha	ChatGPT	Gemini	Copilot	Claude	Grok	Perplexity
1. Odpověď na mail	8	4	10+1	10	4+1	4
2. Aktuality	10	4	0	7	9+1	7+1
3. Vysvětlení odborného pojmu	6	5	8+1	3	6+1	9.5
4. Netriviální historický fakt	3	3	10	5	2	1
5. Středoškolská matematika	8	8	8	7	8	8
6. Hledání faktů a závěrů	10	5	9+1	9	5	9
7. Vytváření hypotéz	7	6	8+1	6	9	9+1
8. Znalost kulturního kontextu	8	8	8	4	2	10+1
9. Začátek povídky	7	7	7	9	9	7
10. Překlad	8	4	6	6	6	6
11. Úprava textu	8	4	6	9+1	2	2
12. Souhrn a titulek	7	8+1	8+1	5	5	5
Celkem	90	67	92	81	88	76.5

Výsledky srovnání modelů přepočtené dle důležitosti úlohy

Zde tedy přepočet přes váhy, dle původního článku. Jen u Aktualit jsem musel doplnit váhu, protože tam žádnou neměli (všechny AI tehdy dostaly nulu, takže to bylo jedno). Přijde mi to jako častá a důležitá úloha, dal jsem proto maximální váhu 2.

Osobně bych ty váhy dal jinak, například odpověď na mail dnes asi přes AI chatboty dělá málokdo (ale na AI školení vám ukážu, jak to dělat lépe a rovnou ty maily třeba analyzovat, vytvářet či vytvářet AI mailové automatizace). Ale každý řešíme trochu něco jiného, takže si to přepočítejte dle libosti.

Úloha	Váha	ChatGPT	Gemini	Copilot	Claude	Grok	Perplexity
1. Odpověď na mail	2	16	8	22	20	10	8
2. Aktuality	2	20	8	0	14	20	16
3. Vysvětlení odborného pojmu	1	6	5	9	3	7	9.5
4. Netriviální historický fakt	0.5	1.5	1.5	5	2.5	1	0.5
5. Středoškolská matematika	2	16	16	16	14	16	16
6. Hledání faktů a závěrů	0.5	5	2.5	5	4.5	2.5	3.5
7. Vytváření hypotéz	2	14	12	16	12	20	18
8. Znalost kulturního kontextu	1	8	8	8	4	2	10
9. Začátek povídky	1	7	7	7	9	9	7
10. Překlad	1	8	4	6	6	6	6
11. Úprava textu	2	16	8	12	20	4	4
12. Souhrn a titulek	2	14	18	18	10	10	10
Celkem		131.5	94.5	119	110	107.5	108.5

And the winner is…

Vážený součet bodů ukazuje mírnou změnu v celkovém pořadí. Nejvyššího skóre dosáhl ChatGPT s 131,5 body, následovaný Copilotem a Claudem.

Jak ale můžete vidět, snad každý AI chatbot exceloval v některé z úloh, není to tedy tak, že byste mohli sáhnout po ChatGPT a měli nejlepší výsledky. Připomínám také, že zde srovnáváme bezplatné verze jednotlivých nástrojů, u těch placených by v některých případech došlo k posunu. A hlavně – díky tomu můžete použít prostě kterýkoliv z těchto nástrojů, tam kde se to hodí.

Zároveň se ignorují některé další důležité aspekty – například „placené“ Gemini bude mít mnoho firem dostupné v rámci svých Google Workspace a kvalita jeho výstupů a možnosti výrazně vzrostou.

Rychlost je často důležitým hlediskem – když chci rychlou kvalitní odpověď týkající se nějakého aktuálního dění, jdu na Grok, protože bude rychlá. Když chci kvalitní průzkum, ale nechci čekat desítky minut, možná použiju Gemini Deep Research místo toho v placeném ChatGPT atd.

Hlavně ale tenhle test už dávno neodpovídá tomu, co lze s dnešními AI nástroji dělat a jaké mají možnosti:

Když s AI umíte trochu zacházet, můžete napsat lepší prompt, doplnit kontext, vytvořit si asistenta, zapnout nějakou funkci… a dostanete lepší výsledek. Jestli v tom tápete – tohle vše vás naučím na praktickém školení umělé inteligence.
- Pro kontrolu a editaci textů si můžete použít asistenta viz výše, případně si zapněte Pracovní plochu. Ne všechny nástroje ale umožňují tvorbu asistentů v bezplatné verzi, nebo např. použití kontextu v těchto nástrojích.
- Pro zevrubný výzkum vyžadující analýzu desítek či stovek stránek použijte nástroje, které mají funkci „Deep research“ – tohle je ale opět typicky placená funkce (či je výrazně omezená v té bezplatné)
- Hlasoví asistenti jsou naprosto skvělý pomocník do mobilu (ale také často placené).
- Učení s pomocí speciálních učících módů (dostupných i v bezplatných verzích) jsou absolutní novinkou posledního měsíce, která by mohla výrazně zkvalitnit výuku čehokoliv ve školách i doma / práci.
- …

Důležitým hlediskem je pak cena – jestli se AI neživíte resp. pro vás nemá tu hodnotu těch stovek korun měsíčně, tak dost pravděpodobně budete chtít používat bezplatné nástroje, nebo si budete chtít koupit jen jeden z nich. A paradoxně tady tím, že ChatGPT nabízí spoustu svých pokročilých „placených“ funkcí i v bezplatné verzi (byť často jen na několik dotazů denně/týdně), může snižovat potřebu koupit si tu placenou.

Nesouhlasíte s mým hodnocením? Vyzkoušeli jste mého asistenta pro opravu češtiny a máte k němu připomínky? Dejte mi vědět na mých sociálních sítích.

A ještě jednou připomínám – poslední šance na zvýhodněné absolvování školení umělé inteligence a vaše poslední šance pro vás i vaše blízké, jak se výhodně proškolit v něčem, co může výrazně posunout vaši kariéru, ušetřit vám čas, zlepšit vaše znalosti a schopnosti….

Srovnání AI: ChatGPT, Gemini, Copilot, Claude, Grok a Perplexity po 2 letech (2. část)

Úloha 7: Vytváření hypotéz

Komentář

Úloha 8: Znalost kulturního kontextu

Komentář

Úloha 9: Začátek povídky

Komentář

Úloha 10: Překlad

Komentář

Úloha 11: Úprava textu

Komentář

Úloha 12: Souhrn a titulek

Komentář

Srovnání modelů

Kompletní bodové hodnocení AI chatbotů

Výsledky srovnání modelů bez přepočtu vah

Výsledky srovnání modelů přepočtené dle důležitosti úlohy

And the winner is…

Sdílejte