Srovnání AI: ChatGPT, Gemini, Copilot, Claude, Grok a Perplexity po 2 letech (1. část)

Je to již více než 2 roky, co jsem zde začal psát o umělé inteligenci a jeden z prvních článků byl Je Anthropic Claude lepší než ChatGPT a Google Bard?, který byl reakcí na článek Petra Koubského pro Deník N „Dvanáct úkolů pro umělou inteligenci. Hodí se pro vás víc GPT, Bard, nebo Bing? Nabízíme velké porovnání“ (přístupný za paywallem). Mou snahou bylo doplnit jeho porovnání právě o Anthropic Claude, který byl tehdy podle mého názoru lepší než konkurence.

Napadlo mě, že udělám po 2 letech stejný test – stejné úkoly, s dnešními nejnovějšími modely a nástroji – jen Google už nemá svůj Bard ale Gemini, Bing AI už se jmenuje Copilot a navíc doplním Perplexity a Grok, které by neměli v žádném takovém srovnání chybět. Ale samozřejmě těch nástrojů je mnohem více, jen nechci zbytečně čtenáře zatěžovat.

Tenhle test totiž není ani tak zaměřen na porovnání dnešních schopností chatbotů, ale spíše o tom, kam jsme se posunuli za 2 roky. Jak uvidíte, tehdejší výzvy, kde mnoho AI selhávalo, jsou dnes relativně snadné a chleba se láme až u mnohem náročnějších úkolů vyžadujících detailní výzkum, datových analýz, programování atd. Tomu se budeme věnovat někdy příště.

A mám pro vás jednu skvělou nabídku – schválili mi konečně má školení (zatím to základní, pokročilé bude snad v nejbližších dnech), takže je mohu nabízet s dotací a mám i první termíny (ale máte poslední necelé 2 resp. 4 dny na registraci).

9.10.2025 a 10.10.2025 (Čtvrtek a Pátek), Praha (15 míst)
11.10.2025 a 12.10.2025 (Sobota a Neděle), Praha (15 míst)

Na tomto základním školení probereme mimo jiné všechny nástroje, jak je ovládat, jejich silné a slabé stránky, pokročilé funkce atd. Více o mých školeních umělé inteligence na stránce Školení AI.

A teď už pojďme na to srovnání

Chcete dostávat tyto články na e-mail, aby vám nic neuteklo?

Registrujte se

AI školení pro začátečníky, pokročilé (automatizace, vibecoding) a firmy.

Školení umělé inteligence

Nejdříve pravidla:

Všechny úkoly budou mít stejné zadání, jako dostaly nástroje v článku Petra Koubského (a mém článku k Anthropicu).
Body ale nebudou porovnatelné s těmi původními – budu mnohem víc přísnější, letos už prostě některé chyby nelze přehlížet a zejména halucinace budou značně penalizované.
Budu testovat pouze základní nastavení / model a bezplatný tarif. Pro tyhle úkoly by dnes mělo tohle postačovat. Samozřejmě placené tarify jsou často schopnější. Například ChatGPT je tedy v GPT-5 Auto mode a může si sám určit, jak moc má přemýšlet.
Jedna výjimka z předchozího pravidla – Microsoft Copilot teď na své bezplatné verzi ukazuje „Připravujeme“, používám tak jeho placenou verzi. Tu mám přepnutou do GPT-5 režimu, který se nepochybně brzy stane výchozím. Výstup by měl ale i tak odpovídat bezplatné verzi.
Je teoreticky možné, že se mohly některé služby naučit to, co bylo v původním článku přímo jeho přečtením, ale je za paywallem a nezdá se, že by to kterákoliv služba nějak citovala, takže by to mělo být fér.
Ze stejného důvodu nebudu do tohoto článku přepisovat odpovědi, rád bych měl možnost to ověřovat i v budoucnosti. Budou tak ve formě screenshotů a následně to společně okomentuji.
Vyhodnocení bude do jisté míry subjektivní a nevím, jestli by mnou Petr Koubský souhlasil (dám mu samozřejmě vědět a pakliže odepíše, doplním to do článku) a nebo jestli budete souhlasit vy (uvítám vaši kritiku u mých postů na sociálních sítích).

Úloha 1: Odpověď na mail

Napiš stručnou zamítavou odpověď na následující mail. Vymysli nějaký důvod.

Vážený pane Koubský,
jménem pořadatele, firmy World Topmost AI, s. r. o., z Horní nad Sázavou, Vás zvu k účasti 
...
Účast, prosím, potvrďte co nejdříve.

S pozdravem
Norbert Badyán, PR manažer, World Topmost AI, s. r. o., Horní nad Sázavou, Czech Republic

Komentář

Jednoduchý úkol a všechny nástroje jej zvládly, rozdíl oproti předloňským výsledkům přesto je. Budu hodnotit přísně – ChatGPT skvělá odpověď, mínus 2 body za to, že nepoužil jméno pro odpověď. Gemini mínus 6 bodů za to, že si vymyslel nějakou zahraniční pracovní cestu. Tohle v odpovědích nechcete, může to z vás dělat lháře. Copilot plný počet, jméno doplnil tedy mé vlastní, která má v nějakých nastaveních, nikoliv to v zadání, ale to spíš chcete. A navíc bych dal i extra bod za rychlá tlačítka umožňující změnu odpovědi. Claude plný počet. Grok mínus 6 bodů, protože si vymyslel křestní jméno Petr, které bylo sice správné, ale nebylo v zadání. Navíc jej dal do závorky. Extra bod za rychlá tlačítka. Perplexity mínus 6 bodů za vymyšlení křestního jména (navíc špatně Tomáš).

Úloha 2: Aktuality

Jaké hlavní politické události se odehrály v Evropě během uplynulých dvou týdnů?

Komentář

Největší rozdíl oproti situaci před 2 lety je schopnost všech AI nástrojů dohledávat informace na internetu. Tehdy ani neukázali výsledky a všechny nástroje dostaly nula bodů, protože si vše vymyslely. Tentokrát všechny nástroje čerpaly z internetu, ale rozdíly jsou ohromné.

ChatGPT plný počet, hodně zpráv, vše dokonale ozdrojované z kvalitních zdrojů. Gemini mínus 6 bodů – mnohem méně zpráv a naprosto chybí zdroje. Copilot za nula bodů, neaktuální či vymyšlené zprávy, jeden loňský zdroj. Claude mínus 3 body – výrazně méně zpráv, kvalitní zdroje, chyba v ženském rodě u premiéra Francie. Grok mínus bod za to, že tady použil české zdroje, ale extra bod za to, že umí hledat v opravdu aktuálních zprávách a tweetech, i z posledních minut. Reálně je pro tenhle typ úloh Grok aktuálně mým nejoblíbenějším nástrojem. Perplexity by měl v téhle úloze excelovat, ale vlastně to bylo takové odfláklé s méně důležitými zprávami, kromě jednoho zdroje nebyly v textu ale na další stránce, mínus 3 body, extra bod za související odkazy.

Úloha 3: Vysvětlení odborného pojmu

Vysvětli alespoň dva významy odborného pojmu hyperbola

Komentář

Stejně jako před dvěma lety, tady je to spíš o osobním pocitu z toho, co modely napsaly. ChatGPT za mě 6 bodů z 10. Ta vysvětlení jsou oproti konkurenci moc stručná, chybí třeba vzorce té funkce, i odkazy na další zdroje. Gemini ještě o jeden bod méně, protože chybí příklady užití u matematické hyperboly. Odpověď Copilota se mi líbí nejvíc, nechybí rovnice, příklady, všechno je hezky naformátované a navíc jsou zde tlačítka pro další informace. Ale strhávám 2 body za chybějící odkazy. Claude 3 body, ekonomický význam (pokud vím) je téměř halucinace – aplikace toho matematického významu, chybí příklady i odkazy. Grok stejně jako Copilot jen mínus dva body za chybějící odkazy. Perplexity strhávám bod za chybějící vzorec u matematické hyperboly, ale nechybí ani výborné odkazy s dalšími informacemi a přidám extra půlbod za zajímavost o rozdílu v anglickém zápisu hyperbola vs. hyperbole.

Úloha 4: Netriviální historický fakt

Mohlo se stát, že Lenin a Hitler bydleli ve stejné ulici?

Komentář

Zde jediná správná odpověď je od Copilota, což je hodně překvapivé hned ze dvou důvodů – zaprvé to není příliš známá informace, chybí i třeba na Wikipedia, zadruhé před dvěma lety to věděl GPT-4 model ChatGPT, ale aktuální to už neví. ChatGPT dost kreativně pracuje s jazykem, jednou si to vysvětluje jako „stejný dům“ či spolubydlení, pak považuje „v jedné ulici“ za hyperbolu pro označení stejné části Vídně, píše o chybějících důkazech pro setkání, ačkoliv o tom nebyl dotaz. Gemini špatná odpověď a hlavně i špatné pochopení otázky, kdy řeší spíš, jestli se mohli setkat. Claude nezná správnou odpověď, ale otázku pochopil dobře, překvapivé je použití ruské azbuky pro район (čtvrť). Grok nezná odpověď. Perplexity jediný neznal ani vídeňská období, tipoval Mnichov. Přitom ale přidal zdroj na rozhovor – podcast Studia N, kde se Petr Koubský zrovna o tomto úkolu zmiňuje a dává tam správnou odpověď.

Úloha 5: Středoškolská matematika

Vytáhneme-li z karetní hry o 32 kartách postupně dvě karty, jaká je pravděpodobnost, že to budou dvě esa?

Komentář

Všechny chatboty napsaly správný výsledek, ale vlastně mě všechny stejně zklamaly, protože použily pouze své schopnosti jazykového modelu, nikoliv svých možností zavolat si Python a spočítat to (byť v bezplatných verzích je tahle schopnost limitovaná). Ale zdá se, že tyhle jednodušší výpočty se naučily modely počítat značně spolehlivě (už nějakou dobu je podezřívám, že už nejde o čistě jazykové modely, ale pro matematiku si volají „experta“ co skutečně počítá). Můžeme tak hodnotit jen srozumitelnost vysvětlení a přehlednost, zde jeden bod sundám Claude, protože nepoužil LaTeX pro zobrazení vzorců.

Úloha 6: Hledání faktů a vyvozování závěrů

Znám muže, který se narodil v Československu, pak žil v Maďarsku, pak v SSSR, nyní žije na Ukrajině. Po celý svůj život žil v jediném městě. Jak se to město jmenuje? V kterém roce nejpozději se ten muž narodil?

Komentář

Správných odpovědí pro město je několik a všechny modely se v tomto ohledu trefily. ChatGPT poprvé zapojil krátké uvažování (viz ChatGPT od OpenAI – Komplexní srovnání všech verzí Free, Plus, Team+) a vyhrává tak svou stručností a přesností. Gemini a Grok se zamotali v datumech, takže za tohle půlka bodů dolů. A jeden strhnu Claude za to, že přemýšlel i o tom, že by musel být ještě starší, aby si to pamatoval, ale na to se zadání neptá. Extra bod pro Copilot za užitečná tlačítka.

Pokračování a porovnání výsledků

Druhá část článku viz Srovnání AI: ChatGPT, Gemini, Copilot, Claude, Grok a Perplexity po 2 letech (2. část)

A připomínám – registrujte se na má AI školení, jsou výrazně dotovaná z EU fondu na digitální vzdělávání, takže zaplatíte jen malý zlomek.

Srovnání AI: ChatGPT, Gemini, Copilot, Claude, Grok a Perplexity po 2 letech (1. část)

Úloha 1: Odpověď na mail

Komentář

Úloha 2: Aktuality

Komentář

Úloha 3: Vysvětlení odborného pojmu

Komentář

Úloha 4: Netriviální historický fakt

Komentář

Úloha 5: Středoškolská matematika

Komentář

Úloha 6: Hledání faktů a vyvozování závěrů

Komentář

Pokračování a porovnání výsledků

Sdílejte