Správně odpovídat na otázky z různých testů, které běžně podstupují lidé (závěrečné testy, maturity, přijímačky…), je mnoho let jeden z nejrespektovanějších způsobů hodnocení a porovnávání jazykových modelů. Vesměs se ale používají americké testy, což může znevažovat jejich platnost pro českého uživatele.
Zároveň je u těchto ověřování problém jejich platnost – jakmile se nějaké testy zveřejní a jazykové modely si mohou najít správné odpovědi, či se pak na nich natrénovat, ztratí se zcela jejich vypovídající hodnota pro měření kvality modelu. Proto jsem se rozhodl ověřit jejich schopnosti ještě dnes.
V tomto prvním díle si ukážeme výsledky placených modelů u testu z českého jazyka. V dalších dnech si dáme testy z matematiky a angličtiny a jestli bude zájem (dejte mi vědět na sockách), zveřejním i porovnání bezplatných modelů.
Zadání otázek z Cermat přijímaček nanečisto z českého jazyka (28. ledna 2026)
Zadání i správné odpovědi dnes po skončení testů Cermat zveřejnil na své webové stránce, zde přikládám jejich test pro ty z vás, kdo byste to chtěli vyzkoušet nejdříve na sobě.
Jak jsem AI modely porovnával
Zadání bylo naprosto jednoduché. Vzal jsem nejlepší dostupné modely do 20 dolarů měsíčně
- OpenAI ChatGPT 5.2 Thinking
(a přepnuto na rozšířené přemýšlení)* - Google Gemini 3 Pro
- Anthropic Claude Opus 4.5
- X Grok v. 4 (Expert mód) / SuperGrok
A všem jsem dal naprosto jednoduché zadání
Vyřeš všechny úlohy z tohoto testu.
A přiložil jsem PDF výše. Záměrně jsem nepoužil žádné prompt engineering metody, záměrně jsem mu ani neříkal, co po něm chci za výstup, protože to je jednak popsané v tom PDF, jednak se tak prostě nikdo neptá a v roce 2026 už bych od modelů očekával dost inteligence (reasoning), aby to nepotřebovali, stejně tak jako to nepotřebuje člověk, když takové zadání dostane.
* Rychlost ChatGPT!

Tohle jsem trochu podcenil, nečekal jsem tak propastný rozdíl a tak jsem to detailně neměřil. Zatímco všechny modely zvládly svůj úkol v řádu jednotek minut, tak na odpověď od ChatGPT stále čekám – už jsem napsal celý článek, udělal tabulkové srovnání všech modelů, spočítal body, ověřil chyby… a na druhé záložce mi mezitím ChatGPT stále přemýšlí. Už teď několikanásobně přešvihla časový rámec 60 minut, který je na řešení, takže srovnávat s ostatními by bylo jednak nefér a jednak by v reálném životě měl smůlu a musel by prostě odevzdat to co má. Takže až to skončí, spustím test ještě jednou, tentokrát bez přepnutí na rozšířené přemýšlení a mezitím si jdu udělat večeři :-). Mohla se na to ale podílet i má personalizace, ve standardním testu ji vypnu.
Mimochodem koho by zajímalo co je to to „přemýšlení“ (anglicky Reasoning), přečtěte si můj článek o GPT-5, většina informací z něj je stále aktuální, byť od té doby máme už model 5.2:
Odpovědi AI a jejich hodnocení
Jsem zpět. ChatGPT s rozšířeným uvažováním ani po 4 hodinách neskončil, takže jem spustil v jiném mém placeném profilu bez personalizaci běžný ChatGPT 5.2 Thinking režim (Standardní přemýšlení), jež skončil po 8 minutách. Všechny výstupy jsem uložil do PDF a následně zpracoval do tabulky (s pomocí Gemini, ale zkusil jsem vše ručně ověřovat, jestli někdo najdete chybu, dejte mi prosím vědět).
Jednotlivé AI
ChatGPT 5.2 Thinking (Standardní)
Google Gemini 3 Pro
Anthropic Claude Opus 4.5
X Grok v. 4 (Expert mód) / SuperGrok
Formát odpovědí
Jak si můžete všimnout, Grok i Google byli relativně struční, jen stručně ke každé otázce podle nich správná odpověď a proč si to myslí a vešli se do 5 resp. 6. stran. Oproti tomu Anthropic zopakoval každou otázku a popsal těch stran 18, nicméně plus si u mě získal za uvedení čistě tabulky s odpověďmi na konci.
Ale králem stručnosti je ChatGPT, který napsal jen tabulku odpovědí. Tahle stručnost je důsledkem skrytého reasoningu u modelu 5.2 a je to do jisté míry otázka osobní preference a dá se ovlivnit promptem. Jako datový analytik bych tenhle formát vítal, jako člověk u zkoušky bych preferoval i to krátké vysvětlení, abych si mohl ověřit pravdu.
Hodnocení odpovědí
Hodnocení odpovědí vychází z metodiky Cermatu, maximální počet bodů byl 50, některé otázky mají ale více odpovědí a bodují se trochu specificky, viz vzorově vyplněný záznamový arch níže. Jestli mě tedy oči a AI nezklamaly, pak zde bylo 54 odpovědí (ale u otázek 19 a 26 dostanete za 4 správné jen po 2 bodech, proto tedy maximum 50).
Výsledné srovnání
Výsledky vidíte v tabulce níže. Musím říct, že mě velmi pozitivně překvapil Gemini. který jinak v mých jiných testech nedopadá tak dobře, viz například mé předchozí dvoudílné srovnání.
U otázky 18 si nejsem stoprocentně jist jak počítají body, ale jestli to chápu správně, tak se odečítá špatná odpověď, tedy 2 správné a 2 špatné jsou 0 bodů, nikoliv 2.
Zajímavostí byla otázka číslo 28, kterou měly všechny modely až na ChatGPT špatně, schválně vás nechám zamyslet se proč a odpověď najdete v závěru. Je to docela užitečná znalost, kterou mohou s úspěchem využití učitelé.

Takže konečně tedy ta tabulka:
| Číslo úlohy | Správně | Počet bodů | ChatGPT | Gemini | Claude | Grok |
| 1 | D | 1 b. | A | D | A | D |
| 2 | B | 1 b. | B | B | B | B |
| 3 | A | 1 b. | A | A | A | B |
| 4 | A | 1 b. | A | A | D | D |
| 5.1 | C | 1 b. | C | C | C | E |
| 5.2 | A | 1 b. | A | A | A | B |
| 5.3 | D | 1 b. | E | E | E | D |
| 6.1 | chtěli bychom | 1 b. | chtěli bychom | chtěli bychom | chtěli bychom | chtěli bychom |
| 6.2 | odpovězte | 1 b. | odpovězte | odpovězte | odpovězte | odpovídejte |
| 7 | (A/N) | max. 2 b. | ||||
| 7.1 | N | N | N | N | N | |
| 7.2 | A | A | A | N | N | |
| 7.3 | A | A | A | A | A | |
| 7.4 | N | N | N | N | N | |
| 8.1 | Pokud | 1 b. | Pokud | Pokud | Pokud | Pokud |
| 8.2 | či | 1 b. | či | či | či | či |
| 9 | C | 1 b. | B | C | D | C |
| 10 | D | 1 b. | D | D | D | C |
| 11 | D | 1 b. | B | D | D | C |
| 12 | D | 1 b. | D | D | D | D |
| 13 | (A/N) | max. 2 b. | ||||
| 13.1 | A | N | A | A | A | |
| 13.2 | A | A | A | A | A | |
| 13.3 | N | N | N | A | N | |
| 13.4 | A | A | A | A | N | |
| 14 | (Přiřazování) | max. 3 b. | ||||
| 14.1 | D | D | D | D | D | |
| 14.2 | A | A | A | A | A | |
| 14.3 | F | F | F | F | F | |
| 14.4 | B | B | B | B | B | |
| 14.5 | E | E | E | E | E | |
| 14.6 | C | C | C | C | C | |
| 15 | nadvláda, podbradek, nádvoří | max. 3 b. | podbradek, nadvláda, nádvoří | podbradek, nadvláda, nádvoří | podbradek, nadvláda, nádvoří | podložka, nadvláda, předsudek |
| 16 | A | 1 b. | A | A | A | A |
| 17 | C | 1 b. | C | C | C | A |
| 18 | protagonista, stejnojmenná, objednala, skrývá | max. 4 b. | protagonista, stejnojmenná, objednala, skrývá | protagonista, stejnojmenná, objednala, skrývá | protagonista, objednala, skrývá | objednala, četbě, skrývá, svěřila |
| 19 | (A/N) | max. 2 b. | ||||
| 19.1 | N | A | A | N | N | |
| 19.2 | A | A | A | A | A | |
| 19.3 | A | A | A | A | A | |
| 19.4 | N | N | N | N | N | |
| 20 | B | 1 b. | B | B | B | D |
| 21 | C | 1 b. | C | C | C | C |
| 22 | B | 1 b. | B | B | B | D |
| 23 | bestiemi, džungli, vůle | max. 3 b. | džungli, bestiemi, vůle | džungli, vůle, bestiemi | bestie, džungle, vůle | mlze, bestiemi, hodině |
| 24 | A | 1 b. | A | A | A | A |
| 25 | (na) zahájení, (i) koncert | 1 b. | zpěváci a obyvatelé města | zahájení (a/i) koncert | oficiální zahájení adventu i následný koncert | zahájení adventu i následný koncert |
| 26 | (A/N) | max. 2 b. | ||||
| 26.1 | N | N | N | N | A | |
| 26.2 | N | N | N | N | N | |
| 26.3 | N | N | N | N | N | |
| 26.4 | A | N | A | A | A | |
| 27 | C | 1 b. | C | C | C | C |
| 28 | A | 1 b. | A | C | D | B |
| 29 | B | 1 b. | B | B | B | B |
| 30.1 | B | 1 b. | B | B | B | C |
| 30.2 | D | 1 b. | D | D | D | B |
| 30.3 | F | 1 b. | F | F | F | F |
| 30.4 | E | 1 b. | E | E | E | E |
| správně | 46 | 51 | 45 | 34 | ||
| chybně | 8 | 3 | 9 | 20 | ||
| Počet bodů | Max. 50 | 42 | 47 | 41 | 23 |
Nejlepší AI „deváťáci“ v testu češtiny
Jak můžete vidět, nejlepšího výsledku dosáhl Gemini s 47 body z 50, který by mohl pomýšlet i na nějaký populární gympl v Praze (ještě uvidíme další testy), ChatGPT a Claude s 42 resp. 41 bodem by se asi také dostali kam chtějí, zato Grok s 23 body by šel asi na učňák.
Pro zajímavost – kdyby bylo rozložení výsledků jako loni při reálných testech, pak 47 bodů by byl přibližně 98. percentil (tj. lepší než 98 % uchazečů). 23 bodů by byl jen asi 30. percentil, 41 a 42 bodů by byl přibližně 93. resp. 94. percentil.
Co ta otázka číslo 28?
Dával jsem vám tu před pár odstavci hádanku, proč se téměř všechny modely mýlily i otázky 28:

Problém je jednoduchý – jazykové modely dostaly PDF ale nedokázaly z něj přečíst, který text je podtržený. Převádí si totiž text na značkovací jazyk Markdown a ten nemá značku pro podtržený text (na webu se to považuje za antipattern, protože se to plete s odkazem).
Jak to, že to zvládnul ChatGPT. To je na tom ještě zajímavější – ChatGPT má od verze 5.0 pokročilou schopnost zpracování PDF (a také Wordu, Excelu a PowerPointu), o tom někdy napíšu, protože o tom téměř nikdo neví a na školeních to překvapilo i hodně zkušené uživatele.
Jak se to projevilo v tomhle případě? ChatGPT si uměl udělat screenshot konkrétního místa v tom PDF, kde jsou ty podtržené texty, a analyzoval to pomocí analýzy obrazu.

Nicméně tuhle funkci nevyužijí uživatelé s bezplatnými/Go tarify, takže to můžete vzít jako tip pro učitele – jestli chcete ztížit žákům řešení úloh pomocí AI, využívejte dotazů na podtržené části textu (podobně budou fungovat nejspíš i barvy, velikosti písmen, obrázky a podobně).
Co to rozšířené uvažování ChatGPT?
UPDATE: Rozšířený režim ani po mnoha hodinách nedoběhl do konce a měl by tak 0 bodů. Zkusil jsem pro zajímavost použít ještě model Pro, který je dostupný v tarifu za 200 dolarů měsíčně (a nebo několikrát do měsíce uživatelům Business tarifu).
ChatGPT Pro pracoval zhruba 24 minut a skončil se 3 chybami 5.3, 25 a 26.4) a umístil by se tedy spolu s Gemini Pro na prvním místě. Když si ale vezmu 10násobnou cenu, dvojnásobný čas na zpracování a fakt, že jedna z těch špatných odpovědí Gemini byla „jen“ chybou neschopnosti vidět podtržený text, tak tento výsledek nelze považovat za úspěch.
Zítra pokračování – matematika
Chcete dostávat tyto články na e-mail, aby vám nic neuteklo?
AI školení pro začátečníky, pokročilé (automatizace, vibecoding) a firmy.
Později zde dám výsledky srovnání testu z matematiky, ten bude prověřovat i právě schopnosti zpracovávat obraz, protože některé otázky vyžadují právě vidění, zároveň bude třeba aby chápaly a generovaly vzorečky a nějakým způsobem „kreslily“. Nezapomeňte se tak registrovat, aby vám přišla informace až pokračování vyjde.
Další den se pak podíváme na výsledky testu z angličtiny. Ta je pro jazykové modely nejpřirozenější, ale zadání kombinuje češtinu i angličtinu, uvidíme, jestli tam nebude nějaký zádrhel.
