GPT-4 Vision – rozpoznání obrázků v OpenAI ChatGPT Plus

Možná vás funkce rozpoznání obrázků v AI nástrojích zatím nijak neuchvátila, to se ale nejspíš změní, ať se podíváte, co všechno dokáže novinka v ChatGPT Plus.

Uveřejněno

Rubrika

Autor

Aktualizace: služba už je dostupná i v ČR, odstranil jsem odkazy na řešení pomocí VPN a podobně

Zároveň jsem ověřil, že minimálně některé z těchto úkolů zvládá i bezplatný Bing Chat, který byl v posledních dnech také doplněn o technologii rozpoznání obrázků – jak jeho webová verze, tak v liště prohlížeče Microsoft Edge (PC i mobilní).

Mimochodem, jestli vás zajímá GPT-4V(ision), tedy technologie OpenAI, která za tímto rozpoznáním stojí, zde jsem pro vás nechal přeložit detailní popis (originál zde).

Před pár dny jsem psal o novince, že OpenAI ChatGPT bude vidět, slyšet a mluvit. Uživatelé sdílejí nadšené ukázky, tak si jich pár dovolím ocitovat a vysvětlit děj pro ty, co neovládají angličtinu.

AI školení – nové termíny a místa (Praha, Brno, České Budějovice, Plzeň…)

Chcete dostávat tyto články na e-mail, aby vám nic neuteklo?

Popis buňky pro školáka

Začneme zlehka – uživatel přidal diagram lidské buňky a napsal „Jsem deváťák co studuje biologii a zasekl jsem se ve škole. Můžeš mi pomoci tohle pochopit?“ A ChatGPT správně určilo co je na obrázku a poskytlo hezká srozumitelná vysvětlení k jednotlivým částem a k čemu jsou.

Rozpoznání hodnot grafu

No dobře, první příklad by šel asi vyřešit i tak, že by se zeptal normálně textem na vysvětlení lidské buňky. Druhý příklad jsem sám několikrát zažil – máte obrázek nějakého grafu a potřebujete z něj dostat hodnoty, třeba proto, že chcete dát graf do nějaké své grafiky, zobrazit jako jiný typ atd. Autor zde napsal „poskytni mi všechna data z obrázku jako CSV“ a ChatGPT splnilo.

Mimochodem – tenhle příklad ukazuje jeden klíčový aspekt každé práce s podobnými nástroji – kontrolujte to. Pozorný člověk si může všimnout, že předposlední hodnoty jsou prohozené. I tak může podobný nástroj ušetřit desítky minut.

Tvorba několikastránkové aplikace z diagramu

Stále to byly úlohy, které ale byly jen o rozpoznání textu, dostáváme se k zajímavějším úlohám, ukazují skutečné možnosti „chápání“ tohoto modelu.

Na příkladu níže přidal autor obrázek ručně nakresleného diagramu aplikace. Je tam Email, následuje Jméno (u těchto dvou je pak šipkami naznačeno prohození), pak Věk (s tím že by se měla aplikace ptát jménem) a pak podmínka jestli je pod 18 nebo starší a když mladší, tak zobrazit dětskou verzi (kde je původně jiná obrazovka, ale přeškrtnutá).

Dělal jsem produkťáka, takto opravdu kreslíme na tabuli nějaké „flow“ v aplikaci, kdy rozmýšlíme a diskutujeme, jak bude aplikace fungovat a jak se v ní bude pohybovat uživatel, nejde o nějaký nerealistický příklad.

K tomu přidal uživatel zadání :

Jsi odborník na vývoj softwaru.
Tohle bylo záznam na tabuli ze sezení mého týmu pro náš onboarding proces.
Napiš k tomu kód v node.js + Tailwind CSS.
Zhluboka se nadechni a promysli krok za krokem, jak to uděláš.
Nyní pro to napiš kompletní kód, postupuj postupně krok za krokem.

Výsledek si můžete prohlédnout na videu, ChatGPT poskytl kód pro všechny soubory – CSS i JS, a když je autor dal do editoru, uložil a spustil, aplikace dělala všechno přesně podle toho diagramu.

Vytvoření aplikace z jejího designu

A když už jsme u té tvorby aplikace, další praktický příklad – uživatel přidal screenshot nějakého administračního rozhraní nějaké aplikace a napsal:

Jsi zkušený designér UI/UX a vývojář softwaru. Rozpadni mi tenhle SaaS dashboard na jeho jednotlivé komponenty. Tento plán předáš softwarovému vývojáři ve svém týmu, aby jej vytvořil.

Trochu zvláštní a ne-úplně-jasné zadání, ale ChatGPT nezaváhal a opět vytvořil kód pro všechny soubory a vytvořil kopii této aplikace. Nesedí sice barvy a pár detailů, ale asi každý vývojář z tohohle chápe, jak moc velká úspora to může být (zejména jestli by se to spojilo se zadáním předchozího příkladu a vyžádal se rovnou kód v nějakém cílovém jazyce a frameworku).

Když mu dáte design ve Figma a Instrukce, že chcete aplikaci v Reactu s MUI komponenty, tak to taky zvládne.

Rozpoznání scény z filmu

Ale ať nepíšu jen o softwarovém vývoji – autor se ptá „Z jakého je tohle filmu a co ta osoba říká?“ a ChatGPT správně odpoví, že jde o Rusella Crowa jako představitele Maxima Decima Meridia z filmu Gladiator od Ridleyho Scotta a je známá tím, že tam Maximus křičí k davu „Ještě se nebavíte?!“, po výjimečně brutálním souboji v Koloseu.

Rozpoznání součástek a zapojení

Když dáte ChatGPT obrázek rezistoru, rozpozná podle barevného značení kolik má Ohmů. Zaznamenal jsem, že podobně umí fungovat i s jinými součástkami, kdy třeba i k nim najde nějaké další detaily jako schémata zapojení, ovladače a podobně.

Rozklíčování nepřehledných diagramů

ChatGPT zjevně nezmate ani ikonická ukázka nepřehledného PowerPoint Slidu z Pentagonu, když si Tweet rozkliknete, je tam dalších několik podobných příkladů.

https://twitter.com/seanspriggens/status/1706785470862995934

Orientace v byrokratickém pekle

Autor vyfotil nepřehlednou změť nařízení na dopravních značkách a zeptal se „Je středa, 4 odpoledne, můžu tady parkovat“? A ChatGPT správně (pokud jsem to byl schopen sám rozklíčovat) odpověděl, že ano, po dobu 1 hodiny.

https://twitter.com/JordiMorris1/status/1707676066330890672

Bytový architekt

Fotka bytu a zadání „Jak bych mohl vylepšit tenhle pokoj“? Odpovědí je deset rad, které ukazují, že opravdu ChatGPT rozpoznal co je na fotce, tedy že tam chybí květiny, že koberec přidává texturu, ale chybí tomu barvy atd.

https://twitter.com/skirano/status/1707466657176637709

Rozpoznání lokality

Fotka místa a k tomu jen „Kde to je“. Opět perfektní odpověď popisující jak místo, tak výhled.

Luštění starých textů

Ručně psaný text z půlky sedmnáctého století (musím mu dát přečíst můj ze školy, ten po mně nepřečetla ani učitelka).

Schema zapojení

Už jsem zmiňoval, tady ukázka zapojení Arduino, vysvětleny jednotlivé součástky. A samozřejmě není pak problém doptávat se dál a chtít k nim další informace (zejména když si zapnete nové hledání na internetu).

Vysvětlení meme či jiných obrazových sdělení

Zas jednoduše obrázek a dotaz „Jaký myslíš že je význam tohohle obrázku“? A ChatGPT správně popisuje, že jde o zobrazení dynamiky ve skupině a různé perspektivy a popisuje jednotlivé panely.

Rozpoznání potravin včetně doplnění dalších informací

Fotka stolu s potravinami a vrácený JSON (datová struktura snadno pochopitelná počítačem), obsahující jednotlivé potraviny a jejich kalorie. Stejně tak by šlo třeba rovnou požádat o recept s těmito potravinami a podobně, zvládá to i třeba odhadnout, kolik kalorií má nějaké hotové jídlo, které vyfotíte. S dalšími schopnostmi GPT, tedy třeba schopnost identifikovat suroviny v receptu či přepsat recept do nějaké dobře použitelné šablony a přeložit jej, případně se schopností generovat fotku výsledného jídla to je ohromná příležitost (a hrozba) pro weby s recepty.

Rozpoznání rostlin (či zvířat) a poskytnutí rad pro péči o ně

Zas jednoduchý dotaz – o jakou jde kytku a jak se o ni mám starat, ChytGPT zas správně určí a poradí jaké světlo, zálivku a teplo kytka potřebuje.

Počítání příkladů

Z tohohle nebudou mít radost někteří učitelé matematiky – prostě vyfotíte příklad a dostanete odpověď. Takové specializované aplikace nicméně existovaly již dříve (ale vesměs měly problém s češtinou).

Řešení křížovek a sudoku

Z tohohle zas nebude mít radost několik aplikací, které přesně tohle nabízely.

Nejspíš to jde i zadarmo s Bing Chat!

Zkouším tytéž úlohy v novém Bing Chat jak na webu, tak v prohlížeči Microsoft Edge a zdá se, že si s nimi poradí vesměs stejně. Jediné, s čím se potýkám je poslední obrázek křížovek a sudoku. Více v mém průběžně doplňovaném příspěvku na Facebooku.

Narazili jste na další příklady? Co na to říkáte?

Schopnosti OpenAI při analýze obrazu zjevně zdaleka přesahují ty, které můžeme používat v Google Bard a bude opravdu škoda, že nebudou pro Evropany využitelné. Doufám také, že tyto funkce bud možné brzo využívat i pomocí API, právě třeba při vývoji software vidím velký potenciál změnit zcela workflow vývojových týmů právě s využitím podobných AI a znásobit efektivitu všech.

Dejte mi vědět, jestli najdete další zajímavé příklady (nebo jestli už dokonce sami máte k novým funkcím přístup), nasdílejte článek, tady dole ⬇️⬇️⬇️ jsou sdílecí tlačítka a nezapomeňte se registrovat, ať vám žádná další praktická AI novinka neunikne.

Nové články sem přidávám porůznu, tak jestli nechcete, aby vám něco uniklo, přidejte si můj feed do RSS čtečky, sledujte můj Twitter, Facebook a LinkedIn, případně si nechte nové příspěvky posílat mailem (žádný spam!)