GPT-4 Vision – rozpoznání obrázků v OpenAI ChatGPT Plus

Aktualizace: služba už je dostupná i v ČR, odstranil jsem odkazy na řešení pomocí VPN a podobně

Zároveň jsem ověřil, že minimálně některé z těchto úkolů zvládá i bezplatný Bing Chat, který byl v posledních dnech také doplněn o technologii rozpoznání obrázků – jak jeho webová verze, tak v liště prohlížeče Microsoft Edge (PC i mobilní).

Mimochodem, jestli vás zajímá GPT-4V(ision), tedy technologie OpenAI, která za tímto rozpoznáním stojí, zde jsem pro vás nechal přeložit detailní popis (originál zde).

GPTV_System_Card-cs Stáhnout

Před pár dny jsem psal o novince, že OpenAI ChatGPT bude vidět, slyšet a mluvit. Uživatelé sdílejí nadšené ukázky, tak si jich pár dovolím ocitovat a vysvětlit děj pro ty, co neovládají angličtinu.

Chcete dostávat tyto články na e-mail, aby vám nic neuteklo?

Registrujte se

AI školení pro začátečníky, pokročilé (automatizace, vibecoding) a firmy.

Školení umělé inteligence

Popis buňky pro školáka

Začneme zlehka – uživatel přidal diagram lidské buňky a napsal „Jsem deváťák co studuje biologii a zasekl jsem se ve škole. Můžeš mi pomoci tohle pochopit?“ A ChatGPT správně určilo co je na obrázku a poskytlo hezká srozumitelná vysvětlení k jednotlivým částem a k čemu jsou.

ChatGPT breaks down this diagram of a human cell for a 9th grader.

This is the future of education. pic.twitter.com/L0Za0ZB5rs
— Mckay Wrigley (@mckaywrigley) September 28, 2023

Rozpoznání hodnot grafu

No dobře, první příklad by šel asi vyřešit i tak, že by se zeptal normálně textem na vysvětlení lidské buňky. Druhý příklad jsem sám několikrát zažil – máte obrázek nějakého grafu a potřebujete z něj dostat hodnoty, třeba proto, že chcete dát graf do nějaké své grafiky, zobrazit jako jiný typ atd. Autor zde napsal „poskytni mi všechna data z obrázku jako CSV“ a ChatGPT splnilo.

Mimochodem – tenhle příklad ukazuje jeden klíčový aspekt každé práce s podobnými nástroji – kontrolujte to. Pozorný člověk si může všimnout, že předposlední hodnoty jsou prohozené. I tak může podobný nástroj ušetřit desítky minut.

a new workflow emerges pic.twitter.com/l5EHx3tzVt
— Luke Wroblewski (@LukeW) September 27, 2023

Tvorba několikastránkové aplikace z diagramu

Stále to byly úlohy, které ale byly jen o rozpoznání textu, dostáváme se k zajímavějším úlohám, ukazují skutečné možnosti „chápání“ tohoto modelu.

Na příkladu níže přidal autor obrázek ručně nakresleného diagramu aplikace. Je tam Email, následuje Jméno (u těchto dvou je pak šipkami naznačeno prohození), pak Věk (s tím že by se měla aplikace ptát jménem) a pak podmínka jestli je pod 18 nebo starší a když mladší, tak zobrazit dětskou verzi (kde je původně jiná obrazovka, ale přeškrtnutá).

Dělal jsem produkťáka, takto opravdu kreslíme na tabuli nějaké „flow“ v aplikaci, kdy rozmýšlíme a diskutujeme, jak bude aplikace fungovat a jak se v ní bude pohybovat uživatel, nejde o nějaký nerealistický příklad.

K tomu přidal uživatel zadání :

Jsi odborník na vývoj softwaru.
Tohle bylo záznam na tabuli ze sezení mého týmu pro náš onboarding proces.
Napiš k tomu kód v node.js + Tailwind CSS.
Zhluboka se nadechni a promysli krok za krokem, jak to uděláš.
Nyní pro to napiš kompletní kód, postupuj postupně krok za krokem.

Výsledek si můžete prohlédnout na videu, ChatGPT poskytl kód pro všechny soubory – CSS i JS, a když je autor dal do editoru, uložil a spustil, aplikace dělala všechno přesně podle toho diagramu.

You can give ChatGPT a picture of your team’s whiteboarding session and have it write the code for you.

This is absolutely insane. pic.twitter.com/bGWT5bU8MK
— Mckay Wrigley (@mckaywrigley) September 27, 2023

Vytvoření aplikace z jejího designu

A když už jsme u té tvorby aplikace, další praktický příklad – uživatel přidal screenshot nějakého administračního rozhraní nějaké aplikace a napsal:

Jsi zkušený designér UI/UX a vývojář softwaru. Rozpadni mi tenhle SaaS dashboard na jeho jednotlivé komponenty. Tento plán předáš softwarovému vývojáři ve svém týmu, aby jej vytvořil.

Trochu zvláštní a ne-úplně-jasné zadání, ale ChatGPT nezaváhal a opět vytvořil kód pro všechny soubory a vytvořil kopii této aplikace. Nesedí sice barvy a pár detailů, ale asi každý vývojář z tohohle chápe, jak moc velká úspora to může být (zejména jestli by se to spojilo se zadáním předchozího příkladu a vyžádal se rovnou kód v nějakém cílovém jazyce a frameworku).

I gave ChatGPT a screenshot of a SaaS dashboard and it wrote the code for it.

This is the future. pic.twitter.com/9xFgFdv4MM
— Mckay Wrigley (@mckaywrigley) September 27, 2023

Když mu dáte design ve Figma a Instrukce, že chcete aplikaci v Reactu s MUI komponenty, tak to taky zvládne.

Update: GPT-4 Vision can absolutely convert figma designs into working React components.

On the left, the design. On the right: the output.

I specifically asked it to write the component in React using MUI components, and gave it little other direction.

It even correctly… pic.twitter.com/dgtBY3gpZy
— Gabriel Garrett (∈/a⊆⊄) (@GabGarrett) September 27, 2023

Rozpoznání scény z filmu

Ale ať nepíšu jen o softwarovém vývoji – autor se ptá „Z jakého je tohle filmu a co ta osoba říká?“ a ChatGPT správně odpoví, že jde o Rusella Crowa jako představitele Maxima Decima Meridia z filmu Gladiator od Ridleyho Scotta a je známá tím, že tam Maximus křičí k davu „Ještě se nebavíte?!“, po výjimečně brutálním souboji v Koloseu.

Yes ChatGPT, I am indeed entertained. pic.twitter.com/XcENUMVcBF
— Peter Yang (@petergyang) September 27, 2023

Rozpoznání součástek a zapojení

Když dáte ChatGPT obrázek rezistoru, rozpozná podle barevného značení kolik má Ohmů. Zaznamenal jsem, že podobně umí fungovat i s jinými součástkami, kdy třeba i k nim najde nějaké další detaily jako schémata zapojení, ovladače a podobně.

ChatGPTの新機能がすごい。抵抗の画像を投げると、カラーコードを読んで、何オームか答えてくれる。こういうアプリ、探してた人も多いはず。 pic.twitter.com/7nGW6sNBBU
— そぞら@Raspberry Pi 電子工作 (@sozoraemon) September 28, 2023

Rozklíčování nepřehledných diagramů

ChatGPT zjevně nezmate ani ikonická ukázka nepřehledného PowerPoint Slidu z Pentagonu, když si Tweet rozkliknete, je tam dalších několik podobných příkladů.

https://twitter.com/seanspriggens/status/1706785470862995934

Orientace v byrokratickém pekle

Autor vyfotil nepřehlednou změť nařízení na dopravních značkách a zeptal se „Je středa, 4 odpoledne, můžu tady parkovat“? A ChatGPT správně (pokud jsem to byl schopen sám rozklíčovat) odpověděl, že ano, po dobu 1 hodiny.

https://twitter.com/JordiMorris1/status/1707676066330890672

Bytový architekt

Fotka bytu a zadání „Jak bych mohl vylepšit tenhle pokoj“? Odpovědí je deset rad, které ukazují, že opravdu ChatGPT rozpoznal co je na fotce, tedy že tam chybí květiny, že koberec přidává texturu, ale chybí tomu barvy atd.

https://twitter.com/skirano/status/1707466657176637709

Rozpoznání lokality

Fotka místa a k tomu jen „Kde to je“. Opět perfektní odpověď popisující jak místo, tak výhled.

ChatGPT image recognition can find hidden gems. pic.twitter.com/9GMKgIT5p0
— Rowan Cheung (@rowancheung) September 28, 2023

Luštění starých textů

Ručně psaný text z půlky sedmnáctého století (musím mu dát přečíst můj ze školy, ten po mně nepřečetla ani učitelka).

Pretty cool. AI is better at deciphering handwriting than I am.

Prof. Breen asked if GPT-4 with vision can read Robert Boyle’s handwritten manuscript. It does well!

Likely going to be a big deal for a number of academic fields, especially as the AI can “reason” about the text. https://t.co/n9jUjqeEw3 pic.twitter.com/78jYWfIhCY
— Ethan Mollick (@emollick) September 27, 2023

Schema zapojení

Už jsem zmiňoval, tady ukázka zapojení Arduino, vysvětleny jednotlivé součástky. A samozřejmě není pak problém doptávat se dál a chtít k nim další informace (zejména když si zapnete nové hledání na internetu).

Great understanding of the electronics (schematics) of the Arduino design by GPT-4V pic.twitter.com/VW0Ikgd18s
— Marco Mascorro (@Mascobot) September 29, 2023

Vysvětlení meme či jiných obrazových sdělení

Zas jednoduše obrázek a dotaz „Jaký myslíš že je význam tohohle obrázku“? A ChatGPT správně popisuje, že jde o zobrazení dynamiky ve skupině a různé perspektivy a popisuje jednotlivé panely.

This is absolutely wild. I am completely speechless. pic.twitter.com/wGTAx1hFgS
— Pietro Schirano (@skirano) September 27, 2023

Rozpoznání potravin včetně doplnění dalších informací

Fotka stolu s potravinami a vrácený JSON (datová struktura snadno pochopitelná počítačem), obsahující jednotlivé potraviny a jejich kalorie. Stejně tak by šlo třeba rovnou požádat o recept s těmito potravinami a podobně, zvládá to i třeba odhadnout, kolik kalorií má nějaké hotové jídlo, které vyfotíte. S dalšími schopnostmi GPT, tedy třeba schopnost identifikovat suroviny v receptu či přepsat recept do nějaké dobře použitelné šablony a přeložit jej, případně se schopností generovat fotku výsledného jídla to je ohromná příležitost (a hrozba) pro weby s recepty.

ChatGPT Vision takes an image of groceries and converts it to JSON based on the instructions.

GPT-4V is an image processing supertool. pic.twitter.com/Vx7loyvJNi
— Mckay Wrigley (@mckaywrigley) October 1, 2023

Rozpoznání rostlin (či zvířat) a poskytnutí rad pro péči o ně

Zas jednoduchý dotaz – o jakou jde kytku a jak se o ni mám starat, ChytGPT zas správně určí a poradí jaké světlo, zálivku a teplo kytka potřebuje.

Počítání příkladů

Z tohohle nebudou mít radost někteří učitelé matematiky – prostě vyfotíte příklad a dostanete odpověď. Takové specializované aplikace nicméně existovaly již dříve (ale vesměs měly problém s češtinou).

Řešení křížovek a sudoku

Z tohohle zas nebude mít radost několik aplikací, které přesně tohle nabízely.

Nejspíš to jde i zadarmo s Bing Chat!

Zkouším tytéž úlohy v novém Bing Chat jak na webu, tak v prohlížeči Microsoft Edge a zdá se, že si s nimi poradí vesměs stejně. Jediné, s čím se potýkám je poslední obrázek křížovek a sudoku. Více v mém průběžně doplňovaném příspěvku na Facebooku.

Narazili jste na další příklady? Co na to říkáte?

Schopnosti OpenAI při analýze obrazu zjevně zdaleka přesahují ty, které můžeme používat v Google Bard a bude opravdu škoda, že nebudou pro Evropany využitelné. Doufám také, že tyto funkce bud možné brzo využívat i pomocí API, právě třeba při vývoji software vidím velký potenciál změnit zcela workflow vývojových týmů právě s využitím podobných AI a znásobit efektivitu všech.

Dejte mi vědět, jestli najdete další zajímavé příklady (nebo jestli už dokonce sami máte k novým funkcím přístup), nasdílejte článek, tady dole ⬇️⬇️⬇️ jsou sdílecí tlačítka a nezapomeňte se registrovat, ať vám žádná další praktická AI novinka neunikne.