Tvoříme obrázky s OpenAI DALL-E 3 (ChatGPT, Bing Create), Adobe Firefly 2, Midjourney a Stable Diffusion

V posledních dnech se přetrhl pytel s novinkami i v oblasti generativních obrazových modelů a nástrojů. Stojí tak myslím za to udělat rychlý přehled toho, co je vlastně k dispozici a k čemu se ten či onen hodí. Zejména Firefly 2 je úplná novinka, stará jen pár dní, o novém DALL-E 3 jsem už tady před 2 týdny informoval a před měsícem jsem detailně ukazoval funkci Midjourney Vary (Region) / Inpainting.

Dnes si přestavíme jednotlivé „hráče“. Vezmu to podle toho, jak moc jsou známé, jak se používají a jaké jsou jejich hlavní výhody a nevýhody. Nebudu nyní přímo srovnávat kvalitu výstupů, už tak je článek značně dlouhý, nechám si to na příště.

Chcete dostávat tyto články na e-mail, aby vám nic neuteklo?

Registrujte se

AI školení pro začátečníky, pokročilé (automatizace, vibecoding) a firmy.

Školení umělé inteligence

Midjourney

URL: https://midjourney.com/ a následně pak https://discord.gg/midjourney

Vytvořeno Midjourney na zadání „/imagine Midjourney“

Asi nejznámější nástroj na generování obrázků – jestli jste v posledním roce viděli nějaký pěkný obrázek vygenerovaný AI, dost pravděpodobně byl dělán právě v Midjourney (či MJ). V posledních týdnech mu ale vzrostla výrazná konkurence, která jej v mnohém překonává. Využívá difusní modelování obrázek se postupně generuje z náhodného šumu).

Osobně jej ale nemám moc rád. V prvé řadě nesnáším prostředí komunikační platformy Discord, které je nyní jedinou možností, jak jej oficiálně používat a které tvoří značnou bariéru pro neznalé uživatele a na školeních se i jen registrací tráví zbytečně i desítky minut, zatímco ostatní nástroje každý používá okamžitě. Prý by ale už za pár týdnů měla být verze s normálním webovým rozhraním. Pro použití v jiných aplikacích pak chybí využitelné API.

Aktuálně tedy obrázky v Midjourney tvoříte na rozhraní Discord s pomocí příkazu /imagine, vygeneruje se vám pak spojená čtveřice obrázků (formát lze měnit) a vy si pak vyberete, který třeba chcete zvětšit či upravit.

Přeplácané a nepřizpůsobené rozhraní Discord serveru Midjourney

Zadruhé – MJ má značně nepredikovatelné výsledky – vidíte sice na sociálních sítích krásné obrázky vygenerované v Midjourney, ale často k nim uživatelé došli vlastně omylem, že chtěli něco jiného (nebo prostě žádnou představu neměli). Případně jsou pak ještě pracně opravované třeba pomocí Photoshopu či funkce Vary (region).

Mnohdy neřešitelným problémem je pak zobrazení textu v obrázku – Midjourney místo něj napíše nějakou obvykle změť něčeho, co vzdáleně připomíná nějaká písmena.

Chcete-li s MJ kvalitní výsledek, tak to chce také používat hodně specifická zadání, kde např. přesně specifikujete typ fotoaparátu, jakým by taková „fotka“ měla být vytvořena (kdyby to byla fotka), styl konkrétních tvůrců atd.

Dvojsečnou zbraní je pak existence, ale často i faktická nutnost používání mnoha parametrů, viz oficiální nápověda, případně zde pěkný návod, který jsme ve SCIO připravili pro učitele.

Co je fajn je možnost použít nějaký vzorový obrázek, a buď si jej nechat popsat (volba /describe), nebo jej rovnou použít jako vzor pro generovaný obrázek.

Hodně užitečná je pak nová funkce Midjourney Vary (Region) / Inpainting – psal jsem o ní před pár týdny.

Největší nevýhodou je dnes už ovšem cena. Prvních pár měsíců existovala bezplatná možnost, dnes už musíte platit 10-120 $ měsíčně (-20 % při roční platbě). Za těch 10 dolarů můžete vygenerovat asi 200 obrázků, tedy můžete být s cenou někde okolo 1-2 Kč za obrázek, ale když jich chcete jen pár, tak jste na minimálně desetikorunách. S nárůstem konkurence dnes už MJ pro mnoho uživatelů postrádá smysl.

OpenAI DALL-E 3 (ChatGPT Plus, Bing Create)

URL: https://chat.openai.com/ nebo https://www.bing.com/create

Vytvořeno v OpenAI ChatGPT Plus s DALL-E 3, na zadání „DALL-E 3“

O novém generativním modelu od OpenAI s názvem DALL-E 3 jsem zde už před pár týdny psal. Aktuálně jde ve většině případů o můj nejoblíbenější způsob generování obrázků. Tento model se dá používat v několika nástrojích

OpenAI ChatGPT Plus – zvolíte GPT-4 a modul DALL-E 3
Microsoft Bing Image Creator
- Chat v Bing panelu v prohlížeči Microsoft Edge případně v online Bing chatu
- Na stránce Bing Image Creator
- V Android klávesnici Microsoft SwiftKey AI keyboard
A brzy i s pomocí OpenAI API (psal jsem zde před pár hodinami)

Doplnění: Několik z vás se mě ptá, jak mohou DALL-E 3 ve svém ChatGPT povolit – vězte tedy, že musíte mít placený plán a následně přepnout na model GPT-4 s podporou DALL-E 3 (můžete použít tento odkaz).

Pakliže tam podporu DALL-E 3 nemáte, zkuste se odhlásit a přihlásit, pakliže to tam ještě stále nebude, pak musíte asi ještě pár dní počkat, spouští se to uživatelům postupně.

Ačkoliv se tedy jedná o jeden obrazový model, přesto zde existuje několik rozdílů mezi tím, jestli používáte DALL-E v ChatGPT Plus, nebo v nástrojích a službách od Microsoftu:

Tak v prvé řadě samozřejmě cena – s Microsoftem můžete tvořit obrázky v nějakém rozumném počtu zdarma. Oproti tomu u OpenAI musíte mít placený účet ChatGPT Plus (20 $ měsíčně), ale jestli jej máte kvůli ostatním výhodám ChatGPT Plus, tak už nic dalšího neplatíte, takže fakticky je tato novinka pro platící uživatele bonusem navíc „v ceně“.

Zásadnější jsou ale ještě jiné rozdíly – u Microsoftu je výsledkem vašeho dotazu vždy čtvercový obrázek (1024×1024), zatímco u ChatGPT můžete v dotazu specifikovat, že chcete obrázek na výšku či na šířku s delší stranou 1792 pixelů (bez uvedení použije ten rozměr, který použil v předchozí části konverzace, pakliže jde o první obrázek, tak obvykle použije čtverec).

V některých případech se dá toto omezení obejít tím, že například řeknete, aby vygeneroval plakát či knihu zobrazující [vaše zadání], čímže vznikne okraj, který můžete oříznout, nebo lze použít nějaké nástroje, které si „domyslí“ okolí obrázku (používám takhle Uncrop od Stability.AI – výsledek viz úvodní obrázek posledních AI novinek).

Dalším rozdílem je pak míra cenzorování obrázků – jak OpenAI, tak Microsoft mají obsahová pravidla pro tvorbu obrázků a tedy odmítnou vytvořit:

Obrázky politiků nebo jiných veřejných osobností.
Obrázky ve stylu umělců, jejichž poslední dílo bylo vytvořeno v posledních 100 letech.
Obrázky porušující etické normy.
Obrázky, které nejsou citlivé, nerespektují různorodost a či jsou jinak urážlivé.

Pravidla u Microsoftu jsou ale mnohem širší, např. mi to odmítlo vygenerovat úvodní obrázek s dotazem na „DALL-E 3“, protože to bylo moc krátké, odmítne mi to vygenerovat karikaturu s vojáky a podobně.

Na druhou stranu DALL-E v ChatGPT odmítá vygenerovat obrázky s ochrannými známkami, s tím zas nemá naopak problém verze u Microsoftu.

Obě verze také zcela jinak přistupují ke generování variant:

ChatGPT vytvoří 4 obrázky s odlišnými zadáními vycházejícími z vašeho původního zadání, tj. například místo „AI consultant in Prague“ použije pro první obrázek „Photo of a young Asian male AI consultant standing in front of the iconic Charles Bridge in Prague, with a laptop in hand and the beautiful cityscape in the background.“, pro druhý „Photo of a middle-aged European woman AI consultant sitting at an outdoor cafe in Prague’s Old Town Square, discussing AI strategies with a diverse group of clients.“ atd. Chcete-li, aby se držel přesně zadání, musíte mu to explicitně říct.
Bing Image Creator vytvoří 4 různé obrázky s jedním promptem, který vymyslí buď z kontextu nebo použije přesně co napíšete. Čtveřice obrázků z Bingu je si tak obvykle mnohem více podobná a naopak jestli chcete kreativitu, musíte nejdříve Bing Chatu říct, at vám třeba vymyslí zadání pro takový obrázek a pak jej použije.

Srovnání různého přístupu ChatGPT a Bing Image Creator v postraním panelu prohlížeče u totožného dotazu

Dalším rozdílem a unikátní schopnosti je možnost upravovat obrázek konverzačním způsobem. Na rozdíl od ostatních zde zmíněných nástrojů s DALL-E můžete obrázek postupně ladit (viz následující video). ChatGPT je v tomhle pružnější, nejspíš právě proto, že generuje 4 různé obrázky, takže pak můžete říct například „vezmi první obrázek a změň barvu stěny na modrou“ a výsledek bude velmi podobný úvodnímu obrázku, jen se změní barva stěny. U Bing Image Creator dojde ke změně celého zadání, kdy se do textu doplní třeba „… with blue wall“ a nový obrázek pak může být i diametrálně jiný.

Konverzační úprava obrázků

Mimochodem – velkou výhodou DALL-E je, že můžete používat česká zadání. Ve všech nástrojích však nejdříve dojde k jejich automatickému překladu do angličtiny a teprve pak je DALL-E generuje. Chcete-li více konzistentní návrhy, používejte rovnou angličtinu.

Ale tou asi nejvíce oceňovanou předností DALL-E je schopnost práce s textem v obrázcích. Bohužel, text může být pouze v angličtině a není to vždy zcela dokonalé, jednoduché fráze a nadpisy to ale zvládá výborně. Ostatní nástroje generují nesmysly.

A jako poslední rozdíl zmíním jednu málo známou vychytávku u obrázků generovaných pomocí Microsoft Bing Image Creator – když rozkliknete obrázek a kliknete na Customize, automaticky se vám obrázek otevře v nástroji Microsoft Designer (něco jako známější Canva) a vy z něj můžete snadno udělat třeba banner, flyer, obrázek k FB příspěvku a podobně

Stable Diffusion XL (Clipdrop)

URL: https://clipdrop.co/stable-diffusion nebo https://dreamstudio.ai/

Vytvořeno v DreamStudio na zadání „Stable Diffusion XL“

Stable Diffusion XL na serveru Clipdrop byl má nejoblíbenější služba, kterou jsem použil pro vygenerování většiny ilustračních obrázků na tomto webu. rád jí předvádím na školeních, protože vytváří zajímavé výstupy, má velmi příjemné uživatelské rozhraní se snadnou volbou stylu a poměru stran a je zdarma (s vodoznakem, který lze smazat).

Rozhraní Stable Diffusion XL na serveru Clipdrop

Tedy alespoň doufám, že je stále zdarma, protože dneska mi z nějakého důvodu odmítá generovat obrázky a nutí mě do koupě Pro verze. Stále mají ale v nápovědě možnost použití zdarma, počítám tedy že jde o dočasnou chybu (reportoval jsem ji).

Lze ale použít i jejich placený editor Dreamstudio s pár funkcemi navíc, případně jejich Discord server.

Hlavní předností Stable Diffusion je ovšem to, že ovšem to, že kromě webového (a API) rozhraní je model poskytován i zdarma pod otevřenou licencí, tedy téměř všechny ostatní služby na internetu, které generují nějaké obrázky či fotografie, používají právě tento model. Je to tak nejlepší řešení, když chcete vytvořit nějakou vlastní službu, kde si budete chtít dotrénovat model pro nějaké vaše specifické účely.

Kromě generativního Stable Diffusion XL doporučuji i další jejich nástroje na serveru ClipDrop – odstraňování pozadí z obrázku, změna osvětlení, oblohy atd.

Adobe Firefly 2

URL: https://firefly.adobe.com/

Vytvořeno v Adobe Firefly na zadání „Adobe Firefly“

Adobe představil druhou verzi svého generativního nástroje a modelu Firefly předevčírem a sklízí na sítích ohromné pochvaly a to především za velmi věrné portréty.

Osobně si na něm cením především perfektního uživatelského rozhraní, které umožňuje přehledně nastavovat různé styly a parametry a to dokonce v češtině. Můžete svá zadání psát i česky, nicméně v angličtině vám umí pak napovídat a našeptávat další fráze.

Rozhraní Adobe Firefly a výstup po vygenerování zadání „Adobe Firefly“

S Firefly si tak vyhrají především lidé, kteří rozumí grafice a chtějí nějaký skutečně užitečný obrázek do nějaké prezentace, především „fauxtografie“ skutečných předmětů, měst, lidí, zvířat… vypadají velmi uvěřitelně. Méně použitelně mi přijde při tvorbě kreativních a „bláznivých“ designů, kde dominuje Midjourney, nezvládá texty v obrázcích, kresby mi přijdou „neslané, nemastné“, ale možná jen proto, že se v něm zatím rozkoukávám.

Generativní model Firefly je/bude součástí v mnoha aplikacích adobe Creative Cloud (např. Photoshop) a Adobe Express, webový nástroj Firefly je tak jen jakési lákadlo do těchto dalších nástrojů. Použití webového Firefly je zdarma (platí se pak za použití v dalších nástrojích), vygenerované obrázky mají malý vodoznak.

Další modely a generátory

Jak mě upozornil můj věrný čtenář Kráťa, hodilo by se zmínit další zajímavé generátory. Jedním z takových je například Ideogram.ai, o kterém jsem se zmiňoval ve třetích AI novinkách. Jeho specialitou je schopnost generovat roztomilé obrázky s nápisy. Reálně je to ale dost o náhodě (a určitě nezvládá češtinu či delší nápisy), mnohem lepší zkušenost s generováním obrázků s nápisy mám s OpenAI. Ale zajímavé je, že používají vlastní difusní model založený na jejich předchozí práci na Google Imagen.

Nezmínil jsem taky právě Google Imagen, což je difusní generativní model od Google, ani jejich další modely Parti a Muse, primárně však proto, že pokud vím nemají nějaké jednoduché veřejné „testovátko“. Nicméně něco je dostupné na jejich platformě pro vývojáře a brzy o tom uslyšíme víc.

V čem generujete obrázky vy?

Generujete někdy vy obrázky? K jakému účelu jaký styl obrázků? Který je váš oblíbený generativní model nebo nástroj? Dejte mi vědět na sociálních sítích a nasdílejte tento článek (sdílecí tlačítka jsou tady dole ⬇️⬇️⬇️) , ať i vaši přátelé poznají dnešní možnosti. A nezapomeňte se zaregistrovat, ať vám neunikne pokračování tohoto článku, kde zkusím všechny nástroje porovnat.