DALL-E 3 vrací úder – kvalitní generování obrázků jednoduchým textovým zadáním

OpenAI představila novou generaci svého řešení pro generování fotografií. Přináší spoustu revolučních vlastností, které si zamilujete. Navíc jej integruje přímo do ChatGPT.

Uveřejněno

Rubrika

Autor

Trocha kontextu a historie

Když OpenAI na začátku roku 2021 jako snad první představila generování obrázků na základě textových zadání, způsobila značný mediální rozruch. Ještě větší pak, když v červenci loňského roku vstoupila do veřejné bety DALL-E verze 2 a milion uživatelů tak získal přístup a mohl své obrázky generovat.

Týden předtím ale první uživatelé získali přístup do Midjourney a ačkoliv jeho výstupy nebyly v prvních verzích příliš kvalitní, následující verze z listopadu už OpenAI značně převyšovala a letošní verze nechávali všechny dalece za sebou.

Další konkurence pak DALL-E přišla od Stable Diffusion v srpnu loňského roku a jejich nejnovější verze také DALL-E dalece převyšuje. Navíc jsou na rozdíl od DALL-E a Midjourney její modely open-source.

DALL-E tak zcela ztratil na své popularitě, prakticky dnes není důvod jej použít, když alternativy jsou lepší. Veřejnou dostupnost své Imagen technologie slíbil i Google, který by měl být přímo i součástí budoucího multimodálního modelu Gemini. OpenAI se tak musel vytasit s něčím novým. A to se právě stalo.

OpenAI představil DALL-E 3 a bude to bomba

Před pár hodinami OpenAI představil novou verzi svého modelu a věřím, že tentokrát nenaletím jako u v případě Google Duet AI když rovnou řeknu, že to bude skvělé a to hned z několika důvodů.

Chcete dostávat tyto články na e-mail, aby vám nic neuteklo?

Jednoduše srozumitelné zadání pro generátor

DALL-E na rozdíl od Midjourney a Stable Diffusion funguje na jiném principu, používá tzv. autoencoder, nevytváří obrázky z náhodného šumu, chápe je po jednotlivých segmentech. Zároveň používá stejný jazykový model GPT a nově dokonce konverzační model ChatGPT (o tom dále).

OpenAI ukazuje segmentovaný přístup DALL-E na tomto ilustračním obrázku.

Díky tomu budou moci uživatelé psát srozumitelná pochopitelná zadání, nebude třeba řešit obrázkový „prompt engineering“, tedy kryptické laborování s různými parametry a klíčovými frázemi, jak je tomu u Midjourney a Stable Diffusion.

Porovnání DALL-E 3 s Midjourney a SDXL

Pojďme si ten rozdíl ukázat. Vzal jsem několik příkladů z tiskové zprávy od OpenAI a zadal je také Midjourney (výchozí „čtyřobrázek“) a Stable Diffusion XL (vychozí 4 obrázky pomocí služby Clipdrop).

Citace jsou přeložené do češtiny, ale pokládal jsem je anglicky (k tomu něco za chvíli). Kromě prvního příkladu, který jsem nechal ve zcela výchozím nastavení jsem u dalších definoval u MJ a SDXL alespoň podobný poměr stran, jako má originál.


Ilustrace avokáda sedícího v terapeutickém křesle, které říká „Cítím se uvnitř tak prázdné“ a v jehož středu je díra velikosti jamky. Terapeut, lžíce, si čmárá poznámky.

DALL-E 3

Midjourney

SDXL


Ilustrace lidského srdce z průsvitného skla, které stojí na podstavci uprostřed rozbouřeného moře. Sluneční paprsky pronikají mraky, osvětlují srdce a odhalují v něm malý vesmír. Na obzoru je tučným písmem vyryt citát „Najdi v sobě vesmír“.

DALL-E 3

Midjourney

SDXL


Malí bramboroví králové s majestátními korunami, sedící na trůnech a dohlížející na své obrovské bramborové království plné bramborových poddaných a bramborových hradů.“

DALL-E 3

Midjourney

SDXL


Žena středního věku asijského původu s tmavými vlasy posetými stříbrem vypadá zlomená a rozbitá, složitě zasazená do moře rozbitého porcelánu. Porcelán se třpytí vzory stříkající barvy v harmonické směsici lesklé a matné modré, zelené, oranžové a červené, zachycující její tanec v surrealistické juxtapozici pohybu a klidu. Tón její pleti, světlý stejně jako porcelán, dodává její podobě téměř mystický nádech.

DALL-E 3

Midjourney

SDXL


V útulném obývacím pokoji leží zářivě žlutá pohovka ve tvaru banánu, jejíž křivky svírají hromadu barevných polštářů. na dřevěné podlaze je vzorovaný koberec, který dodává eklektický šarm, a v rohu sedí rostlina v květináči, která se natahuje ke slunečnímu světlu pronikajícímu oknem.

DALL-E 3

Midjourney

SDXL


Přijde mi, že čím paradoxnější a přitom lidsky představitelnější zadání, tím zjevnější je přínos jiného fungování DALL-E. Ten totiž dokáže „pochopit“ jednotlivé segmenty zadání a aplikovat je, zatímco ostatní jazykové modely vychází z průměrů pravděpodobnosti. Nejsou tak schopny namalovat avokádo s dírou či vesmír uvnitř srdce a gauč ve tvaru banánu pro ně je prostě žlutý zahnutý gauč, ne banán.

Ani DALL-E není zcela bezchybný, viz třeba chybějící trůny u brambor (byť to ale asi bude řešitelné, viz dále), musíme také brát v potaz, že jde o PR, je tak otázka, nakolik je to „na první dobrou“ skutečný výstup z DALL-E, nebo pečlivě vybraný ten nejlepší výsledek ze sta.

Schopnost zvládat nápisy

Velkou bolestí obrazových AI typu Midjourney a Stable Diffusion je neschopnost zobrazovat správně text. Dá se to částečně a velmi pracně a draze obcházet pomocí inpaintingu či speciálně trénovaných modelů, ale výsledek je dost pochybný.

Tento problém nádherně ilustrují první dvě srovnání výše a DALL-E 3 jím zjevně netrpí.

Otázkou ovšem bude, jestli bude DALL-E zvládat i češtinu včetně diakritiky či alespoň slova bez ní. To je i s tím inpaintingem u MJ či speciálními modely dnes téměř nemožné. DALL-E by tak mohl opět ubrat další práci grafikům.

Integrace DALL-E 3 do ChatGPT Plus

DALL-E 3 se stane součástí ChatGPT Plus, tj. placené varianty ChatGPT (20 dolarů měsíčně). Už nyní stojí samotné DALL-E druhé verze 15 $ měsíčně, což zahrnuje generování 460 fotek, není zřejmé, jestli nové DALL-E bude mít nějaké limity, ale i kdyby byly a byly v nějakém podobném dostatečném počtu, znamenalo by, že platící uživatelé ChatGPT skvělý generátor obrázků zdarma.

Tisková zpráva také neuvádí, jestli bude možné DALL-E používat s nějakým omezením zdarma i pro neplatící uživatele.

Podpora češtiny

Vzhledem k tomu, že DALL-E 3 bude využívat ChatGPT Plus (o tom dále), je prakticky jisté, že bude možné psát svá zadání i třeba česky.

Ladění pomocí konverzace

Největší bomba je ovšem právě implementace konverzačního jazykového modelu. Chcete na „fotce“ vyměnit barvu trička, odstranit nějaký objekt, změnit jednu postavu za jinou a přitom zachovat styl i prostředí, přiblížit či oddálit scénu, doplnit k bramborám na příkladu výše trůny… prostě to chatbotovi řeknete.

Konverzační úprava obrázků

Jestli si něco umíte představit, DALL-E to vytvoří, když ne, tak vám ChatGPT pomůže

Další ohromný přínos integrace přímo do konverzačního bota spatřuji v tom, že ten dokáže být velmi kreativní a přinášet super nápady. Potřebujete ilustrační obrázek k nějakému text? Prostě dáte ChatGPT onen text, zeptáte se ho, co by mohlo být na ilustračním obrázku, vyberete si návrh co se vám líbí a pak jej to necháte vytvořit a případně dalšími formulacemi doladíte.

Rychlost a nenáročnost

Pakliže se s novým modelem něco nezměnilo, je pravděpodobné, že díky odlišnému principu bude DALL-E stále mnohonásobně rychlejší a méně náročný na procesorový čas (a tedy levnější pro provozovatele) než difusní modely jako je MJ či SD. To bude OpenAI přinášet výraznou konkurenční výhodu a může přispět k úpadku konkurenčních služeb. V tomto by se mu mohl postavit právě až ImaGen od Google na přelomu roku.

Zaměřeno na bezpečné používání a ochranu osobnostních a autorských práv

DALL-E 3 bude odmítat generování obrázků veřejně známých figur na základě jejich jména. To ovšem bude limitovat možnosti využití, pro generování zesměšňujících „fauxtografií“ Trumpa, falešných usvědčujících důkazů či sexy fotek oblíbené herečky, budeme muset zřejmě používat méně zodpovědné nástroje.

OpenAI také zřejmě přidává do svých obrázků nějakou formu digitálního podpisu aby bylo možné rozpoznat, zda-li jde o jejich výtvor. O tom mluvil i Google u svého generátoru na Google Next.

Umělci a vlastníci práv mohou také vyloučit svá díla z trénovacích dat pomocí jednoduché žádosti, předpokládám také, že nebudou použité ani grafiky z webových stránek, které omezí přístup pro GPT trénování pro GPTbota.

Kdy se DALL-E 3 dočkáme?

Tentokrát nebude trvat rok a půl od oznámení po možnost využívání, OpenAI slibuje nasazení v ChatGPT Plus již na začátku října, tedy zhruba za 2 týdny.

Nebude to ale nejspíš všechno, co OpenAI představí – přibydou nejspíš i nové funkce, minimálně právě pro platící a enterprise uživatele a jak jsem je měl už možnost vidět tak to vypadá jako další velký pokrok. Až najdu chvíli, tak o tom něco napíšu, sledujte mě, ať vám to neunikne.

Co na OpenAI DALL-E 3 říkáte?

Budte DALL-E používat, případně bude pro vás důvodem zaplatit si ChatGPT Plus, jestli jej ještě nemáte? Vidíte zde pro vás nějaké nevýhody? Zajímá mě váš názor, sdílejte tento článek na sociálních sítích (odkazy jsou tady dole ⬇️⬇️⬇️) a napište mi, co si myslíte. Nezapomeňte se také registrovat, abyste dostávali nové články okamžitě po vydání do mailu. A když se podíváte na mé sociální sítě, najdete tam další ukázky srovnání s Midourney a SDXL.

Nové články sem přidávám porůznu, tak jestli nechcete, aby vám něco uniklo, přidejte si můj feed do RSS čtečky, sledujte můj Twitter, Facebook a LinkedIn, případně si nechte nové příspěvky posílat mailem (žádný spam!)