dalle-change

Novinky od OpenAI – ChatGPT DALL-E inpainting, výběr stylu a další

OpenAI prý chystá v dubnu smršť novinek, tou první jsou vylepšení jeho obrázkového modelu DALL-E v aplikaci ChatGPT, které vám pomohou získat z něj maximum.

Uveřejněno

Rubrika

Autor

První čtvrtina roku byla v případě OpenAI relativně chudá na novinky – zatímco konkurence dotáhla náskok GPT-4 (mám na mysli především modely Google Gemini Ultra a nové verze modelů Anthropic Claude, o kterých jsem zde psal) a zatímco Microsoft představil svůj Copilot Pro a Copilot for Microsoft 365, OpenAI zatím jen testoval různé drobné úpravy. To by se ale tento měsíc mělo změnit, první změny se týkají obrázkového modelu DALL-E.

Inpainting v DALL-E – upravte či opravte si obrázek

Model pro generování obrázků od OpenAI – DALL-E, získává v těchto dnech velmi užitečnou vychytávku – tzv. inpainting. S touto funkcí můžete označit ve vygenerovaném obrázku nějakou část, kterou chcete změnit a napsat, co na daném místě chcete.

AI školení – nové termíny a místa (Praha, Brno…)

Chcete dostávat tyto články na e-mail, aby vám nic neuteklo?

Celá funkcionalita je hezky vidět na následujícím videu:

  1. (jestli ještě nemáte) – vygenerujete obrázek
  2. kliknete na něj
  3. vpravo nahoře vyberte ikonku palety a štětce screenshot-2024-04-04-151823
  4. označte štětcem plochu, kterou chcete změnit (vlevo nahoře můžete měnit posuvníkem velikost štětce)
  5. vpravo dole pak do konverzačního pole napíšete, co na daném místě chcete

Tipy

Ne všichni mají již tuto funkci aktivní – jestli nevidíte u obrázku ikonku štětce, musíte holt počkat (zkuste ale také obnovit prohlížeč případně se odhlásit a přihlásit).

Inpainting se hodí třeba pro opravu textu v obrázcích – označte text na současném obrázku, který se vám nelíbí a napište jen správný text do uvozovek.

Poznámka: Všimněte si také, že když takto změníte obrázek, upraví se i popisek obrázku (je vidět pod ikonkou (i) v kroužku) – na konci popisku přibude věta „Ensure the text ‚váš text‘ is prominently featured in the scene.“ Asi bude dobré tuto větu rovnou psát do všech obrázků, ve kterých chcete mít nějaký text.

dall%c2%b7e-2024-04-04-15-27-42-a-vibrant-celebratory-scene-for-the-1st-anniversary-of-chatgpt-4-featuring-a-whimsical-tech-inspired-cake-adorned-with-a-glowing-numeral-1-on-top-7107389dall%c2%b7e-2024-04-04-15-27-36-a-vibrant-celebratory-scene-for-the-1st-anniversary-of-chatgpt-4-featuring-a-whimsical-tech-inspired-cake-adorned-with-a-glowing-numeral-1-on-top-9879112
Opravený nápis v obrázku (posuvníkem porovnejte rozdíl)

Zbytek obrázku zůstává na rozdíl od jiných úprav pomocí promptu beze změny a můžete jej dále upravovat – když chcete dělat více úprav je tedy lepší dělat je postupně. Nebojte se přetáhnout a myslete na to, že jestli má nový objekt nejen mazat ten předchozí, ale bude potřebovat více místa, musíte označit větší plochu.

Na předchozím obrázku jsem takhle nejdříve opravil „Birthdsay“ na „Birthsday“ a pak „CHATTGPT“ na „ChatGPT“. A v následujícím obrázku jsem nejdřív změnil červené plavky na modré, potom vlasy na zrzavé a nakonec přidal horkovzdušný balón.

dall%c2%b7e-2024-04-04-15-41-27-a-beautiful-woman-wearing-red-two-piece-swimwear-standing-near-the-charles-bridge-in-prague-in-the-background-the-prague-castle-is-clearly-visible-9426353dall%c2%b7e-2024-04-05-01-37-20-a-modern-airship-flying-in-the-sky-with-the-text-_kapler-cz_-on-its-side-now-surrounded-by-multiple-colorful-hot-air-balloons-the-scene-should-be-se-2739109
Postupná změna barvy plavek, vlasů a doplnění balónů (posuvníkem porovnejte rozdíl)

Když se vám výsledek nebude líbit, můžete jej klasicky nechat přegenerovat, udělat jiné změny nebo se vrátit k předchozímu a zkusit to znovu zadat.

Někdy se mi nepodařilo vygenerovat co jsem chtěl (například vzducholoď místo balónu), ale i tak to funguje mnohem lépe než obdobná funkce u Midjourney, o které jsem psal před pár měsíci.

Výběr stylu (a velikosti) obrázku

image-5376487

Druhou novinku zatím můžete spatřit pouze v GPTs (asistentovi) DALL-E, kde nad polem pro zadání vašich instrukcí můžete vybrat z 96 nabízených možnosti stylu obrázku (v daný moment vidíte jen 2-5 podle šířky okna, ale stisknutím tlačítka se 2 šipkami se vám načtou další) a také poměr stran (Aspect Ratio), kde si můžete vybrat klasicky z čtverce, na šířku a na výšku.

Tahle tlačítka nedělají nic jiného, než že přidají název stylu resp. poměr stran za vaše instrukce, takže vám vznikne například „kočička, pixel art, widescreen aspect ratio“. Stejného efektu tedy dosáhnete, když tam instrukce napíšete přímo, nemusíte používat jen DALL-E asistenta.

V dohledné době by měla taková tlačítka přibýt i do asistentů, šeptá se také o podobných tlačítkách u textových asistentů, které by například nabízely upřesnění tónu či stylu odpovědi.

Vzorník dostupných stylů

Celkem je k dispozici tedy 96 stylů, jejich seznam s názornou ukázkou jsem pro vás připravil zde.

3D Wireframe
3D Wireframe
35mm film
35mm film
Abstract
Abstract
Acrylic
Acrylic
Aerial
Aerial
Analog film
Analog film
Art deco
Art deco
Art nouveau
Art nouveau
Artificial lighting
Artificial lighting
Anime
Anime
Baroque
Baroque
Black and white
Black and white
Candy
Candy
Cartoon
Cartoon
Caricature
Caricature
Cave art
Cave art
Chalk art
Chalk art
Charcoal
Charcoal
Claymation
Claymation
Close-up
Close-up
Comic book
Comic book
Comic strip
Comic strip
Concept art
Concept art
Cubism
Cubism
Crayon
Crayon
Crystal
Crystal
Cyberpunk
Cyberpunk
Dawn
Dawn
Digital art
Digital art
Dusk
Dusk
Dutch angle
Dutch angle
Dystopian
Dystopian
Electronics
Electronics
Expressionism
Expressionism
Extreme close-up
Extreme close-up
Fairy tale
Fairy tale
Fantasy
Fantasy
Fauvism
Fauvism
Feathers
Feathers
Flowers
Flowers
Felt
Felt
Film noir
Film noir
Fish-eye
Fish-eye
Folk art
Folk art
Futurism
Futurism
Gold
Gold
Golden hour
Golden hour
Gothic
Gothic
Graffiti
Graffiti
Hand-drawn
Hand-drawn
High angle
High angle
High contrast
High contrast
Ice
Ice
Impressionism
Impressionism
Ink wash
Ink wash
Kawaii
Kawaii
Lava
Lava
Line art
Line art
Linocut
Linocut
Lithograph
Lithograph
Low angle
Low angle
Low polygon
Low polygon
Minimalist
Minimalist
Mirrored glass
Mirrored glass
Moss
Moss
Mosaic
Mosaic
Motion blur
Motion blur
Muted
Muted
Neon lights
Neon lights
Night
Night
Oil painting
Oil painting
Origami
Origami
Pastel
Pastel
Pencil sketch
Pencil sketch
Pinhole camera
Pinhole camera
Pixel art
Pixel art
Pointillism
Pointillism
Stone
Stone
Pop art
Pop art
Retro
Retro
Rococo
Rococo
Sci-fi
Sci-fi
Sculpture
Sculpture
Sepia
Sepia
Silk screen
Silk screen
Solarpunk
Solarpunk
Stars
Stars
Steampunk
Steampunk
Surrealism
Surrealism
Synthwave
Synthwave
Tapestry
Tapestry
Ukiyo-e
Ukiyo-e
Victorian
Victorian
Watercolor
Watercolor
Wide-angle
Wide-angle
Woodcut
Woodcut

Další (chystané) novinky od OpenAI

OpenAI v posledních týdnech zpřístupnilo několik novinek a mnoho dalších testuje. Očekává se i nějaká větší akce v nejbližších týdnech, kde by se měly oficiálně zpřístupnit některé větší změny v ChatGPT a kde se předpokládá i uvedení nové verze jazykového modelu s kódovým označením GPT 4.5 (podle některých zdrojů bude přebrandovaný na GPT 5).

  1. Změna limitu počtu zpráv – u některých Plus účtů se nyní píše Usage limits may apply, namísto předchozího explicitního 40 dotazů za 3 hodiny. Může to být ale jen změna samotné textace.
  2. Mezi-konverzační paměť – o této funkci jsem zde před pár týdny psal, zatím jsem ale nenarazil na žádný účet, který by ji měl dostupnou
  3. Dostupné bezplatné ChatGPT i bez přihlášení – v zásadě nezajímavá novinka, protože podle mého byste bezplatné ChatGPT nikdo neměl používat, viz mé články AI (nejen) pro začátečníky #1 – základy ChatGPT a AI (nejen) pro začátečníky #2 – pokročilé funkce (nejen) ChatGPT, kde doporučuji Microsoft Copilot, který lze používat také bez přihlášení a navíc má několik užitečných funkcí navíc.
  4. Odkazy na zdroje, když ChatGPT použil internet, se už nezobrazují jen jako číslo s odkazem, ale pomocí názvu odkazovaného serveru, takže například citace z tohoto serveru by vypadala takto (Kapler.cz)​. Trochu mi vadí, že odstranili hlášku „Doing research with Bing“ a probliknutí informace, co se vlastně na Bingu hledá.
  5. Placení GPTs asistenti – několik desítek či stovek tvůrců nejpopulárnějších asistentů dostalo minulý týden mail, kde je informovali o možnost zapojení do testovacího projektu placených asistentů. Jsem zvědav, jak to bude fungovat (kredit, přímá platba…?)
  6. Multifaktorová autentizace – můžete si ji zapnout v General záložce pod Settings (po kliknutí vlevo dole na vaše jméno).
  7. Podpora hlasu i v desktop verzi
  8. Connected apps – Microsoft 365 a Google Drive kontextové konektory pro GPT asistenty – budete si moci připojit váš kontext umístěný na Google nebo Microsoft Cloudu. Není ale zřejmé, jestli se bude jednat o jednorázový upload, nebo budete moci takto aktualizovat váš kontext.
  9. Budete moci přepnout na „Dynamický model“, resp. nejspíš půjde o nový výchozí model – bude to s největší pravděpodobností obdoba vyváženého režimu u Copilota – kdy se systém podle vytíženosti a typu dotazu rozhodne použít buď GPT 3.5 nebo 4. Není zřejmé, jestli ale v tom případě bude dostupné i například dotazování Bingu.
  10. Rich text editor – zatím mi není známo, kde by se využil, jen že se testuje ProseMirror.
  11. Změna modelu v průběhu konverzace – budete moci nechat zprávu vygenerovat jiným modelem.

Další novinky mimo ChatGPT

  1. Před asi minutou mi tu pípla jedna novinka od OpenAI – lepší možnosti dolaďování GPT modelů, kdy vývojáři získají více kontroly a nové možnosti pro vytváření vlastních modelů. Podle jiných informací se také chystá fine tuning pro GPT 4.
  2. Nový hlasový model Voice Engine, který z 15sekundového vzorku dokáže vytvářet přirozeně znějící řeč, velmi podobnou originálu. Zatím z obav proti zneužití není veřejně dostupná, ale nepochybně se ji dočkáme v produktech nějakých partnerů.
  3. OpenAI už pár týdnů předvádí naprosto úchvatná videa vytvářená jejich modelem SORA, viz třeba tyto ukázky. Oficiálně prý nechtějí tento model dát k dispozici ven před americkými volbami, protože videa jsou tak věrná, že by se s nimi mohli snadno ošálit někteří spoluobčané, pravděpodobnější problém je spíše ten, že vygenerování minuty videa trvá na nejvýkonnějším AI procesoru dneška v hodnotě cca 1 milionu korun (plus počítač, chlazení…) 12 minut. Nepočítejte tak, že s tím někdy brzo budete vytvářet blbůstky na socky, to spíš takhle budou vznikat nové „hollywoodské“ trháky.
    Každopádně ovšem tyto výstupy ukazují, jak úžasné by mohly být třeba obrázky z DALL-E, kdyby se OpenAI nedržel zpátky.
Ukázka videomodelu SORA od OpenAI

Chcete se novinky naučit? Přijďte na školení

Novinky už samozřejmě ukazuji na svých AI školeních, takže kdo se chcete naučit něco nového, neváhejte se registrovat, mám nové termíny do Prahy i Brna a chystám další termín online školení.

Vypsal jsem také předběžné přihlášky na 3 nové typy školení, která budu dělat ve spolupráci s odborníky z daných oblastí:

  • školení AI pro programátory (využití AI pro programování, tvorba AI aplikací)
  • pokročilé školení AI grafiky, včetně tvorby vlastních Stable Diffusion modelů
  • certifikované školení MS Copilot Pro a Copilot for Microsoft 365

Jestli by vás některá z těchto školení předběžně zajímala, dejte mi v registračním formuláři vědět, až budu mít dostatek zájemců, vypíšu termíny (cca. druhá polovina května).

Nové články sem přidávám porůznu, tak jestli nechcete, aby vám něco uniklo, přidejte si můj feed do RSS čtečky, sledujte můj Twitter, Facebook a LinkedIn, případně si nechte nové příspěvky posílat mailem (žádný spam!)