Aktualizováno: OpenAI ChatGPT bude vidět, slyšet a mluvit

OpenAI začíná v ChatGPT zavádět nové hlasové a obrazové funkce. Ty nabízejí intuitivnější rozhraní a umožňují uživatelům vést s ChatGPT hlasové rozhovory nebo jej nechat analyzovat obrázky.

Poznámka úvodem – protože jsem zatím neměl možnost tyto funkce vyzkoušet, je následující text do značné míry překladem tiskové zprávy OpenAI.

Aktualizace: ChatGPT doplnil 3 stránky do své nápovědy, ze kterých vyplývají další důležité detaily, doplňuji na konec článku

Hlasový a obrazový vstup dává lidem více možností, jak ChatGPT používat v každodenním životě. Uživatelé mohou například na cestách vyfotit nějakou pamětihodnost a vést s ní konverzaci o tom, co je na ní zajímavého. Doma mohou uživatelé vyfotit svou ledničku a spíž a požádat ChatGPT, aby jim navrhl možnosti večeře a poskytl recept. Po večeři mohou rodiče pomoci svému dítěti s matematickým problémem tak, že pořídí fotografii, zakroužkují příslušnou část a ChatGPT jim oběma sdělí nápovědu.

OpenAI v příštích dvou týdnech rozšíří hlasové a obrazové funkce pro uživatele služeb Plus a Enterprise. Hlas bude k dispozici na systémech iOS a Android, zatímco obrazový vstup bude na všech platformách.

Chcete dostávat tyto články na e-mail, aby vám nic neuteklo?

Registrujte se

AI školení pro začátečníky, pokročilé (automatizace, vibecoding) a firmy.

Školení umělé inteligence

Mluvte s ChatGPT a nechte ho odpovídat

Uživatelé nyní mohou s ChatGPT diskutovat pomocí svého hlasu. Díky tomu mohou s asistentem chatovat na cestách, vyžádat si pohádku před spaním nebo řešit debaty u stolu.

Chce-li uživatel začít používat hlas, může v mobilní aplikaci přejít do Nastavení a zvolit hlasové konverzace. Poté mohou klepnout na tlačítko sluchátek a vybrat jeden z pěti různých hlasů.

Nová hlasová funkce je založena na modelu převodu textu na řeč, který dokáže generovat zvuk podobný lidskému pouze z textu a několika sekund ukázkové řeči. Na vytvoření jednotlivých hlasových možností spolupracovala společnost OpenAI s profesionálními hlasovými herci. Společnost také používá svůj systém rozpoznávání řeči Whisper k přepisu mluvených slov uživatelů do textu.

Chatujte o obrázcích

Uživatelé mohou nyní ChatGPT ukázat jeden nebo více obrázků. To jim umožňuje řešit problémy, plánovat jídlo podle obsahu ledničky nebo analyzovat složité grafy. V mobilním telefonu mohou použít nástroj pro kreslení a zaměřit tak pozornost ChatGPT na konkrétní části obrázku.

Chcete-li začít, uživatelé klepnutím na tlačítko fotografie zachytí nebo vyberou obrázek. V systémech iOS a Android nejprve klepnou na tlačítko plus. Mohou diskutovat o více obrázcích nebo použít nástroj pro kreslení.

Porozumění obrázkům je založeno na multimodálních verzích GPT-3.5 a GPT-4. Tyto modely aplikují schopnosti jazykového uvažování na různé typy obrázků, jako jsou fotografie, snímky obrazovky a dokumenty.

Poslechněte si jednotlivé hlasy

Moje poznámka: Do tabulky jsem dal všech 5 nabízených hlasů na příkladech 5 různých typů textu. Není ale v tuto chvíli zřejmé, jak budou zvládat češtinu, i když mé osobní zkušenosti s jinými text-to-speech AI napovídají, že by to nemusel být větší problém. Největší překážkou jsou v tomto směru vícejazyčné texty a cizí zkratky. Zatím není zatím jasné, jestli bude možné využít formátování pomocí SSML (Speech Synthesis Markup Language – standard pro označování textu pro hlasovou syntézu) či jiný způsob, jak lépe definovat, jak má být přečteno to které slovo, fráze, věta (nicméně to zjevně sám chápe z kontextu).

Hlas	Příběh	Recept	Řeč	Báseň	Vysvětlení
Juniper
Sky
Cove
Ember
Breeze

Pakliže nevidíte všechny sloupce, zkuste posouvat doprava

OpenAI nasazuje schopnosti postupně

Cílem společnosti OpenAI je vytvořit AGI (Artificial General Inteligence – obecná umělá inteligence), která bude bezpečná a přínosná. Společnost věří v postupné zavádění nových schopností v průběhu času. To jim umožňuje provádět vylepšení a zdokonalovat omezení rizik a zároveň všechny připravovat na výkonnější systémy.

Hlas

Nová hlasová technologie dokáže vytvořit realistické hlasy z pouhých několika sekund řeči. Přináší však také rizika, jako je vydávání se za veřejné osoby. Proto OpenAI omezuje její použití na konverzace v hlasovém chatu s přímo spolupracujícími hlasovými herci.

Obrázkový vstup

Vizuální modely také představují problémy, jako je halucinace neexistujících detailů. Před širším nasazením společnost OpenAI testovala rizika v oblastech, jako je extremismus a vědecká přesnost. Jejich výzkum vedl ke klíčovým rozhodnutím pro zodpovědné používání.

Učinit vidění užitečným a zároveň bezpečným

Stejně jako ostatní funkce ChatGPT má i vidění pomáhat v každodenním životě. Nejlépe funguje, když vidí obrázky, které mu uživatelé poskytnou.

Aby bylo možné vyvážit užitečnost a bezpečnost, společnost OpenAI omezila schopnost ChatGPT přímo analyzovat lidi, protože to může být nepřesné. Společnost nedoporučuje používat ChatGPT pro specializovaná témata, jako je výzkum, bez ověření.

Transparentnost ohledně omezení

OpenAI upozorňuje uživatele na omezení modelu a nedoporučuje vysoce rizikové případy použití bez řádného ověření. Model má například špatné rozpoznávání neanglického textu, takže neangličtináři jsou varováni před jeho používáním k přepisu.

Kdy a komu budou nové funkce dostupné?

V průběhu následujících dvou týdnů získají uživatelé služeb Plus a Enterprise přístup k hlasovým a obrazovým funkcím. Brzy poté je OpenAI plánuje rozšířit i pro ostatní uživatele, například vývojáře.

Aktualizace

OpenAI doplnil 3 stránky nápovědy k uvedeným novinkám

Kromě výše uvedeného je zde pro našince jedna zásadní zpráva – obrazové vstupy nebudou zatím dostupné pro uživatele z EU a UK. Nepochybně opět potřeba vypořádat se s potenciálními rozpory s evropskou ochranou osobních údajů a autorských práv.

Zatímco hlasové konverzace budou dostupné pro GPT-3 i GPT-4, obrazové výhradně pro GPT-4 konverzace. Hlas i obraz jsou také využité pro trénování (hlasové nahrávky se nicméně neukládají, pouze jejich přepis). Obrázky mohou mít formát JPG, PNG či nepohyblivé GIF a nebudou moci být větší než 20 MB. Bude jich možné nahrát více (v závislosti na jejich velikosti).

Omezení zpracování obrázků

Lékařství: Model není vhodný pro interpretaci specializovaných lékařských snímků, jako je CT, a neměl by být používán pro lékařské poradenství.
Jiný než anglický jazyk: Model nefunguje tak dobře při zpracování obrázků s textem v jiných než latinských abecedách, jako je japonština nebo korejština.
Velký text: Zvětšete text na snímku, abyste zlepšili jeho čitelnost, ale vyhněte se ořezávání důležitých detailů.
Otáčení: Model může špatně interpretovat otočený/obrácený text nebo obrázky.
Vizuální prvky: Model může mít potíže s pochopením grafů nebo textu, kde se liší barvy nebo styly, jako jsou plné, přerušované nebo tečkované čáry.
Prostorové: Model má potíže s úlohami vyžadujícími přesnou prostorovou lokalizaci, například s určováním šachových pozic.
Přesnost: Model může v určitých scénářích generovat nesprávné popisy nebo popisky.
Tvar: Model má problémy s panoramatickými snímky a snímky s rybím okem.
Metadata a změna velikosti: Model nezpracovává původní názvy souborů ani metadata a snímky jsou před analýzou zmenšovány, což ovlivňuje jejich původní rozměry.
Počítání: Model může poskytnout přibližné počty objektů na snímcích.

Co vy na to?

V některém z předchozích článků jsem psal, že konec letošního roku bude na AI novinky velmi zajímavý a poslední týdny to stvrzují – velmi mnoho slibuje Google, byť u něj zejména v případě AI do kanceláří jde zatím jen o plané sliby, alespoň ale maká na svém bezplatném chatu Google Bard, který se stal v minulém týdnu o dost užitečnějším díky propojením na soubory a emaily. Zítra Microsoft začíná se zpřístupněním AI copilota pro všechny uživatele Windows 11, a další týden budou moci všechny firmy využívající MS řešení objednávat uživatelům 365 Copilot. Při zpracování obrázků budou přitom využívat nový model OpenAI DALL-E 3, který bude dostupný stejně jako tyto nové funkce i pro uživatele ChatGPT Plus.

Vedle toho se děje ještě spousta dalších věcí v zákulisí, například dnes ráno se Anthropic (společnost stojící za skvělým jazykovým modelem Anthropic Claude), pochlubil investicí 4 MLD dolarů od Amazonu. Ten se tak snaží dohnat AI závod, který před lety dobře rozběhl se svou AI asistentkou Alexa, podobně jako Apple se svou Siri, obě firmy ale nezachytily útok Microsoftu s OpenAI ani Google.

Popravdě, trochu doufám, že tempo novinek teď trochu zpomalí – za poslední dva týdny jsem tak musel několikrát přepracovávat svá připravovaná AI školení pro jednotlivce i AI konzultace pro firmy, aby reflektovaly tyto poslední změny.

Každopádně mě sledujte na sociálních sítích a nezapomeňte se registrovat, aby vám neunikl žádný nový článek, budu o všech novinkách stále psát jen jak se mi dostanou pod ruku a budu moci přinést praktické zkušenosti.