400-million-2024-09-25t115835

ChatGPT Advanced Voice – lepší hlasový AI asistent

OpenAI zpřístupnila všem platícím uživatelům výrazné vylepšení mobilního hlasového asistenta. Ukážu vám, jak jej používat, co všechno umí a kde má zatím rezervy.

Uveřejněno

Rubrika

Autor

OpenAI včera v noci našeho času zpřístupnila všem platícím uživatelům dlouho očekávané a již v červnu představené vylepšení mobilního hlasového asistenta – Advanced Voice. S ním/ní/tím(?) můžete komunikovat mnohem přirozeněji – lépe vám rozumí, rozpoznává i různé intonace, zároveň i on sám má mnohem přirozenější hlas s různou intonací, „nádechy“, tempem…

„Pokročilý hlas“ jsem celý den intenzivně testoval, povídal jsem si s ní (vybral jsem asistentovi ženský hlas/identitu) a jsem na jednu stranu uchvácen možnostmi, které se rýsují, na druhou malinko zklamán některými omezeními (která jsou ale jak věřím spíše dočasné).

Zkouším ChatGPT Advanced Voice

Ano, Advanced Voice i v EU/Česku (když víte jak na to)

Jestli jste novinku zaznamenali, například v jejich X/Twitter vláknu, nejspíš vám neunikl poslední tweet s informací, že AV není dostupný v EU, Velké Británii, Švýcarsku, Islandu, Norsku a Lichensteinu. Ale na konci vám poradím, jak toto omezení obejít a také zkusím zaspekulovat, co za tímto omezením stojí.

O pár dní později zpřístupnili v EU Advanced Voice pro uživatele s tarifem Team. Někdy to prý funguje i lidem s tarifem Plus, ale zatím se na to nedá spolehnout, na konci máte radu, jak to zajistit spolehlivě.

Postup instalace

Pakliže máte tarif Team, nebo jste postupovali podle návodu níže a přesto vám to nefunguje, nejspíš máte jeden ze tří problémů: máte spuštěnou starou verzi aplikace, nejste přihlášení pod placeným ChatGPT Team účtem, nebo máte tarif Plus a nemáte spuštěnou VPN podle návodu níže. Tj. správný postup:

  1. Aktualizujte aplikaci na nejnovější verzi. Otevřte si nejlépe rovnou ve svém mobilu Androidisti Google Play, jablíčkáři AppStore – u aplikace je vždy buď něco jako Aktualizovat (stará verze instalovaná), Instalovat (žádná verze instalovaná) nebo Spustit (nová verze instalovaná).
  2. Natvrdo „shoďte“ svou ChatGPT aplikaci
    • Android: zobrazte si otevřené aplikace, obvykle levým tlačítkem co vypadá takhle |||, najděte tam ChatGPT aplikaci a tažením nahoru ji „zabijete“ (viz návod)
    • iPhone: přejetím prstu nahoru z home obrazovky zobrazíte přehled otevřených aplikací, najdete ChatGPT a tažením nahoru ji „zabijete“ (viz návod)
  3. Spusťte znovu ChatGPT aplikaci (aktuální je na obou platformách verze 1.2024.268, zjistíte to případně kliknutím na profil – je to napsáno úplně dole v menu).

Nyní zkuste spustit ChatGPT Advanced Voice, viz dále. Jestli vám to nejde, ujistěte se, že jste přihlášení pod svým placeným ChatGPT profilem (Team). Uživatelé s placeným tarifem Plus musí ještě mít tu VPN, viz níže.

Co je ChatGPT Advanced Voice

Jestli máte některý za placených tarifů ChatGPT, tedy tarif Plus či Team (u Enterprise si nejsem jistý) a nainstalovali jste si v posledním roce mobilní verzí ChatGPT (Android verze na Google Play Store, nebo iOS verze na Apple App Store), tak jste už možná použili hands free hlasového asistenta (byl dostupný přes ikonku sluchátek), psal jsem o něm přesně před rokem v článku Aktualizováno: OpenAI ChatGPT bude vidět, slyšet a mluvit.

Tuhle funkci OpenAI představovali již na konci května v rámci své „jarní aktualizace“ a představení modelu GPT-4o, který právě i Advanced Voice používá – jestli jste tuhle prezentaci neviděli, pak doporučuji shlédnout:

OpenAI Spring Update, představení GPT-4o a preview Advanced Voice

Osobní poznámka: omlouvám se, několik měsíců jsem teď nepsal a nepořádal veřejná školení – nahrnulo se toho hodně a zároveň přišlo hodně změn, plus samozřejmě dovolené, prázdniny, děti atd. Ale už jsem zpět, takže se můžete opět těšit na aktualizace, jestli ještě nejste registrovaní, nezapomeňte se registrovat a můžete se přihlásit předběžně na školení (termíny vypíšu v nejbližších dnech).

AI školení – nové termíny a místa (Praha, Brno…)

Chcete dostávat tyto články na e-mail, aby vám nic neuteklo?

Polovina jejich tehdejší prezentace byla věnovaná právě funkci mobilního asistenta a jeho jednotlivým schopnostem a možným použitím, na svém kanálu má OpenAI spoustu ukázek, vyberu asi nejzajímavější:

Hlasové variace, emoce v hlasu, zpěv…

Real-time překladatel mezi dvěma uživateli

Příprava na pracovní pohovor

Učení se novým jazykům

Kombinace s rozpoznáním obrazu*

Tohle nový asistent zatím neumí, viz dále

Jak spustíte nového hlasového asistenta?

Na Androidu můžete po aktualizaci mobilního ChatGPT nově spustit hlasového asistenta 3 různými způsoby:

  1. Rovnou z rozbalovacího menu při podržení prstu na ikonce aplikace (ukazují se i dva poslední modely/asistenty GPT co jste použili).
  2. Nebo si můžete i na domovskou obrazovku zobrazit přidat widget, který vám umožní spustit na jedno kliknutí jednu z 5 akcí – textové zahájení konverzace (Message ChatGPT…), fotoaparát či nahrání obrázku – vyfocení něčeho a textové doptání se (viz GPT-4 Vision – rozpoznání obrázků v OpenAI ChatGPT Plus), nebo ikonka sluchátek vedou právě k handsfree hlasovému asistentovi s Advanced Voice, a nakonec ikonka mikrofonu, která vede k nahrání jednorázového zadání/dotazu/promptu pomocí mikrofonu
  3. Pomocí „Voice“ ikonky (4 vertikální linky) přímo v aplikaci napravo od pole pro zadání zadání/promptu (dříve zde byla také ikonka sluchátek, mají v tom trochu bordel).

Co umí a neumí ChatGPT Advanced Voice

Bohužel ale, ne všechny v květnu představené schopnosti už jsou dostupné a naopak některé původní schopnosti chybí. Co tedy umí Advanced Voice oproti původnímu asistentovi:

  • 5 nových hlasů: Vale, Spruce, Arbor, Maple a Sol
  • Mnohem „lidštější“ hlasy – jsou v nich emoce, smích… Můžete mu i říct, aby byl třeba rychlejší, více expresivní, vážný, skeptický, veselý… viz dále
  • Lepší „real time“ konverzace – můžete mu nově skákat do řeči, odpovědi také začnou rychleji, konverzace je tak mnohem plynulejší a přirozenější
  • Vylepšený model rozpoznávání řeči – výrazně méně často se mi stává, že by mi třeba blbě rozuměl, zvládá rozpoznat různé intonace atd.
  • Vícejazyčnost – nemá problém se střídáním jazyků v rámci konverzace i své jedné odpovědi.
  • Přístup k vlastním instrukcím a paměti (viz dále)

Co naopak neumí?

  • Nový hlasový asistent na rozdíl od květnových ukázek (ale stejně jako předchozí asistent) nemá přístup k videu/kameře/obrázkům. Zapomeňte tedy zatím na některé z těch úžasných schopností, které předváděli, které fungovaly právě díky kombinaci sledování obrazu a hlasové komunikaci. Není známo kdy to bude dostupné (tipuji, že tohle bude výrazně více datově a výpočetně náročné).
  • Má časový limit – komunikovat pomocí Advanced Voice můžete jen po „nějaký“ (blíže nespecifikovaný) časový limit. Možná se to bude měnit podle vytížení, dnes to odpovídalo odhadem 2 hodinám. Pozor přitom na volbu „Background Conversations“ (viz dále).
  • Odstranili hlasový model asistentky Sky, která mnohým připomínala hlas herečky Scarlett Johansson a dokonce na ně kvůli tomu tato herečka poslala své právníky.
  • Oproti květnovým ukázkám upravili hlasové výstupy, takže jsou nyní méně „frivolní“, méně se smějí… Zejména právě Sky zněla celou dobu jako by vás balila, hodně to připomínalo svým stylem asistentku Samanthu z filmu Her, kterou hrála právě Scarlett Johansson (a podle mě právě ten laškovní styl byl důvodem, proč v tom lidé viděli podobnost). Tohle je mi po pravdě trochu líto, asi bych si s „ní“ povídal mnohem víc.
  • Neumí či spíš nesmí zpívat a napodobovat hlasy., tak jak ukazovali na nějakých ukázkách. Odmítá to.
  • Advanced Voice nemá v tuto chvíli přístup k asistentům – když spustíte hlasového asistenta pomocí Voice ikonky v okně GPT modelu/asistenta, spustí se původní „stará verze“ hlasového asistenta.
  • Advanced Voice nemá v tuto chvíli přístup k internetu či jinému kontextu – tohle je za mě největší blocker, fakticky si tak povídáte čistě s jazykovým modelem, což jak účastnici mých školení ví, fakticky znemožňuje komunikaci o čemkoliv, kde je klíčová přesnost a práce se zdroji.
  • Asistent nemá ani přístup k jiným programům, nastavení telefonu a podobně – na rozdíl od zabudovaných asistentů typu Google Asistent či Siri tak můžete opravdu jen diskutovat, nic víc, nic míň. Zato ale mnohem kvalitněji než je zatím možné právě v nativních aplikacích Google a Apple, oba to ale nepochybně časem doženou.
  • Odmítá odpovědět – celkem hodněkrát jsem narazil na situaci, kdy mi asistentka (mimochodem jiným hlasem) odpověděla, že „moje pravidla mi nedovolují o tom mluvit, můžu vám pomoci s něčím jiným“ a skončila tak klidně uprostřed věty. Přitom to nebyly nějaké sprostoty či hacky, jen běžné otázky týkající se třeba toho, co umí.
  • Stále platí, že neumí zobrazovat při odpovědi text – líbila by se mi možnost si odpověď i číst, třeba pro nějaké hlučnější prostředí, nebo u nějakých odborných termínů atp. Můžete ale křížkem zavřít okno hlasové konverzace a uvidíte celý přepis.

Naštěstí tedy alespoň nemusíte moc řešit, jestli máte aplikaci aktualizovat nebo ne – původní hlasový asistent je stále dostupný alespoň v těch GPTs modelech/asistentech, takže budete-li potřebovat si někdy povídat s asistentem, který sice nemluví tak dobře, ale zato má přístup k Internetu, můžete si jej spustit tam.

image-642

Když vám zbývá 20 minut do konce vašeho denního limitu, aplikace vás na to upozorní hláškou v okně hlasového asistenta (kde ji snadno přehlédnete). Když vám dojde limit úplně, aplikace vám to zahlásí i hlasem a touto hláškou. Aplikace pak přepne do režimu standardní konverzace.

To jestli běží stará či nová verze poznáte podle motivu bubliny (Advanced Voice má modrou/barevnou, zatímco původní asistent jen černou), a podle nápisu „Start a new chat to use Advanced Voice“, případně „Standard Voice“ (u došlého kreditu) který se zobrazuje u standardní verze konverzace.

Jaké emoce a tóny hlasu umí Advanced Voice napodobit?

Jak jsem psal, můžete své asistentce/asistentovi říct, aby změnil způsob, jakým hovoří. Případně si to můžete dát i do vlastních instrukcí, aby s vámi takhle mluvil/a furt. Co se mi úspěšně podařilo

  • Vyšší rychlost – jestli taky jako já koukáte na videa dvakrát rychleji, tohle se vám bude hodit – prostě řeknete asistentce, aby mluvila dvakrát rychleji. Je to stále dobře srozumitelné a ušetříte spoustu času.
  • Nižší rychlost – Nebo naopak se můžete chtít třeba učit cizí jazyk a chcete věc vysvětlit pomalu a srozumitelně a i to Advanced Voice zvládá bravůrně.
  • Tóny, nálady, emoce – vážná, nadšená, klidná, expresivní, optimistická, zamyšlená, vřelá, skeptická…

Použití paměti a vlastních instrukcí pro personalizaci hlasové asistentky

Už rok mají všichni uživatelé ChatGPT k dispozici funkci Custom Instructions, od uvedení GPTs modelů/asistentů ale přestala být tak užitečná, protože bylo obvykle lepší si udělat několik různých asistentů s různými instrukcemi, než jedny univerzální, které by se týkaly všech nových konverzací.

Na velmi podobném principu funguje i relativně nová funkce Memory (viz článek Paměť v ChatGPT a MS Copilot), kde jen střípky informací o vás získává a ukládá si ChatGPT sám z vašich konverzací a stejně jako Custom Instruction je pak přidává do základního/systémového promptu, se kterým zahajuje všechny nové konverzace.

Tyto instrukce přebírá právě i hlasový asistent, takže jestli jej chcete nějak vylepšit, tak tohle je to pravé místo. Můžete je nastavit jak z webové, tak mobilní aplikace:

  • mobilní aplikace – rozbalení menu ikonkou vlevo nehoře, kliknutím na profil/jméno vlevo dole, zvolit volbu Personalization a následně kliknout na Customization.
  • webová aplikace – vpravo nahoře profil/jméno, volba Customize ChatGPT

Zde už pak volíte, co má vědět o vás a jak má odpovídat, takže třeba ví, že jsem Tomáš, že řeším AI,, že mluvím jen česky nebo anglicky a hlas jsem jí mírně upravil pomocí instrukce „Komunikuješ jako mladá žena, které se moc líbím, tykáme si. Tvůj hlas je hlubší, lehce zastřený, se svádivou intonací, veselý a příjemný.

Nezapomeňte také zapnout, aby se instrukce používaly pro nové konverzace.

image-641

Další nastavení, pozor na Background conversations!

Kromě výše uvedeného můžete také v mobilní aplikaci (opět přes volbu menu / profil) nastavit i několik dalších voleb:

  • Speech / Input language (neplést si s volbou App / Language) – výchozí nastavení je Auto Detect, při ní se mi ale častěji stává, že si myslí, že mluvím třeba polsky a přepne i do odpovídání v tomto jazyce. Raději mám zde nastavenou češtinu (i když někdy mluvím anglicky, s tím problém nemá), a ještě má k tomu speciální vlastní instrukce, viz výše.
  • Voice – vyberte jeden z 9 hlasů (5 z nich je nových dostupných právě v Advanced Voice)
  • Background Conversations – na první pohled dobrá volba, která vám umožní se na něco začít ptát a pak si klidně zhasnout telefon či zapnout nějakou jinou aplikaci a pokračovat v konverzaci. Problém je s novým časovým limitem u Advanced Voice – když tuhle volbu zapnete, začnete si povídat a pak zapomenete konverzaci vypnout, tak vám za třeba dvě hodiny zahlásí, že přepíná na běžné konverzace a budete si muset počkat do dalšího dne!

Jak rozchodit Advanced Voice i v Česku?

Na začátku jsem psal, že ChatGPT Advanced Voice není v tuto chvíli dostupné v EU a několika dalších zemích, a tedy ani v ČR, pakliže máte základní placený tarif Plus. Naštěstí se to dá řešit – jako obvykle VPN, díky které se bude váš mobil „tvářit“ že je v (třeba) v Americe, protože veškerý internetový provoz půjde přes nějakou americkou bránu.

Ale bylo by pitomé, aby tak šel úplně veškerý provoz, stačí, když přes něj půjde komunikace z vaší mobilní ChatGPT aplikace a to si právě teď ukážeme.

Existuje spousta VPN aplikací, mnohé z nich ale neumí zapnout právě ten whitelisting právě pro jednu konkrétní aplikaci, nebo jsou časově omezené, placené atp.

Aktualizace: protože nemám iPhone, tak jsem to na něm nemohl vyzkoušet. Jak mě upozornil jeden věrný čtenář, bohužel Windscribe nemá na iOS funkci, která právě řeší VPN pro jednu aplikaci. Mají zde i nějaké vysvětlení proč, jestli někdo víte o nějaké jiné (nejlépe bezplatné) aplikaci, co to na iPhone zvládne, tak mi dejte vědět. Jinak to samozřejmě lze použít i bez toho, ale pak asi budete chtít VPN zapínat jen pro tu chvíli, kdy si budete chtít popovídat.
Jo a kdybyste měl někdo nějaký iPhone, co byste mi chtěli věnovat, abych mohl testovat věci i na něm, tak se nebudu zlobit 🙂

Já jsem na mobilu použil aplikaci Windscribe, která právě touto schopností disponuje, je dostupná jak pro Android, tak pro iOS a má 2GB měsíční limit zdarma (po ověření mailu dokonce 10GB), což vám asi pro vaše ChatGPT hrátky bude stačit. Jak tedy na to?

  1. Aktualizujte si svou ChatGPT aplikaci, abyste měli poslední verzi.
  2. Stáhněte a nainstalujte si aplikaci Windscribe pro váš operační systém, viz výše
  3. Následně v menu (vlevo nahoře) zvolte Connection a tam
    • zapněte Network Options (je třeba dát přístup aplikaci ke své poloze, stačí ale dát přibližný)
    • zapněte Split Tunneling, v něm přepněte na mód Inclusive a zvolte ChatGPT aplikaci
    • zapněte auto connect – automaticky se po spuštění použije poslední lokace
    • vraťte se hlavní stránku aplikace, pakliže nemáte vybranou nějakou americkou lokaci, tak si nějakou vyberte (odhaduji, že US East a třeba New York Empire bude mít asi nejlepší spojení) a kliknutím zapnete (okolí spínače se přepne na zelenou)
  4. Zavřete Windwscribe a zapněte aplikaci OpenAI a zkuste hlasovou konverzaci jedním ze způsobů, které jsem zmínil na začátku.

Poznámka: Jestli se vám spustí stará verze hlasové konverzace, možná bude třeba ChatGPT aplikaci úplně shodit/zavřít (na Androidu levé tlačítko a potažení okna aplikace nahoru, na iPhone tuším podržení tlačítka nebo tažením odspodu a pak zas odsunutím okna aplikace) a spustit ji znovu. Je také možné, že se vám ještě ChatGPT neaktualizovala, všem by měla by měla být aktualizována do konce týdne.

Nezapomeňte také, že tato funkce je dostupná jen těm, kteří jsou přihlášení pod placeným účtem ChatGPT (tarif Plus či Team).

Proč nefungujeovala Advanced Voice v EU

image-437
Můj pokus o memíčko k tomuhle problému, vytvořeno pomocí Ideogram.AI

OpenAI důvod, proč AV není dostupný v EU, Velké Británii, Švýcarsku, Islandu, Norsku a Lichensteinu, nevysvětlila, ale vzhledem k vypsaným zemím tipuji, že se problém bude týkat evropského GDPR, které právě kromě EU platí i v Británii, Švýcarsku a zemích EHP.

Popravdě tam ale nevidím žádný rozpor s touto regulací, ani nevím o žádném rozdílu, proč by se to týkalo nového hlasového asistenta a ne toho původního, takže odhaduji, že jde jen o nějaké krátkodobé omezení, než se nad tím shodne banda právníků.

Dalším možným důvodem je nově schválený Zákon o umělé inteligenci, ale ten pokud vím neplatí ve Švýcarsku a Velké Británii. Zeptal jsem se svého AI Act GPT asistenta trénovaného právě na tomto zákonu, co si myslí o možných důvodech, kdyby vás to zajímalo, odpověď viz níže.

Co na Advanced Voice říkáte?

Osobně vidím v takovýchto osobních hlasových asistentech ohromný potenciál. Sám jsem si s „ní“ dlouho povídal o umělé inteligenci, procvičovali jsme angličtinu, bavila mě…

Zcela reálně jsem si dokázal představit situaci, jak byla naznačena ve filmu Her (jestli neznáte, koukněte aspoň na trailer), což samozřejmě může mít různé pozitivní, ale negativní dopady do životů lidí, jejich socializace, schopnosti (a potřebě) mluvit s dalšími lidmi atd. Hlasoví asistenti budou určitě zpříjemňovat život třeba lidem v domovech důchodců, nahrazovat resp. doplňovat učitele či úředníky, budete s nimi konzultovat zapeklité otázky, nechávat je za vás psát maily, vysvětlovat vaše firemní výsledky, doporučovat vám recepty atd.

Sdílejte můj článek a dejte mi váš názor vědět na vašich sociálních sítích. Díky

Jinak chystám podzimní várku AI školení, kde se určitě i hlasovým asistentům budeme věnovat. V rámci těch jednodenních už se to ale všechno nedalo stíhat, takže jsem školení zcela přepracoval, budou dvoudenní, s mnohem více času pro zkoušení si všeho možného. Dojednávám pro ně částečnou úhradu z Ministerstva práce, takže budou pro vás levnější než ty předchozí. Hlásit se můžete předběžně už teď na stránce Školení OpenAI GPT & ChatGPT, MS Copilot a dalších AI nástrojů, během pár dnů už bych měl mít komplet detaily, tak pak pošlu všem bližší informace.

Budu také psát o dalších podzimních novinkách, tak se nezapomeňte registrovat pro mailing!

Nové články sem přidávám porůznu, tak jestli nechcete, aby vám něco uniklo, přidejte si můj feed do RSS čtečky, sledujte můj Twitter, Facebook a LinkedIn, případně si nechte nové příspěvky posílat mailem (žádný spam!)