Souhrn AI novinek #1 (srpen 2023)

První číslo mého občasníku shrnujícího novinky z oblasti umělé inteligence, které nebyly dost dlouhé pro článek nebo jsem zatím nemohl vyzkoušet jejich praktické využití.

Uveřejněno

Rubrika

Autor

Druhý díl souhrnu AI novinek je zde.

Píšu o praktickém využití umělé inteligence a tak nezbývá čas psát o novinkách, které okupují přední stránky u ostatních artificial inteligence publicistů ve světě, dokud se nedají prakticky vyzkoušet. Ale samozřejmě sleduji všechny AI zprávy a tak vždy jednou za čas sepíšu velmi v krátkosti, co mě v uplynulém období zaujalo. Jestli bych něco neměl přehlédnout nebo vy sami máte zajímavou AI novinku, pište mi na tomas@kapler.cz.

IBM se zeptala po celém světě 3 tisíc vedoucích pracovníků a 21 tisíc zaměstnanců na využívání umělé inteligence. Analýzu z tohoto výzkumu jsem pro vás přeložil a vybral z ní nejdůležitější pasáže, celé to ale hezky shrnuje už titulek.

Já bych to zkrátil do konstatování: „Jestli vaše firma nebude hledat možnosti zavádět AI a automatizaci na svých odděleních a školit/rekvalifikovat zaměstnance, tak do pár let všechny vaše zakázky přebere konkurence, která tak dělat bude a bude díky tomu levnější, rychlejší, kvalitnější.“ A můžete mě citovat, nebo doporučit vaší firmě, ať si ode mě objedná konzultaci či školení.

AI čipy vládou světu a NVIDIA je králem opanujícím 80 % celého trhu. Před rokem byste akcie NVIDIA koupili za 150 dolarů, teď se prodávají téměř za 500. Kam se hrabe bitcoin, kam se hrabou všechny ostatní čipové firmy nebo jiné technologické firmy. Všechny AI modely se počítají na NVIDIA a konkurence zatím není na obzoru. Nyní NVIDIA představila nový AI čip (bude dostupný ale nepochybně hned vyprodaný v druhém čtvrtletí příštího roku) a fenomenální parametry slibují další zrychlení a zlevnění provádění AI operací.

Microsoft potají vyvíjí nové AI čipy už 4. rokem s OpenAI už je prý testují a měli by je interně začít používat příští rok. A nepochybně se snaží i všichni ostatní velcí hráči. Ale třeba Apple M1 čipy trvaly nejbohatší firmě na světě vyvinout 10 let. Zatím v plínkách je technologie analogových AI čipů od IBM, jestli se ale tohle podaří dotáhnout, tak to bude gigantický revoluční skok.

AI školení – nové termíny a místa (Praha, Brno, České Budějovice)

Chcete dostávat tyto články na e-mail, aby vám nic neuteklo?

Mimochodem – Apple CEO Tim Cook oznámil, že AI je pro ně klíčovou oblastí, na které roky pracují a že AI bude součástí každého jejich produktu. Za pár týdnů nás čeká představení nových produktů od Apple, tak uvidíme, nakolik je to pravda a nakolik se jen snaží zamaskovat fakt, že jim zatím oproti Microsoftu a Google tady ujíždí vlak. Apple ale už mnohokrát ukázal, že umí přijít s něčím sice později, ale zato tak dotaženým, že to jeho zákazníci na rozdíl od konkurence skutečně používají. Na rozdíl od ostatních velkých hráčů nemají ovšem žádný vlastní velký cloud, který by mohli používat k počítání velkých modelů. Zato má každý jejich uživatel v každém novém zařízení slušně výkonný AI čip. Interně ale používají už vlastní „Apple GPT“.

Nejvíc diskutovanou AI novinkou na sociálních sítích byla Inpainting funkce v Midjourney. Ani já jsem nemohl zahálet a shrnul jsem všechny praktické informace.

Spousta nových velkých jazykových modelů

V týdnu jsem psal o tom, že META zveřejnila model pro textový a hlasový překlad z a do 100 různých jazyků (včetně ČJ). To ovšem není všechno. V zápětí META (neboli Facebook) zveřejnila i jazykový model Code Llama, což je jejich Llama 2 ovšem dotrénovaná na 20 miliardách tokenů v dlouhých kontextech v různých programovacích jazycích, k tomu pak ještě specializovaný Code Lllama – Python, dotrénovaný na dalších 100 miliardách tokenů v Pythonu, který se etabloval jako hlavním programovacím jazykem pro AI. A do třetice všeho dobrého představili i Code Lllama – Instruct, což je Code Llama ale dotrénovaná na konverzačních datech, aby si uměla dobře s programátorem povídat.

Všechny „kódovací lamy“ podle aktuálních testů trumfnou v úpravách kódu poslední OpenAI ChatGPT 4. Všechny verze Code Llama jsou stejně jako Llama samotná „open source“ ke stažení, více informací o nich zde. Píšu „open source“ v závorkách, protože sice to můžete stáhnout a používat, ale ne pro komerční účely. Chystám se je otestovat, ale čekám na chválení přístupu.

V uplynulých týdnech se vůbec utrhl pytel s jazykovými modely. Velmocí v LLM chce být Čína. Před pár měsíci představila dceřiná společnost čínské Alibaby svůj „ChatGPT“ jménem Tongyi Qianwen, který bude postupně integrovat do všech svých služeb a partnerům a který je trénován na datech v čínštině a angličtině. Nyní jako open source uvolnili model se 7 miliardami parametrů Qwen-7B. A stejně tak i stejný model dotrénovaný konverzačními daty určený pro chatboty zvaný Qwen-7B-Chat. Trénovací dataset měl 2.2 bilionu tokenů, kontextové okno má 8 tisíc tokenů a zdá se, že to není špatné, byť samozřejmě to nemá na konkurenční více parametrické modely. Ale Číňané si určitě máknou.

Jestli také zkoušíte různé jazykové modely, bude se vám hodit můj návod na dvě aplikace, které k tomu osobně používám.

Poslední světovou geografickou velmocí, která tak zcela ignoruje nástup jazykových modelů je … famfáry … EU. A vzhledem k tomu, že tu máme přes dvacítku používaných jazyků, na které nejsou modely primárně laděné, tak třeba komunikace s ChatGPT vychází 2× dráž a je 2× pomalejší (psal jsem o tom v článku Jednoduchý trik jak se vyhnout chybám v odpovědích ChatGPT a dalších jazykových modelů. Evropské země tak nebudou schopny konkurovat ani Američanům, ani Číňanům a nikoho to nejspíš netankuje nebo tomu nerozumí.

A když jsme u těch jazykových modelů – OpenAI zpřístupnila fine tuning pro jejich model GPT-3.5 Turbo. To je postup, jak můžete existující model dotrénovat na svých datech a na vašich otázkách, takže bude lépe odpovídat. Takto dotrénovaný model by měl být lepší než nedotrénovaný GPT-4, přitom by měl jeho provoz vycházet násobně levněji. Chtěli byste o tom něco přečíst? Dejte mi vědět.

Jo a mimochodem – OpenAI si patentovala ochrannou známku na GPT-5 a podle uvedených informací se zdá, že se chystá přidat analýzu hlasu. Ale nejspíš se dočkáme až někdy v příštím roce.

Zato už teď můžete používat novou a hodně užitečnou funkci ChatGPT Custom Instructions. Psal jsem o ní, už funguje bez problémů v ČR a tak určitě doporučuji vyzkoušet, ještě se jí budu hodně věnovat.

Hugging Face, platforma na sdílení a spouštění open-source AI modelů „naraisovala“ 235 milionů dolarů od gigantů jako Google, Amazon, Nvidia, Intel, AMD, Qualcomm, IBM, Salesforce a Sound Ventures, což vyšvihlo její tržní kapitalizaci na „slušných“ 4,5 miliardy dolarů. Slušnej startup.

Microsoft hodlá AI nasadit do snad každé jejich aplikace. Kreslení v MS Paint už nikdy nebude jako dřív. Již za pár týdnů bychom se přitom měli dočkat funkce Windows Copilot, která integruje AI přímo Windows.

AI v ohrožení – od právníků

Minulý pátek americký federální soudce potvrdil rozhodnutí amerického úřadu pro autorská práva, že umělecké dílo vytvořené umělou inteligencí nelze chránit.

Právníci New York Times řeší, že zažalují OpenAI, že natrénoval svůj model i na jejich článcích a bez jejich souhlasu, čímž dle nich došlo k porušení intelektuálního vlastnictví.

Několik autorů beletrie zažalovalo OpenAI, že využili bez souhlasu pro natrénování pirátské kopie jejich knih. Když se ještě Open AI veřejně svěřovala, tak zveřejnila informaci, že k trénování použili dvě databáze, jednu s 63.000 knih a druhou s 294.000 knih. Takové legální databáze databáze ale neexistují, zato jsou dostupné na Torrentech. Za každé jednotlivé porušení autorských práv přitom hrozí pokuta 150 tisíc dolarů. Open AI tak reálně hrozí, že bude muset celý svůj tréninkový model vymazat a začít znovu bez těchto dat.

Ale nejen OpenAI má problém – několik autorů ze stejného důvodu zažalovalo i společnost META (neboli Facebook), protože i jejich jazykový model LLAMA byl zjevně natrénován m.j. na 170.000 knihách vesměs z posledních 20 let.

OpenAI přitom oznámila, že začíná používat vlastního bota, který bude vykrádat data z internetu. Jestli nechcete, aby se ChatGPT bot stavil na vašem webu a poučil z vašich dat, můžete mu to zakázat. Jen pak nepočítejte s tím, že by pak ChatGPT někomu doporučil vaše produkty a stránky. A mimochodem – Google začal indexovat i CSV, skripty atd. Neukazuje je ovšem v indexu, takže je zjevně používá právě v učení svých LLM. Zakázat je lze rozšířenými podmínkami v robots.txt.

Microsoft zveřejnil na GitHubu svou verzi ChatGPT, která využívá Azure OpenAI Service. Po pár hodinách ji ale zas smazali. Ale co se jednou zveřejní na Internetu už nikdy nezmizí, takže je k dispozici několik forků, třeba tady. Klíčovou předností je, že takový AI chat pak běží čistě na „vaší“ infrastruktuře, neexistuje tak žádný způsob, jak by se vaše firemní data, která mu poskytnete, mohla dostat do trénovacích dat OpenAI.

Nicméně jestli se nemýlím, využívání Azure OpenAI Services stojí stejně jako Open AI GPT API, navíc musíte platit storage a procesorový čas, takže to není způsob jak ušetřit (jestli je tu nějaký odborník, uvítám potvrzení). Hezké praktické představení této služby viz toto video.

Aktualizace: jen pár hodin po vydání tohoho souhrnu novinek přišel OpenAI s vlastní nabídkou pro firmy. Jestli jste cílovka, určitě čtěte.

Co na to říkáte?

Tak jak, přijde vám takovýto souhrn užitečný? Mám jej dělat jednou za týden, za dva či měsíčně? Nebo se na to mám vyprdnout a soustředit se jen na praktické články?

Jestli vám přišel užitečný, dejte mi vědět tak, že jej nasdílíte svým kolegům, přátelům i známým. Hlasovací tlačítka jsou tady dole ⬇️⬇️⬇️ a nezapomeňte se taky zaregistrovat, aby vám žádná novinka neušla.

Nové články sem přidávám porůznu, tak jestli nechcete, aby vám něco uniklo, přidejte si můj feed do RSS čtečky, sledujte můj Twitter, Facebook a LinkedIn, případně si nechte nové příspěvky posílat mailem (žádný spam!)