image-665

Augmented Analytics – AI v datové analytice

Umělá inteligence dokáže být úžasným pomocníkem každého datového analytika a kohokoliv dalšího, kdo potřebuje snadno analyzovat nějaká data. Třeba vám k tomu pomohou informace z mé přednášky.

Uveřejněno

Rubrika

Autor

Před pár hodinami proběhla v Praze každoroční konference o datech a analytice Data Restart. Byl jsem pozván, abych účastníkům řekl v krátkosti o tématu, který poslední rok rezonuje v analytických kruzích – augmented analytics. Samozřejmě nemůžu o toto téma připravit své věrné čtenáře, takže pojďme na to.

https://twitter.com/tastecz/status/1849471176088641604

V prvé řadě – co to vůbec je augmented analytics (česky asi nejlépe rozšířená či obohacená analytika). Zeptal jsem se svého oblíbeného AI chatbota Perplexity:

image-657
Odpověď Perplexity na otázku, co je Augmented Analytics.

Sám bych to neřekl líp :-). Mimochodem – Perplexity poslední dobou doporučuji čím dál tím víc, zejména jestli pracujete s texty, které mají být založené na nějakých skutečných aktuálních informací z relevantních zdrojů (což je v mém případě prakticky vždy). V tom nemá aktuálně konkurenci a to dokonce i základní bezplatná verze. Ale placená je ještě o level výš (když použijete při registraci tenhle odkaz, dostanete 10 $ slevu).

AI školení – nové termíny a místa (Praha, Brno). Pro jednotlivce i firmy.

Chcete dostávat tyto články na e-mail, aby vám nic neuteklo?

Využití AI pro přípravu, čištění či obohacování dat

Zpět k Advanced Analytics – první, co jsem na své přednášce ukázal, bylo jak využít AI pro přípravu dat. Prakticky každý, kdo chce analyzovat nějaká data totiž musí v první řadě řešit problém, že jeho data nejsou dokonalá – z mnoha důvodů jsou občas data ve špatném formátu, některá chybí atd.

Tohle bývá mnohdy ta nejpracnější věc v celém procesu datové analytiky a AI s ní může pomoci. Jako příklad jsem si vybral scénář, že potřebuje například udělat analýzu závislou na barvě produktů, ale parametr barva buď vůbec nemáte, nebo máte ale zadávaný jako textové pole, takže červená barva je někdy červené, red, rot, korálová, scarlett, karmínová… prostě tak jak to produkťáka nebo výrobce napadlo. A vy potřebujete v prvé řadě taková data tzv. čistit, normalizovat.

K tomu účelu se skvěle hodí prakticky jakýkoliv, i velmi levný jazykový model, já jsem volil Gemini Flash a ukázku jsem předvedl v nástroji Google AI Studio, kde jsem napsal systémové instrukce „jsi asistent v obchodě a tvým úkolem je identifikovat barvu produktu z popisku a vrátit ji jedním slovem v angličtině, např. green, yellow, blue…“ a pak už jsem dával různé „popisky“ produktů a model mi vracel správně název barvy.

image-658
Google AI Studio – hledání barvy produkt z popisku

Tohle kdybyste chtěli řešit jakýmkoliv způsobem, tak se z toho opupínkujete, mohli byste udělat složité regulární výrazy pro všechny barvy, ale v případě, že máte třeba mix různých jazyků by se vám mohlo stát, že nějaké slovo znamená v jednom jazyce „něco“ a v jiném jazyce nějakou barvu a vy byste museli v prvé řadě ještě řešit, v jakém je text jazyce… Každopádně by vám to trvalo dlouho.

Řešení s AI zabralo minutu, rovnou máte k dispozici i kód v různých programovacích jazycích, který byste vzali, zavolali třeba stotisíckrát, pakliže máte sto tisíc produktů, a měli byste to vyřešeno. A těch sto tisíc volání by vás vyšlo dohromady na něco málo přes 2 koruny.

Jako další příklad jsem ukazoval využití multimodálního modelu, kdy Gemini dokáže na základě třeba produktové fotografie a zvolené cílené skupiny navrhnout krátký popisek produktu pro danou cílovou skupinu.

image-659
Gemini – ukázka multimodálního volání

Využití AI pro  snadnou analýzu dat

Další využití AI je v samotné analýze dat. Mí věrní čtenáři už určitě četli můj loňský článek OpenAI ChatGPT Advanced data analysis (Code Interpreter) – analýzy dat snadno a rychle a právě tuto funkci jsem předvedl v dalších ukázkách.

image-660
ChatGPT Code Interpreter – analýza dat

Nahrál jsem zip s daty z obchodu a napsal „Koukni na tyhle data a vymysli mi k nim nějaké zajímavé vizualizace“.

No a protože placená verze ChatGPT (a na pár dotazů denně i ta bezplatná) umí i psát a dokonce i spouštět programy v jazyce Python, tak si řekl něco jako „hmm, dostal jsem nějaký zip a mám analyzovat data, co mám dělat?“. A napíše si v Pythonu program na rozbalení zipu a spustí jej.

image-661
ChatGPT Code Interpreter si píše kód pro rozbalení souboru

Následně zjistil, že v zipu měl excelový soubor a tak si zas řekl „hmm, mám nějaký excelový soubor a mám analyzovat data, co mám dělat?“. A napíše si a spustí program, který načte excelový soubor, všechny jeho tabulky a přečte si prvních 5 řádků z každé tabulky aby zjistil, jaká tam jsou data v jakém formátu.

Tahle data pak vrátí zpět jazykovému modelu, který je natrénovaný na analýze milionů různých dat a tak vám začne navrhovat, co byste tak s těmi daty mohli dělat.

image-662
ChatGPT Code Interpreter – Doporučení vizualizací k analýze dat

A já bych si teď mohl vybrat z nabízených vizualizací, nebo si můžu říct i o něco úplně jiného, v mém případě jsem si řekl o RFM analýzu zákazníků (segmentace zákazníků na základě toho, kdy naposledy, jak často a za kolik peněz nakupují).

image-663
ChatGPT Code Interpreter – RFM analýza

A ChatGPT si opět napsal kód, který ke každému unikátnímu zákazníkovi spočítal na základě jeho všech objednávek jeho tzv. RFM skóre. Ukázal jsem také, že stejná analýza jde udělat pomocí AI i třeba v Excelu, pakliže máte dokoupenou službu Copilot Pro, o které jsem tu také před pár měsíci psal.

image-664
AI Analýza dat v nástroji Microsoft Excel pomocí Copilot Pro

Využití AI pro vizualizaci dat

Tím, že máte v ChatGPT k dispozici virtuální server schopný spouštět Python skripty, můžete generovat i grafy, některé typy dokonce i interaktivní. A nejen že vám ChatGPT udělá ta data a grafy, hlavně si můžete zobrazit i ony Python skripty, které vedly k jejich vytvoření, a tedy když budete chtít tahle data mít každé ráno v 7 v mailu, tak můžete vzít vygenerovaný kód, napojit jej na svém serveru na živá data a necháte si to posílat dle libosti. Takto jsem třeba vytvořil heat mapu z oné RFM analýzy

image-665
ChatGPT Code Interpreter – heatmapa z RFM analýzy

A podobně opět i Excel umí s pomocí Copilot Pro generovat grafy z dat, pouhým zadáním slovních instrukcí.

image-666
Microsoft Excel s Copilot Pro – generování grafů

Pro zajímavost jsem ukázal i relativně novou funkci nástroje Anthropic Claude – Artifacts. O té vám ještě dlužím článek, mám jej už dlouho rozepsaný, věřím, že jej příští týden dokončím, tak se nezapomeňte registrovat k odběru novinek z tohoto webu, ať vám to neunikne.

Ukázal jsem, jak si můžete pomocí Claude Artifacts pár dotazy „naprogramovat“ dokonce třeba celý marketingový dashboard – výsledkem je funkční React aplikace, kterou byste pak jen dali svému analytikovi či programátorovi, ať ji napojí na vaše živá data. Výstup Claude Artifacts si můžete prohlédnout zde.

image-667
Claude Artifacts – tvorba dashboardu

Využití AI pro pochopení dat a jejich využití k naplnění cílů

Největší potenciál mají jazykové modely ve vysvětlování dat a všeho kolem nich, co vám pomůže ta data pochopit či je nějak využít tak, abyste nedělali „analýzy pro analýzy“.

Vezměme si třeba můj příklad s RFM analýzou výše. Každý skupina zákazníků vyžaduje trochu jinou péči – ty co nakupují často a za hodně chcete udržet a odměňovat, ty co nakupovali hodně ale ne v poslední době chcete reaktivovat a podobně. A umělá inteligence vám dokáže přesně s tímhle pomoci, dokáže vám to vysvětlit, poradit, doporučit strategie a aktivity vůči zákazníkům atd.

image-668
ChatGPT vysvětluje segmenty zákazníků dle RFM analýzy

Navíc můžete i ChatGPT říct, co přesně děláte, co nabízíte za produkty a služby, jaká je vaše pozice na trhu, výhody atp. a on vám pak bude dávat mnohem lepší cílenější rady.

Můžete pak všechny tyhle informace zkombinovat a nechat si vytvořit tabulku se všemi segmenty, RFM skóre, akcemi, počtem lidí, které dle vašich dat do daného segmentu patří a třeba soubor třeba s ID zákazníků tak, abyste je pak mohli správně vybrat např. v mailingovém nástroji.

image-669
ChatGPT Code Interpreter – tabulka RFM segmentů

A opět – nejenom že máte takovou tabulku, vy máte i celý ten kód, tj. když budete chtít tenhle mechanismus rovnou implementovat pro automatickou personalizaci, tak můžete vytvořený kód napojit na serveru na ostrá data, ukládat si denně segment k vašim zákazníkům a pak jej využívat v cílených kampaních s výrazně lepší ROI.

Využití AI v profesionálních nástrojích pro analýzu dat

Zatím jsem ukazoval využití běžných AI chatbotů a jejich extra funkcí. Ale jestli to to myslíte s analýzou dat vážně, tak určitě používáte nějakou data vizualizační platformu jako je Tableau, Microsoft PowerBI či Google Looker Studio. Všechny v poslední době zkouší využívat AI, nejdál je na tom podle mého Tableau, které má i speciální AI nástroj Tableau Pulse.

image-670
Tableau Pulse promo obrázek

Analytickou platformu Tableau mám rád dlouhodobě, protože má mnohem silnější schopnosti datových integrací, přehledných vizualizací, geografických analýz… než konkurence. Už dlouho umožňují využívat machine learning, predikce… viz třeba tento článek. Jediná jejich nevýhoda je, že na rozdíl od konkurence nemají bezplatnou verzi ale jen free trial, v reálném nasazení ve firmách ale často pak vychází levněji, protože se neplatí za integrace atd.

Na konci loňského roku uvedli nový nástroj Tableau Pulse, který využívá schopností jazykových modelů pro vysvětlení klíčových informací. Pro všechny uživatele Tableau Claude je zdarma, můžete jej vyzkoušet ale vy všichni i když ještě Tableau nemáte, registrace ke 14dennímu trialu je zde. Mimochodem, jestli vás Tableau Pulse zaujalo, koukněte se i na následující webinář a prezentaci na konferenci, které dělali certifikovaní odborníci z Revolt.BI, což je partner Tableau pro Českou republiku.

Webinář Tableau Pulse pro business manažery
Praktické demo Tableau Pulse a use case z praxe

Nastavení je vlastně docela jednoduché – napojíte tam svůj zdroj dat (to je mimo scope tohohle příspěvku, ale jestli znáte libovolný analytický nástroj, tak to určitě zvládnete).  Při napojení můžete samozřejmě různě upravit a vyčistit data, Tableau na to má skvělý nástroj Tableau Prep. Potom si vyberete metriky, která vás zajímají, třeba tržby, a pak všechny dimenze, které by mohly ovlivňovat vaše tržby – jednotlivé produkty, kategorie, zdroje návštěv, výrobce, město… Je prakticky jedno kolik jich vyberete.

image-671
Tableau Pulse – nastavení dimenzí k metrice

Table Pulse pak vám pak vytvoří přehledový dashboard k těm metrikám, co jste si vybrali a každý den se budou aktualizovat. První využití AI, kterého si můžete všimnout, je, že vám pomocí jazykového modelu vytvoří i slovní manažerský souhrn toho, co se dělo. Porovná data s předchozími obdobími u všech metrik a napíše k tomu popis.

image-672
Přehledový dashboard Tableau Pulse s vybranými metrikami a AI manažerským shrnutím

To nejužitečnější ale začíná dál – vy si můžete vybranou metriku rozkliknout a přehledně vám ukazuje vývoj ve vybraném období, ale i predikci očekávaných hodnot pro dané období a vy tak máte přehled o tom, jak moc je mimo běžné hranice. Přitom to bere v úvahu i sezónní vlivy, což je v běžné analytice celkem složitá úloha. Zároveň vám pak v manažerském shrnutí tohle pak dokáže zohlednit a informuje vás, jestli se jedná o nějaký běžný sezónní výkyv, nebo něco, co si zaslouží pozornost.

image-673
Tableau Pulse – pohled na metriku se sezónním výkyvem

Následně si můžete udělat rozpad dané metriky a uvidíte hodnoty podle vybraných dimenzí. AI v Tableau Pulse pak ale i rovnou navrhne otázky, které si můžete k těm datům pokládat a zobrazí vám to relevantní grafy, případně vám umožní i zadat svými slovy otázku k těmto datům a nabídne vám seznam připravených vizualizací, které se nejvíce blíží tomu, na co se ptáte. Na rovinu, zatím to není naprosto dokonalé, ne na všechny otázky má odpověď, ale nástroj se rychle vyvíjí a funkce přibývají každý měsíc.

image-674
Tableau Pulse – rozpad metriky podle dimenzí a AI otázky a generované grafy, které je zodpovídají, včetně opět manažerského souhrnu.

Tableau Pulse je vlastně celkem jednoduchý nástroj, využijí jej především manažeři, kteří si mohou každé ráno u snídaně zobrazit na webu, nebo i ve svém Slacku či mobilní aplikaci prohlédnout manažerské shrnutí klíčových metrik a dimenzí a může mu to dát rychlý a užitečný vhled co se děje.

image-675
Tableau Pulse ve Slacku
image-676
Mobilní aplikace Tableau

A to je vše, co jsem stihl během 25 minut své přednášky představit. Kdyby byl ale zájem, ozvěte se mi u mých postů k tomuto článku na Facebooku, Twitteru či LinkedIn a jestli vás bude dost, tak k tomu uděláme třeba speciální webinář, mohu přizvat i kluky z Revoltu, aby vám předvedli Tableau Pulse na živo a zodpověděli vaše dotazy.

A mimochodem za měsíc se koná akce Data Punkers – meetup skupiny, na jejíž organizaci jsem se podílel – příštím tématem bude UX v datových produktech, takže jestli jste „analyticky pozitivní“, určitě se přidejte do naší meetup skupiny (je nás tam už téměř 1200) a případně se registrujte i na tuto akci.

image-677

Nové články sem přidávám porůznu, tak jestli nechcete, aby vám něco uniklo, přidejte si můj feed do RSS čtečky, sledujte můj Twitter, Facebook a LinkedIn, případně si nechte nové příspěvky posílat mailem (žádný spam!)