META zveřejnila model pro textový a hlasový překlad z a do 100 různých jazyků (včetně ČJ)

Společnost META (mateřská organizace zahrnující Facebook a další produkty a služby) včera večer zveřejnila kódy, model, trénovací data i demo SeamlessM4T.

Tento umožňuje velmi kvalitní překlad hlasu a textu mezi 100 různými jazyky, včetně češtiny a slovenštiny. Konkrétně tedy všechny kombinace převodu Hlasu na hlas, Hlasu na Text, Textu na Hlas a Textu na Text.

S modelem si od včerejška hraji a přijde mi skvělý, zejména když si uvědomíte, že na rozdíl od Deepl či Google Translate (případně překladů přes třeba ChatGPT a další LLM) je tento model relativně volně ke stažení, včetně trénovacích dat, tedy zdarma k využití a výzkumníci i vývojáři jej mohou zkoušet ve svých aplikacích. Tím relativně ovšem myslím, že licence neumožňuje komerční použití a je tak otázkou na právníky, co všechno s tím lze vlastně legálně dělat.

Chcete dostávat tyto články na e-mail, aby vám nic neuteklo?

Registrujte se

AI školení pro začátečníky, pokročilé (automatizace, vibecoding) a firmy.

Školení umělé inteligence

Přemýšlel jsem, jak bych vám ukázal schopnosti tohoto modelu a napadlo mě, že „zabiju dvě mouchy jednou ranou“ a nechám jej přeložit rovnou články představující SeamlessM4T od Meta. První je jednodušší pro širší publikum, druhý dlouhý a technický a složitý. Nezměnil jsem tam záměrně ani jedno slovo, schválně, dejte vědět, co na kvalitu překladu říkáte.

Na konci druhého článku jsou odkazy na demo k vyzkoušení překladu vašeho 15vteřinového povídání do libovolného jazyka, i ke stažení kódu a modelu.

Test překladu 1: Obecný PR článek

Toto je překlad pomocí SeamlessM4T článku zveřejněném v news sekci Facebooku.

Představení SeamlessM4T, multimodálního modelu umělé inteligence pro překládání řeči a textu

Takeaways

SeamlessM4T je první all-in-one vícejazyčný multimodální model překladu a transkripce AI.
Tento jediný model může provádět překlady řeči do textu, řeči do řeči, textu do řeči a textu do textu pro až 100 jazyků v závislosti na úloze.

Svět, ve kterém žijeme, není nikdy tak propojený, takže lidé mají přístup k většímu množství vícejazyčného obsahu než kdy jindy. Díky tomu je stále důležitější schopnost komunikovat a rozumět informacím v jakémkoli jazyce.

Dnes představujeme SeamlessM4T, první all-in-one multimodální a vícejazyčný model překladu umělé inteligence, který umožňuje lidem bez námahy komunikovat prostřednictvím řeči a textu v různých jazycích.

Rozpoznávání řeči pro téměř 100 jazyků
Překládání řeči do textu pro téměř 100 vstupních a výstupních jazyků Překlad řeči do řeči, podporující téměř 100 vstupných jazyků a 36 (včetně angličtiny) výstupních jazyků
Překlad textu na text pro téměř 100 jazyků
Převod textu na řeč, podporující přibližně 100 vstupních jazyků a 35 (včetně anglického) výstupního jazyka

V souladu s naším přístupem k otevřené vědě, zveřejňujeme SeamlessM4T pod výzkumnou licencí, která umožní výzkumníkům a vývojářům stavět na této práci. Také zveřejňujeme metadata SeamlessAlign, největšího otevřeného multimodálního překladu datového souboru k dnešnímu dni, celkem 270 000 hodin vykopané řeči a textových vyrovnání.

Vytvoření univerzálního jazykového překladatele, jako je vymyšlená Babel Fish v The Hitchhiker’s Guide to the Galaxy, je náročné, protože stávající systémy pro překládání řeči a řeči do textu pokrývají jen malou část světových jazyků. Ale věříme, že práce, kterou dnes oznamujeme, je významným krokem vpřed na této cestě. Ve srovnání s přístupy používajícími samostatné modely, přístup SeamlessM4T s jedním systémem snižuje chyby a zpoždění, zvyšuje efektivitu a kvalitu překladatelského procesu. To umožňuje lidem, kteří mluví různými jazyky, komunikovat mezi sebou efektivněji.

SeamlessM4T staví na pokrocích, které jsme my a jiní v průběhu let dosáhli při snaze vytvořit univerzální překladatel. Minulý rok jsme vydali No Language Left Behind (NLLB), model strojového překladu z textu do textu, který podporuje 200 jazyků, a od té doby byl integrován do Wikipedie jako jeden z poskytovatelů překladu. Také jsme sdíleli demo našeho Universal Speech Translator, který byl prvním přímým systémem překladu řeči do řeči pro Hokkien, jazyk bez široce používaného písemného systému. A začátkem tohoto roku jsme odhalili Massively Multilingual Speech, který poskytuje technologii rozpoznávání řeči, identifikace jazyka a syntézy řeči ve více než 1100 jazycích.

SeamlessM4T čerpá z poznatků ze všech těchto projektů, aby umožnil vícejazyčnou a multimodální překladovou zkušenost vycházející z jediného modelu, postaveného z široké škály ústních zdrojů dat s nejmodernějšími výsledky.

Toto je jen poslední krok v našem pokračujícím úsilí o vytvoření technologie založené na umělé inteligenci, která pomůže spojit lidi napříč jazyky. V budoucnu chceme prozkoumat, jak tento základní model může umožnit nové komunikační schopnosti – nakonec nás přiblížit k světu, ve kterém může být každý chápán.

Test překladu 2: Složitý článek s technickými termíny

Toto je detailnější článek o tomtéž určený techničtějšímu publiku, plný odborných termínů, zveřejněný na AI Blogu META. (některé odstavce jsou téměř totožné, tak je klidně přeskočte).

Na konci jsou pak odkazy, které by vám neměly uniknout.

Sblížit svět základním multimodálním modelem pro překládání řeči

Svět, ve kterém žijeme, nikdy nebyl tak propojený – globální šíření internetu, mobilních zařízení, sociálních médií a komunikačních platforem dává lidem přístup k více vícejazyčnému obsahu než kdy dříve. V takovém kontextu se stále více stává důležitou schopnost komunikovat a porozumět informacím na vyžádání v jakémkoli jazyce. Zatímco o takové schopnosti se už dlouho snilo ve sci-fi, umělá inteligence je na pokraji toho, aby tuto vizi přivedla do technické reality.

Dnes představujeme SeamlessM4T, základní vícejazyčný a víceúčelový model, který bezproblémově překládá a přepisuje řeč a text.

Automatické rozpoznávání řeči pro téměř 100 jazyků
Překládání řeči do textu pro téměř 100 vstupních a výstupních jazyků Překlad řeči do řeči, podporující téměř 100 vchodových jazyků a 35 (+ anglický) výstupních jazyků
Překlad textu do textu na téměř 100 jazyków
Překlad text-do-řčení, podporující přibližně 100 vstupních jazyků a 25 (+ angličtina) výstupní jazyky

V souladu s naším přístupem k otevřené vědě, zveřejňujeme SeamlessM4T pod licencí CC BY-NC 4.0, abychom umožnili výzkumníkům a vývojářům stavět na této práci. Také zveřejňujeme metadata SeamlessAlign, největšího otevřeného multimodálního translačního datového souboru k dnešnímu dni, s celkovým počtem 270 000 hodin minovaných řečových a textových vyrovnání. Umožňujeme komunitě provádět těžbu na svých vlastních monolingválních datových souborech pomocí SONARu, kompletní sady kódátorů řečních a textových vět, a stopes, naší knihovny pro multimodální zpracování dat a paralelní těžbu dat. Všechny výzkumné pokroky jsou podporovány fairseq2, naší knihovnou modelování sekvencí nové generace.

Vytvoření univerzálního jazykového překladatele, jako je vymyšlená Babel Fish v The Hitchhiker’s Guide to the Galaxy, je náročné, protože stávající systémy řeči na řeč a řeči na text pokrývají pouze malou část světových jazyků. SeamlessM4T představuje významný průlom v oblasti řeči na mluvu a řeč na text tím, že řeší výzvy omezeného jazykového pokrytí a spoléhání se na oddělené systémy, které rozdělují úkol překladu řeče na řeč do více fází napříč subsystémy. Tyto systémy mohou využívat velké množství dat a obecně dobře fungují pouze pro jednu modalita. Naší výzvou bylo vytvořit jednotný vícejazyčný model, který by to všechno mohl udělat.

Věříme, že práce, kterou dnes oznamujeme, je významným krokem v této cestě. Náš jednotný model poskytuje překlady na vyžádání, které umožňují lidem, kteří mluví různými jazyky, komunikovat efektivněji. Výrazně zlepšujeme výkon pro jazyky s nízkými a středními zdroji, které podporujeme. Jedná se o jazyky, které mají menší digitální jazykovou stopu. Také udržujeme silný výkon v jazycích s vysokými zdroji, jako je angličtina, španělština a němčina. SeamlessM4T implicitně rozpoznává zdrojové jazyky, bez nutnosti samostatného modelu identifikace jazyka.

Tato práce vychází z pokroků, které Meta a další v průběhu let dosáhli v úsilí o vytvoření univerzálního překladatele. V loňském roce jsme vydali No Language Left Behind (NLLB), model strojového překladu z textu do textu, který podporuje 200 jazyků a od té doby byl integrován do Wikipedie jako jeden z jejích poskytovatelů překladu. O několik měsíců později jsme sdíleli demo našeho univerzálního překladače řeči, který byl prvním systémem přímého překladu řeči do řeči pro Hokkien, jazyk bez široce používaného písemného systému. Prostřednictvím toho jsme vyvinuli SpeechMatrix, první rozsáhlý vícejazyčný soubor dat pro překládání řeče do řeči, odvozený z SpeechLASER, průlom v dohlížené reprezentaci. Začátkem tohoto roku jsme také sdíleli Massively Multilingual Speech, který poskytuje automatické rozpoznávání řeči, identifikaci jazyka a technologii syntézy řeči ve více než 1100 jazycích. SeamlessM4T čerpá z výsledků všech těchto projektů, aby umožnil vícejazyčný a multimodální překladový zážitek vycházející z jediného modelu, postavený z široké škály mluvných datových zdrojů a s nejmodernějšími výsledky.

Náš přístup

Vytvoření jednotného modelu vyžaduje nástroj pro modelování sekvencí, který je lehký a snadno skladatelný s jinými moderními knihovnami ekosystému PyTorch. Přepracovali jsme fairseq, náš původní nástroj pro modely sekvencí. S efektivnějším modelováním a datovým načítávačem API, fairseq2 pomáhá pohánět modelování za SeamlessM4T.

Pro model používáme architekturu modelu multitask UnitY, který je schopen přímo generovat přeložený text a řeč. Tato nová architektura také podporuje automatické rozpoznávání řeči, překládání z textu do textu, text do řeči, řeč do textu a řeč do řeče, které jsou již součástí vanilového modelu UnitY. Model multitask unitY se skládá ze tří hlavních sekvenčních komponentů. Textové a řečové kodéry mají za úkol rozpoznat řečové vstupy v téměř 100 jazycích. Textový dekodér pak přenáší tento význam do téměř 100 jazyků pro text následovaný modelem text-to-unita k dekódování do diskrétních akustických jednotek pro 36 řečových jazyků.

Samosledovaný kodér, komponenty překladu řeči na text, překladu textu na text a model textu na jednotku jsou předem vyškoleny, aby se zlepšila kvalita modelu a stabilita výcviku. Dekodované diskrétní jednotky jsou poté přeměněny na řeč pomocí vícejazyčného vokoderu jednotky HiFi-GAN.

Jak kódovač zpracovává řeč

Náš samosledovaný kódovač řeči, w2v-BERT 2.0, který je vylepšenou verzí w2 v-BERT, který zlepšuje jeho tréninkovou stabilitu a kvalitu reprezentace, se učí najít strukturu a význam v řeči analýzou milionů hodin vícejazyčné řeči. Kodovač bere zvukový signál, rozděluje ho na menší části a vytváří vnitřní reprezentaci toho, co je řečeno. Protože mluvené slova se skládají z mnoha těchto zvuků a znaků, používáme adaptor délky, který je zhruba mapuje na skutečná slova.

Jak kodér zpracovává text

Podobně máme kodér textu, který je založen na modelu NLLB. Byl vycvičen, aby pochopil text v téměř 100 jazycích a vytvořil reprezentace, které jsou užitečné pro překlad.

Výroba textu

Náš textový dekodér je vyškolen, aby bral zakódované řečové reprezentace nebo textové reprezentací. To může být aplikováno na úkoly ve stejném jazyce, jako je automatické rozpoznávání řeči a vícejazyčné překladové úkoly. Například někdo může říci slovo bonjour ve francouzštině a očekávat, že přeložený text ve swahili bude habari. S multitaskingovým výcvikem využíváme silné stránky silného modelu překladu z textu na text (NLLB), abychom vedli náš model překladu řeči na text prostřednictvím destilace znalostí na úrovni tokenů.

Výroba řeči

Používáme akustické jednotky k reprezentaci řeči na cílové straně. Komponenta text-to-unit (T2U) v modelu UnitY generuje tyto diskrétní řečové jednotky na základě textového výstupu a je předem vyškolena na ASR datech před jemným laděním UnitY.

Datové měření

Modely založené na datech, jako je SeamlessM4T, obvykle využívají velké množství vysoce kvalitních end-to-end dat, jmenovitě dat řeči na text a řeči na řeč. Pouze spoléhat na lidskou přepsanou a přeloženou řeč se nedá měřit tak, aby se vypořádala s náročnou úlohou překladu řeči pro 100 jazyků. Vycházíme z naší průkopnické práce na text-to-text těžbě pomocí měření podobnosti ve společném vkládání prostoru, a počáteční práce v řeči těžby vytvořit další zdroje pro výcvik SeamlessM4T modelu.

Nejprve jsme vytvořili nový masivně vícejazyčný a -modální textový vkládací prostor pro 200 jazyků, nazvaný SONAR (Sentence-level mOdality- and laNguage-Agnostic Representations), který podstatně převyšuje stávající přístupy jako LASER3 nebo LaBSE v hledání vícejazyčné podobnosti.

Poté aplikujeme přístup učitele a studenta k rozšíření tohoto vkládání do modality řeči a v současné době pokrýváme 36 jazyků. Mining se provádí v datech z veřejně dostupných úložišť webových dat (desítky miliard vět) a řeči (4 miliony hodin). Celkově jsme byli schopni automaticky sladit více než 443 000 hodin řeči s texty a vytvořit asi 29 000 hodin vyrovnání řeči s řečí. Tento korpus, nazvaný SeamlessAlign, je největším otevřeným korpusem řeči / řeči a řeči / textu z hlediska celkového objemu a jazykového pokrytí.

Výsledky

Pro tyto úkoly a jazyky, SeamlessM4T dosahuje state-of-the-art výsledky pro téměř 100 jazyků a multitask podporu přes automatické rozpoznávání řeči, řeči do textu, řeči k řeči, textu k řeči a překladu z textu do textu – vše v jednom modelu. Také významně zlepšit výkon pro nízké a střední zdroje jazyků podporované a udržet silný výkon na vysoké zdroje jazyků.

K přesnějšímu vyhodnocení systému bez závislosti na textových měřidlech jsme rozšířili naše měření bez textu do BLASERu 2.0, který nyní umožňuje vyhodnocování řeči a textových jednotek s podobnou přesností ve srovnání se svým předchůdcem. Když byl testován na robustnost, náš systém fungoval lépe proti pozadí a odchylkám řečníka v úkolech řeči na text (průměrné zlepšení o 37% a 48% v porovnání s současným nejmodernějším modelem).

SeamlessM4T také převyšuje předchozí state-of-the-art konkurenty.

Jak jsme zodpovědně vytvořili SeamlessM4T Je důležité, aby překladové systémy byly přesné. Stejně jako u všech systémů umělé inteligence, existují inherentní rizika, že model by mohl špatně přepsat to, co člověk chce říct, nebo generovat výstupy, které jsou toxické nebo nepřesné.

V Meta se náš výzkum a vývoj umělé inteligence řídí zodpovědným rámcem, který je řízen pěti pilíři zodpovědné umělé inteligenci. V souladu s naším závazkem k odpovědné umělé inteligenci jsme provedli výzkum toxicity a zaujatosti, abychom pochopili, které oblasti modelu mohou být citlivé. V případě toxicity jsme rozšířili náš vysoce vícejazyčný klasifikátor toxicity na řeč, abychom pomohli identifikovat toxická slova z řečních vstupů a výstupů. Filtrovali jsme nevyváženou toxicitu ve výcvikových datech. Pokud vstup nebo výstup obsahoval různé množství toxicity, odstranili jsme tento výcvikový pár.

Demo, které dnes zveřejňujeme, ukazuje schopnosti SeamlessM4T a je důležitou součástí výzkumu. Detekujeme toxicitu jak ve vstupu, tak i ve výstupu pro demo. Pokud je detekována toxicita pouze ve výstupu, znamená to, že je přidána toxicita. V tomto případě zahrnujeme varování a nevykazujeme výstup. Když porovnáváme naše modely se současným stavem umění, významně snižujeme přidanou toxicitu jak při překladu řeči na řeč, tak při přeložení řeči na text.

Pohlavní zaujatost, kdy výsledky nespravedlivě upřednostňují určité pohlaví a někdy předvolitelně genderové stereotypy, je další oblast, kterou začínáme hodnotit v jazycích ve velkém měřítku. Nyní jsme schopni kvantifikovat genderové zaujatosti v desítkách směrů překladu řeči rozšířením našeho dříve navrženého souboru dat Multilingual HolisticBias na řeč.

Naše práce v oblasti bezpečnosti a zabezpečení je průběžným úsilím. Budeme pokračovat ve výzkumu a podniknout kroky v této oblasti, abychom neustále zlepšovali SeamlessM4T a snížili případy toxicity, které v modelu vidíme.

Poskytování přístupu k naší technologii

Díky nejmodernějším výsledkům věříme, že SeamlessM4T je důležitým průlomem ve snaze AI komunity vytvořit univerzální multitaskingové systémy. V souladu s naším přístupem k otevřené vědě, jsme nadšeni, že můžeme sdílet náš model veřejně, abychom umožnili výzkumníkům a vývojářům stavět na této technologii.

Přečíst vědecký článek

Vyzkoušet Demo

Stáhnout kód, model a data

Vyzkoušet Demo na Hugging Face

Co si o SeamlessM4T myslíte?

Jaký je váš názor na SeamlessM4T? Bude mít dopad na širší dostupnost kvalitních překladatelských nástrojů? Dočkáme se obdoby „babylonské rybky“ ze Stopařova průvodce po galaxii, nebo komunikátoru ze Star Trek, které nebudou závislé na internetovém připojení a budete si moci s nimi rychle v cizině domlouvat s kýmkoliv? Jak dostupnost takových nástrojů ovlivní potřebu a chuť lidí se učit cizí jazyky?

Sdílejte můj článek, sdílecí tlačítka jsou tady dole ⬇️⬇️⬇️, dejte mi mention ať vás zaregistruji a podělte se o svůj názor.