Co odhalí naše řeč. Unikátní hlasové technologie z brněnského „Speech Valley“

16. květen 2022

Proč se Brnu říká Speech Valley, co to je letečtina a jak se dá podvádět jen pomocí hlasu? To přibližuje reportáž z brněnského výzkumného centra, které učí stroje, aby analýzou řeči odhalily podvodníka, zjednodušily práci operátorům na tísňové lince nebo zlepšily práci psychoterapeutů.

Už jsme si zvykli, že každý z nás má unikátní otisk prstů, snímek oční rohovky nebo podpis. Ne každý ale do kategorie biometrických údajů zařadí také hlas. Přitom nikdo na světě nemluví stejně. Každý z nás má jinak narostlé hlasivky, které používá jiným způsobem a jinak se o ně stará – o tom vědí své třeba kuřáci. Díky tomu hlas našich blízkých poznáme na velkou dálku, byť nám třeba volají z cizí země se špatným mobilním připojením a signál neustále ruší šum. Nebo ho nepoznáme?

„Před několika lety se odehrál případ, kdy manažer zaplatil tučnou částku poté, co mu zavolal ředitel firmy a navedl jej, kam peníze poslat. Ukázalo se ale, že na druhém konci linky vůbec nebyl obchodní partner, ale podvodník se softwarem na změnu hlasu,“ popisuje znepokojivou historku výzkumník v oblasti řečových technologií Jan Černocký. Možná vás napadne, že tak závažný krok udělá na základě telefonátu pouze naivní člověk. Ale ohlédneme-li se za posledními dvěma roky pandemie, kdy značná část komunikace mezi lidmi probíhala na dálku, projevíme větší pochopení. S rozmachem virtuální komunikace i řečových asistentů v navigacích nebo v našich domácnostech je čas věnovat větší pozornost samotné řeči a tomu, co s ní nové technologie dokážou.

Jak dolovat řeč

Výzkumník v oblasti řečových technologií Jan Černocký

Do kanceláře Jana Černockého v areálu bývalého brněnského kláštera se návštěvník dostane, když vystoupá v nové budově Fakulty informačních technologií VUT do druhého patra. V místnosti s výhledem na kostel sídlí muž, který stál u zrodu výzkumné skupiny BUT Speech@FIT, která se věnuje dolování dat z řeči. U slova „dolování“ si laik pravděpodobně představí nějakou fyzicky náročnou práci. V tomto případě se o ni pokoušejí hluboké neuronové sítě, které řídí šikovní IT experti od klávesnice a monitorů. Zajímám se o to, co všechno by šlo šikovnými technologiemi vydolovat z nahrávky, kterou se chystám pořídit.

Technologicky je možné rozeznávat nejenom význam slov, ale i účel konverzace.

„V prvé řadě samozřejmě přepis. Rozpoznávače jsou natrénované na konkrétní jazyky a ve výsledném textu se pak ručně upravují jen ta slova, která nerozeznal správně,“ začíná svůj výčet výzkumník. „Kdyby mě nebo vás technologie měla ve své databázi, dokáže potvrdit, zda na nahrávce mluví někdo z nás, nebo někdo zcela jiný. Umí také rozlišit, kdy mluvím já a kdy vy. A pokud by nás předtím neznala, umí stanovit naše pohlaví a s určitou odchylkou také náš věk.“ Dnes je podle Černockého technologicky možné  rozeznávat nejenom význam slov, ale i účel konverzace. „V hlubší analýze pak lze určit, jak dialog fungoval, kdo mu dominoval, kdo komu skákal do řeči i v jaké emoci se odehrál.“

Kus masa, pár trubek

Dnes máme zvukové podmínky nahrávání příznivé, kancelář Jana Černockého má sice mírnou ozvěnu, ale jeho slova jsou jasná a srozumitelná. Okno z kanceláře nemíří do ulice s tramvajemi a s hlučnou dopravou, šum z prostředí je proto zanedbatelný. To ale nejsou samozřejmé předpoklady. Cílem řečových technologií je umět si poradit i s daleko méně povedenými nahrávkami. Spousta konverzací se odehrává v rušných prostředích nebo třeba v autě za zvuku motoru a deště bubnujícího na přední sklo vozu. Získat takovéto přirozené nahrávky z terénu je ale pro řečové vědce poměrně složité a především zdlouhavé. „Data proto účelově začuňujeme, jak tomu lidově říkáme, prasíme je,“ překvapí neortodoxním výrazem Černocký. „Vezmeme více méně čistá data a přimícháme do nich šumy, zvuky místnosti, zkreslujeme je tak, abychom měli plus minus realistická data na trénování našich neuronových sítí.“

Jestlipak by dokázala taková řečová mašinka přelstít i třeba schválně hlouběji položený hlas, napadá mě. Černocký vrtí hlavou. „Náš hlas je daný frekvencí hlasivek, a tu sice dokážeme měnit snadno – alespoň tedy imitátoři to moc dobře zvládají, hlasový trakt ale máme nějak narostlý. Jedná se o kus masa a pár trubek v krku, a to se mění docela špatně,“ vyvádí mě z omylu.

Řečové technologie umí rozklíčovat pohlaví i věk mluvčího

A pokud bych mluvila jinou řečí? „To už je tenký led. Tvrdíme, že technologie rozpoznávání mluvčího jsou robustní a fungují nezávisle na jazyce, ale jiný jazyk úspěšnost určitě snižuje.“ Proč to tak je? „Když člověk mluví jiným jazykem, tak svá mluvidla musí trochu ‚přenastavit‘. Navíc dnešní automatické rozpoznávání mluvčího se nedívá jen na akustiku, ale i na časové průběhy toho, co říkáme. Umí rozeznat určité slabiky, ty ale používáme pro jiné jazyky jinak, s jinou melodií, jinak časované a s jinými fonémy,“ doplňuje výzkumník.

Konkrétní jazyk nicméně technologie rozpoznávat umějí, v této disciplíně existují dokonce i soutěže. „Tvrdým oříškem jsou jazyky, pro které je k dispozici málo trénovacích dat. Paradoxně to nemusí být nutně ty, které nějak specificky zní, ale spíš takové, které mají k dispozici jen málo dostupných nahrávek. Velkým problémem jsou pak také dialekty. Čeština je homogenní, ale třeba arabština má spoustu lokálních verzí. Podobně je to také s čínštinou. I sousední němčina má těch jazykových podob daleko víc, jak asi ví každý, kdo jel poprvé na lyže do Rakouska se státnicemi z němčiny a myslel si, že porozumí rodilému Tyrolákovi.“

Řečaři z Brna

Tradice zabývat se řečovou analýzou sahá v Brně až do devadesátých let minulého století. Kromě „řečařů“ na FIT VUT je na Masarykově univerzitě silný tým zabývající se počítačovou lingvistikou. Odborníci z akademické půdy, kteří chtěli mít větší vliv na aplikace vyvinutých technologií, pokračovali do soukromých firem, z nichž některé jsou přímo univerzitními spin-offy. Technologie, které z jejich nápadů a výpočtů vzešly, mají ve svých systémech zabudované například tajné služby nebo kontaktní centra po celém světě. Odtud vedla už krátká cesta k tomu, aby někdo s nadsázkou překřtil brněnské Královo Pole na Speech Valley. A nálepka se ujala.

Čtěte také

Nejvýraznější firmou mimo akademické prostředí je Phonexia, která má původ právě na Černockého pracovišti. Poskytuje služby pro kontaktní centra, finanční instituce a organizace bojující s kriminalitou ve více než šedesáti zemích světa. Na trh uvedla vůbec první řečovou technologii pro identifikaci mluvčího na světě, která používá výhradně neuronové sítě, čímž výrazně zvýšila přesnost a rychlost technologie. Firma se pravidelně umisťuje na žebříčcích nejrychleji rostoucích technologických firem středoevropského regionu a stala se Firmou roku 2021.

Další výraznou firmou je OptimSys, jež pro call centra, dispečinky, zákaznické linky nebo telemarketingové kampaně využívá syntézu řeči a hlasovou biometrii, zejména v zahraničí, i rozpoznávání řeči, hledání klíčových slov nebo přepis řeči do textu. Firma Lingea se zase zaměřuje na technologie pro hlasovou komunikaci s počítačem či mobilními zařízeními, pro hledání v audio a video souborech, případně pro zkvalitnění výuky cizích jazyků.

Letečtina i Roxanne

Zpět ale na akademickou půdu. Ačkoliv se tým Jana Černockého věnuje základnímu výzkumu, zabývá se také řadou projektů s přesahem do praxe. Spousta z nich se dotýká bezpečnosti a obrany včetně rozkrývání kriminálních sítí. Podrobnosti o nich z pochopitelných důvodů nezveřejňuje. Černocký se ale rád rozpovídá o některých jiných aplikovaných výzkumech: „Jsme zapojeni do řešení projektu na posílení kapacit tísňového volání, kterému říkáme stodvanáctka. Vyvíjíme v něm hlasové chatboty pro přetížené tísňové linky. Takový chatbot by měl dokázat základním způsobem odbavit volajícího tak, aby byl schopen vyhodnotit, že třeba deset volajících hlásí tu samou událost, a předat tuto informaci už lidskému pracovníkovi linky.“ V současnosti se jedná o návazných projektech, které by tento systém měly uvést do praxe.

Čtěte také

Dalšímu úkolu přezdívá vědec letečtina. Jedná se o analýzu letecké komunikace mezi řídicími centry a piloty v komerčním leteckém provozu. „Dnešní piloti moc letadla neřídí, nastavují autopilota a většinu cesty především povídají do rádia. To mluvení je ale kriticky důležité, protože si vyměňují s jednotlivými dispečery informace o tom, kam a jak mají letět. Objem hovorů, které se odehrávají nad našimi hlavami v oblacích, je obrovský. A my bychom chtěli organizacím, které mají na starosti leteckou dopravu, usnadnit dolování dat z těchto hovorů. Může to být užitečné pro ulehčení práce dispečerů, pro ověření, zda pilot porozuměl příkazu dobře, i pro vyšetřování incidentů a nehod. Některé organizace pro řízení letového provozu už tyto aplikace mají na své „roadmapě“ na následující roky.

DeePsy je zase projekt, který řečovou analýzu přináší do možná poněkud nečekané oblasti – psychoterapie. Reaguje na potřebu zpětné vazby na práci terapeuta, která ne vždy přichází včas. Jednotlivá terapeutická sezení může vylepšit právě analýza pořízené nahrávky. „Psychoterapeuti potřebují vědět, jak rozhovor s pacientem probíhal nejen z jejich úhlu pohledu, ale i skrze některé objektivní ukazatele, jako je rychlost mluvy, plynulost rozhovoru, opakování slov,“ doplňuje Černocký. Výsledkem úsilí by měla být webová aplikace, do které by terapeuti mohli nahrávat jednotlivá sezení s klienty. Kromě podrobné analýzy projevu získají terapeuti taky kompletní přepis sezení a budou se tak moci snáze vracet k vybraným momentům. Aplikaci nyní testují psychoterapeuti na reálných datech ze sezení s klienty.

Malé dítě vyplazuje jazyk (ilustrační foto)

Brněnští „řečaři“ však mají aktivity i v oblasti bezpečnosti. Projekt Roxanne financovaný Evropskou unií zahrnuje 25 organizací a firem po celé Evropě: univerzity, firmy, ale i policejní sbory a útvary ministerstev vnitra. „Snažíme se, aby třeba lidé z kriminálky zjistili, kdo volá, i když kriminálníci rutinně mění telefony a používají SIM karty jen na jeden hovor,“ zmiňuje Černocký.

Jak na hlasové podvody?

U mnohých projektů je třeba pečlivě vymyslet, jak co nejlépe zabezpečit citlivá data, se kterými výzkumníci pracují. Otevírají se ale bezpečnostní otázky i co se týče samotné hlasové identity. A to v době, kdy přes kyberprostor proudí tisíce hlasových i video hovorů najednou. Podle Černockého se lze na hrozbu případného odcizení hlasu, podobného úvodní historce, připravit po technické stránce. „Existují technologie, které umí rozeznat pravý hlas od podvrhu – dokonce se v nich i soutěží,“ míní výzkumník s tím, že se ale pravděpodobně budou objevovat i nové a dokonalejší imitační technologie. A také je podle něj potřeba, abychom počítali s tím, že taková hrozba vůbec existuje. „Lidé pracující v bankovnictví nebo jiných ekonomických sektorech, které přitahují různé podvodníky, by měli být mimořádně obezřetní ohledně toho, zda skutečně mluví s tím, s kým si myslí, že mluví. A mít po ruce další možnost ověření,“ radí odborník. „Mladá generace a ajťáci si většinou poradí i bez technologií, ale v poslední době se podvodníci zaměřují i na běžné občany včetně seniorů, třeba tak, že se vydávají za podporu pro Microsoft Windows. Osvěta je proto důležitá,“ uzavírá Jan Černocký.

 

Spustit audio

Související