Vícejazyčný on-line systém pro přepis televizních a rozhlasových pořadů
V rámci projektů MULTILINMEDIA a DEEPSPOT byla vytvořena komplexní softwarová platforma, která umožňuje v reálném čase monitorovat a analyzovat nejen tisková ale především audio-vizuální média (zejména televizní a rozhlasové stanice) v různých jazycích. Hlavním inovačním jádrem platformy jsou technologie automatického přepisu řeči zvládající rozpoznávání mluvené řeči v celkem sedmi jazycích, a to v češtině a slovenštině (tyto jazyky byly ve velké míře řešeny již v před započetím projektu) a dále v polštině, chorvatštině, srbštině, slovinštině a ruštině.
NewtonDictate – program pro spojité diktování do PC
Výsledkem více než 10 let trvajícího výzkumu a vývoje v oblasti rozpoznávání češtiny je program NewtonDictate, jehož finální verze vznikla ve spolupráci s firmou Newton Technologies a.s. Program umožňuje nadiktovat do PC prakticky libovolný text z téměř libovolné oblasti. Důležitou součástí softwaru pro diktování jsou slovníky a k nim přiřazené jazykové modely, které reprezentují frekvence vazeb mezi jednotlivými slovy. Současná verze programu je dostupná s různými typy slovníků vhodnými pro využití v oblasti administrativy, státní správy, justice, medicíny atd. Program je použitelný na standartních PC.
NAKI - ČRo archiv - Zpřístupnění archivu Českého rozhlasu pro sofistikované vyhledávání
Archiv mluvených pořadů Českého rozhlasu je právem označován za jeden z klenotů kulturního dědictví ČR.Obsahuje totiž nejrozsáhlejší sbírku záznamů mluvené češtiny, unikátní svým objemem (v řádu stovek tisíc hodin nahrávek), obsahem (dennodenní komentáře k domácím i světovým událostem) i časovým rozpětím (více než 90 let nepřetržitého vysílání). Prvním krokem záchrany tohoto archivu byla digitalizace záznamů. Druhým krokem je jeho zpřístupnění pomocí nejmodernějších technologií zpracování řeči a textu. To je cílem tohoto projektu, jehož výsledkem bude zpracování významné části archivu (zejména zpravodajských a publicistických pořadů)
ATT (Audio Transcription Toolkit) – systém pro přepis televize a rozhlasu
Vývoj tohoto komplexního systému trval téměř 5 let a vedl přes několik verzí. Výsledkem je systém, který plně automaticky zpracovává požadované pořady (televizní i rozhlasové), přepisuje je do textové podoby a přepisy pak indexuje pro další vyhledávání. Systém se skládá z několika modulů: a) modulu snímání a parametrického zpracování audio signálu, b) modulu pro separaci řeči od zbytku dat, c) modulu detekujícího změny řečníka, d) modulu rozpoznávání a verifikace řečníka, e) modulu adaptace systému na daného řečníka, f) modulu pro rozpoznávání řeči, g) modulu pro textový postprocessing, h) modul indexace dat.
MyVoice 2.0 (2020) - Hlasové ovládání počítače
Program MyVoice 2020 (2.0) je určen pro hlasové ovládání operačního systému MS Windows 10. Je navržen tak, aby bylo možné hlasem provést tytéž úkony, které lze jinak standardně uskutečnit pomocí klávesnice a myši. Hlasem lze tedy jakoby "stisknout" klávesy nebo "pohybovat" myší. Cokoliv lze tedy udělat klávesnicí nebo myší, lze uskutečnit i hlasem. Kromě toho má program předdefinovánu celou řadu skupin povelů, které umožňují jednoduše ovládat nejčastější aplikační programy (Word, Outlook, Internet Explorer....).
MyDictate – program pro izolované diktování slov do počítače
Jeden z reálných výsledků mnohaletého intenzivního výzkumu v oblasti automatického rozpoznávání řeči na TU v Liberci představuje program MyDictate. Tento program byl vyvinut jako účinný doplněk a nadstavba již existujícího programu pro hlasové ovládání počítače (MyVoice) s cílem umožnit plnohodnotný hlasový diktát. Při vývoji programu MyDictate byl brán hlavní zřetel opět na handicapované osoby, které nemohou používat ruce. Výhody diktovacího programu však jistě ocení i další, kteří musí často zadávat text do počítače a přitom nejsou příliš zruční v psaní na klávesnici.
Naše starší projekty (1995-2010):
MobilDictate - Hlasové technologie pro mobilní zařízení
Nejnovější aplikační oblastí řešenou libereckým výzkumným týmem je rozpoznávání řeči v mobilních zařízeních, zejména mobilních telefonech, komunikátorech, PDA a také v různých vestavných miniaturních počítačích. V roce 2009 vzniklo hned několik aplikací hlasových technologií, které jsou použitelné v těchto zařízeních. Program MobilDictate je určený pro PDA a zařízení typu SmartPhone. Zde jsou jeho základní charakteristiky: 1) umožňuje diktování libovolných textů do mobilních přístrojů vybavených operačním systémem Windows Mobile 6, 2) využívá vestavěný mikrofon nebo připojenou (kvalitní) hands-free sadu, 3) celý proces rozpoznávání běží uvnitř přístroje, není tedy nutné připojení ani k telefonní ani k datové síti, 4) první dokončená verze je určena pro češtinu.
Bezdrátové hlasové ovládání domácích zařízení
Projekt vychází ze současných světových trendů, jejichž cílem je usnadnit ovládání domácnosti osobám s různým typem handicapu, či osobám starým. Jako jedno z perspektivních řešení se jeví hlasové ovládání. Aby se dalo co nejsnáze instalovat a aby co nejméně omezovalo uživatele, navrhuje se jako bezdrátové, a to jak ve směru člověk – PC tak i PC – spotřebič. Pro první přenos byla použita technologii Bluetooth, pro druhý kombinace IR a RC (od firmy Jablotron) ovládání. Hlasové technologie je založena na vlastní platformě odvozené ze systému MyVoice.
Program MyVoice pro hlasové ovládání počítače
Program MyVoice byl vyvinut s cílem pomoci zejména handicapovaným lidem v přístupu k počítačové technice a k informačním technologiím. Umožňuje totiž ovládat počítač a na něm instalované programy výhradně pomocí hlasových povelů. Těmito povely lze uskutečnit tytéž akce, k jejichž provedení by jinak byla nutná klávesnice a myš. Nejjednodušší povely simulují stisk konkrétní klávesy či jednoduchou akci myši, složitějšími povely je možné najednou provést sekvenci stisku různých kláves či jiných elementárních akcí. Program umožňuje hlasové ovládání počítače všem osobám, které jsou schopny dobře vyslovovat krátké české povely a zároveň očima sledovat dění na obrazovce počítače. Ovládat lze jakýkoliv program určený pro operační systém MS Windows (od verze 2000 výše).
Prototyp systému pro automatický přepis televizních a rozhlasových pořadů
V rámci tohoto projektu na našem pracovišti vznikl systém, který umožňuje téměř automatický přepis rozhlasových a televizních pořadů. V první fázi jsme se zaměřili na televizní zpravodajské pořady. Systém provádí následující operace: Nejprve rozčlení záznam celého zpravodajského pořadu na části, které obsahují řeč, a na zbytek (zejména hudbu, znělky, atd.) Následně rozčlení jednotlivé zpravodajské příspěvky podle charakteru akustického signálu, zejména na části mluvené různými osobami. U těchto osob lze provést jejich identifikaci, což přichází v úvahu především u moderátorů a často se vyskytujících reportérů či významných osob.
V roce 2003 jsme odborné veřejnosti představili prototyp prvního hlasového diktovacího systému pro češtinu. Jeho omezení spočívalo v tom, že bylo nutné text diktovat slovo po slovu, vždy s krátkou mezerou mezi slovy. Na druhé straně systém pracoval se slovníkem obsahujícím 400 tisíc nejčastějších slov a slovních tvarů, což už je téměř 99 % celé slovní zásoby českého jazyka. Systém též umožňoval hlasem ovládané formátování textu a editaci chybně rozpoznaných slov. V roce 2004 byl tento systém dále rozšířen, zejména co se týče rozsahu slovníku (600 000 slov).
Internetový řečový rozpoznávač
V našem týmu počítačového zpracování řeči SpeechLab na Technické Univetzitě v Liberci byl vyvinut účinný hlasový rozpoznávací software, který dokáže rozpoznávat mluvená izolovaná slova, slovní spojení a částečně i souvislou řeč. Tento rozpoznávací software pracuje s češtinou, která je mnohem složitější z hlediska strojového rozpoznávání než například angličtina, na které byl historicky vývoj prováděn déle a mnohé technologie jsou tedy pokročilejší. Na bázi tohoto rozpoznávače byla veřejnosti představena aplikace INFOCITY, která formou hlasové komunikace poskytuje dopravní, kulturní a sportovní informace obyvatelům a návštěvníkům Liberce. Služba je přístupná po telefonu. Cenné získané informace z několikaletého provozu této aplikace byly použity při dalším výzkumu. Bylo navrženo například grafické vývojové prostředí pro tvorbu obdobných řečových aplikací LOTOS, například hlasová spojovatelka (nepracující s tónovou volbou, ale přímo se jmény přepojovaných osob).
Model umělé počítačové česky mluvící tváře-Chatter
V Laboratoři počítačového zpracování řeči na TU v Liberci v České Republice byl vytvořen plně parametrický model 3-D počítačové mluvící hlavy pro český jazyk. Tento model jsme pojmenovali Chatter. V současné době (2003/2004) optimalizujeme jednotlivé parametry u tohoto modelu pro všechny české fonémy. Pro vylepšení přesnosti celého modelu plánujeme v budoucnu použít českou difónovou a později i trifónovou sadu. V budoucnu také chceme vytvořit test srozumitelnosti. V tomto testu srozumitelnosti chceme zjistit nakolik je tento model česky mluvící počítačové hlavy srozumitelný pro česky mluvícího člověka. Tento model mluvící hlavy bude použit i v našich dalších multimodálních projektech. V multimodálních projektech, kde je použita audio-visuální syntéza řeči, rozpoznávání spojité řeči a dialogový systém.
Prototyp hlasového diktátu do počítače
V rámci tohoto projektu jsme vyvinuli první český systém pro rozpoznávání spojité řeči v češtině. Pracuje v reálném čase se slovníkem až do velikosti 20 000 slov na počítači s procesorem nad 2GHz. Je založen na využití synchronního Viterbiho dekodéru s několika vylepšeními a optimalizačními strategiemi, zejména rychlý výpočet pravděpodobností u spojitých HMM, několikastupňové schéma výběru nejslibnějších hypotéz a paralelní implementace celého systému. Přepis vyřčené promluvy se na obrazovce objeví do 1 sekundy od jejího skončení. Pokud ve větě nejsou slova mimo slovník, bývá rozpoznávací skóre kolem 80 %.
Lotos-grafický návrh hlasové dialogové aplikace
V roce 2000 byl v Laboratoři počítačového zpracování řeči na Technické univerzitě v Liberci zahájen projekt LOTOS. Jeho cílem bylo vytvořit grafický systém pro návrh počítačem řízených dialogů. Zpočátku šlo především o vymezení a ověření možností grafické platformy. Výsledkem více než roční práce je nyní produkt, který dokázal nahradit původní, skriptem ovládaný systém UNDIS. Při vývoji systému LOTOS se podařilo splnit oba hlavní cíle: vytvořit snadno ovládané prostředí pro rychlou tvorbu a editaci dialogů a zároveň rozšířit možnosti návrhu skutečných dialogových aplikací, zejména těch, které pracují po telefonu. LOTOS je zároveň otevřeným prostředím, které zaručuje rozšiřitelnost pomocí externích modulů (Plug-In).
Rozmluva s virtuální osobností-Projekt Švejk
V roce 2002 byl vytvořen program Švejk, který umožňuje oboustrannou hlasovou komunikaci mezi člověkem a počítačem. V tomto programu jsou současně použity technologie rozpoznávání spojité řeči, český TTS syntetizátor řeči-vytvořený v Ústavu Radioelektroniky v Praze a umělá 3-D počítačová mluvící hlava. Dále byl použit dialogový systém se zpracování textu na základě zachytávání klíčových slov, tento systém vylepšoval robustnost rozpoznávání řeči a inteligentně vybíral odpovědi na kladené dotazy. Jako virtuální osobnost byla použita velmi známá literární postava dobrého vojáka Švejka.
S rozvojem výpočetní techniky se vědci a programátoři snaží přiblížit novou techniku nejširší veřejnosti. Snahou je, aby různé komunikační systémy komunikovali s člověkem co možná nejpřirozenějším způsobem. Jedním z takových systémů je Baldi. Baldi je revoluční mluvící tvář, jejíž 3-D pohyby rtů, jazyka a čelistí jsou velice blízké lidským. Program Baldi je součástí programového balíku „CSLU" vyvinutého na kalifornské Univerzitě v Santa Cruz a tento program měl pomáhat sluchově postiženým dětem při výuce vyslovování.
Informace po telefonu - INFOCITY
Současné trendy naznačují, že jednou z nejslibnějších aplikačních oblastí začínají být hlasové informační a komunikační služby uskutečňované po telefonu. Jejich výhodou je to, že mohou být provozovány automaticky, bez nutnosti lidské obsluhy i bez požadavku na speciální telefonní přístroje, v kteroukoliv denní a noční dobu a často i v paralelním režimu. Navíc mohou obsáhnout široké spektrum informací i dalších činností jako je např. rezervace jízdenek či letenek, bankovní operace, apod. Na libereckém pracovišti byl v letech 1997-98 vyvinut telefonního informačního systému nazvaného INFOCITY. Umožňuje člověku, aby prostřednictvím telefonu získal informace, které mohou zajímat obyvatele či návštěvníky Liberce.
Výukový a experimentální systém pro výzkum v oblasti rozpoznávání řeči - VISPER
Specifickou doménou libereckého pracoviště je také vývoj prostředků, které jsou určeny pro seznámení s problematikou počítačového zpracování řeči i pro její hlubší studium. Patří sem nástroje umožňující analyzovat a graficky interpretovat řečový signál v časové a frekvenční rovině a sofistikované vizualizační a animační programy osvětlující principy nejdůležitějších metod používaných při rozpoznávání řeči. S největším úspěchem se zatím setkal systém nazývaný Visual Markov, určený k demonstraci a k pochopení techniky skrytých markovských modelů (HMM). V roce 1997 jsme odborné veřejnosti představili kompletní výukový a experimentální systém nazvaný VISPER určený pro PC.
Výuka řeči a cizího jazyka - VICK
V letech 1998-99 jsme dále pokračovali ve vývoji pomůcek usnadňujících nácvik výslovnosti u neslyšících, ale též u lidí učících se cizí jazyk. Program VICK ji může pomoci tím, že zobrazuje řeč žáka spolu se stejným typem promluvy nahrané rodilým mluvčím. Program umožňuje porovnávat oba signály a identifikovat oblast, kde se žák nejvíce liší od učitele - a to jak ve výslovnosti, tak i v intonaci, případně v dalších parametrech. Možnosti systému VICK byly ověřovány na několika modelových úlohách, např. nácvik správné výslovnosti u nelyšících dětí, zvládnutí výslovnosti slov v exotickém cizím jazyce (vietnamština), nácvik výslovnosti a správné intonace v angličtině.
Mezi hlasovým ovládáním programů provozovaných pouze na obrazovce počítače a řízením reálných strojů je stále ještě velký rozdíl. Zejména tehdy, jde-li o mechanické a pohybující se zařízení, vyvstává řada nových problémů. Především je nutná ještě vyšší spolehlivost klasifikace slovních povelů, neboť při chybě hrozí např. vyjetí z dráhy, opuštění vymezeného prostoru či srážka s předmětem. Kritické je i hledisko rychlosti zpracování, protože na opravné či zpětné povely často nezbývá dostatek času. Dalším problémem je hluk produkovaný pohony a mechanickými převody.
Další ze zajímavých aplikací navržených na Technické univerzitě v Liberci je systém vizuální zpětné vazby pro nácvik řeči neslyšících, jejichž hlavním handicapem je ztráta zpětné akustické kontroly. Jeho účelem je dát neslyšícímu člověku a jeho pedagogovi nástroj, který umožní zachytit řeč v paměti počítače a okamžitě zobrazit její průběh i některé z důležitých řečových parametrů. Navíc poskytuje možnost vizuálně tato data porovnat s daty odpovídajícími promluvám až tří dalších mluvčích. To, že je na obrazovce k dispozici v každém okamžiku větší počet referenčních průběhů, je velice důležité.
V roce 1996 byla v Liberci navržena a vyzkoušena možnost úplné hlasové náhrady klávesnice. Program WinVoice dává svému uživateli nástroj k ovládání prostředí MS Windows a jeho aplikací pomocí hlasu. Jeho výhoda spočívá v tom, že k provedení libovolné akce v tomto prostředí je třeba slovníku s rozsahem ne větším než 130 slov. Jsou-li modely náležející k tomuto slovníku předem natrénovány, může kdokoliv okamžitě ovládat prakticky jakoukoliv aplikaci. Při prezentacích byla předváděna např. práce s Manažerem souborů, s Kalkulátorem, psaní ve Wordu či v Excelu.
Řada graficky orientovaných aplikací se později rozrostla o ukázky několika her řízených hlasem. Šlo o to prakticky vyzkoušet, zda by bylo možné využít hlasového ovládání jako pomůcky pro tělesně postižené, speciálně pro děti. Jednou z těchto her je Omalovánka. Uživatelsky jednoduchý design umožňuje dítěti vybrat si některý z připravených černobílých obrázků a podle libosti jej vybarvit. Stačí jen hlasem řídit pohyb kurzoru ve tvaru malé tužky a pro vybranou uzavřenou plochu určovat barvu a její odstín. Testy ukázaly, že podobný typ hry je i pro malé děti (od 4 let) dobře srozumitelný a je vítán zvláště těmi, kterým tělesné postižení či nemoc nedovoluje normální práci s počítačem.
K tradičním cílům vývojových aktivit v oblasti automatického zpracování řeči patří systémy nabízející obousměrnou hlasovou komunikaci s počítačem. Liberecký systém INFOBUS, představený odborné veřejnosti v roce 1995, byl zřejmě první aplikací tohoto druhu vyvinutou v České republice. Umožňoval získat informace o přímém autobusovém spojení mezi Libercem a ostatními městy a obcemi. Požadované informace byly poskytovány na základě dialogu mezi počítačem a uživatelem, který svými odpověďmi na otázky kladené systémem specifikoval své požadavky na cíl, den a přibližný čas spojení.
První praktickou aplikací byl hlasem ovládaný systém Voice-CAD vyvinutý v roce 1994. Systém umožňoval tvorbu jednoduchých výkresů vycházejících z několika základních geometrických tvarů. Z těchto tvarů bylo možné vytvářet objekty a ty pak libovolně přemisťovat a upravovat co do rozměrů a barevného provedení. Celá aplikace byla ovládána 33 slovními povely rozdělenými do funkčních skupin aktivovaných podle kontextu. Kontextově závislé menu usnadňovalo práci nejen uživateli ale též systému tím, že zužovalo aktuální soubor potenciálních kandidátů při klasifikaci.