Vývoj tohoto komplexního systému trval téměř 10 let a vedl přes několik
verzí. Výsledkem je systém, který
plně automaticky zpracovává požadované pořady (televizní i rozhlasové), přepisuje je do textové podoby a přepisy pak indexuje pro další vyhledávání. Systém se skládá
z několika modulů: a) modulu snímání a parametrického zpracování audio signálu, b) modulu pro separaci řeči od zbytku dat, c) modulu detekujícího změny řečníka, d) modulu rozpoznávání
a verifikace řečníka, e) modulu adaptace systému na daného řečníka, f) modulu pro rozpoznávání řeči, g) modulu pro textový postprocessing, h) modul indexace dat.
Celý systém
nyní pracuje se slovníkem obsahujícím 500.000 slov a tomu odpovídajícím jazykovým modelem (natrénovaném na cca 20 GB textových dat). Modul rozpoznávání
řečníka pracuje s databází cca 500 nejznámějších osob ČR. Přepis může být prováděn jak off-line, tak i on-line. Ve specifickém módu lze přímo v reálném čase (se
zpožděním cca 2-5 s) vypisovat na obrazovku titulky.