Zpřístupnění archivu Českého rozhlasu pro sofistikované vyhledávání
Projekt řešený v rámci programu NAKI vyhlášeného Ministerstvem kultury
ČR v roce 2010
Identifikace projektu: DF11P01OVV013
Období řešení: 2011 - 2014
Řešitelské pracoviště: Technická univerzita v Liberci, Fakulta mechatoniky, informatiky
a mezioborových studií (FM) ve spolupráci s Fakultou přírodovědně-humanitní a pedagogickou (FP)
Řešitelský tým: 11 vědeckých a odborných pracovníků z Ústavu
informačních technologií a elektroniky a 3 vědečtí a odborní pracovníci Katedry českého jazyka a literatury
Vedoucí řešitel: prof. Ing. Jan Nouza, CSc.
Základní schéma systému pro zpřístupnění archivu ČRo. Tvoří ho
- webová uživatelská aplikace, umožňující hledání a přehrávání nalezených záznamů
- stream server, poskytující přístup k audiozáznamů
- nástroje pro hromadný přepis a indexaci archivních záznamů
- databáze přepisů spolu s vyhledávacím serverem
Anotace projektu:
Archiv mluvených pořadů Českého rozhlasu je právem označován za jeden z klenotů kulturního dědictví ČR. Obsahuje totiž nejrozsáhlejší sbírku záznamů mluvené češtiny, unikátní svým objemem (v řádu stovek tisíc hodin nahrávek), obsahem (dennodenní komentáře k domácím i světovým událostem) i časovým rozpětím (více než 90 let nepřetržitého vysílání). Prvním krokem záchrany tohoto archivu byla digitalizace záznamů. Druhým krokem je jeho zpřístupnění pomocí nejmodernějších technologií zpracování řeči a textu. To je cílem tohoto projektu, jehož výsledkem je zpracování významné části archivu (zejména zpravodajských a publicistických pořadů) metodami počítačového přepisu řeči, uložení těchto přepisů doplněných o řadu detailních informací do databáze a umožnění neomezeného vyhledávání v této databázi způsobem obdobným jako u textových dokumentů (tzv. full-text search). Vytvořením komplexní softwarové technologie, zahrnující moduly zpracování audiosignálu archivních nahrávek, rozpoznávání řeči a řečníka, zaindexování přepisů do databáze, editoru a webového přehrávače, vznikl portál, který umožňuje nalezení libovolného slova či slovního spojení v archivu obsahujícím sto tisíc hodin záznamů, a to během několika sekund. Uživateli této unikátní technologie jsou především pracovníci Českého rozhlasu, jimž významným způsobem usnadňuje redakční práci. Potenciálními uživateli mohou být též historici, kteří tímto způsobem získají okamžitý a interaktivní přístup k archivním pramenům, či jazykovědci, pro něž bude takto zpřístupněný archiv zdrojem pro studie týkající se vývoje různých aspektů českého jazyka za posledních 90 let, a v neposlední řadě i vzdělávací instituce a odborná veřejnost.
Současný stav řešení projektu:
Práce na projektu byly dokončeny v roce v roce 2014, kdy byly zprovozněny všechny klíčové komponenty systému. Ve spolupráci s Českým rozhlasem (zejména s oddělením archivu ČRo) byly vytipovány pořady vhodné pro zpracování a tyto byly přeneseny na pracoviště řešitele. Jedná se o cca 100 000 hodin záznamů pokrývajících vysílání Českého a Československého rozhlasu od 20. let 20. století až do současnosti. V rámci řešení projektu byly nahrávky uloženy do obrovské zvukové databáze čítající několik stovek tisíc jednotlivých záznamů o celkovém objemu 6,5 terabajtů dat. Data jsou uložena roztříděna podle roku vysílání a dále podle stanic a pořadů. V rámci předzpracování a standardizace byla převedena do jednotného zvukového formátu. Následně byly aplikovány metody zpracování signálů (zaměřené na alespoň částečné potlačení šumu, komprese a dalších artefaktů spojených s jejich předchozích způsobem záznamu a uložení). Další kroky zpracování spočívaly v automatickém přepisu záznamů, v nichž byl nasazen systém rozpoznávání řeči vyvinutý na řešitelském pracovišti v posledních 15 letech a adaptovaný pro účely přepisu rozhlasových nahrávek, a to jak současných tak i historických. Jedním z důležitých kroků je identifikace dvou nejčastějších jazyků používaných v záznamech, a to češtiny a slovenštiny. V rámci projektu byl navržen a implementován modul, který tuto automatickou identifikaci umožňuje. Vlastní automatický přepis pak probíhá zvlášť pro segmenty, v nichž se mluví česky, a zvlášť pro slovensky mluvené části pořadů. Pro češtinu je používán slovník s cca 560 tisíci nejčastěji používanými slovy a slovními tvary, který byl v průběhu řešení projektu průběžně doplňován o slova specifická pro rozhlasové vysílání, a dále o nejčastější slova a vlastní jména používaná v předchozích historických obdobích (zejména v mezi roky 1945 až 1989). Rozšiřování slovníku a adaptace tzv. jazykového modelu představovalo samostatnou větev výzkumu, která si vyžádala velký objem pomocných prací spojených se získáváním a digitalizací historických textů (zejména archivních výtisků novin), které posloužily k nalezení historicky podmíněných slov a jejich kontextu. Modul určený pro přepis slovenštiny byl řešený podobným způsobem a pracuje se slovníkem s cca 310 tisíci slovy. Další úlohou řešenou v rámci projektu je identifikace mluvících osob podle hlasu tak, aby se u nejčastěji vyskytujících mluvčích mohlo objevit jejich jméno. Modul, který tuto úlohu realizuje, má ve své databázi cca 7300 osob, jejichž hlas je schopen identifikovat. Pro zlepšení přesnosti přepisu jsou využívány i další pomocné moduly, které se snaží identifikovat např. hudbu, a tu pak vyjmout z dalšího zpracování, nebo modul, který identifikuje telefonní řeč a pro její přepis pak používá speciálně adaptované komponenty přepisovacího systému.
Proces přepisu jednoho archivního záznamu je velmi složitou úlohou, na které se podílí několik vzájemně propojených modulů. I při nasazení nejrychlejších
a výpočetně optimalizovaných technologií (všechny byly vyvinuté na řešitelském pracovišti) trvá přepis jedné hodiny záznamu přibližně čtyřnásobek času. Zpracování
cílového objemu cca 100 tisíc hodin záznamů si vyžádalo přibližně 400 tisíc hodin výpočetního času. Toto by nebylo možné bez paralelního nasazení několika desítek
moderních počítačů, což bylo realizováno tak, že do přepisu bylo zapojeno několik počítačových učeben na TUL, které byly využívány v době mimo výuku.
Schéma systémů a jeho modulů pro přepis archivních dokumentů - podrobnosti v článku
Hotové přepisy jsou následně uloženy do obrovské databáze, v níž je zvlášť zaindexováno každé rozpoznané slovo a to včetně přesné časové lokalizace (v řádu desítek milisekund) v rámci každého dokumentu. Tím je umožněno nejen nalezení hledaného slova, ale i okamžitý přístup k místu dokumentu, kde se slovo vyskytuje.
Z hlediska budoucího uživatele je pak nejdůležitější částí systému vyhledávací program. V něm je možné zadat hledané slovo či kombinaci slov, a dále podmínky pro hledání (např. časové období, název stanice či pořadu, jméno mluvící osoby). Po odeslání dotazu je během několik sekund vytvořen seznam pořadů, kde se hledaný výraz vyskytuje. Seznam je možné seřadit podle různých kritérií, např. podle relevance, času, apod. Uživatel má možnost rychle nahlédnout do té části přepisu, kde byl daný výraz detekován, a to pouhým najetím kurzoru na časovou značku označující výskyt slova na časové ose. Chce-li uživatel vidět kompletní přepis a slyšet konkrétní část záznamu, klikne na dané slovo a tím se dostane do režimu prohlížení konkrétního dokumentu. Zde může klikat na libovolná slova a poslouchat příslušné části dokumentu - viz video.
Uživatelské rozhraní pro vyhledávání v archivu
Vyhledávací systém v režimu přehrávání konkrétního pořadu s vyznačenými nalezenými slovy
Během čtyřleté práce na projektu se podařilo významným způsobem zvýšit přesnost automatického přepisu, a to jak nasazením nejmodernějších metod rozpoznávání řeči, tak i tím, že se systém postupně učil a adaptoval na specifický zvukový i řečový charakter archivních záznamů. Přesnost přepisů přesto závisí na mnoha faktorech, z nichž nejdůležitější jsou
- způsob mluvené řeči (na jedné straně mluva profesionálních redaktorů, na opačné straně pak spontánní nespisovné promluvy náhodně oslovených osob na ulici),
- kvalita záznamu (na jedné straně moderní zvukotěsné studio vybavené kvalitním mikrofonem, na druhé straně pak např. zahraniční telefonát, sportovní přenos nebo třeba 80 let starý archivní záznam),
- způsob uložení dat v rozhlasovém archivu (na jedné straně kvalitní bezeztrátově komprimovaný soubor, na druhé straně pak záznam slyšitelně zkreslený nevhodně zvolenou ztrátovou kompresí)
- téma a doba vzniku konkrétního zvukového příspěvku (příspěvky, které obsahují velmi specifické, odborné či historicky podmíněné výrazy a slovní spojení mají mnohem menší šanci na kvalitní přepis, protože slova v nich obsažená nemusí být součástí slovníku, byť se v tomto projektu jedná o dosud největší slovník použitý kdy pro automatický přepis češtiny (s cca 560 tisíci slovy).
Rozsáhlé testování ukázalo, že nejvyšší průměrné přesnosti (kolem 90 %) je dosahováno u zpravodajských pořadů, u nichž je kvalita záznamu i styl mluvené řeči na nejvyšší úrovni. Horší výsledky přepisů se zákonitě objevují u o záznamů rozhovorů (kvůli častějšímu používání nespisovné mluvy a rovněž v úsecích, kdy si osoby "skáčou do řeči") , u telefonátů, sportovních přenosů a zejména u nekvalitně nahraných či uložených historických záznamů. U těchto audiozáznamů může být přesnost přepisu významně nižší a ani nejmodernější metody rozpoznávání řeči ji zatím neumějí výrazně zlepšit. Podrobná analýza chyb však ukázala, že mnohé nepřesnosti přepisu souvisí s chybným rozpoznáním (záměnou, vynecháním nebo vložením) krátkých slov, nejčastěji spojek a předložek, případně s chybně rozpoznanou koncovkou slova. Tento typ chyb naštěstí nemá kritický dopad na hlavní cíl projektu, tedy na umožnění vyhledávání, neboť funkční či pomocná slova (např. spojky či předložky) nebývají předmětem vyhledávání. Vliv špatně rozpoznané (a v mnoha případech i špatně vyslovené) koncovky se dá úspěšně eliminovat tím, že při vyhledávání použije hvězdička na místě koncovky (např. Evropsk* uni*).
Vybrané statistiky ilustrující obrovský objem provedených prací a přepsaných dat:
Ukazatel |
Hodnota |
Celkový objem přepsaných a zaindexovaných dat (hodiny) |
102.953 |
Celkový objem přepsaných a zaindexovaných dat (terabajty) |
6,5 |
Počet stanic ČRo, jejichž pořady byly přepsány a zaindexovány |
20 |
Počet různých pořadů, které byly přepsány a zaindexovány |
326 |
Počet audiodokumentů, které byly přepsány a zaindexovány |
213.453 |
Počet všech zaindexovaných slov |
469.976.314 |
Počet různých zaindexovaných slov |
790.530 |
Počet různých zaindexovaných mluvčích |
7.293 |
Celkový datový objem vytvořených a zaindexovaných textů (GB) |
95 |
Celkový počet PC podílejících se na přepisech |
49 |
Odhad celkového objemu výpočetního času za 4 roky (hodiny) |
1.500.000 |
Publikace vzniklé v rámci řešení projektu:
2014
Realizované aplikované výstupy projektu:
Hlavní výstup R - unikátní softwarová technologická platforma pro přepisy archivů historických i současných pořadů ČRo a jejich zpřístupnění pomocí webu je již v provozu. Jedná se o skutečně komplexní a rozsáhlou platformu zahrnují několik výkonných serverů a využívající též univerzitní výpočetní klastr, kterou řídí několik desítek softwarových modulů. Pro přístup do vyhledávací aplikace je po dohodě s ČRo vyžadována registrace.
Pracovníci ČRo využívají tuto aplikaci již od poloviny roku 2014 a použili ji např. při vyhledávání dobových dokumentů pro aktuálně běžící program Znovu89, který mapuje dění v roce 1989 prostřednictvím archivních nahrávek z dané doby.
Celá platforma se skládá z několika desítek vzájemně propojených modulů, z nichž některé bylo nutné vyvinout specificky pro tento projekt.
Jedná se moduly:
R – Softwarový modul pro rozpoznávání a přepis slovenštiny v archivech mluvené řeči. Ten řeší detekci a následně i přepis slovensky mluvených částí
dokumentů.
R – Softwarový modul pro rozpoznávání osob podle hlasu v archivních záznamech. Jedná o modul, který využívá předem naučené
akustické profily cca 7300 osob a snaží se je na základě toho identifikovat.
R – Prezentační webová aplikace pro testování přístupu k archivu. Jedná
o interaktivní webovou aplikaci. V ní lze zvolit podmínky pro vyhledávání a získat přehled nalezených
dokumentů. Kliknutím na dokument nebo na jeho časovou osu s vyznačením pozice hledaného slova se lze dostat do režimu, kdy je nalezená část přehrávána. Tato aplikace má řadu možností, jak
ji efektivně využívat, které jsou popsány ve stručném manuálu v záložce.
R – Editor přepisů pořízených systémem pro automatické rozpoznávání řeči.
Editor umožňuje uživatelům (se zvláštním oprávněním, nejčastěji redaktorům ČRo) efektivním způsobem opravovat vybrané části přepisů. Editor lze vyvolat ve výše uvedené aplikaci
ve chvíli, kdy je zobrazen a přehráván konkrétní pořad.