Baldi mluví česky (2001)
S rozvojem výpočetní techniky se vědci a programátoři snaží přiblížit novou techniku nejširší veřejnosti. Snahou je, aby různé komunikační systémy komunikovali s člověkem co možná nejpřirozenějším způsobem. Jedním z takových systémů je Baldi. Baldi je revoluční mluvící tvář, jejíž 3-D pohyby rtů, jazyka a čelistí jsou velice blízké lidským. Program Baldi je součástí programového balíku „CSLU" vyvinutého na kalifornské Univerzitě v Santa Cruz a tento program měl pomáhat sluchově postiženým dětem při výuce vyslovování. Tento programový balík je možno nalézt na internetových stránkách http://cslu.cse.ogi.edu/toolkit. V ovládacím programu (Baldi) lze nastavit několik národních jazyků. Baldi umí komunikovat, prostřednictvím synteticky vytvořené řeči (nebo přirozené - nahrané mikrofonem), anglicky a španělsky, ale ne česky. Primárním úkolem bylo naučit mluvit Baldiho česky.
Dosavadní program pro mluvící tvář (Baldi) řešil dvě úlohy: Baldi mluví „syntetickým" hlasem, nebo reprodukuje řeč, jenž byla nahrána do počítače pomocí mikrofonu, přes zvukovou kartu. V obou případech však musí být znám fonetický popis věty, kterou Baldi vysloví nebo která je do počítače nahrána. U Baldiho můžeme sledovat pohyb jednotlivých řečových orgánů (ústa-mimika, rty, zuby, jazyk). To je velmi vhodné pro výuku řeči. Baldi může pomoci sluchově postiženým lidem nebo lidem s poruchou řeči (logopedické účely) naučit se mluvit. Další využití má mluvící tvář v různých informačně-komunikačních systémech, kde pomáhá zesrozumitelnit syntetický hlas (v hlučném prostředí-nádraží, městský ruch). S využitím technologie jako je Baldi a při použití hlasového syntetyzátoru a rozpoznávání řeči a textu lze vytvářet interaktivní knihy, které mohou pomáhat učit děti a cvičit jejich výslovnost. Další využití tohoto systému by mohlo zahrnovat i vytvoření 3-D agentů pro rychlé občerstveni nebo pro bankomaty. Takový systém by rozpoznával lidskou řeč a smysluplně by odpovídal na kladené otázky.
Existující program pro práci s Baldim je psán v TCL skriptu. Tento skript není zkompilován, ale má podobné vlastnosti jako interpretační programovací jazyk. S tím jsou tedy spojeny i jisté obtíže (pomalá odezva na akce uživatele atd). Pokud chceme, aby Baldi promluvil a stiskneme příslušné tlačítko, uplyne jistá doba (několik sekund-odvislé od rychlosti počítače) než Baldi promluví. Nevýhodou je i že celý program sestává z několika stovek souborů a změnit lze jen některé jeho části. Nejprve jsem se snažil přepsat původní skript a to tak, že do původního programu byl vložen podprogram, který přepisoval českou větu do anglické fonémové podoby. Úkolem tedy bylo přemapovat jednotlivé české fonémy na anglické, které jsou v řídícím programu (Baldiho) použity. Přemapování muselo být korektní, jak po stránce fonémové, tak především po stránce visuální (Baldi). Problémy nastaly s některými českými fonémy, které nemají v angličtině adekvátního oponenta. Jsou to především fonémy c, dz, ď, ch, ň, o, ť a typicky české ř. Pokusil jsem se tedy namapovat tyto speciální české fonémy na co nejbližší české ekvivalenty, které již lze přemapovat na anglické (c->č, dz->č, ď->d, ch->h, ň->n, ť->t , ř->r). Největší problém byl s českým fonémem o. Později se však ukázalo, že v programu Baldi je použit podobný foném ">" (log-[l > gc g] "kmen").