A Microsoft a Bábel-halon dolgozik

A Microsoft Research kutatói a múlt héten egy olyan technológiát mutattak be, mely képes bárki hangján egy másik nyelven megírt vagy elmondott szöveget megszólaltatni – vagyis egy fordítóprogrammal kombinált beszédszintetizátort.

A cég redmondi campusán a szoftver társtervezője, Frank Soong (a fejlesztésben a pekingi laboratórium munkatársai segítették), illetve a Microsoft egyik kutatási vezetője, Rick Rashid demózták a technológia jelenlegi képességeit: például azt mutatták be, hogy egy adott szöveget hogyan mondana el Rashid spanyolul, illetve azt, hogy a Microsoft stratégiai kutatási vezetője, Craig Mundie hogyan beszélne mandarin nyelven.

 

A fejlesztők szerint számtalan helyen felhasználható a technológia, például egy turista számára külföldön: a beszédfelismerő azonosítja a saját nyelvű szöveget, a fordító átteszi a másik nyelvre szöveges változatban, majd az illető saját hangján képes az adott nyelven egy eszközzel visszaadni. Soong megemlítette azt is, hogy a nyelvtanuláskor is hasznos lehet, mivel a saját hangon hallgatott idegen kifejezés, mondat könnyebben megtanulható. De valószínűleg az okostelefonok navigációs alkalmazásinak is javítható vele a minősége, mivel a technológia képes arra, hogy gond nélkül elmondja angolul egy utazónak, hogy a pekingi utcákon milyen szöveges közlekedési táblák, illetve útburkolati jelek találhatóak.

Ahogy látható, többlépcsős folyamatról van szó: a nagy jövőjű fordítóeszközök kialakításához szükség van a Microsoftnál már nagyon régen fejlesztett hangfelismerési technológiára, hogy jó minőségű szöveg jöjjön létre, amit a most bemutatott módszerrel képesek a felhasználó saját hangján idegen nyelven elhangzó szöveggé szintetizálni.

A rendszernek jelenlegi állapotában körülbelül egyórás betanításra van szüksége: ennyi ideig kell beszélni „hozzá”, hogy megfelelő minőségben tudja előállítani a felhasználó hangjellegzetességeit, ezek után bármilyen szöveg felolvastatható vele azon a hangon. A következő beállítási lehetőség, hogy egy másik nyelven írott szöveggel teszi ugyanezt egy a fordítóprogram segítségével, a fejlesztés mostani fázisában 26 nyelvet tud kezelni a rendszer. A bemutató alapján állítható, hogy most még kissé gépies a végeredmény, ám a hangok már egyértelműen azonosíthatóak, és a következő évek finomhangolásai valószínűleg hamarosan meghozzák a kívánt minőséget.

Azóta történt

Előzmények