Hírek
Az elektronikus beszédfelismerés lehetőségei
Hamarosan egy telefontársaság ügyfélszolgálatának munkáját könnyíti meg az a beszédfelismerő rendszer, amelynek adatbázisát az MTA Nyelvtudományi Intézete készíti el. Az intézmény Fonetikai Osztályán három éve kezdték el egy olyan beszélt nyelvi adatbázis építését, amely jó alapot szolgáltat a MonSpeech nevű szoftver elkészítéséhez. A két év alatt, 218 millió forintból kifejlesztendő beszédfelismerő rendszer a telefonos ügyfélszolgálati munka minőségbiztosítási ellenőrzésében segít, de az emberi munkát egyelőre nem váltja ki.
- Már több száz órányi hanganyag áll rendelkezésére azoknak a kutatóknak, akik részt vesznek az Európai Regionális Fejlesztési Alapból finanszírozott projekt megvalósításában – mondta az mta.hu-nak Váradi Tamás pályázati és innovációs igazgatóhelyettes. A Montana Tudásmenedzsment Kft. által koordinált munkában az MTA Nyelvtudományi Intézet mellett részt vesz a THINKTech Kutatási Központ, valamint a Budapesti Műszaki és Gazdaságtudományi Egyetem Távközlési és Médiainformatikai Tanszéke (BME TMIT). A kutatásfejlesztési projekt központi elemét képező beszédfelismerő rendszer a BME TMIT és az intézet együttműködésében valósul meg. A TMIT által kifejlesztett általános beszédfelismerő szoftver eszközhöz az intézet szolgáltatja a magyar nyelv
- A MonSpeech készítése során két adatbázist kell létrehozni: egy általánost, valamint egy az ügyfélszolgálat munkájához illeszkedő specifikust. Az előbbi, a Beszélt nyelvi adatbázis önmagában is tudományos értékkel bír, mivel a magyar beszédre vonatkozó minden további kutatáshoz szilárd empirikus alapként szolgál. Elkészítése igen nagy munkát igényel – hangsúlyozta Váradi Tamás, hozzátéve, hogy egy óra hangfelvétel gondos lejegyzése és elemzése tízszer annyi időbe telik. Az intézet eddig kilencven úgynevezett adatközlő személlyel készített felvételeket saját laboratóriumában, ahol stúdió minőségű hangrögzítésre van lehetőség. A már jelenleg is több száz órányi felvett hanganyagból mintegy hetvenórányi a már feldolgozott anyag hossza.
A Fonetikai Osztályon készített adatbázisból a Műszaki Egyetem munkatársai egy úgynevezett nyelvi modellt állítanak elő, amely a beszédfelismerő rendszert vezérli, azaz a beszédadatbázisban talált statisztikai valószínűségek alapján irányítja a szavak felismerését. - A beszédünkben egymás után előforduló szókapcsolatok gyakorisága egyetlen szótárban vagy nyelvtani leírásban sem szerepel – mutatott rá az adatbázis jelentőségére és hasznára az igazgatóhelyettes.
A Montana által koordinált projekt 2012 márciusáig tart, a Nyelvtudományi Intézet azonban ezután is folytatja majd az adatbázis-építést. Az elkövetkezendő két évben létrejön egy jó hatásfokkal működő beszédfelismerő rendszer, amely a telefonos ügyfélszolgálati munkatárs munkáját nem váltja ugyan ki, de segíti a részleg minőségbiztosítását. Az ügyfelek tehát a jövőben sem robotokkal beszélgetnek, hanem valódi emberekkel, a beszélgetések ellenőrzése azonban – amely eddig csak szúrópróbaszerűen működött – általánossá válhat, az ügyfélszolgálat munkájáról pedig pontos, tematikus összefoglalók készíthetők. Váradi Tamás példaként említette, hogy a rendszer felismeri, ha egy ügyfél ingerülten beszél, vagy azt, ha olyan téma kerül szóba, amely a vállalaton belül magasabb szintű ügyintézést kíván, de képes lesz a beszélgetések témánkénti csoportosítására is.
A további kutatási lehetőségekről szólva Váradi Tamás kiemelte: a közeljövőben nem tartja elképzelhetőnek azt, hogy egy viszonylag kötetlen, széles témaválasztékot lehetővé tevő ügyfélszolgálat alkalmazottjának munkáját beszédfelismerő rendszerekkel váltsák ki. Egyszerűbb, úgynevezett kötöttebb ügyintézés, például jegyvásárlás vagy helyfoglalás esetében ugyanakkor alkalmazhatónak tartja a rendszert. Hozzátette azonban, hogy a jelenlegi szoftver specifikusan a partnercég igényei szerint készül, azaz a kiegészítő nyelvi adatbázist minden esetleges újabb igénylő számára el kell készíteni. Szavai szerint a kötöttebb alkalmazás néhány év fejlesztés alatt megvalósítható. Könnyíti a munkát, ha a felhasználók köre behatárolt, például kizárólag egy vállalat munkatársainak beszédét kell felismerhetővé tenni, ilyenkor ugyanis csak tőlük kell hangmintát venni. Egy általános beszédfelismerő rendszernek ugyanakkor ki kell szűrnie a háttérzajokat, és fel kell készülnie arra, hogy a legkülönbözőbb orgánumú személyek széles körének beszédét is megértse.
-et-






