Hírlevél
A tudománydiplomácia hírei
Fennállásának 350. évét ünnepli a Royal Society, a világ legrégebben működő akadémiája. A szervezet ünnepélyes közgyűlésén részt vett Pálinkás József, az MTA elnöke, aki angliai látogatásán találkozott az Oxfordi Egyetemen kutató magyar tudósokkal is.
Három fő területen lesz szüksége a politikusoknak tudományos megalapozottságú iránymutatásra a következő években – nyilatkozta az mta.hu-nak az európai akadémiákat tömörítő szervezet új elnöke, Sir Brian Heap.
A klímaváltozás és a fertőző betegségek terjedésének összefüggéseit feltáró kutatássorozat megállapításait tartja az Európai Akadémiák Tudományos Tanácsadó Testülete egyik legjelentősebb eredményének Volker ter Meulent, a szervezet leköszönő elnöke.
Együttműködési megállapodásról szóló jegyzőkönyvet írt alá a Magyar Tudományos Akadémia- és a Kínai Társadalomtudományi Akadémia elnöke.

Hírek

2010.07.29.
vissza

Az elektronikus beszédfelismerés lehetőségei

Hamarosan egy telefontársaság ügyfélszolgálatának munkáját könnyíti meg az a beszédfelismerő rendszer, amelynek adatbázisát az MTA Nyelvtudományi Intézete készíti el. Az intézmény Fonetikai Osztályán három éve kezdték el egy olyan beszélt nyelvi adatbázis építését, amely jó alapot szolgáltat a MonSpeech nevű szoftver elkészítéséhez. A két év alatt, 218 millió forintból kifejlesztendő beszédfelismerő rendszer a telefonos ügyfélszolgálati munka minőségbiztosítási ellenőrzésében segít, de az emberi munkát egyelőre nem váltja ki.

- Már több száz órányi hanganyag áll rendelkezésére azoknak a kutatóknak, akik részt vesznek az Európai Regionális Fejlesztési Alapból finanszírozott projekt megvalósításában – mondta az mta.hu-nak Váradi Tamás pályázati és innovációs igazgatóhelyettes. A Montana Tudásmenedzsment Kft. által koordinált munkában az MTA Nyelvtudományi Intézet mellett részt vesz a THINKTech Kutatási Központ, valamint a Budapesti Műszaki és Gazdaságtudományi Egyetem Távközlési és Médiainformatikai Tanszéke (BME TMIT). A kutatásfejlesztési projekt központi elemét képező beszédfelismerő rendszer a BME TMIT és az intézet együttműködésében valósul meg. A TMIT által kifejlesztett általános beszédfelismerő szoftver eszközhöz az intézet szolgáltatja a magyar nyelv

Gósy Mária
Gósy Mária
sajátosságait rögzítő, nagyméretű adatbázist. Az intézet Fonetikai Osztálya, Gósy Mária vezetésével, három éve dolgozik a Beszélt nyelvi adatbázis (BEA) létrehozásán. A kutatók feladata első lépésként több száz órányi hanganyag rögzítése és gondos elemzése. Mint azt Váradi Tamás hangsúlyozta, egy jól működő, általános célú beszédfelismerő rendszer kifejlesztéséhez igen nagy tömegű, a nyelvhasználat reprezentatív mintájára épülő adatbázist kell betáplálni a szoftverbe. A Fonetikai Osztály által készített adatbázis alapján készített nyelvi modell, valamint a Műegyetem által létrehozott általános algoritmus együtt a gyakorlatban is hasznosítható, elfogadható hibaszázalékkal működő beszédfelismerő rendszert eredményez.

- A MonSpeech készítése során két adatbázist kell létrehozni: egy általánost, valamint egy az ügyfélszolgálat munkájához illeszkedő specifikust. Az előbbi, a Beszélt nyelvi adatbázis önmagában is tudományos értékkel bír, mivel a magyar beszédre vonatkozó minden további kutatáshoz szilárd empirikus alapként szolgál. Elkészítése igen nagy munkát igényel – hangsúlyozta Váradi Tamás, hozzátéve, hogy egy óra hangfelvétel gondos lejegyzése és elemzése tízszer annyi időbe telik.  Az intézet eddig kilencven úgynevezett adatközlő személlyel készített felvételeket saját laboratóriumában, ahol stúdió minőségű hangrögzítésre van lehetőség. A már jelenleg is több száz órányi felvett hanganyagból mintegy hetvenórányi a már feldolgozott anyag hossza. 

A Fonetikai Osztályon készített adatbázisból a Műszaki Egyetem munkatársai egy úgynevezett nyelvi modellt állítanak elő, amely a beszédfelismerő rendszert vezérli, azaz a beszédadatbázisban talált statisztikai valószínűségek alapján irányítja a szavak felismerését. - A beszédünkben egymás után előforduló szókapcsolatok gyakorisága egyetlen szótárban vagy nyelvtani leírásban sem szerepel – mutatott rá az adatbázis jelentőségére és hasznára az igazgatóhelyettes.

Váradi Tamás
Váradi Tamás
A konkrét ügyfélszolgálat számára készítendő specifikus hangadatbázishoz - mivel ez a szolgáltató tényleges nyelvhasználatára épül - a telefontársaság szolgáltat hanganyagokat, szigorúan ügyelve az ügyfelek anonimitására. - Az intézetben készülő adatbázis is szigorú adatvédelmi előírások betartásával, az anonimitás biztosításával készül – hangsúlyozta Váradi Tamás.

A Montana által koordinált projekt 2012 márciusáig tart, a Nyelvtudományi Intézet azonban ezután is folytatja majd az adatbázis-építést. Az elkövetkezendő két évben létrejön egy jó hatásfokkal működő beszédfelismerő rendszer, amely a telefonos ügyfélszolgálati munkatárs munkáját nem váltja ugyan ki, de segíti a részleg minőségbiztosítását. Az ügyfelek tehát a jövőben sem robotokkal beszélgetnek, hanem valódi emberekkel, a beszélgetések ellenőrzése azonban – amely eddig csak szúrópróbaszerűen működött – általánossá válhat, az ügyfélszolgálat munkájáról pedig pontos, tematikus összefoglalók készíthetők. Váradi Tamás példaként említette, hogy a rendszer felismeri, ha egy ügyfél ingerülten beszél, vagy azt, ha olyan téma kerül szóba, amely a vállalaton belül magasabb szintű ügyintézést kíván, de képes lesz a beszélgetések témánkénti csoportosítására is.

A további kutatási lehetőségekről szólva Váradi Tamás kiemelte: a közeljövőben nem tartja elképzelhetőnek azt, hogy egy viszonylag kötetlen, széles témaválasztékot lehetővé tevő ügyfélszolgálat alkalmazottjának munkáját beszédfelismerő rendszerekkel váltsák ki. Egyszerűbb, úgynevezett kötöttebb ügyintézés, például jegyvásárlás vagy helyfoglalás esetében ugyanakkor alkalmazhatónak tartja a rendszert. Hozzátette azonban, hogy a jelenlegi szoftver specifikusan a partnercég igényei szerint készül, azaz a kiegészítő nyelvi adatbázist minden esetleges újabb igénylő számára el kell készíteni. Szavai szerint a kötöttebb alkalmazás néhány év fejlesztés alatt megvalósítható. Könnyíti a munkát, ha a felhasználók köre behatárolt, például kizárólag egy vállalat munkatársainak beszédét kell felismerhetővé tenni, ilyenkor ugyanis csak tőlük kell hangmintát venni. Egy általános beszédfelismerő rendszernek ugyanakkor ki kell szűrnie a háttérzajokat, és fel kell készülnie arra, hogy a legkülönbözőbb orgánumú személyek széles körének beszédét is megértse.

-et-

vissza