Nyelvfeldolgozás mesterséges intelligenciával. Áttörés a magyar nyelv digitális nyelvi modellezésében - videón a konferencia

2020. november 5.

Az alábbi videóra kattintva megnézheti a felvételt:

Program

10.00‒10.30: A nyelvtudomány találkozása a mesterséges intelligenciával (Mit tesz a Nyelvtudományi Intézet a leginnovatívabb technológiáknak a magyar nyelv kutatásába történő bevonásáért?)
Prószéky Gábor (Nyelvtudományi Intézet)

Amire bármely mesterséges intelligencia (MI) alapú megoldáshoz szükség van: hatékony hardver, a működtetéshez megfelelő szoftver, nagy mennyiségű adat, professzionális előkészítés, célspecifikus szaktudás. Az MI nyelvészetben való felhasználása is ezeket igényli:

  1. A hardver (megfelelő szaktudással) megszerezhető.
  2. A (szintén megfelelő szaktudással) kiválasztott szoftver letölthető a megfelelő helyekről.
  3. A nagy mennyiségű (magyar) nyelvi adat szintén beszerezhető (pl. a webről), de itt már nem mindegy, hogy honnan és milyen adat.
  4. Az adatok professzionális előkészítése, esetleg előfeldolgozása már kimondottan nyelvtechnológiai szaktudást igényel.
  5. Az egész procedúra értelmes nyelvészeti célok kidolgozása nélkül viszont semmit sem ér.

A Nyelvtudományi Intézet ezeket a feladatokat kiemelt céljának tekinti, amivel a világ legjobban feldolgozott nyelvei közé emeli a magyar nyelvet.

10.30‒11.00: Lehetőség és felelősség a mesterséges intelligenciában
Varga Gábor (Microsoft Hungary)

A mesterséges intelligencia az emberiség egyik legnagyobb hatású innovációjává válhat. Etikus keretek között tartásának feladata különleges felelősséget ró a művelőire. Hogyan lehet megközelíteni ezt a feladatot? Milyen eszközeink vannak hozzá? Melyek a valós kockázatok, és mennyire fedik ezek a közvélekedés szerinti veszélyeket? Hogyan találjuk meg a keskeny ösvényt, amelyen végig kell mennünk, hogy a nem kívánt társadalmi hatásokat elhárítsuk, de mégis használhatót hozzunk létre?

11.00‒11.30: Piacvezéreltség a nyelvtechnológia kutatásában
Szertics Gergely (Mesterséges Intelligencia Koalíció)

Magyarország MI-stratégiája célul tűzte ki, hogy 2025-re az ügyfélszolgálati esetek 60%-a automatizálva történjen. Ehhez különleges együttműködés kell az ügyfelek, a technológia bevezetői és a nyelvtechnológia kutatói között. 2020-ban számos ilyen együttműködési kezdeményezés alakult. Hogyan illeszkednek ezek egy nagy közös célhoz vezető úthoz? Milyen jó gyakorlatok vannak már a széles körű együttműködésre?

11.30‒12.00: Mennyire intelligens a mesterséges intelligencia?
Feldmann Ádám (Pécsi Tudományegyetem)

Az előadó célja, hogy bemutassa a Nyelvtudományi Intézet és a PTE Alkalmazott Adattudományi és Mesterséges Intelligencia Csoportja által létrehozott új, magyar nyelvű mesterségesintelligencia-keretrendszert, amelyet a kutatók a Microsoft Magyarország segítségével valósítottak meg. A BERT-large olyan természetes nyelvi intelligenciamodell, amely képes több feladatot ellátva keretrendszerként funkcionálni. Képes arra, hogy szövegeket osztályozva megtanulja és kiszűrje a nem odaillő tartalmakat; cégeket, településeket, személyeket ismerjen fel különböző szövegekben; rövid összefoglalókat készítsen hosszabb szövegekből, szintetizálva és kivonva az abban elérhető tartalmakat. Ezen túlmenően arra is alkalmazható, hogy egy tudásbázis alapján kérdésekre tudjon válaszolni. A BERT-large ezekben a feladatokban – nemzetközi összehasonlító tapasztalatok alapján – hasonlóan teljesít, mint az ember. Ez a technológia új utakat nyit mind a kutatás-fejlesztés, mind pedig a BERT-large és a hasonló modellekre építhető szolgáltatások piacán.

12.00‒12.30: Big Data és nagy nyelvmodell
Váradi Tamás (Nyelvtudományi Intézet)

A neurális technológia robbanásszerű újítást hozott a természetes nyelvfeldolgozás területén. 2018 óta halomra dönti az angol nyelvre kidolgozott rekordokat. E bámulatos eredmények egyben nagy kihívást jelentenek két területen: óriási és csak kevés helyen elérhető számítási kapacitást igényelnek, továbbá soha nem látott méretű adatokat követelnek.

Az előadás fókuszában a magyar BERT-large modell elkészítéséhez használt 3,67 milliárd szavas nyelvi korpusz bemutatása áll. Ezt az általános célú korpuszt elég csak egyszer bevetni a nyelvi modell előtanítására. Az így előállt nyelvi modelleket ezek után már sokkal kisebb korpuszon lehet betanítani egy adott feladatra.

Az előadás másik felében mérlegre tesszük a jelenlegi tendenciákat az erőforrásigényük szempontjából. A neurális hálók viharos technológiai fejlődését napjainkban egy eszkalálódó mennyiségi verseny jellemzi, amely egyre kevésbé fenntartható. Ugyanakkor megjelent egy olyan irányzat is, amely azt célozza, hogy kisebb méretű, de legalább olyan hatékonyságú modelleket dolgozzanak ki, mint az egyre nagyobb méretű nyelvmodellek.

12.30‒13.00: Demóbemutató