Projekt leírás
Szövegosztályozó módszerek vizsgálata ügyfélszolgálati kérések előfeldolgozásához, ügyintézés automatizáció.
Résztvevő, elérhetőség
Csépányi-Fürjes László, PhD hallgató
Kutatási terület: Számítógépes nyelvészet, AI/ML társadalmi hatásainak enyhítése automatizált oktatással
laszlo.csepanyi-furjes@uni-miskolc.hu
Eredmények, témakör ismertetés
Az egyik legfontosabb ügyfélkapcsolati csatorna az e-mail. Mivel az e-mailek úgynevezett strukturálatlan szöveges formában léteznek, ezért kézenfekvő, hogy NLP-/NLU-technikákat vessünk be az ügyfél szándékának megállapítására, valamint a szándék által indukált üzleti folyamatok azonosítására. A kutatási modul célja, hogy az NLP-/NLU-szöveg tartalomosztályozási módszereit áttekintse és javaslatot tegyen egy szabad szöveges előfeldolgozó rendszer kidolgozására. Az ügyfelektől származó megkeresések előfeldolgozásával az ügyintéző munkája hatékonyabbá tehető, több idő szánható magára az ügyféllel végzett kommunikációra, illetve magára a feladat elvégzésére. A kutatás jól illeszkedik a magyar mesterséges intelligencia koalíció által meghatározott stratégia "Automatizált ügyintézés magyar nyelven" eleméhez.
A kutatás során elemeztem a különböző NLP, illetve NLU megoldásokat szövegkategorizálás és szekvenciális címkézés szempontjából. Célom, hogy minél több hasznos információt nyerjek ki a beérkező e-mailekből, illetve megállapítsam az ügyfél szándékait. Kiválasztottam a transformer modellek közül a RoBERTa-t és elkészítettem egy magyar nyelvű alapmodellt, hozzávetőleg 70 000 mondat felhasználásával. A szövegkategorizálási feladat fejleszthetősége és tesztelhetősége céljából magyar nyelvre ültettem a NLU-BENCHMARK tanítóminta halmazat, mely összesen 7 kategóriát, kategóriánkként 300 mondattöredéket tartalmaz. Ezen halmaz segítségével finomhangoltam az alapmodellt és manuális tesztelésnek vetettem alá. Ezzel megvalósítottam egy egyszeres szövegkategorizáló alaprendszert. Ezen kívül elemeztem az annotáció készítő megoldásokat, valamint vázoltam a kapcsolt szöveg kategorizálási és szekvenciális címkézési feladat megoldásának tervét. A terv után Python nyelven készítettem el a kapcsolt megoldás implementációját, melyet folyamatosan tesztelek, illetve javítok.