A bejegyzés első része itt, második része itt olvasható.
A gépi tanulásra épülő szentimentanalízis modelleket korlátozza az a domén, amiből a tanító adatok jöttek.
A doménadaptáció egy nyitott kérdés, például hogy hogyan lehet adaptálni egy modellt, amit termékértékeléseken tanítottak be, hogy mikroblogokat elemezzen. A másik fontos kihívást a kétértelmű helyzetek és az irónia jelenti. Például egy szarkasztikus kommentet, ami dicsér valamit, ám igazából negatív érzéseket hordoz, általában a hagyományos szentimentelemzés helytelenül értelmezi. A humor kultúraspecifikus, és a gépek számára nagy kihívást jelent egyedi (és általában elég specifikus) kulturális utalások megtanulása. Erre a multimodális szentimentelemzés egy jó módszer lehet, a hang- és arckifejezések segíthetnek az ironikus kifejezések felismerésében.
Az érzelem egy privát állapot, ennek a bányászata (nagy mennyiségben történő gyűjtése és tárolása) pedig jogos etikai aggályokat vet fel. Az olyan gépek, amelyek képesek túlszárnyalni az egyéni emberi intelligenciát a saját véleményünk és attitűdjeink megértésében, hihetetlen lehetőségeket rejtenek magukban. Gondoljunk csak olyan területekre, mint a mentális egészségügyi ellátás – ugyanakkor ez a magánélet védelmével kapcsolatos kérdéseket is felvet. A törvényi korlátozásokat is fontos szem előtt tartani, mert ha az Európai Unió egyik tagállamában vagy a tagállamok állampolgárainak adatait is érintő adatkezelést vagy adatfeldolgozást végzünk, akkor az Általános Adatvédelmi Rendeletben (közismertebb nevén GDPR) megtalálható előírásoknak is meg kell felelnünk.
Mikor egy közösségimédia-felületen végzünk csak elemzést, akkor az elfogultsághoz, illetve az adott felületen jelen lévő felhasználók véleményének felnagyításához vezethet. Ez halmozottan igaz akkor, ha a gépi tanulás ennek következtében a felületen domináns felhasználói réteg nyelvezetét tanulja meg, így egyes egyének vagy csoportok véleményét már nem tudja feldolgozni megfelelő színvonalon.
Az automatikus szentimentelemzés a szólásszabadság korlátozásának egy eszköze is lehet. A közösségi média egy nyitott felület, amin az emberek kifejezhetik és megoszthatják a véleményüket. Ugyanakkor a szentimentelemzés az elnyomó rezsimek számára egy eszközzé is válhat, hogy az eltérő véleményen lévőket azonosítsa vagy akár cenzúrát alkalmazzon nagy léptékben. A gyűlöletbeszéd, a rasszista megnyilvánulások vagy a rosszindulatú propaganda egyaránt felderíthető a módszer segítségével, a kérdés az, hogy utána mi történik: ezen tartalmakat elnyomják, ignorálják vagy épp támogatást kapnak? Fontos látnunk, hogy bármilyen modern és folyamatosan fejlődő ez az eszköz, mégis hajlamos a hibákra, ami végső soron rosszul megalapozott döntésekhez vezethet, illetve hátrányos következményekkel járhat.
Jelentős kihívás a kisebb nyelvek esetén, hogy ott általában kevés erőforrás áll rendelkezésre, a felcímkézett adatok hiányoznak (a felcímkézett adatok emberek által készített adatsorok, ahol a megfelelő szentimentek már azonosításra kerültek, és így a gépi tanulás megvalósítható segítségükkel), így a hatékony felügyelt gépi tanulás kihívást jelent. Amennyiben egy szótáron alapuló szentimentelemző rendszert kívánunk felépíteni, szükséges egy pozitív és egy negatív szentimenteket tartalmazó szótár. Ez ugyan megvalósítható a már meglévő angol szótárak gépi fordításával, vagy a megfelelő angol szótár szavaihoz tartozó használni kívánt nyelvű szavak feltérképezésével és kiválasztásával. Egyes kutatók amellett döntenek, hogy kézzel címkézik fel a saját nemangol adatsoraikat nagyjából négyszáz adat felcímkézésével, majd utána a még nem felcímkézett adatokat ezen a kevés adatot tartalmazó adatsor segítségével gépi osztályozás segítségével címkézik fel. A kézi felcímkézés erőforrás igényességére egy megoldás lehet egy esetleges crowdsourcing felület létrehozása.
Egy másik megoldás lehet a fenti problémára az úgy nevezett nyelvközi szentimentelemzés (CLSA), amely célja, hogy egy vagy több forrásnyelvet felhasználva segítse az alacsony erőforrású nyelveken (amire célnyelvként hivatkoznak) a szentimentelemzés elvégzését. Még nem sikerült olyan általános modellt létrehozni, ami minden szituációban jól teljesítene. Ha csak egy nyelvet, hagyományosan az angolt használjuk forrásnyelvként, az tovább súlyosbítja a nyelvek közötti eltérések által okozott egyensúlytalanságot. A forrásnyelvek kiválasztásánál érdemes azonos nyelvcsaládba tartozó nyelveket kiválasztani, ez jelentősen megnöveli a modell teljesítményét. Azonban célszerű szem előtt tartani, hogy amennyiben a CLSA túl drágává vagy erőforrásigényessé válik, akkor érdemes az egynyelvű szentimentelemzést alkalmazni.
Az elektronikus kereskedelem elterjedésével egyre több terméket és szolgáltatást vásárolunk az interneten, és általában ezen vásárlásokról azok minőségével kapcsolatosan értékelést is tehetünk közzé, amivel a vásárolni szándékozók számára tudunk segíteni a termékek vagy szolgáltatások közötti döntésben. Sajnos ez kitűnő lehetőséget kínál a piac manipulálására. Ezen fiktív véleményeket megtévesztő véleményspamnek nevezi a szakirodalom, lehet pozitív is (mesterségesen próbál felhajtást gerjeszteni) vagy negatív vélemény (rágalmazás által igyekszik csökkenteni a vásárlások számát) is. Bár a legtöbb professzionális kereskedelmi weboldal foglalkozik már ezzel a problémával, de bőven van még tere a fejlődésnek.
A megtévesztő véleményspam-detektálási tulajdonságokat három kategóriába sorolhatjuk be: tartalmi jellemzők, metaadat jellemzők és viselkedési jellemzők. A tartalmi jellemzők fontos szerepet játszanak a gépi tanulás és neurális hálózatok általi megtévesztő véleményspam észlelésben. A metaadat jellemzők magára a véleményre vonatkoznak: mikor, mennyi csillagot adva, a véleményező identitása, geolokációja (IP címe). Ha az adott véleményező túl sok negatív vagy pozitív véleményt ír, vagy ugyanarról a számítógépről több vélemény is érkezik, vagy mondjuk egy hotel értékelésénél a hotel környékéről ír, ezek mind gyanúra adhatnak okot. A viselkedési jellemzők két nagyobb kategóriába különíthetők el: egyéni spamelők és csoportos spamelők.
Az egyéni spamelők viselkedési jellemzői: a tartalom hasonlósága, azaz az értékelés tartalmában közel egyezik a korábbi értékelésekkel. A pozitív értékelésok százaléka amennyiben magas, akkor fennáll a spamelés gyanúja. Az értékelések maximális száma azért fontos, mert ha egy napon belül több értékelés kerül posztolásra, az atipikus viselkedés egy véleményező esetében. Az első és korai értékelések aránya általában magas, hiszen így már korán kialakíthatják az általuk elérni kívánt véleményt a termékkel kapcsolatosan. Extrém értékelést használnak, ha 5 fokú a skála, akkor 1-est vagy 5-öst adnak.
A csoportos spamelők viselkedési jellemzői: lehet egy magányos spamer több felhasználót használva, vagy több spamer, illetve ezek kombinációja. Általában egy időszakon belül több értékelést is közzétesznek egy termékkel kapcsolatosan, a csoport értékelése erősen eltér a többi véleményező által adott értéktől. A csoport tagjai közel azonos tartalmú véleményt posztolnak, illetve igyekeznek első vagy korai véleményt közzétenni. Ami még fontos, hogy a (spamelő) csoport tagjai az értékelők mekkora hányadát adják, és ezáltal mekkora hatást tudnak kiváltani.
Egy másik nehézség a megtévesztő véleményspam azonosítással kapcsolatban, hogy idővel változhatnak a vélemények, mondjuk a termék tartósabb használata után vagy ahogy új termék lép be a piacra.
Felhasznált irodalom
1. M. Soleymani, D. Garcia, B. Jou, B. Schuller, S.-F. Chang, és M. Pantic, „A survey of multimodal sentiment analysis”, Image and Vision Computing, köt. 65, o. 3–14, szept. 2017.
2. F. Djatmiko, R. Ferdiana, és M. Faris, „A Review of Sentiment Analysis for Non-English Language”, in 2019 International Conference of Artificial Intelligence and Information Technology (ICAIIT), márc. 2019, o. 448–451.
3. Y. Xu, H. Cao, W. Du, és W. Wang, „A Survey of Cross-lingual Sentiment Analysis: Methodologies, Models and Evaluations”, Data Sci. Eng., jún. 2022.
4. S. K. Maurya, D. Singh, és A. K. Maurya, „Deceptive opinion spam detection approaches: a literature survey”, Applied Intelligence, 2022.
„Az Innovációs és Technológiai Minisztérium ÚNKP-21-1-I-NKE-67 kódszámú Új Nemzeti Kiválóság Programjának a Nemzeti Kutatási, Fejlesztési és Innovációs Alapból finanszírozott szakmai támogatásával készült.”