Ugrás a tartalomhoz
  • MAGAZIN
  • BLOGTÉR
  • PODCAST
  • TV
  • GYŰJTEMÉNY
  • WEBSHOP
  • FOLYÓIRATOK
  • KIADÓ
Menü
  • MAGAZIN
  • BLOGTÉR
  • PODCAST
  • TV
  • GYŰJTEMÉNY
  • WEBSHOP
  • FOLYÓIRATOK
  • KIADÓ
  • MAGAZIN
  • BLOGTÉR
  • PODCAST
  • TV
  • GYŰJTEMÉNY
  • WEBSHOP
  • FOLYÓIRATOK
  • KIADÓ
Menü
  • MAGAZIN
  • BLOGTÉR
  • PODCAST
  • TV
  • GYŰJTEMÉNY
  • WEBSHOP
  • FOLYÓIRATOK
  • KIADÓ
Dobos Gábor

A függetlenek „csendes forradalma”

A demokrácia hanyatlása vagy demokratikus innováció?

Dobos Gábor 2025.04.22.
Petruska Ferenc

Melyik nyelvi modellt válasszam?

Milyen benchmarkok alapján tudjuk kiválasztani a legjobb nyelvi modelleket?

Petruska Ferenc 2025.01.21.
Vadász Pál

VPN vagy nem VPN: az itt a kérdés

Mire jó és mennyire terjedt el a világon ez a technológia?

Vadász Pál 2024.12.13.
Csontos Szabolcs

A 2024-es BRICS-csúcs

A kihívások, dilemmák és lehetőségek határán egy többpólusú világrend felé.

Csontos Szabolcs 2024.12.05.
Fehér András Tibor

Csak az autóknak van autonómiája?

A gépi autonómia kutathatóságának néhány kérdése.

Fehér András Tibor 2024.08.02.
CYBERBLOG
Kugler Péter
Kugler Péter
hallgató, Nemzeti Közszolgálati Egyetem
  • 2022.06.22.
  • 2022.06.22.

A szentimentelemzés alapjai III.: kihívások és dilemmák

A bejegyzés első része itt, második része itt olvasható.

A gépi tanulásra épülő szentimentanalízis modelleket korlátozza az a domén, amiből a tanító adatok jöttek.

A doménadaptáció egy nyitott kérdés, például hogy hogyan lehet adaptálni egy modellt, amit termékértékeléseken tanítottak be, hogy mikroblogokat elemezzen. A másik fontos kihívást a kétértelmű helyzetek és az irónia jelenti. Például egy szarkasztikus kommentet, ami dicsér valamit, ám igazából negatív érzéseket hordoz, általában a hagyományos szentimentelemzés helytelenül értelmezi. A humor kultúraspecifikus, és a gépek számára nagy kihívást jelent egyedi (és általában elég specifikus) kulturális utalások megtanulása. Erre a multimodális szentimentelemzés egy jó módszer lehet, a hang- és arckifejezések segíthetnek az ironikus kifejezések felismerésében.

Az érzelem egy privát állapot, ennek a bányászata (nagy mennyiségben történő gyűjtése és tárolása) pedig jogos etikai aggályokat vet fel. Az olyan gépek, amelyek képesek túlszárnyalni az egyéni emberi intelligenciát a saját véleményünk és attitűdjeink megértésében, hihetetlen lehetőségeket rejtenek magukban. Gondoljunk csak olyan területekre, mint a mentális egészségügyi ellátás – ugyanakkor ez a magánélet védelmével kapcsolatos kérdéseket is felvet. A törvényi korlátozásokat is fontos szem előtt tartani, mert ha az Európai Unió egyik tagállamában vagy a tagállamok állampolgárainak adatait is érintő adatkezelést vagy adatfeldolgozást végzünk, akkor az Általános Adatvédelmi Rendeletben (közismertebb nevén GDPR) megtalálható előírásoknak is meg kell felelnünk.

Mikor egy közösségimédia-felületen végzünk csak elemzést, akkor az elfogultsághoz, illetve az adott felületen jelen lévő felhasználók véleményének felnagyításához vezethet. Ez halmozottan igaz akkor, ha a gépi tanulás ennek következtében a felületen domináns felhasználói réteg nyelvezetét tanulja meg, így egyes egyének vagy csoportok véleményét már nem tudja feldolgozni megfelelő színvonalon.

Az automatikus szentimentelemzés a szólásszabadság korlátozásának egy eszköze is lehet. A közösségi média egy nyitott felület, amin az emberek kifejezhetik és megoszthatják a véleményüket. Ugyanakkor a szentimentelemzés az elnyomó rezsimek számára egy eszközzé is válhat, hogy az eltérő véleményen lévőket azonosítsa vagy akár cenzúrát alkalmazzon nagy léptékben. A gyűlöletbeszéd, a rasszista megnyilvánulások vagy a rosszindulatú propaganda egyaránt felderíthető a módszer segítségével, a kérdés az, hogy utána mi történik: ezen tartalmakat elnyomják, ignorálják vagy épp támogatást kapnak? Fontos látnunk, hogy bármilyen modern és folyamatosan fejlődő ez az eszköz, mégis hajlamos a hibákra, ami végső soron rosszul megalapozott döntésekhez vezethet, illetve hátrányos következményekkel járhat.

Jelentős kihívás a kisebb nyelvek esetén, hogy ott általában kevés erőforrás áll rendelkezésre, a felcímkézett adatok hiányoznak (a felcímkézett adatok emberek által készített adatsorok, ahol a megfelelő szentimentek már azonosításra kerültek, és így a gépi tanulás megvalósítható segítségükkel), így a hatékony felügyelt gépi tanulás kihívást jelent. Amennyiben egy szótáron alapuló szentimentelemző rendszert kívánunk felépíteni, szükséges egy pozitív és egy negatív szentimenteket tartalmazó szótár. Ez ugyan megvalósítható a már meglévő angol szótárak gépi fordításával, vagy a megfelelő angol szótár szavaihoz tartozó használni kívánt nyelvű szavak feltérképezésével és kiválasztásával. Egyes kutatók amellett döntenek, hogy kézzel címkézik fel a saját nemangol adatsoraikat nagyjából négyszáz adat felcímkézésével, majd utána a még nem felcímkézett adatokat ezen a kevés adatot tartalmazó adatsor segítségével gépi osztályozás segítségével címkézik fel. A kézi felcímkézés erőforrás igényességére egy megoldás lehet egy esetleges crowdsourcing felület létrehozása.

Egy másik megoldás lehet a fenti problémára az úgy nevezett nyelvközi szentimentelemzés (CLSA), amely célja, hogy egy vagy több forrásnyelvet felhasználva segítse az alacsony erőforrású nyelveken (amire célnyelvként hivatkoznak) a szentimentelemzés elvégzését. Még nem sikerült olyan általános modellt létrehozni, ami minden szituációban jól teljesítene. Ha csak egy nyelvet, hagyományosan az angolt használjuk forrásnyelvként, az tovább súlyosbítja a nyelvek közötti eltérések által okozott egyensúlytalanságot. A forrásnyelvek kiválasztásánál érdemes azonos nyelvcsaládba tartozó nyelveket kiválasztani, ez jelentősen megnöveli a modell teljesítményét. Azonban célszerű szem előtt tartani, hogy amennyiben a CLSA túl drágává vagy erőforrásigényessé válik, akkor érdemes az egynyelvű szentimentelemzést alkalmazni. 

Az elektronikus kereskedelem elterjedésével egyre több terméket és szolgáltatást vásárolunk az interneten, és általában ezen vásárlásokról azok minőségével kapcsolatosan értékelést is tehetünk közzé, amivel a vásárolni szándékozók számára tudunk segíteni a termékek vagy szolgáltatások közötti döntésben. Sajnos ez kitűnő lehetőséget kínál a piac manipulálására. Ezen fiktív véleményeket megtévesztő véleményspamnek nevezi a szakirodalom, lehet pozitív is (mesterségesen próbál felhajtást gerjeszteni) vagy negatív vélemény (rágalmazás által igyekszik csökkenteni a vásárlások számát) is. Bár a legtöbb professzionális kereskedelmi weboldal foglalkozik már ezzel a problémával, de bőven van még tere a fejlődésnek. 

A megtévesztő véleményspam-detektálási tulajdonságokat három kategóriába sorolhatjuk be: tartalmi jellemzők, metaadat jellemzők és viselkedési jellemzők. A tartalmi jellemzők fontos szerepet játszanak a gépi tanulás és neurális hálózatok általi megtévesztő véleményspam észlelésben. A metaadat jellemzők magára a véleményre vonatkoznak: mikor, mennyi csillagot adva, a véleményező identitása, geolokációja (IP címe). Ha az adott véleményező túl sok negatív vagy pozitív véleményt ír, vagy ugyanarról a számítógépről több vélemény is érkezik, vagy mondjuk egy hotel értékelésénél a hotel környékéről ír, ezek mind gyanúra adhatnak okot. A viselkedési jellemzők két nagyobb kategóriába különíthetők el: egyéni spamelők és csoportos spamelők. 

Az egyéni spamelők viselkedési jellemzői: a tartalom hasonlósága, azaz az értékelés tartalmában közel egyezik a korábbi értékelésekkel. A pozitív értékelésok százaléka amennyiben magas, akkor fennáll a spamelés gyanúja. Az értékelések maximális száma azért fontos, mert ha egy napon belül több értékelés kerül posztolásra, az atipikus viselkedés egy véleményező esetében. Az első és korai értékelések aránya általában magas, hiszen így már korán kialakíthatják az általuk elérni kívánt véleményt a termékkel kapcsolatosan. Extrém értékelést használnak, ha 5 fokú a skála, akkor 1-est vagy 5-öst adnak.

A csoportos spamelők viselkedési jellemzői: lehet egy magányos spamer több felhasználót használva, vagy több spamer, illetve ezek kombinációja. Általában egy időszakon belül több értékelést is közzétesznek egy termékkel kapcsolatosan, a csoport értékelése erősen eltér a többi véleményező által adott értéktől. A csoport tagjai közel azonos tartalmú véleményt posztolnak, illetve igyekeznek első vagy korai véleményt közzétenni. Ami még fontos, hogy a (spamelő) csoport tagjai az értékelők mekkora hányadát adják, és ezáltal mekkora hatást tudnak kiváltani.

Egy másik nehézség a megtévesztő véleményspam azonosítással kapcsolatban, hogy idővel változhatnak a vélemények, mondjuk a termék tartósabb használata után vagy ahogy új termék lép be a piacra.

Felhasznált irodalom

1. M. Soleymani, D. Garcia, B. Jou, B. Schuller, S.-F. Chang, és M. Pantic, „A survey of multimodal sentiment analysis”, Image and Vision Computing, köt. 65, o. 3–14, szept. 2017.
2. F. Djatmiko, R. Ferdiana, és M. Faris, „A Review of Sentiment Analysis for Non-English Language”, in 2019 International Conference of Artificial Intelligence and Information Technology (ICAIIT), márc. 2019, o. 448–451.
3. Y. Xu, H. Cao, W. Du, és W. Wang, „A Survey of Cross-lingual Sentiment Analysis: Methodologies, Models and Evaluations”, Data Sci. Eng., jún. 2022.
4. S. K. Maurya, D. Singh, és A. K. Maurya, „Deceptive opinion spam detection approaches: a literature survey”, Applied Intelligence, 2022.

„Az Innovációs és Technológiai Minisztérium ÚNKP-21-1-I-NKE-67 kódszámú Új Nemzeti Kiválóság Programjának a Nemzeti Kutatási, Fejlesztési és Innovációs Alapból finanszírozott szakmai támogatásával készült.”

Témakörök: elemzés, gépi tanulás, MI
nke-cimer

LUDOVIKA.hu

KAPCSOLAT

1083 Budapest, Ludovika tér 2.
E-mail:
Kéziratokkal, könyv- és folyóirat-kiadással kapcsolatos ügyek: kiadvanyok@uni-nke.hu
Blogokkal és a magazinnal kapcsolatos ügyek: szerkesztoseg@uni-nke.hu

IMPRESSZUM

Ez a weboldal sütiket használ. Ha Ön ezzel egyetért, kérjük fogadja el az adatkezelési szabályzatunkat. Süti beállításokElfogad
Adatvédemi és süti beállítások

Adatvédelmi áttekintés

This website uses cookies to improve your experience while you navigate through the website. Out of these cookies, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may have an effect on your browsing experience.
Necessary
Always Enabled
Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
Non-necessary
Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.
SAVE & ACCEPT