Ugrás a tartalomhoz
  • MAGAZIN
  • BLOGTÉR
  • PODCAST
  • TV
  • GYŰJTEMÉNY
  • WEBSHOP
  • FOLYÓIRATOK
  • KIADÓ
Menü
  • MAGAZIN
  • BLOGTÉR
  • PODCAST
  • TV
  • GYŰJTEMÉNY
  • WEBSHOP
  • FOLYÓIRATOK
  • KIADÓ
  • MAGAZIN
  • BLOGTÉR
  • PODCAST
  • TV
  • GYŰJTEMÉNY
  • WEBSHOP
  • FOLYÓIRATOK
  • KIADÓ
Menü
  • MAGAZIN
  • BLOGTÉR
  • PODCAST
  • TV
  • GYŰJTEMÉNY
  • WEBSHOP
  • FOLYÓIRATOK
  • KIADÓ
Dobos Gábor

A függetlenek „csendes forradalma”

A demokrácia hanyatlása vagy demokratikus innováció?

Dobos Gábor 2025.04.22.
Petruska Ferenc

Melyik nyelvi modellt válasszam?

Milyen benchmarkok alapján tudjuk kiválasztani a legjobb nyelvi modelleket?

Petruska Ferenc 2025.01.21.
Vadász Pál

VPN vagy nem VPN: az itt a kérdés

Mire jó és mennyire terjedt el a világon ez a technológia?

Vadász Pál 2024.12.13.
Csontos Szabolcs

A 2024-es BRICS-csúcs

A kihívások, dilemmák és lehetőségek határán egy többpólusú világrend felé.

Csontos Szabolcs 2024.12.05.
Fehér András Tibor

Csak az autóknak van autonómiája?

A gépi autonómia kutathatóságának néhány kérdése.

Fehér András Tibor 2024.08.02.
CYBERBLOG
Kugler Péter
Kugler Péter
hallgató, Nemzeti Közszolgálati Egyetem
  • 2022.06.22.
  • 2022.06.22.

A szentimentelemzés alapjai I.: áttekintés és szövegelemzés

A bejegyzés második része itt, harmadik része itt olvasható.

A szentimentelemzés (más néven vélemény bányászat vagy érzelmi mesterséges intelligencia) szisztematikusan azonosítja, kivonja, számszerűsíti és tanulmányozza az érzelmi állapotokat és szubjektív információkat a természetes nyelvfeldolgozás (natural language processing vagy leggyakrabban egyszerűen csak NLP), szövegelemzés, számítógépes nyelvészet és biometria segítségével. 

Természetes nyelvfeldolgozás a nyelvészet, számítástechnika és mesterséges intelligencia egyik alterülete, ami a számítógép és az emberi nyelv interakcióival foglalkozik, konkrétan azzal, hogy hogyan lehet számítógépeket beprogramozni, hogy feldolgozzanak és elemezzenek nagy mennyiségű természetes nyelvi adatot. Célja, hogy a számítógép „megértse” a dokumentumok tartalmát, beleértve az adott nyelv kontextuális árnyalatait is. A 2010-es évekre beléptünk a neurális hálózatokon alapuló természetes nyelvfeldolgozás korába, illetve olyan szintre fejlődött a módszer, hogy a modellek 80 százalékot meghaladó hatékonysággal dolgoznak, ami azt jelenti, hogy utolérték az átlagos emberi teljesítményt. Természetesen ez nem azt jelenti, hogy a képessé váltak hibátlanul a „sorok között” olvasni, de reálisan nézve: az adott szöveget olvasó ember érzékenysége, kulturális háttere, műveltsége is meghatározza, hogy mennyire jutnak el hozzá a rejtett tartalmak. Ha feltételezzük, hogy lenne egy tökéletes algoritmus, ami hibátlan elemzésre képes, ez esetben is probléma lenne, hogy az emberek nagyjából az esetek 20 százalékában nem értenének egyet az algoritmus elemzésének eredményével (ahogy ezt egy másik emberrel sem tennék).

A biometria fogalma mely régebben biológiai statisztikát jelentett, újabban személyek egyedi (fizikai vagy viselkedésbeli) tulajdonságain alapuló azonosítását jelenti. A viselkedés vizsgálatára egy újabb tudományág, a behaviometria foglalkozik.

Szentimentelemzés sematikusan „Az autó nagyon öreg, de legalább nem drága.” mondatban (Forrás: SenticNet6, a szerző saját szerkesztése)

Valahogy így lehet elképzelni magát az szentimentelemzés folyamatát, ha egy hétköznapi mondatot nézünk, mint például „Az autó nagyon öreg, de legalább nem drága.” Vannak szavak, amik negatív jelentést hordoznak (öreg és drága), de ezek jelentése megfordulhat jelzők, illetve határozószavak által (nagyon, nem, legalább), illetve maga a nyelvtani szerkezet is árnyalhatja a mondatunk értelmét. Általában az érzelmek nagyságának megfelelően hozzárendelésre került egy pontszám minden szóhoz / kifejezéshez egy előre meghatározott skála alapján, ahol például -10 a legnegatívabb, és +10 a legpozitívabb érték, a 0 pedig a semlegest jelenti.

Végül a teljes tweetben, szövegben, hozzászólásban összesítésre kerül annak szentiment tartalma, és ez alapján csoportosításra kerül – általában egy hármas skálán: vannak semleges tartalmú üzenetek, illetve negatív és pozitív tartalmúak. Általánosságban elmondható, hogy a semleges üzenetek a 60–80%-át teszik ki az összes üzenetnek. Ennek az egyik oka lehet, hogy az üzeneten belüli szentimentek semlegesíthetik egymást, másrészt lehetséges, hogy az üzenet szentiment szempontból nem tartalmaz olyan szavakat, melyeket relevánsak lennének (érzelmi töltés alapján).

A szentimentelemzés sok területen felhasználják, ráadásul folyamatosan bővülő körben, így a teljesség igénye nélkül csak néhány területet megemlítve:  

  1. üzleti információszerzés: általában a vállalatok érdeklődésének ez a terület áll a fókuszában. Mivel a marketingköltségek a vállalati költségvetésben nagyobb tételeket szoktak jelenteni, így érthető módon érdekeltek a nagyközönség véleményének megismerésében, elemzésében és várható véleményének előrejelzésében saját márkáik és termékeik vonatkozásában. Vagy a konkurencia termékeiről szóló vélemények elemzésében, egyfajta piaci pillanatfelvétel kialakításában. Az ezen tevékenységek automatizálása, illetve automatizált tömör és összegző jellegű jelentések készítése a kutatás és fejlesztés egyik legnagyobb aktivitású területe;
  2. termékfejlesztés: egy adott terméknek milyen funkciójával vagy részével nagyon elégedettek a vásárlók, és mi az, amit gyengébbnek tartanak, mi az, ami megítélésük szerint hiányzik a termékből;
  3. a feljebb bemutatott rendszerek fejlesztése állami hírszerzési felhasználásra, például az ellenfél kommunikációjának megfigyelése, információs műveletek hatékonyságának értékelése, illetve ellentevékenységek tervezése, monitorozása;
  4. online befektetési fórumok szentimentelemzése: a befektetők egy adott részvény, üzlet, részvényindex vonatkozásában milyen véleményen vannak, illetve ez alapján milyen tőzsdei árfolyamváltozás várható;
  5. korai poszttraumás stressz szindróma (ismertebb angol rövidítéssel: PTSD) kialakulásának figyelmeztető jeleinek előrejelzése: a pszichológusok számára nyújthat segítséget, bár e betegség komplex jellege miatt nehezen kiértékelhető. Strukturált kérdőívek segítségével a szakértőket megközelítő pontossággal tudta az algoritmus megállapítani, hogy valaki a veszélyeztetett csoportba tartozik-e. A kutatás központja az Amerikai Egyesült Államok, mivel Irakban és Afganisztánban az elmúlt 20 évben közel 2 millió amerikai katona teljesített szolgálatot, és a becslések szerint a kiküldetésből hazatérő katonák 20-35 százaléka küzd PTSD-vel vagy súlyos depresszióval;
  6. a mesterséges intelligencia fejlesztése: egyik kulcsa az érzelmek kérdésköre e területnek, illetve mindazon kutatási területeknek, amik ebből eredeztethetők. A fő kérdés nem is az, hogy intelligens gépek tudhatnak-e érezni, hanem hogy a gépek lehetnek-e intelligensek érzelmek nélkül. E kérdés nem mentes némi filozófiai fennhangtól, továbbá a szakirodalomban sincs konszenzus. Az érzelmek nehezen megfogható entitások, így kategorizálásuk sem triviális. Több modell is született, melyek alapján a szakirodalomban az érzelmek elkülönítését végezni szokták szentimentelemzés során, általánosságban elmondható, hogy a felismert érzelmek minőségi és mennyiségi mutatói folyamatosan bővülnek. 

Felhasznált irodalom

1. Cambria, E., Y. Li, F.Z. Xing, S. Poria, és K. Kwok. „SenticNet 6: Ensemble Application of Symbolic and Subsymbolic AI for Sentiment Analysis”, 105–14, 2020.
2. Erik Cambria, Dipankar Das, Antonio Feraco, és Sivaji Bandyopadhyay, szerk. A Practical Guide to Sentiment Analysis. 2017. kiad. Socio-Affective Computing. Cham, Switzerland: Springer
3. Susanto, Y., A.G. Livingstone, B.C. Ng, és E. Cambria. „The Hourglass Model Revisited”. IEEE Intelligent Systems35, sz. 5 (2020): 96–102.
4. Vadim Kagan, Edward Rossini, és Demetrios Sapounas. Sentiment Analysis for PTSD Signals. SpringerBriefs. Springer, 2013.

„Az Innovációs és Technológiai Minisztérium ÚNKP-21-1-I-NKE-67 kódszámú Új Nemzeti Kiválóság Programjának a Nemzeti Kutatási, Fejlesztési és Innovációs Alapból finanszírozott szakmai támogatásával készült.”

Témakörök: elemzés, gépi tanulás, MI
nke-cimer

LUDOVIKA.hu

KAPCSOLAT

1083 Budapest, Ludovika tér 2.
E-mail:
Kéziratokkal, könyv- és folyóirat-kiadással kapcsolatos ügyek: kiadvanyok@uni-nke.hu
Blogokkal és a magazinnal kapcsolatos ügyek: szerkesztoseg@uni-nke.hu

IMPRESSZUM

Ez a weboldal sütiket használ. Ha Ön ezzel egyetért, kérjük fogadja el az adatkezelési szabályzatunkat. Süti beállításokElfogad
Adatvédemi és süti beállítások

Adatvédelmi áttekintés

This website uses cookies to improve your experience while you navigate through the website. Out of these cookies, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may have an effect on your browsing experience.
Necessary
Always Enabled
Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
Non-necessary
Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.
SAVE & ACCEPT