Fogalmak és elemzési megközelítések
A big data, a big data elemzés, valamint az adattudomány napjaink egyik leggyakrabban említett adatelemzési kifejezései. A rendelkezésre adatok elterjedésével a big data elemzők is egyre nagyobb népszerűségnek örvendenek a munkaerőpiacon, valamint a big data elemzés beépült a hagyományos (vállalati) elemzési technikák közé, amelyek között egyre nagyobb teret nyer. A big data témaköre egyre fontosabbá válik, így szükséges azonosítani a különböző elemzési megközelítések alapvető összefüggéseit, illetve az elemzési módszereket.
Népszerűsége ellenére a big data alapvető fogalmai gyakran összemosódnak, így elengedhetetlen a pontos fogalmai koncepciók lehatárolása. A big data a nagy mennyiségű adatot foglalja magában – legyen szó strukturált, félig strukturált vagy nem strukturált adatokról –, melyek vizsgálata a hagyományos statisztikai elemzési eszköztárral nem lehetséges vagy torzított eredményhez vezethetne. A big data analytics, magyarul big data elemzés a nagy adatmennyiséghez kapcsolódó fejlett elemzési módszereket és azok alkalmazását foglalja magában. Ezekhez kapcsolódóan alakult ki a data science vagy magyarul adattudomány, mely szintén a nagy mennyiségű adat vizsgálatával foglalkozik, ugyanakkor meghaladja a big data elemzés témakört. Az adattudomány számos területet foglal magában, melyek közé sorolható például az adatbányászat, az adatelemzés különböző dimenziói (pl. a mintázatok azonosítása vagy az előrejelzés), a gépi és mély tanulási folyamatok. Emellett ide sorolhat az adatvizualizáció, valamint az új algoritmusok, módszerek és modellek fejlesztése. Összességében tehát a big data elemzés magával a rendelkezésre álló adatok elemzésével foglalkozik, míg az adattudomány multidiszciplináris területként magában foglalja a teljes folyamatot. A fentiekben egy viszonylag éles határ mentén kerültek lehatárolásra a fogalmak, mindazonáltal az látható, hogy ezek szorosan összefüggnek egymással, egymás részhalmazai, s egy-egy folyamat több területet is érinthet. Ez okozza a fogalmak gyakori összemosódását is.
A fogalmi koncepciókon túl a big data egy paradigmaváltás részének tekinthető, mely érinti a statisztikai folyamatokat az adatgyűjtéstől egészen az adatok elemzéséig, így számottevően befolyásolja a statisztikai hivatalok tevékenységét is. Emellett az elemzési módszereket is átalakítja, mely több tényezőt is magában hordoz. Egyrészt a hagyományos elemzési módszerek big data adatmennyiségre való specifikációja szükségszerű és elengedhetetlen az elemzés pontosságának biztosítása és a torzítatlanság elkerülése érdekében. Mindazonáltal ki kell emelni, hogy a hagyományos statisztikai eszköztár számos eleme egyáltalán nem vagy csupán korlátozottan alkalmas a big data elemzésére. Emellett a big data új elemzési módszereket is generál, valamint a gép tanulás folyamatának statisztikai alkalmazását is számottevően ösztönzi.
A big data elemzése során számos különböző módszer alkalmazható. A vizsgálandó problémakör jellegétől, azaz a kutatási kérdéstől függően az alkalmazható módszereket több kategóriába lehet besorolni: leíró elemzés; diagnosztikai vizsgálat; prediktív elemzés, illetve preskriptív analitika. A leíró elemzés a rendelkezésre álló adatokból kinyerhető információkból próbál következtetéseket levonni, míg a diagnosztikai vizsgálat a bekövetkezett változások mögötti hátteret, s azok okait azonosítja. A prediktív elemzés a potenciális jövőbeni lehetőségek feltárására szolgál, legyen szó előrejelzésről vagy a kockázatok azonosításáról. A folyamat utolsó eleme a preskriptív analitika a vizsgálandó problémakörre próbál megfelelő válaszlehetőséget kínálni. A preskriptív elemzés az adatvezérelt döntéshozatal alapjául is szolgál. Amennyiben az egyes megközelítések konkrét elemzési módszereit vizsgáljuk, úgy megállapítható, hogy a hagyományos adatelemzéssel és módszerekkel kapcsolatban átfedések mutatkoznak, azok jelentik a big data elemzés kiindulópontjait. A módszerek azonban specifikálva (pl. tesztek) vannak a nagy adatmennyiségre. A leggyakoribb diagnosztikai vizsgálati módszerek között tartható számon a hipotézisek tesztelése, a korreláció-, és a regressziószámítás. Utóbbi fontos szerepet játszik a prediktív elemzés előrejelzései során is, mindazonáltal az előrejelzés megvalósulhat kifinomult manuális módszerekkel és gépi tanulás bevonásával is. Az adatok egyre nagyobb számban történő rendelkezésre állásával, az egyre kifinomultabb előrejelzési módszerek és modellek megjelenésével egyre népszerűbbé vált a különböző területeken a prediktív vizsgálat. A preskriptív elemzés is gyakran támaszkodik a gépi tanulási folyamatok alkalmazására, mindazonáltal az így megfogalmazott ajánlások teljes mértékben nem helyettesíthetik az emberi döntéshozatalt. A preskriptív elemzés és az adatvezérelt döntéshozatal alkalmazása azonban folyamatosan növekvő tendenciát mutat, s számos területen elterjedt, például az önvezető autóknál, de alkalmazzák az egészségügyben, a gyógyszeriparban vagy az olajiparban is.
Amennyiben a konkrét, alkalmazható elemzési lehetőségek oldaláról vizsgálódunk, úgy a leggyakoribb módszerek között említhető meg: a regresszió-analízis, az idősorelemzés és előrejelzés, a faktoranalízis, a különböző osztályozási és klaszterelemzési módszerek, a véleménybányászat és a hangulatelemzés, a viselkedési adatok vizsgálata és a kohorsz elemzés, a szabálytanulási módszerek, az anomáliaészlelés, valamint a neurális hálózatok és a mély tanulási elemzésének módszere.
Összegzésképpen kijelenthető, hogy a rendelkezésre álló nagy adatmennyiség elemzése és kapcsolódóan az adattudomány számos lehetőséget és kihívást rejt magában. A meglévő elemzési módszerek bevonásával, azok továbbfejlesztésével, illetve új módszerek fejlesztésével az adatokból egyre több információt nyerhetünk ki. Ezzel további perspektívák nyílhatnak meg a teljes elemzési folyamat során kiindulva a leíró vizsgálattól egészen a preskriptív elemzésig, s az adatvezérelt döntéshozatalig.
Jelen blogposzt a TKP2021-NKTA-51 számú projektben, a Kulturális és Innovációs Minisztérium Nemzeti Kutatási Fejlesztési és Innovációs Alapból nyújtott támogatásával, a TKP2021-NKTA pályázati program finanszírozásában valósult meg.