A digitalizáció és az ipar 4.0 technológiai fejlődése magával hozta az adatok forradalmát is. Számos adatot generálnak a fogyasztók, a vállalatok és az állam is. Az elemzések során egyre több adat áll rendelkezésünkre, melyek a kutatások során egyik oldalról bővítik az elemzési lehetőségeket, a kutatási területeket, valamint pontosabb elemzési, előrejelzési eredményeket érhetünk el velük. Másik oldalról viszont potenciális kihívásokat is magukban hordoznak, melyek kiterjednek a megfelelő elemzési lehetőségek megválasztására, illetve az önkényesen megválasztott elemzési módok, modellek, becslési eljárások okozta torzított eredményekre, az azokból levont nem megfelelő szakpolitikai következtetésekre is, valamint a nem szándékos torzítás okozta divergenciákra is. Ez még inkább hangsúlyozza, hogy a kutatói és az elemzői szerepkör felelőssége az adatok rendelkezésre állásával felértékelődik, s még fontosabbá teszi az elemzések során a megfelelő módszerek kiválasztását.
Kiindulópontnak tekintsük az adatokat mint fő vizsgálati tényezőket, valamint azok megváltozott jellegét. A hagyományos adatok, illetve az adatgyűjtés és a big data közötti különbség több tényező mentén határozható meg. Mindazonáltal két nagy területet lehet lehatárolni: az adatok méretéből és jellegéből fakadó eltérést, illetve ezzel szoros összefüggésben a nagyobb mennyiségű, illetve potenciálisan nagyobb gyakoriságú adatokból fakadó eltérő elemzési lehetőségeket és kihívásokat. Az adatok jellegét vizsgálva leszögezhető, hogy a hagyományos adatok fő jellegzetessége, hogy strukturáltan állnak rendelkezésre, általánosságban kisebb méretűek, kezelésük és elemzésük egyszerű, illetve esetükben alkalmazhatók a hagyományos elemzési módszerek és függvények. A hagyományos adatok elemzési lehetőségei között tarthatjuk számon – a teljes igénye nélkül – például a statisztika két nagy területét: a leíró és következtető statisztikát; a különböző adatredukciós módszereket, csoportosító eljárásokat, ok-okozati kapcsolatok és összefüggések vizsgálatát. Emellett az egyes tudományágakban – különösen a közgazdaságtanban – az empirikus vizsgálatok oldaláról fontos szerep jut a különböző modellezési eljárásoknak (pl. DSGE modellek), amelyek lehetővé teszik az egyes elméletek tesztelését. Ezzel szemben a big data legtöbb esetben nem strukturált vagy félig strukturált formában áll rendelkezésre, s az adatok kisebb része érhető el strukturált formában. További tulajdonságaként tartható számon az adatok számottevő méretéből fakadó eltérés, ezzel összefüggésben az adatok kezelésével kapcsolatos kihívások, illetve a szükséges speciális adatbáziskezelők használata, valamint az adatméretből fakadó nagyobb rendszerkapacitási igény. A big data elemzése számos esetben a meglévő statisztikai, ökonometriai technikákon alapuló kiterjesztett és specializált módszertani kereteken alapul, azonban a pontos elemzési eredményekhez speciális függvények alkalmazására van szükség. Összefoglalva a big data elemzés a számottevő adatot magában foglaló adatbázisok kezelésén, az adatminőség biztosításán, az adattisztításon, illetve az adatok kezelésén alapul, melyek vizsgálata végső soron a big data-ra specializált különböző elemzési módszerek alkalmazásával valósítható meg. A hagyományos adatok és a big data azonban össze is kapcsolható, nem szükséges azokat külön kategóriákat kezelni. Ezek kombinálására számos lehetőség kínálkozik, például a big data alkalmazható kiegészítő vagy segédadatként a hagyományos statisztikai adatokhoz kapcsolódóan.
A big data elemzésére és a gépi tanulásra épülő modellek számos tudományágban az elemzések alapjául szolgálnak. Ez alól nem képez kivételt a közgazdaságtan sem. Erre egy jó példa, hogy egy elemzés során megállapították, hogy a közösségi médiában tapasztalható hangulat és a fogyasztói bizalmi index között korreláció mutatható ki, viszont mindkettőnek vannak hiányosságai. A hagyományos fogyasztói bizalmi index tartalmazhat mintavételi hibákat, torzításokat, míg a közösségi médiához kapcsolódó hangulatindex ugyan rendkívül időszerűnek tekinthető, viszont például az összehasonlíthatóságot korlátozhatja a közösségi médiában való részvétel potenciális megváltozása. Emellett hangsúlyozni kell azt is, hogy a big data-n alapuló adatvezérelt módszerek javíthatják az ok-okozati összefüggések azonosítását és ezzel kapcsolatban az előrejelzési képességet is a hagyományos statisztikai módszertanhoz képest.
A fentiek, s big data egyre növekvő népszerűségének ellenére ezen elemzések alkalmazásának jelenleg módszertani korlátai is felmerülhetnek. Amennyiben az előrejelzési technikákat vesszük górcső alá, úgy kijelenthető, hogy a nagy adatokkal végzett előrejelzéssel kapcsolatban kezdetben a túlillesztés okozta becslési torzítás eredményezhetett torzított előrejelzési eredményeket. Mindazonáltal az utóbbi időben a tesztek és becslési eljárások pontossága folyamatosan javult, mely a modellválasztás folyamatát és az előrejelzési képességet is javítja. Megállapítható tehát, hogy az elemzési módszerek is folyamatos fejlődést mutatnak, mely a jövőben elősegítheti a big data vizsgálatok még nagyobb mértékben történő elterjedését. Továbbá szükséges kiemelni, hogy a big data elemzési technikákkal történő empirikus vizsgálatok során különösen fontos a nem szándékos torzítások elkerülése, s ezáltal a torzított eredmények és következtetések lehetőségének kiküszöbölése. A big data-val szemben megfogalmazhatók további kritikák is. Ezek között említhetjük meg, hogy nem rendelkezünk megfelelő információval az adatgeneráló folyamatról vagy az adatforrás kapcsolatait illetően, valamint ki kell emelni az adatvédelem szerepét is, ugyanis nem megfelelő adatvédelem mellett a magán adatgyűjtők számára – melyeket nem köt olyan szigorú szabályozási rendszer, mint az állami szereplőket – lehetőséget teremt a profilalkotásra.
Számos kutatás kiemeli, hogy a big data elemzés, valamint kapcsolódóan a gépi tanulás lehetőségeinek kihasználása stratégiai fontosságú a közgazdászok, a politikai döntéshozók és a társadalomtudósok számára. Ezen módszerek ismerete, valamint az ezzel szoros összefüggésben álló kódolási képességek (különösen R és / vagy Python használata) fejlesztése kulcsfontosságú tényező a jövőbeni elemzői tevékenységhez (legyen szó közgazdaságtudományi vagy társadalomtudományi elemzésről, vagy a politikai döntéshozatalról, de a módszertan ezen vállfaja az állam- és jogtudomány számára is további perspektívákat kínálhat, pl. szövegelemzés), sőt a jelenbeli elemzések során is egyre inkább elengedhetetlenné válik.
Összegzésképpen megállapítható, hogy az adatalapú elemzési környezet egyre inkább elterjed a mindennapokban. Ez felértékeli a big data adatgyűjtést, s a kapcsolódó elemzések jelentőségét is, melyek a lehetőségek mellett kihívásokat is magukban hordoznak. Emellett a folyamatban lévő változások a kutatói és elemzői képességeket is felértékelik. Továbbá szükséges kiemelni, hogy a pontos, megbízható, torzításmentes elemzések a hagyományos módszertani keretrendszerben is elengedhetetlenek. Ez a kritérium ugyanakkor az adatok egyre nagyobb elérhetősége mellett – kapcsolódóan a big data strukturálatlan és félig strukturált tulajdonságához – még fontosabbá válik a big data elemzések során, valamint aláhúzza az elemzések során alkalmazott becslési eljárások, módszerek, modellspecifikációk megfelelő alkalmazását.
A blogposzt a TKP2021-NKTA-51 számú projektben, a Kulturális és Innovációs Minisztérium Nemzeti Kutatási Fejlesztési és Innovációs Alapból nyújtott támogatásával, a TKP2021-NKTA pályázati program finanszírozásában valósult meg.
Nyitókép: Mohamed Hassan / PxHere