Az adat az új arany – halljuk mostanában. Cikksorozatunkban annak jártunk utána, hogyan lehet okosan, szabályosan adatot gyűjteni, tárolni, és miképpen hasznosulhatnak a beszerzett információk. A sorozat első részében a vállalati szempontokat mutattuk be, ezúttal, a második részben makrogazdasági nézőpontból járjuk körül a témát Marton Ádám, az NKE ÁNTK Közgazdaságtani és Nemzetközi Gazdaságtani Tanszékének adjunktusa segítségével.
Mit takar a nemzeti adatvagyon fogalma?
Nézzük meg először magának az adatnak a fogalmát. Az adat kifejezhet mennyiséget, minőséget, jelenségeket és tényeket is. Rendelkezésre állhat strukturális, félig strukturális és strukturálatlan formában is. A big data szempontjából – a hagyományos strukturális adatokon túl – adatnak minősülnek a hang-, és videófelvételek, képanyagok, bármilyen szöveges anyag, dokumentum stb. Az adatvagyon leegyszerűsítve ezeknek az adatoknak az összessége. Megfogalmazhatjuk ezt úgy egy vállalat szintjén, hogy a vállalat által gyűjtött és az általa relevánsnak tekintett adatok összessége az a vállalat számára rendelkezésre álló adatvagyon. Azaz minden egyes vállalat rendelkezik saját adatvagyonnal, s ezek más-más jellegű, mennyiségű és minőségű adatokat foglalhatnak magukban. A nemzeti adatvagyon pedig magát az állam által gyűjtött adatokat foglalja magában. Ez tekinthető az egyik legnagyobb adatvagyon készletnek, amely esetében az adat valamely közfeladatot ellátó szervnél – például egészségügyi vagy felsőoktatási intézménynél – keletkezett. A vonatkozó törvény (a 2023. évi CI. törvény a nemzeti adatvagyon hasznosításának rendszeréről és az egyes szolgáltatásokról – a Szerlk.) úgy határozza meg a nemzeti adatvagyon fogalmat, mint „a közfeladatot ellátó szervek által kezelt közadatok, dokumentumok és kulturális közadatok, továbbá egyéb a kezelésükben lévő személyes és védett adatok összessége, függetlenül azok megjelenési formájától”. Hazánkban a Nemzeti Adatvagyon Ügynökség a nemzeti adatvagyon hasznosításával megbízott közigazgatási szerv, melynek tulajdonosi jogainak gyakorlója a Központi Statisztikai Hivatal.
Miképpen tartható biztonságban ez az adatvagyon?
Fontos megkülönböztetnünk nyílt és nyilvános adatokat. A nyílt adathalmazok hozzáférhetőek és újra felhasználhatók bármilyen kutatáshoz, míg a nyilvános adatok esetében korlátozások érvényesülnek, például szerzői jog által védettek, nem újra felhasználhatóak, vagy csak valamilyen adatigénylés révén hozzáférhetőek. A nemzeti adatvagyon esetében az adatok jelentős része szenzitívnek minősül, hozzáférésük korlátozott lehet. Emellett fontos azt is kiemelni, hogy a nemzeti adatvagyon elemei a valamilyen konkrét célhoz rendelve keletkeznek. Gondolhatunk itt például egy egészségügyi vizsgálatra vagy az online pénztárgépek esetére, ahol a vásárlásnál sem az adatgyűjtés az elsődleges cél. Mindazonáltal már az adatgyűjtés is hozzájárulhat olyan célokhoz, amely mondjuk az állami hatékonyságot, nemzeti versenyképességet segíti elő.
Hallani az adatösszekapcsolásról is, mit takar e fogalom?
Ez nem más, mint a különböző forrásból származó adatok, információk egyetlen új cél érdekében történő összekapcsolása. Ez a cél lehet egy vizsgálati vagy kutatási cél, de lehet a vállalat vagy az állam szempontjából hatékonyságnövekedést vagy elégedettséget elősegítő intézkedés megalapozásához vezető eredmény elérése is. A hagyományos kvantitatív kutatások során is alkalmazzuk ezt, mindazonáltal a big data elemzés során jelentősebb szerephez juthat. A kutatások – különösen a társadalomtudományi kutatások – jelenleg még elsődlegesen a meglévő perspektívákba visznek új impulzusokat a big data elemzések alkalmazásával. Ez már rövid távon átalakulhat, s teljesen új kutatási kérdések, irányok kerülhetnek előtérbe, tágítva ezzel a kutatási lehetőségeket, a vizsgálati területeket és ezáltal új aspektusok bevonásával az eredmények pontosítása is elérhető válik.
Hogyan függ össze a big data és a mesterséges intelligencia (MI)?
A MI-hoz kapcsolódóan általában a generatív mesterséges intelligencia kerül csupán a figyelem középpontjában. A gépi, illetve mélytanulás azonban már régóta az adatelemzés részét képezi. Erről a MI kapcsán kevesebb szó esik. A gépi és mélytanulás, ezáltal pedig a mesterséges intelligencia sem lenne meg az adatok rendelkezésre állása nélkül. Az adatok hiányában ugyanis nincs a betanításnak sem alapja. Ezek alapján tehát mondhatjuk azt, hogy a rendelkezésre álló megfelelő minőségű adat a mesterséges intelligencia alapja, s fogalmazhatunk úgy is, hogy adattal kell etetni a MI-t. Minél jobb és nagyobb mennyiségű adatot tudunk bevonni a betanítási folyamatba, annál jobb lehet a gépi és mélytanulási folyamat. Ez pedig aláhúzza az adatgyűjtés során az adatokban bekövetkező zajok minimalizálását, illetve az adattisztítási folyamat jelentőségét is. A jobb tanulási folyamat pedig maga után vonja a pontosabb elemzési eredményeket, előrejelzési képességeket, ezáltal pedig a vizsgálati kérdésekre adott pontosabb válaszokat, s az abból levonható következtetéseket. Összességében tehát a big data-n alapuló vizsgálat pontosíthatja az egyes eredményeket, s a levonható szakpolitikai intézkedéseket. Ezt a pontosságnövekedést láthatjuk akkor is, amikor a generatív MI – legyen szó szöveg vagy kép generálásáról – pontosabb válaszokat ad a tanulási folyamat előrehaladásának eredményeként, de szintén ezt vonja maga után az is, amikor mondjuk egy-egy diagnosztikai eljárás során kerül bevonásra a MI: például a rákos daganatok diagnosztizálásakor, s hatékonyabb szűri ki azokat a vizsgálati folyamat során.
Hogyan függ össze az adatvagyon a versenyképességgel?
Ahogyan a versenyképesség esetében is mikroszinten alapul a makroszintű versenyképesség, úgy az adatoknál is a legkisebb egységnél indul a versenyképességi lehetőségek kiaknázása. A komplexitás kiindulópontját tehát az adatok megfelelő módon való gyűjtése jelenti, melyeknek a lehető legtöbb zajtól menteseknek, s a versenyképességi célok érdekében felhasználhatóknak kell lenniük. Fontos megemlíteni, hogy ezek az adatok a megfogalmazott célok érdekében is gyűjthetők, de létrejöhetnek más forrásokból történő bevonással is. Jelenleg az adatvagyon jelentős része nem célzottan kerül gyűjtésre. Ezáltal fontos szerep jut az adatösszekapcsolásnak is. A versenyképesség emellett szoros kapcsolatban áll a rezilienciával. A big data elemzés nyújtotta lehetőségek javíthatják a mikro és makro szintű ellenállóképességet és az esetleges sokkokra, potenciális egyensúlytalanságokra és kihívásokra adott válaszreakciókat is. Ezeknek további ösztönzője lehet a big data által javuló kérdésfeltevés és a kutatási keretrendszer bővülése.
Tudna konkrét példát mondani?
Igen: a sikeresség és eredményesség mérése a hagyományos módszertani keretek között sem történhet egyetlen mutatóval, mérési eredménnyel. Ez komplex szemléletet, több mutató bevonását igényli, potenciálisan kompozit mutató képzése szükséges hozzá. Minden tényezőt, azonban még a kompozit mutatóval is nehézkes lefedni, mérési korlátokba ütközhetünk. Ezt a korlátot tudja a big data-hoz kapcsolódó adatgyűjtés áthidalni. A rendelkezésre álló pontosabb, nagyobb mennyiségű, teljes körűnek tekinthető adathalmazok alkalmasabb elemzési keretrendszert teremthetnek, illetve mérhetővé tehetnek olyan altényezőket, amelyek a hagyományos megközelítéssel egyáltalán nem vagy csupán részben, esetleg torzítottan voltak mérhetőek. Ez csupán egyetlen példa, mely magát az adatmennyiséget és a rendelkezésre álló jobb minőségű adatokat veszi figyelembe egy komplexebb keretrendszer felépítésére. Ez azonban tovább bővíthető például olyan keretekre is, amely tényezőket eddig a hagyományos keretrendszerben nem tudtunk mérni és/vagy vizsgálni, azaz teljesen új kérdésfeltevésekre kaphatunk választ.
Hogyan hasznosítható a big data az állami döntéshozatalban?
A rendelkezésre álló nagy adatmennyiség hasznosítása makro szinten és az állam szintjén hasonlóan alakul, mint mikro szinten és a vállalatoknál. A big data ugyanúgy elősegítheti a döntéshozatalt jobb adatokkal, s ezáltal a jobb elemzési lehetőségekkel és pontosabb eredményekkel. A döntéshozatali folyamat big data-val történő támogatása már önmagában eredményezhet hatékonyabb döntéseket és ezáltal hatékonyság növekedést is. Fontos szerepe van magának az előrejelzések készítésének is. A rendelkezésre álló adatok szempontjából fontos, hogy minél pontosabb eredményeket, prognózisokat tudjunk elérni. Ennek javulása pontosabb intézkedés bevezetését is eredményezheti, ami növelheti a sikerességet, az eredményességet, illetve tovagyűrűző hatás révén további pozitív hozadékokkal bírhat.
S miképpen lehet mindezeket összeegyeztetni a személyes adatok védelmével?
Fontos szempont a személyes és védett adatoknak kezelése egyaránt. Emellett kutatási oldalról kiemelt jelentősége van az adatvédelemnél az adatok anonimizálásának. Azaz annak, hogy az egyes adatok ne legyenek beazonosíthatók – ez ugyanakkor sok esetben megnehezítheti az adatok vizsgálatát, s szűkíti az adatösszekapcsolás lehetőségeit. Ezáltal ugyanis nem lehetséges olyan összefüggések azonosítása, amellyel végső soron meg tudjuk határozni a két különböző anonimizált adatsorban lévő változók vagy adatok közötti kapcsolatot. Ezzel párhuzamosan tehát mondhatjuk azt, hogy az adatvédelem önmagában korlátozza az adatelemzést.
Merre tart a világ, milyen trendek vetíthetők előre, azaz hogyan oldható majd fel ez az ellentmondás?
Egy adatalapú korban élünk, melyben az adatok szerepe és a bennük rejlő lehetőségek kihasználása, az adatelemzés rövid és hosszú távon is még jobban fel fog értékelődni. Európában felhasználó központú adatvédelemről beszélhetünk, az Egyesült Államokban vállalati, míg Kínában állami fókuszú adatpolitikáról. Ezek a hangsúlyeltolódások mikro és makro szinten is számottevő hatást gyakorolhatnak a lehetőségek kiaknázására. Félreértés ne történjen, ezzel nem azt akarom mondani, hogy a felhasználói központú adatvédelem előtérbe kerülése nem fontos! Igenis szükség van a személyiségi jogok védelmére, az adatvédelemre, különösképp egy olyan technológiai környezetben, ahol a dezinformáció két kattintásra lehet tőlünk, s MI-val kis túlzással bármi generálható már. Mindazonáltal az adatvédelem különböző szintjei más és más versenylehetőséget biztosítanak. Ez pedig különösen fontos annak fényében, hogy a legtöbb szakértő egyetért abban, hogy hiába az 1990-es években bekövetkezett információs és kommunikációs forradalom, az ahhoz kapcsolódó technológiai fejlődés nem vezetett egyértelmű termelékenységi növekedéssé. A termelékenységi boom-ot sokan most a mesterséges intelligenciában és a big data lehetőségeinek kiaknázásában látják. Ilyen kiélezett versenyben pedig az adatvédelemben való apró hangsúlyeltolódások is számottevő hatásúak lehetnek. A másik szempont az adatelemzési képességek rendelkezésre állása. Ezek sok esetben korlátozottan, illetve nem feltétlenül specifikusan, az adott területnek megfelelően állnak rendelkezésre, mely szintén a versenyképességi lehetőségek korlátozását vonhatja maga után.