A modern adattudomány legfontosabb eleme az adat, illetve annak megfelelő minőségben és mennyiségben való léte. Az adatelemzési módszerek komplexitásának bővülésével és a mesterséges intelligencia algoritmusok fejlődésével a rendelkezésre álló adatok iránti igény folyamatosan növekszik. A valós adatok felhasználásának azonban különböző korlátai lehetnek, amelyek magukban foglalják az adatvédelmi, jogi és gazdasági korlátokat, illetve a meglévő adatok megbízhatóságából és az adatelemzésből fakadó limitációkat. A szintetikus adatok ezen problémakörök áthidalására teremthetnek új megoldásokat. A lehetőségek mellett azonban új kihívásokat is eredményezhetnek.
A modern adattudomány kihívásai
Az adattudományi alapokon nyugvó elemzések, kutatások, projektek egyik legnagyobb kihívása a minőségi adatokhoz való hozzáférés. A rendelkezésre álló, valós adatok felhasználásának korlátjait két fő csoportba sorolhatjuk: az adatvédelmi, jogi és gazdasági korlátok, illetve a meglévő adatok megbízhatósága, s az adatelemzésből fakadó limitációk kategóriájába. Az adatvédelmi és jogi korlátok magukban foglalják a személyes adatok védelmét, az etikai engedélyek hiányát, valamint a szerzői jogból vagy üzleti titokból fakadó korlátozásokat. A három alkategória közötti különbséget az adatok léte is befolyásolja. A személyes adatok védelmére vonatkozó jogszabályok, illetve a szerzői jogi vagy az üzleti titok esetén a valós adatok rendelkezésre állhatnak, azonban azok megosztása (szenzitív jellegükből fakadóan (pl. egészségügyi, pénzügyi vagy oktatási területen), illetve gazdasági/üzleti döntésekből fakadóan, pl. versenyelőny miatt) korlátozott vagy egészében tiltott. Ez egyfajta hozzáférhetőségi korlátot von maga után, amely önmagában abból is fakadhat, hogy egyes esetekben az adatigénylési folyamat bonyolultsága, s az annak során jelentkező akadályok is nehéz hozzáférhetőséget eredményezhetnek.
Az etikai engedélyek hiányában bizonyos kutatások azonban valós körülmények között nem végezhetők el, ami a valós adatok hiányához vezet. Hasonlóan az adathiány problematikájához kapcsolódik a ritka események vizsgálatának esete is, amelyeknél a valós adatok csupán korlátozott minta formájában állnak rendelkezésre (pl. ritka betegségek vagy szélsőséges időjárási jelenségek esetén). Emellett az adathiányt az adatgyűjtés magas költsége és időigényessége is előidézheti. Az adatgyűjtés költségei azonban összetett tényezőként azonosíthatók, lehet az egyszeri adatfelvétel költségéből jelentkező, valamint a teljes adatgyűjtési rendszer és az adattárolás költségéből fakadó faktor is.
Az adatok rendelkezésre állása és hozzáférhetősége mellett a valós adathalmazok az adatminőség oldaláról is számos problémát eredményezhetnek, hiányosak, kiegyensúlyozatlanok, zajosak vagy hibásak lehetnek, amelyek korlátozzák vagy ellehetetlenítik egyes adatelemzési technikák alkalmazását vagy a teljes vizsgálatot. Egyes gépi tanulási folyamatoknál a valós adatokkal csak korlátozott betanítási folyamat érhető el, a szükséges nagy, változatos és kiegyensúlyozott valós adathalmaz hiányában. Emellett a valós adatok korlátozott hozzáférése vagy hiánya a vizsgálatok reprodukálhatóságát, illetve az eredmények robosztusságának elemzését is limitálhatja.
Mik azok a szintetikus adatok?
A valós adatok használatának tiltására, korlátozott, költséges hozzáférhetőségére, az adathiányra vagy az adatminőségre, valamint a vizsgálatok reprodukálhatóságára vonatkozó korlátok külön-külön is a szintetikus adatok használatát indukálhatják. Szintetikus adatnak tekinthetünk általánosságban minden olyan adatot, amely nem való esemény, illetve adatgyűjtés eredménye, hanem mesterségesen, algoritmusok vagy statisztikai modellek alkalmazásával generáltak. A szintetikus adatok generálása különböző módszerekkel történhetek. Ezek közé sorolhatók a statisztikai modelleken alapuló megközelítések (pl. eloszlásalapú módszerek, interpoláció és extrapoláció, Monte Carlo szimuláció, Kernel sűrűség alapú becslés vagy olyan statisztikai modellezési eljárások, mint a lineáris regresszió nyomán generált új adatok), valamint a mélytanulási megközelítések (pl. nagy nyelvi modellek, generatív versengő hálózat (GAN) vagy a variációs autoenkóder (VAE)). A szintetikus adatok egyik legfontosabb tulajdonsága, hogy statisztikailag jól leképezik a valós adatok jellemzőit, eloszlását, mintáját, s miután nagy mennyiségben létrehozhatók, így a gépi tanulási és mesterséges intelligencia alapú vizsgálatoknál különösen hasznosak lehetnek. A szintetikus adatok azonban túlmutatnak a hagyományos adatpótlási, illetve kiegészítő szerepükön; egyre inkább az adatlapú innováció egyik fontos eszközeként azonosíthatók. Mindazonáltal fontos kiemelni, hogy szintetikus adat formájában generált információ csak oly mértékben lehet megfelelő kimenet, amennyire a bemenet, illetve az alkalmazott algoritmus is az adatok létrehozására alkalmas. A szintetikus adatok alkalmazásának számos korlátja azonosítható, amelyek az adatelemzés, illetve az eredmények értelmezése során is problémákat eredményezhetnek. Ezek közé sorolhatók az alábbi esetek:
- a szintetikus adatok nem tükrözik teljesen a valós adatok statisztikai jellegzetességeit, s eloszlás torzulásokat okozhatnak;
- a szintetikus adatok hiányából vagy hibájából fakadóan levont torz következtetések;
- az adatok túlzott „jósága”, amely révén az nem tükrözi a valós adatokban azonosítható zajt, illetve változatosságot, így nem tekinthetők hiteles leképezésnek;
- a nem megfelelően generált szintetikus adatok az adathalmazban lévő torzulásokat erősíthetik, így torzítást és megbízhatósági problémákat okozhatnak;
- a nem megfelelően alkalmazott szintetikus adatok a modelleket félrevezethetik (pl. a „túl jó” adat módszertanilag túlillesztést eredményezhet a modellezés során), illetve gyenge minőségük a modellek alkalmazása során biztonsági kockázatot (pl. manipuláció vagy kiberbiztonsági kockázat) is jelenthet;
- emellett számos területen jogi vagy szabályozási korlátok nehezítik a szintetikus adatok alkalmazását.
Fontos rögzíteni azt is, hogy a szintetikus adatok ugyan kiküszöbölhetik a személyes adatok védelmére vonatkozó korlátozásokat, viszont még az adatok generálása által is fennáll annak a veszélye, hogy az egyének újraazonosíthatókká válnak az adathalmazból, különösen abban az esetben, ha azok érzékeny vagy egyedi adatokat tartalmaznak. A szintetikus adatokon alapuló mesterséges intelligencia modellek teljesítménye is csökkenhet, ha azok egymás által generált adatokra épülnek.
Mire jók a szintetikus adatok?
A szintetikus adatok alkalmazása ugyan még kezdeti fázisban van, azonban már számos iparágban alkalmazzák azt. Különösen releváns a szintetikus adatok alkalmazása olyan esetekben, amikor egy adatalapú rendszer bevezetésének tesztelése történik vagy különböző szimulációk elvégzéshez alkalmazzák azt a valós adatok helyett vagy azok bővítésére. Továbbá különböző forgatókönyvek, pl. krízis és válságszimulációk vizsgálatára, illetve ritka események modellezésére is alkalmasak lehetnek. A szintetikus adatok azonban pontos beazonosítás nélkül tulajdonságaikból fakadóan nehezen elkülöníthetővé válhatnak a valós adatoktól. A Világgazdasági Fórum jelentése a szintetikus adatok használatára vonatkozóan javaslatokat is megfogalmaz, amely magában foglalja a minőségi értékelési módszerek és benchmarkok kialakítását, az adat életútjának világos nyomon követhetőségét, az adat típusának pontos beazonosítását, címkézését, az iparági sztenderdek kidolgozását, illetve a módszertani irányelvek meghatározását a generálási folyamat javítására. Emellett előirányozza a fejlesztők, szabályozók és döntéshozók közötti együttműködését a felelős használat érdekében, amely biztosíthatja az innováció előmozdításához szükséges kereteket, de kiküszöböli a visszaélések és rendszerhibák kockázatait is.
A tudományos kutatásokban a szintetikus adatok használata – különösen a szenzitív adatokat vizsgáló tudományterületeken – szintén egyre elterjedtebb, azonban azok alkalmazására szigorú szabályok és irányelvek vonatkoznak, annak érdekében, hogy a kutatási eredmények megbízhatósága, reprodukálhatósága, illetve etikussága biztosítható legyen. Ezzel összhangban a vezető tudományos folyóiratok szabályozzák a szintetikus adatok használatát azáltal, hogy a szerzőnek meg kell jelölni az adat jellegét (teljesen vagy részben szintetikus adat-e), illetve a generálás módszerét és célját is. Emellett – függetlenül a szintetikus adatoktól – a folyóiratok gyakran kérik az alkalmazott kód és minta megosztását a reprodukálhatóság érdekében. Fontos szempont, hogy amennyiben a szintetikus adat valós adatból származik, úgy szükséges lehet etikai jóváhagyásra is. Emellett a megtévesztő vagy hamis szintetikus adatok publikálása etikátlan.
A szintetikus adatok alkalmazása új lehetőséget teremt a tudományos kutatás, az adatalapú döntéshozatal számára, amely nem csupán a meglévő elemzési kereteket szélesíti, hanem további lehetőségeket is generál. Mindazonáltal a kezdeti felhasználás, illetve a szintetikus adatokban rejlő előnyök kiaknázása mellett, elengedhetetlen azok kockázatainak mérséklése is, s a különböző formában való alkalmazásuk lehetőségeinek pontos szabályozása.
Nyitókép forrása: g_liya_design / depositphotos.com




