Rendszerek összemosódása a felhasználókban
Ismert biztonsági probléma, hogy sokak számára egybeolvad, mikor használ egy mobilapplikáció felhőszolgáltatást és mikor offline. Kevésbé vizsgált jelenség, hogy a legtöbb felhasználóban összemosódnak a mesterséges intelligencia (MI) és a hagyományos számítástechnika szolgáltatásai is. Ezt erősíti, hogy gyakran az MI-tudást sugallva „okos” címkével reklámozzák a termékeket. Sokaknak nincs idejük elmélyedni a működésben, ezért úgy tűnhet, hogy minden hasznos és bonyolult szolgáltatásban elbújtattak egy MI-t. Ezért érdemes alaposabban megvizsgálni a régi és az új technológia egységét és különbségét.
A régi és az új egymásban
Többféle szempontból tekinthetően hibridnek a mai népszerű informatikai rendszerek, hiszen a feladatokat vegyesen hajtják végre bennük
- felhőben futó és helyi szolgáltatások;
- BigData megoldások és hagyományosabb relációs lekérdezések;
- a neuronhálós és a klasszikusan programozott megoldások.
Megjegyzendő – a számítástechnika történetére egyébként is jellemző –, hogy az elavult technológiák nem megszűnnek, hanem más területen használják őket. Az ipar igazából tiszteli a hagyományait, már csak azért is, mivel egy kiforrott áramkört vagy kódot sokkal könnyebb átdolgozni és újrahasznosítani, és az újdonság bűvöletében élő társadalom számára újként eladni.
Ám az említett hibrid rendszereknél az olcsóbb fejlesztés motivációjánál is fontosabb, hogy bennük a régi és az új egymás komplementereiként igazán hatékony.
- Az offline funkciók mindig elérhetők, de online funkciók által sokszorozódik meg a gép tudása.
- Az adatfeldolgozásban a hagyományos programkódok és adatbázisok egyelőre sokkal pontosabbak és biztonságosabbak, de a BigDatában több a (rejtett) információ.
- Az MI által pedig igazi információfeldolgozás válik lehetségessé a korábbi számítástechnika adatfeldolgozására alapozva (erre a jelen bejegyzés most nem tér ki).
A különbözőségek megjelenése
Egyszerűbb a szakirodalomkeresés példáján keresztül bemutatnom az MI és a hagyományos adatbázis kapcsolatát. Tapasztalhatjuk, hogy az MI-lehetőségek hatékonyabb kereső szolgáltatást nyújtanak, de látnunk kell e mögött a hagyományos adatbázisokból adódó képességeket is. Az említett nagyobb pontosság mellett ezek által lehet felhasználni a régebben feltöltött anyagokat.
Egy írásmű feltöltéskor számos címkét kézileg megadtak vagy megadnak (szerző, témakör, kulcsszavak stb.), ezek alapján lehet gyorsan információt keresni a hagyományos adatbázisokban, mert a cikkek belső tartalmát nem nézi át minden kereséskor a hagyományos rendszer, csak a kitöltött mezőket.
Később elkezdtek olyan botokat (a bot egy virtuális térben működő roBOT, a hálózaton „mozogva” végez automatizált feladatokat – saját meghatározás. Lásd még: [1]) beprogramozni, amelyek a háttérben átolvassák a cikkeket, azaz további kulcsszavakat és címkéket adtak az adatbázishoz. Mára a botokat sok helyen intelligens ágensek (szokás az ügynök szót is alkalmazni az agentre, de pontosabb az angol terminus magyar ejtése. Az ilyen intelligens ágensekről lásd [2]) váltották le, melyek egyre jobban eltalálják a szükséges címkéket.
A jelenség oka, hogy egy MI nem úgy „tanul meg” egy strukturálatlan BigData adathalmazt, ahogyan egy ember megtanul kívülről egy verset. Ha „betéve tudná” azt a sok milliárd adatot, akkor nem lenne adathalász szakma. Ezzel szemben a különféle MI-modellek sajátosan alakítják át a képi vagy betűinformációkat, sőt az így kapott eredményeket is eltérőn dolgozzák fel. Ezért lehet sok szolgáltatás egyedi, bár ugyanazt a nyelvi modellt használja, és ezért ad eltérő eredményeket ugyanarra a kérdésre. További okai lehetnek az ilyen eltéréseknek azok a saját adatbázisok vagy adathalmazok, melyeket csak egy adott rendszer vesz figyelembe. Különbözőséghez vezet továbbá az is, hogy az előfeldolgozás során milyen hagyományos címkézések jellemzik a rendszert.
Egy egyszerű tesztelés
A példánál maradva: tesztjeim szerint a jelen bejegyzés megírásának időpontjáig a vizsgált MI-modellek nem garantáltan jól nyerik ki a bibliográfiai adatokat egy megadott publikációból. Mielőtt több célszolgáltatást teszteltem, a két alap nyelvi modellt (ezek a természetes nyelvfeldolgozás – úgynevezett Natural Language Processing, NLP – nevű specializált MI modellek népszerű, ingyenes verzióval is rendelkező megvalósításai) vizsgáltam meg.
Online elérhető, pdf formátumú egyetemi jegyzetek kiadóját kérdeztem meg tőlük. Egyik közölte, hogy nem képes rá. A másik többször is rossz adatot adott. Rákérdeztem a jó kiadóra, de a hibát a rákérdezés ellenére állította (a kiadó portáljának keresője sem adott találatot a címre, nem is árulják). Rákérdezéskor bizonyítékként a könyv hátoldalát (kolofonját) hozta fel, csakhogy az adott pdf-ben nincs is kolofon. A teszt rámutat, hogy a modellek a cím alapján az interneten keresnek információt, nem pedig az url-ként megadott pdf fájlt tartalmából ismerik fel azt. Megjegyzendő, hogy ezek tudásbázisai külföldiek, vagyis a jövőben intézményileg szükséges törekedni kell arra, hogy a magyar kutatók anyagai olyan adatbázisokba fel legyenek töltve, amelyekből ilyen rendszerek tanulnak.
Azok a szakirodalom-javasló rendszerek, melyek ezekre épülnek, hiteles szakirodalmi tudásbázisból tanultak, ahol eleve rendelkezésre állt adatmező formájában a publikálás minden adata, a modellnek nem kellett megtanulniuk azonosítani a cikk adatmezőit – helyhiány miatt ezek teszteredményeit nem itt közlöm. A tanulság, hogy érdemes még ma is kézileg megadni a legfontosabb információkat a tudományos lapszámok feltöltésekor.
A megtévesztő ezen a téren az, hogy bár igaz, hogy egy MI-ágens elvileg már felismerhetné egy cikk a formázása vagy kontextusa alapján, hogy az említett nevek közül ki szerző, mi az évszám, melyik a szöveg része és melyik a kiadásé (stb.). Ám úgy tűnik, még picit várni kell arra, hogy jól felkészítsék erre az ismert NLP rendszereket, így teljesen elmaradhasson a humánerővel végzet adatlapkitöltés.
A jövő megoldásai
A hibrid rendszerekben működő hagyományos adatbázisok helyett a mai kutatások egyre inkább a neurális adatbázis irányába[3] fejlesztenek. Ebben óriási potenciál várható, ezért ahhoz hasonlóan, ahogyan a mai processzorokba integráltak számtalan, korábban különálló funkciót, úgy fokozatosan az MI is egyre több szerepet vesz át. Elvileg szinte mindent részévé lehet tenni a tanuló modelleknek. Ám a biztonsági problémákon túl számos visszafogó tényező mérsékelheti a térhódítást, ezért még jó ideig velünk maradhatnak a hibrid rendszerek, melyeket csak a fentebb leírt kompromisszumokkal tudunk hatékonyan használni.
Irodalom
[1] B. Lutkevich és S. A. Gillis, „What are bots and how do they work?”, WhatIs. Elérés: 2024. március 2. [Online].
[2] H. Alawwad, „An Intelligent Database System using Natural Language Processing”, International Journal of Computers, jan. 2016.
[3] J. Thorne, M. Yazdani, M. Saeidi, F. Silvestri, S. Riedel, és A. Halevy, „From natural language processing to neural databases”, Proc. VLDB Endow., köt. 14, sz. 6, o. 1033–1039, febr. 2021, doi: 10.14778/3447689.3447706.
A nyitókép a Tengr.ai nevű szolgáltatás által készült, a következő prompt segítségével: „a mesterséges intelligencia kapcsolata a hagyományos programozott számítógépekkel és relációs adatbázisokkal”.
A sorozat részei
- Ami már MI, és ami még nem az – Rendszerek összemosódása a felhasználókban (a jelen írás)
- A mesterséges intelligencia kifejezésen innen és túl – Ami még nem az, de már annak hívjuk, és ami már nem az, de még annak hívják (itt olvasható)
- Okosdolgok egy buta korban – Az okosdolgok terminológiai anomáliáiról és a megoldásokról (itt olvasható)