A generatív mesterséges intelligenciák által támogatott szolgáltatások száma, hatásuk a munkaerőpiacra, az emberiségre napról-napra exponenciálisan növekszik. Cikkünkben olyan megoldásokat tekintünk át, melyek a digitális kultúrához való hozzáférést támogatják az abban korlátozottaknak. A mesterséges intelligencia egy képességkibővítő technológia, ami nem csak azt teszi lehetővé, hogy aki jó valamiben, az még jobb legyen, de segíthet a hátrányok leküzdésében is.
Lance Carr a játékosvilág egy híres szereplője. Mozgásában korlátozott, kezeivel nem tud irányítani egy számítógépet, így egy fejre szerelhető egér segítségével használta a számítógépet, és vált híres játékos streamerré. 2021-ben leégett a háza. Ez a tragédia indukálta a Gameface projektet, egy olyan arcfelismerő rendszert, mely mesterséges intelligencia segítségével tanul, és lehetővé teszi, hogy arcmozdulatok segítségével irányíthassuk az egeret. A szemöldökök mozgatásával, a száj kinyitásával és becsukásával parancsokat adhatunk ki. A fejmozgásokat egy egyszerű webkamera segítségével ismeri fel, a webkameráról rögzített fejmozgásokat és arcmozdulatokat gépi tanulási modellek ismerik fel, és mozgatják a kurzort. A gesztusokat a különböző felhasználók testre szabhatják, és így beállíthatják, hogy milyen mértékű grimasz, fintor vagy arcjáték aktivál parancsokat. A szoftver a Google MediaPipe nyílt forráskódú megoldásain alapszik, ingyenesen letölthető, szakemberek a fejlesztésben is részt vehetnek. Bár egy játékos indukálta, nem nehéz észrevenni a későbbi kiterjesztés lehetőségeit az arra rászorulók számára.
Már az okostelefont is egyre elterjedtebben használhatjuk különböző hátrányok leküzdésére: kezdve a tájékozódás segítésétől a feliratok hangos felolvasásán át egészen a különböző e-health alkalmazásokig. Számos megoldás működik jelenleg a hozzáférés támogatása területén, a mesterséges intelligencia generatív képessége rugalmasabbá, minden helyzetben működővé teszi őket. Az Ava alkalmazás például leiratozza a környezetünkben zajló beszélgetéseket hallássérültek számára, a RogerVoice ugyanezt a telefonbeszélgetésekkel teszi, a Subtitle Viewer az otthoni tévével összekapcsolódva a telefonon feliratozza a film szövegét.
A mesterséges intelligencia rendszerek segítségével például egy értelmi fogyatékkal élő személy a szöveges összefoglalónak köszönhetően könnyebben megértheti az őt körülvevő világot. Ami elsőre egy bonyolultan megfejthető üzenetnek tűnhet, az könnyen érthető szöveggé válik. Azok a dolgok, amelyek eleinte nehezek vagy lehetetlenek voltak számukra, most már könnyen elérhetővé válnak a mindennapokban. A technológia alkalmazkodik és segít a világot befogadó hellyé alakítani a mesterséges intelligencia hozzáférhetőségével.
Az akadálymentesítésben a lenti területeken már most nagyon meggyőzően teljesít a mesterséges intelligencia:
- automatizált képfelismerés és értelmezés a látássérültek számára
- (nem csak digitális környezetben) arcfelismerés látássérültek számára
- szájról olvasás felismerés hallássérültek számára
- szövegösszefoglalás értelmi fogyatékkal élők számára
- automatizált valós idejű feliratozás vagy fordítás a hallássérültek vagy akár a nyelvet nem beszélők számára
A látássérültek esetében a következő területeken válnak még kiterjedtebbekké a mesterséges intelligencia támogatott rendszerek:
- Hangalapú felhasználói felület: az MI technológiák lehetővé teszik a hangalapú felhasználói felületek kifejlesztését, amelyek lehetővé teszik a látássérültek számára, hogy hangutasításokat használjanak a számítógép vezérléséhez. Ez segítséget nyújthat a böngészésben, az alkalmazások elindításában és az információk lekérdezésében.
- Hangalapú asszisztensek: Az intelligens hangalapú asszisztensek, például a Siri, az Alexa vagy a Google Asszisztens, lehetővé teszik a látássérültek számára, hogy hangutasításokat adjanak a számítógépen végrehajtandó feladatokhoz. Ezek az asszisztensek képesek információkat keresni, üzeneteket küldeni, naptári eseményeket kezelni és más tevékenységeket végrehajtani a látássérültek helyett.
- Képfelismerés és tárgyfelismerés: Az MI algoritmusok képfelismerő és tárgyfelismerő rendszereket használnak, amelyek segítségével a látássérültek azonosíthatják és megnevezhetik a körülöttük lévő tárgyakat vagy embereket. Ez a technológia lehetővé teszi például az olvasási anyagok, például könyvek, újságok vagy táblázatok szkennelését és hangosítását.
- Hangos navigáció: Az MI alapú hangos navigációs rendszerek segíthetnek a látássérülteknek a számítógépen való navigálásban és az alkalmazások közötti váltásban. Például a képernyőolvasók olyan szoftverek, amelyek felolvassák a képernyőn megjelenő szöveget, és lehetővé teszik a vak vagy látássérült felhasználók számára a szöveg tartalmának megértését.
A hallássérültek esetében a szövegfelismerés és beszédgenerálás lehetővé teszi a hallássérültek számára, hogy szöveges formában olvassák vagy megértsék a beszélgetéseket, podcastokat, videókat vagy más audió tartalmakat. Emellett a beszédgenerálás segítségével az MI vissza tudja alakítani az írott szöveget beszéddé, így a hallássérült felhasználók számára hangos formában is hozzáférhetővé válnak a szöveges tartalmak. De egy kiterjedt, akár online adatbázis segítségével immár megoldható az is, hogy a hallássérült az utcán közlekedve írásos üzeneteket kapjon a fontosabb zajokról vagy akár a közlekedésben hangosbemondóval közétett információkról.
A különféle megoldások eddig is léteztek, a mesterséges intelligencia bővíti a lehetőségeket azzal, hogy egyre inkább nemcsak előre előkészített helyzeteket tudnak megoldani, hanem életszerűen, természetesen, nem beállított környezetekben is egyre jobban működnek.
Nem feledkezhetünk el természetesen az ilyen alkalmazások által felvetett jogi kihívásokról sem. Az ilyen alkalmazásokat használók környezetében lévőkről a használat miatt kiterjedt adatgyűjtést végez, legyen ez akár egy arc, akár egy épület tárgyai vagy írásos dokumentumok szövegei. A kiterjedt használatukhoz valószínűleg elsőre jól látható jelzés kell a környezet felé, hogy most éppen – egy embertársunk segítése érdekében – szisztematikus adatgyűjtés történik. Mint ahogy amellett sem mehetünk el szó nélkül, hogy a hozzáférést és a hátrányokat megszüntető fejlesztésekkel párhuzamosan ezen megoldások visszaélésekre alkalmas fejlesztései is történnek, például a képek felismerését és értelmezését a captcha védelem kikerülésére, az arcszkenneléseket deepfake manipulációkra vagy akár okostelefonok védelmének feltörésére is lehet használni.