Rövid összefoglalóm célja, hogy „kályhaként” szolgálhasson, ha az olvasó a mesterséges intelligencia (továbbiakban MI) hardveres alapjairól, és ennek várható továbbfejlődési lehetőségeiről szeretne tájékozódni. Kezdjük a jelen megoldásaival.
A jelen
Bár már az MI kezdeteinél is megjelentek hardveres implementációk, a technológia fejlődése és felfutása egyértelműen szoftveres síkon történt. A mélytanuláshoz szükséges neurális hálók sémájának (ld. az alábbi ábra) ismeretében az olvasó számára is világossá válhat, hogy a sok-sok mesterséges idegsejt hálózatát alapvetően olyan hardver támogatja jól, mely sok kicsi számítási igényű feladat párhuzamos futtatására képes.
Erre a hagyományos, egymagú CPU kifejezetten nem ideális, bár képes rá (megfelelően gyors processzor használható egyszerűbb szoftveres MI-modellek futtatására). A fejlettebb CPU-termékek sem nyújtanak megoldást, melyek egyre több magot tartalmaznak: azért nem optimálisak, mivel komplex tudású és erős számítási igényre tervezett magjaik képességét nem tudja az MI kihasználni, viszont a csekély párhuzamosan futó művelet lassítja a rendszert. Ezért az MI felfutásával párhuzamosan a megfelelőbb hardveres alap keresését is számos fejlesztés célozta, ezekből a legfontosabbak a közvetkezők:
- GPU (Graphical Processing Unit). A más célra tervezett, rendelkezésre álló hardverek közül a kép- és videófeldolgozáshoz már régóta használt hardver-megközelítés, a GPU alkalmazása szinte kézenfekvő volt. Az ilyen grafikai célprocesszorok 1999-től jelentek meg. Elsősorban a játékok és a filmanimációs felhasználások elvárásai alapján fejlődtek, de a kriptovaluta-bányászatból származó kereslet miatt is lökést kaptak. Ezekben már korán a sok (és egyre több) „kistudású” processzormag együttműködésén volt hangsúly, a 2025-ben megjelenő Nvidia RTX 5090-nek már 21 760 darab magja lesz. A GPU-magokat neuronként használó rendszerek jól teljesítenek, a nagy gyártók azonban mégis kínálnak több más megoldást is.
- FPGA (Field-Programmable Gate Array). A tükörfordítás helyett hívhatjuk inkább a felhasználáskor programozható logikai-kapu mátrixnak, eredete még az 1980-as évekre nyúlik vissza (tehát semmi köze az MI-hez). Az egyszerűbb nevén szoftverprocesszornak is nevezhető elv lényege, hogy a logikai blokkok programozhatósága révén az ilyen központi vezérlőegység sokkal jobban optimalizálható egy adott pontos célra, továbbá biztonságosabban kialakítható és igény szerint frissíthető, sőt tízszer kisebb energiafogyasztású[1] az ilyen alapon megvalósított vezérlés. Ezért minden nagy fejlesztőnek vannak ilyen megközelítésű termékei, elsősorban a peremhálózati számítástechnika (edge computing) területén[2]. Elsődleges hátránya, hogy programozói szempontból használata nagyobb kihívás – ezért nem terjedhet gyorsan és széleskörűen ez a megközelítés.
- RDU (Reconfigurable Dataflow Unit), azaz az Újrakonfigurálható Adatfolyam Egység technológiája még kevéssé ismert: itt a GPU-nál rugalmasabb alapokra próbálják helyezni a párhuzamosítást[3]. A SambaNova cég ezen megközelítése egy MI-re jobban optimalizált GPU-nak is tekinthető.
- Szoftverhez tervezett hardver: egy további logikus architekturális megközelítés, hogy egy adott MI-keretrendszer vagy metódus számára optimalizálják a processzort. Erre példa a Loihi 2-es chipje (2021-től). Ezt kifejezetten a nyílt forráskódú LAVA nevű nyelvi keretrendszerrel való szoros együttműködésre tervezték, és a hivatalos tesztek szerint jóval hatékonyabb a hagyományos processzoroknál[4]. A háttérben az eseményalapú neurális hálózatok (spiking neural network, SNN) újdonsága áll, mely ezen platformon alapul. Ebben folyamatosan újratérképezik a neuronhálót, ezáltal tanulásuk sokkal jobban hasonlít a természetes tanulásra.
- LPU (Language Processing Unit). Ez az architektúra az előzőhöz hasonlóan célfeladatokat szolgál. Ezek az egységek szekvenciális feldolgozásra (az adatok egymás utáni feldolgozására) is optimalizáltak, mivel kifejezetten NLP feladatokhoz készülnek. A tervezési megközelítés előnye a korábbi megoldásokkal szemben, hogy a deteminisztikusabban előre látható a teljesítménye a fordítóprogramok számára kedvezőbb, mint a fenti párhuzamos megoldások. Az LPU elnevezést inkább a Groq nevű cég szolgáltatásaira használják, míg a Google Tensor hardverével kapcsolatosan inkább a TPU (Tensor Processing Unit) használatos, továbbá ilyen architektúrára utal a TSP (Tensor Streaming Processor) kifejezés is.
- NPU (Neural Processing Unit). Ez olyan processzort takar, melyet az agyi információfeldolgozási feladatok utánzására, azaz kifejezetten általános MI-feladatokra terveznek. Ehhez jobb párhuzamosságot, a szokásosnál szélesebb sávú memóriahozzáférést, illetve az MI-sejtekben elegendő egyszerűsített számítást használnak[5]. Megjegyzendő, hogy bár a GPU terén még az amerikai Szilícium-völgy (az Nvidia cég révén) a világ vezető fejlesztője, ám védelmi szempontból kiemelendő, hogy a kínai Huawei is az élvonalban van: már 2017-ben felzárkózott az iPhone-hoz azzal, hogy a Kirin 980 mobiltelefon-processzor NPU-t is tartalmazott[6] (ez még inkább képfeldolgozásra készült), illetve szervert is építettek külön NPU-modullal (mely négy általános NPU-t integrál)[7].
- Vegyes rendszerek. Sokszor érdemes az MI-rendszerek mögé tervezett hardvereknél vegyes megoldásokat alkalmazni, melyekben a fentebb felsorolt célhardverek együttesen vannak jelen. Erre jó példa az imént említett kínai szerveren kívül a Tesla SoC (System on Chip) típusú megoldása is. Ez alapvetően egy FPGA-alapú hardver, kifejezetten az okosautók számára (amint neve is jelzi: FSD, Full Self-Driving chip). Ebben egy tucat többmagos CPU-t egészítenek ki a GPU és az NPU elemek.
A hamarosan megjelenő következő részben a jövő néhány érdekes megoldásával folytatom a sort.
Felhasznált irodalom
[1] K. Ovtcharov, O. Ruwase, J.-Y. Kim, J. Fowers, K. Strauss, és E. Chung, „Accelerating Deep Convolutional Neural Networks Using Specialized Hardware”, febr. 2015, Elérés: 2025. január 8. [Online].
[2] J. Schneider, „FPGA vs. GPU for Deep Learning Applications | IBM”, IBM Blog. Elérés: 2025. január 8. [Online].
[3] P. Kennedy, „SambaNova SN10 RDU at Hot Chips 33”, ServeTheHome. Elérés: 2025. január 2. [Online].
[4] M. Davies, „Intel Labs’ new Loihi 2 research chip outperforms its predecessor by up to 10x and comes with an open-source, community-driven neuromorphic computing framework”, Intel Technology Brief, 2021, Elérés: 2024. január 6. [Online].
[5] H. Kousi, „GPU, LPU and NPU: What are these architectures? – DataNorth”, datanorth.ai. Elérés: 2025. január 2. [Online].
[6] Asztalos O., „AI-ra gyúr a legújabb Huawei Kirin processzor”, HWSW. Elérés: 2025. január 2. [Online].
[7] A. 800 S. Huawei, „NPU Board Components – NPU Board Components – Overview”. Elérés: 2025. január 2. [Online].
A témáról szóló bejegyzések elérhetők az alábbi linkeken
- A jelen és a jövő MI-t támogató hardverei I. (a jelen írás)
- A jelen és a jövő MI-t támogató hardverei II.
- A jelen és a jövő MI-t támogató hardverei III.
A nyitóképet a ChatGPT alkotta a következő prompt használatával: Alkoss képet a jelen és a jövő AI-t támogató hardvereiről. Legyen 16:9 arányú és legalább 1200 pixel széles.