A DeepSeek kínai startup MI-fejlesztő cég. Az angolszász informatikai és tőzsdei világot látványosan meglepte, amikor 2025 januárjában e cég előrukkolt egy generatív MI-chatbot applikációval, mely olyan saját nyelvi modellre épült, amelynek fejlesztésére a ChatGPT-t fejlesztő OpenAI cégnél állítólag kilencszer kevesebb pénzt költött. A világpiaci – egyesek szerint elnagyolt – reakció azért kerekedett, mert a DeepSeek teljesítménye első pillantásra összemérhető a híres ChatGPT teljesítményével. A nyelvi modellre épülő applikáció széleskörű tesztelése számos hiányosságra, illetve beépített cenzori beállításokra enged következtetni.
A DeepSeek története olyan gazdaságpolitikai realitásban indult, amelyben a kínai MI-fejlesztés kizárólag az ehhez feltétlenül szükséges hardverelemekre vonatkozó amerikai embargó keretében értelmezhető. E szerint az MI-fejlesztéshez elengedhetetlen, párhuzamos számításra leginkább alkalmas, legjobban skálázható, masszívan párhuzamos architektúrájú hardvereket, a videokártyákat (GPU gyorsítókártyákat) amerikai cég, az Nvidia szállítja. A Biden-adminisztráció komoly exportkorlátozásokat vezetett be, többek között az Nvidia utolsó generációs H100 gyorsítókártyára. Az említett intézkedés érdemben lassította le, hátráltatta a kínai MI-fejlesztést, hiszen egy elengedhetetlen upstream eszköz elérhetőségét gátolta.
Ez a kontextus az egyik ok, amiért fontos a DeepSeek története, hiszen sokan a DeepSeek innovációját az embargó által teremtett szűkösség körében értelmezik. E narratíva szerint az Egyesült Államok nem tehetett embargót a tech szférában mozgó leleményességre, tehetségre és kreativitásra, így a DeepSeek megtalálta a módját, hogy miként fejlesszen hazai, nem utolsó generációs, azaz exportkorlátozás alá nem eső Nvidia-hardverekkel olcsóbban, azaz körülbelül hatmillió dollárból. Nagyon meggyőző narratíva e fenti, azonban egyáltalán nem biztos, hogy tartalmában is igaz. Kezdve a hatmillió dolláros csekkel: ez csupán egy tétel a számlán, hiszen kizárólag a finomhangolásos tanítást megelőző, előtanulást igénylő hardverhasználatot érinti, nem tér ki például a kutatási, fejlesztési kiadásokra, a gyorsítókártyákon kívüli hardver- vagy felhőelemekre, adott hardverelemek teljes életútköltségeire. Nagyon könnyen lehet, hogy a DeepSeek fejlesztésére szánt 6 millió dollár vékonysága mint üzletpolitikai kommunikáció ezért félrevezető.
Mindemellett a kínai modell valóban hatékony és nagymértékben hatékonyabb, mint a versenytársak által fejlesztett modellek. A tanítása során a fejlesztőcég megerősített tanulási metódusokkal nagy fókuszt helyezett a folyamat optimalizálására, ennek során adott modellek érvelési képessége növekedett. A megerősített tanítás módszere során a modell olyan környezettel interaktál, amely értékeli a döntéseit. A folyamat lényege, hogy a modell a legjobb értékelés szerint optimalizálódik a folyamatban. Természetesen nem a DeepSeeké az első MI-modell, amelynek fejlesztése során e metódust használták, az azonban biztos, hogy a módszer alkalmazásának mértéke és módja a hardverhasználat optimalizálása körében releváns volt. A DeepSeek a modell architektúrájában más ismert MI-fejlesztési módszereket is bevetett, mint például a mixture-of-experts (MoE) felépítés, amely használatával a számítás során igénybevett paraméterek száma úgy csökkenthető radikálisan, hogy az a teljesítményt nem befolyásolja.
További kiváltó oka lehetett a DeepSeek sikerének a közösség aktív bevonása a fejlesztésbe és az egyszerű tény, hogy a kínai nagy nyelvi modell majdnem open source, azaz majdnem nyílt forráskódú. A nyílt forráskódú szoftver olyan, hogy építőelemei bárkinek elérhetők az interneten, ezzel lehetővé téve egy decentralizáltabb fejlesztési folyamatot. E tény talán az eddig a DeepSeekről leírtak körében a legfontosabb szempont; ennek az árnyékában az, hogy a DeepSeek üzleti kommunikációja milyen, és hogy a modell fejlesztésében milyen technológiai megoldás játszott kulcsszerepet, talán nem is olyan érdekes. Az MI történetében a Meta-fejlesztésű Llama mellett a DeepSeeké az első érdemi nagy nyelvi modell, ami ennyire közel engedi magához az érdeklődőket, ami indokolt, tekintve, hogy a nyugati világban sokkal meggyőzőbb nyílt forráskódú MI-t használni, mint egy API mögé zárt fekete dobozt. Mindemellett már a Llamat is sok kritika érte azzal kapcsolatban, hogy azért valójában nem teljesen arról van szó, hogy a szó hagyományos értelmében véve nyílt forráskódú volna a szoftver, és arról biztos nincsen szó, hogy elérhetők volnának az adatállományok, amiken tanult az MI, ez a DeepSeekre hatványozottan igaz. A DeepSeek ugyan futtatható és konfigurálható lokálisan, azonban a rendszer működése – többek között a rendszer használata során történő adattovábbítás minősége és mértéke – nem ismerhető meg teljeskörűen. A DeepSeek azért majdnem nyílt forráskódú, mert a rendszer súlyozása és a tanítási módszer megismerhető, azonban az adatállományok, amiken dolgozik, nem.
A felhasznált adatok forrása mellett így például az sem igazolható, hogy a DeepSeek fejlesztése körében nem történt-e a ChatGPT disztillációja során az OpenAI-t érő szerzői jogi jogsérelem. Az amerikai fejlesztőcég szerint egyértelműen ez a helyzet, a DeepSeek jogellenesen használta az OpenAI által fejlesztett nyelvi modelleket. További érdekességként említhető, hogy Ausztrália, Taiwan, Olaszország és Dél-Korea a kormányzati rendszerekből teljesen kitiltotta a kínai nyelvi modellt. A felsorolt országok közül valamennyi adatbiztonsági szempontokra hivatkozott, kiemelve, hogy számukra nem átlátható, hogy a DeepSeek működtetése során keletkező adatot hol kezelik.
A DeepSeek modellje vajon az MI-fejlesztés és az ehhez társuló „fegyverkezési verseny” történetében narratív fordulat vagy kizárólag egy kisimításra váró ránc? Egyáltalán nem könnyű állást foglalni abban a kérdésben, hogy a DeepSeek mennyiben tekinthető open source innovációs diadalnak, így mennyire példázza azt, hogy a szűkösség hatékonyságot és innovációt teremt. Érdekes gondolat, hogy a DeepSeek esetében valójában arról van szó, hogy a DeepSeek által olcsóbban előállított funkcionális chatbot hozta a meglepetést. Más szavakkal: az a felismerés sokkolta a köztudatot, hogy a piacvezető rendszereknél sokkal olcsóbb rendszerrel is létrehozható hétköznapi használatra alkalmas MI. Az mindenesetre biztos, hogy a vezető MI-modellekkel összemérhető teljesítményű kínai rendszer valóban dimenziókkal kisebb számítási kapacitásból dolgozik. Ez új versenyhelyzetet teremt mind az Mi-fejlesztés piaci terén, ahogyan abban a geopolitikai kontextusban is, amelyben az amerikai big tech és Kína néz szembe. Az OpenAI-nak fel kell vennie a kesztyűt.
További kérdésként merül fel, hogy az Nvidia hardverelemekre helyezett, a fentiekhez hasonló és immár az EU-t is érintő amerikai exportkorlátozás miként fogja befolyásolni ezt a konfúz helyzetet. Az EU nem szívesen szerez be Kínából, azonban az exportkorlátozás szerint nem könnyen tud majd beszerezni az Egyesült Államokból sem. A DeepSeek példája mellett, látván, hogy kevesebből is lehet funkcionális MI-rendszert fejleszteni, ez az EU doktrínájának újragondolását vetítheti előre. Látványos, hogy az Egyesült Államok politikája mennyire befolyásolja a geopolitikai jelentőségű MI-fejlesztés kérdését.
Mindezek mellett az is biztos, hogy egy hatékonyabb MI nem jelent kisebb keresletet a felhőalapú számítási és hardverpiacon, és nem jelenti azt, hogy ezek a rendszerek kisebb energiaigénnyel, alacsonyabb környezetterhelés mellett fognak működni. Egy hatékonyabb rendszert is megéri felskálázni, sőt annyival jobban megéri, amennyivel a rendszer hatékonyabb társainál. Ezt mutatja, hogy az MI-fejlesztéshez elengedhetetlen hardverek iránt fennálló kereslet várhatóan nem fog csökkenni. A DeepSeek okozta, kezdeti tőzsdei összeroppanást követően a monopolhelyzetben lévő MI-hardvergyártó Nvidia február 7-től javuló tendenciákat mutat a tőzsdéken.