A mesterséges intelligencia megtanult beszélni: a nagy nyelvi modellek (LLM) immár emberi módon válaszolnak. Aki tanul, kutat, kérdez vagy döntést hoz a digitális világban, annak fontos lehet e témával mihamarabb megismerkednie. Alábbi interjúnk Petruska Ferenc, a Nemzeti Közszolgálati Egyetem (NKE) Hadtudományi és Honvédtisztképző Kar (HHK) nemzetközi dékánhelyettesének, az NKE HHK Honvédelmi Jogi és Igazgatási Tanszék vezetőjének mesterséges intelligencia szakértői (akadémiai adatszakértői) válaszai segítségével foglalkozik az LLM kiválasztásának szempontjaival, különös tekintettel a társadalomtudományi kutatásokra és a magyar nyelvű alkalmazásokra. Interjúalanyunk válaszai a társadalomtudományi kutatások kontextusában elemzik a modellek képességeit, a benchmarkok szerepét, valamint a magyar nyelvű kutatások kihívásait, kiemelve ebből a jog területét.
Tanár úr, mik legyenek a legfontosabb szempontjaink akkor, amikor a saját kutatási vagy tanulási céljainknak legmegfelelőbb nagy nyelvi modellt kiválasztjuk?
Először is, azonosítani kell a konkrét feladatokat, amelyeket a modellnek meg kell oldania. A társadalomtudományi kutatásokban, például jogi vagy szociológiai területen, a szövegelemzés és ezen belül is a jogszabályok elemzése, interjúfeldolgozás és hosszú dokumentumok kezelése kulcsfontosságú. Ilyenkor azokat a modelleket érdemes használni, amelyek erősek a hosszú szövegek kontextusának megértésében és az összetett utasítások követésében. Az úgynevezett benchmarkok (voltaképpen standardizált tesztek, amelyek az LLM teljesítményét értékelik különböző feladatokban – a szerk.), mint a LongBench v2 vagy az IF-Eval, segíthetnek ezeknek a képességeknek a mérésében. Másodszor, figyelembe kell venni a modell tudását és specializációját. Az MMLU és MMLU-Pro benchmarkok például azt mutatják, hogy a modell mennyire „jártas” különböző tudományterületeken, például a saját szakterületemen, a jogban. Például a DeepSeek V3 (DeepSeek v3 0.872) és a Llama3.1 405B (Llama 3.1 Instruct Turbo (405B) – 0.845) kiemelkedő teljesítményt nyújt a társadalomtudományi témákban. Harmadszor, a modell hozzáférhetősége és felhasználási költsége is fontos. Ez a felhasználó számára sok esetben rejtve marad, mivel az LLM-alapú szolgáltatások többsége fix havidíjért érhető el. Ez azonban egy általános árazás, van, aki több erőforrást használ fel a hónapban, van, aki kevesebbet.
Van ettől eltérő árazási modell is?
Igen, és az LLM-ek tényleges ára a vállalkozásoknak és a szervezeteknek sokkal lényegesebb információ, mint a magánszemélyeknek, hiszen ők jellemzően tokenenként, vagyis szóelemenként fizetnek az egyes modellekért. Egy token körülbelül 0.75 angol szónak felel meg például a ChatGPT mögött működő GPT4o modell tekintetében. Szintén érdemes számot vetni azzal, hogy a modellek között megkülönböztetünk zárt, illetve nyílt forráskódúakat. A nyílt forráskóddal rendelkező modellek esetében a felhasználónak van lehetősége megismerni, sőt szakértelem birtokában módosítani annak belső működését. A legismertebb nyílt forráskódú modellek a Meta által készített Llama, a Google által készített Gemma, illetve a rendkívüli figyelmet keltett kínai Deepseek által készített, azonos nevű modellcsaládok. Az open source nyelvi modellek teljesíténye és erőforrásigénye között hatalmas a különbség: a legkisebbek képesek akár egy mobiltelefonokon is, lokálisan üzemelni. A legnagyobbak pedig teljesítményben már szorosan megközelítik a piacokon található csúcsmodellek teljesítményét, mint a GPT 4o, Grok 3 vagy a Google Gemini.
Mikor lehet fontos a nyílt forráskódú modellek használata?
A nyílt forráskódú modellek használata kiemelten fontos azoknak az intézményeknek, illetve vállalkozásoknak, melyek működésében kulcsszerepet játszik az információbiztonság. Ez lehetővé teszi számukra, hogy a szervezet falain belül kihasználhassák a nagy nyelvi modellek döbbenetes képességeit anélkül, hogy az adatok fizikailag elhagynák az épület falait. Ehhez azonban jellemzően több tízmillió forintos szerverinfrastruktúra szükséges vagy különböző külső szolgáltatókat kell igénybe venni, akik tudnak ilyen kapacitásokat kínálni. Ez utóbbi esetben a legnagyobb nyílt forráskódú modellek futtatása esetén jelenleg már óránként 25 dolláros (~9000 HUF) költség táján igénybe vehető, kisebb modelleknél akár 1–2 dollárért is (360–700 HUF). Visszatérve még a modellek kiválasztásához, a magyar nyelvű kutatások esetében a modell magyar nyelvi képességeit is tesztelni kell, mivel a legtöbb modellt angol nyelvű adatokra optimalizálták. Azonban a modellek teljesítményének jelentős fejlődése ebben az esetben is érzékelhető. Érezhető teljesítménykülönbség leginkább a kisebb modellek esetében tapasztalható, mint például egy 8 milliárd paraméteres Llama modell esetében. Ez eltörpül a piacvezető sok száz vagy akár ezermilliárd paraméteres társaitól, így itt a nyelvi különbségek jobban kiütköznek. A csúcsteljesítményű modellek, mint a Grok 3, GPT4o és o3 vagy a Gemini, jellemzően már kiválóan értik és „beszélik” a magyar nyelvet, azonban a teljesítményük számos területen még mindig elmarad az angoltól. Mindenesetre – és ezt egy kiváló tanulmány is megerősítette a közelmúltban – a magyar nyelvű kutatások esetében a legjobb ezekre a nagy modellekre támaszkodnunk, és kevésbé a kisebb, erőforrástakarékosabb változatokra. Negyedszer, az etikai és adatvédelmi szempontokat sem szabad figyelmen kívül hagyni. A jogi kutatásokban, ahol érzékeny adatokkal dolgozunk, ahogyan azt az előzőekben is említettem, olyan üzemeltetési módszert kell választanunk, amelyek biztosítják az adatok védelmét, például lokálisan futtatható nyílt forráskódú modelleket, vagy azokat a szolgáltatásokat, amelyek jogi garanciát adnak arra, hogy a használat során feltöltött adatokat nem használják a modellek továbbfejlesztésére, vagy egyéb marketing és szolgáltatásoptimalizálási célokra. Végül, a közösségi visszajelzések és a gyakorlati tesztek, például az ún. Lmarena platformon található Chatbot Arena, segíthetnek a modellek valós teljesítményének felmérésében, emberi felhasználók értékelései alapján. A kutatóknak érdemes saját adataikkal tesztelni a modelleket, hogy biztosan a céljaiknak megfelelő eszközt válasszanak.
Hogyan vehetjük figyelembe a választáskor, hogy a társadalomtudományos kutatásban az elsődleges feladat nem a kódolás vagy a szövegírás, hanem inkább meglévő szövegek elemzése vagy interjúk feldolgozása?
A társadalomtudományi kutatások során mindenekelőtt a hosszú szövegek kezelése kulcsfontosságú, mivel a kutatók gyakran dolgoznak terjedelmes dokumentumokkal, például jogszabályokkal vagy interjúátiratokkal. Ezért figyelembe kell vennünk a modell kontextusablakának méretét. Ez jellemzően 128 ezer tokentől 1 millió tokenig terjed, amely körülbelül 1500 oldalnyi írott szöveget jelent. A modell teljesítményének feltérképezése azonban még nem elég, hiszen annak a szolgáltatói jellemzően erősen korlátozzák azt, hogy a felhasználók mennyit vehetnek ebből igénybe. Például a ChatGPT esetében jellemzően 30–40 oldalt vesz csak figyelembe a modell, annak ellenére, hogy ennél fizikailag képes lenne többre is. Gyakran hosszabb szövegek feldolgozása esetében ezt a korlátozást nem is jelzi.
Hogyan lehet ezt mégis kiszúrni?
A rutinosabb alkalmazók számára azt tanácsolom, hogy érdemes utasítani, hogy idézze a forrásszöveg első és utolsó sorát pontosan. Ez az egyszerű trükk általában felfedi, hogy a forrásszöveg mekkora részét képes a modell feldolgozni. Mivel a szolgáltatás belső működése nem ismerhető meg felhasználók számára pontosan, ez nem teljes mértékben biztos módszer, azonban, ha az utolsó idézett mondat nem egyezik a forrásszövegben ténylegesen az utolsó mondattal, az már árulkodó lehet. A hosszú kontextusablakkal rendelkező modellek összehasonlításának egyik alapbenchmarkja napjainkban a LongBench v2. Ez azt értékeli, hogy a modell képes-e hosszú szövegeket összefoglalni vagy kérdésekre válaszolni azok alapján. A modellek többsége a benchmarkon 50%-os sikeraránnyal dolgozik. Azonban az emberi szakértők is csupán 53% körüli eredményt érnek el 15 perces időkeret alatt. A jelenleg legjobban teljesítő modell az OpenAI O1 modellje, amely ezen a mérésen az adott időkeretben már közel 4 százalékponttal meghaladja az emberi teljesítményt. Az emberi szakértőknek a hosszú forrásszövegek elemzése során van lehetőségük különböző keresőeszközöket is igénybe venni, és hangsúlyozandó, hogy kizárólag 15 perc áll rendelkezésre a néhány tíz oldalas feladatoktól az akár több száz oldalas feladatok megoldásáig. Valószínűsíthető, hogy nagyobb időráfordítással az emberi teljesítmény ennél magasabb lehetne.
Azt, hogy hogyan mennyire követi az LMM az utasításokat, lehet mérni?
Igen, nagyon fontosak a modellek utasításkövetési képességei is, különösen akkor, ha specifikus elemzési módszereket, például kritikai diskurzuselemzést kell alkalmazni. Az IF-Eval benchmark szerint a Claude-3.5 Sonnet (86.5) és a DeepSeek V3 (86.1) kiválóan teljesít összetett utasítások követésében, ami hasznos lehet például jogi érvelések elemzése során. A jogtudományi kutatásokban a generatív MI alkalmazása különösen értékes lehet. A modellek képesek precedensek azonosítására, jogi érvelések generálására és dokumentumok automatikus elemzésére. Például egy jogi kutató használhatja a GPT-4o-t egy jogeset-adatbázis elemzésére, hogy releváns precedenseket találjon vagy a Llama3.1-et egy hosszú szerződés kockázatainak azonosítására. A kutatóknak érdemes a modelleket saját adataikkal tesztelni, például egy interjúk elemzésével vagy egy jogszabály összefoglalásával, hogy biztosan a feladathoz legmegfelelőbb eszközt válasszák. A nyílt forráskódú modellek, mint a Llama3.1, előnyt nyújthatnak, mivel testreszabhatók specifikus társadalomtudományi feladatokra.
Hogyan segíthetnek az olyan egyre ismertebb és elfogadottabb „képességi” tesztek, mint az MMLU és a LongBench v2, abban, hogy megértsük, hogyan értik meg és dolgozzák fel a különböző MI-modellek a szövegeket, illetve, hogy valójában mennyi tudással rendelkeznek?
Az MMLU és a LongBench v2 benchmarkok kulcsfontosságúak a nagy nyelvi modellek szövegértési és tudásalapú képességeinek értékelésében, különösen a társadalomtudományi kutatások kontextusában. Az MMLU (Massive Multitask Language Understanding) a benchmark 57 tudományterületet fed le, beleértve a jogot, szociológiát és politológiát, és feleletválasztós kérdésekkel teszteli a modell tudását. Például egy jogi kérdés lehet: „Melyik elv alapján ítélkeznek a common law rendszerekben?” A magas MMLU pontszám, például a DeepSeek V3 (88.5) vagy a Claude-3.5 Sonnet (88.3) esetében, azt jelzi, hogy a modell széleskörű tudással rendelkezik, ami hasznos lehet társadalomtudományi kutatásokban, ahol multidiszciplináris ismeretekre van szükség. A korábban már emlegetett LongBench v2 benchmark a hosszú szövegek megértését és feldolgozását teszteli, ami különösen fontos a társadalomtudományi kutatásokban, ahol általában a kutatók hosszú dokumentumokkal dolgoznak. Például a modellnek egy ötvenoldalas jogi témájú szakmai szöveg alapján kell összefoglalót készítenie. A DeepSeek V3 (LongBench v2: 48.7) és a GPT-4o (LongBench v2: 48.1) jó teljesítménye azt jelzi, hogy képesek kezelni a hosszú kontextusokat, ami elengedhetetlen jogi vagy szociológiai elemzésekhez. Ezek a benchmarkok együttesen átfogó képet adnak a modellek képességeiről. Mondhatnám, hogy az MMLU a tudást, a LongBench v2 pedig a hosszú kontextusok kezelését méri, így a kutatók pontosan meg tudják határozni, melyik modell alkalmas az adott feladatra. Ezek a benchmarkok segítenek a modellek képességeinek megértésében, különösen a társadalomtudományi kutatásokban, ahol a szövegelemzés és az interjúfeldolgozás kulcsfontosságú.
Megállapítható-e ma már ilyen tesztekkel, hogy mennyire képes egy-egy modell az összetett kutatói utasításokat követni és akár elvontan is gondolkodni?
Igen, a mai benchmarkok, például az IF-Eval és a GPQA-Diamond, kifejezetten alkalmasak arra, hogy a modellek összetett utasításkövetési és absztrakt gondolkodási képességeit értékeljék, ami a társadalomtudományi kutatásokban kiemelten fontos. Az IF-Eval (Instruction Following Evaluation) benchmark azt teszteli, hogy a modell mennyire képes pontosan követni összetett utasításokat. Például egy utasítás lehet: „Elemezze a következő jogi szöveget a precedensjog szempontjából, és azonosítsa a kulcsfontosságú érveket!” A Claude-3.7 Sonnet (IF-Eval: 93.2%) és a DeepSeek V3 (IF-Eval: 86.1) magas pontszámai azt mutatják, hogy képesek összetett kutatói feladatok végrehajtására, például jogi vagy szociológiai elemzésekre. Végül a GPQA-Diamond (Graduate-Level Google-Proof Q&A) a benchmark szakértői szintű kérdésekkel teszteli a modell absztrakt gondolkodási képességeit. Például egy kérdés lehet: „Hogyan befolyásolja a globalizáció a jogi szuverenitást a XXI. században?” A Claude-3.7 Sonnet (GPQA-Diamond: 68%, Thinking módban: 84%) kiemelkedő teljesítménye azt jelzi, hogy képes elvontan gondolkodni és komplex elméleti megközelítéseket alkalmazni, ami ideális társadalomtudományi kutatásokhoz. Az AIF-Eval és a GPQA-Diamond különösen releváns a társadalomtudományi kutatásokban, mivel ezek a tesztek a kutatási folyamatban felmerülő összetett feladatokra fókuszálnak.
Mit mutatnak pontosan ezek a számok?
A magas pontszámok azt jelzik, hogy a modellek képesek nemcsak követni az utasításokat, hanem mélyebb elemzéseket és elvont következtetéseket is levonni, például jogi elméletek generálásában vagy szociológiai narratívák azonosításában. Hangsúlyozni szeretném, hogy a kutatóknak saját adataikkal is tesztelniük kell a modelleket, mivel a benchmarkok nem mindig tükrözik a valós kutatási környezetet. Például egy jogi kutatónak érdemes kipróbálnia, hogy a modell képes-e egy magyar jogszabály elemzésére a kívánt mélységben.
Jelent gondot a gyakorlatban, hogy a legtöbb ilyen MI-képességet mérő teszt angol nyelvű?
Igen, az angol nyelvű benchmarkok és a modellek angol nyelvű adatokon történő betanítása jelentős kihívást jelent a magyar nyelvű kutatásokban, különösen az országspecifikus jogi területen. A legtöbb nagy nyelvi modellt angol nyelvű adatokra optimalizálták, a benchmarkok, mint az MMLU vagy a LongBench v2, szintén angol nyelvűek. Ez azt jelenti, hogy a modellek magyar nyelvi teljesítménye nem feltétlenül tükrözi az angol nyelvű benchmarkokon elért eredményeket. Például egy modell, amely az MMLU-n magas pontszámot ér el jogi kérdésekben, nem biztos, hogy ugyanilyen pontosan tudja elemezni a magyar jogszabályokat, mivel azok nyelvi és jogrendszerspecifikus sajátosságokkal rendelkeznek.
Akkor tehát jelenthet plusz kihívást, ha magyar nyelvű kutatásokban akarjuk alkalmazni ezeket a modelleket – például a jog területén?
Igen, a jogtudományi kutatásokban e jelenség különösen problémás, mivel a magyar jogrendszer egyedi terminológiát használ, amelyek nem feltétlenül jelennek meg az angol nyelvű adatkészletekben. Például a „jogszabály-értelmezés” vagy a „közjogi alapelvek” fogalmai speciális magyar jogi kontextust igényelnek, amit a modellek nem mindig értenek meg helyesen. A modellek betanítása magyar jogi adatbázisokkal jelentősen javíthatja a teljesítményt, de ez idő- és erőforrásigényes folyamat. Jelentős probléma továbbá, hogy a magyar nyelvű tesztek többsége az angol nyelvű benchmarkok fordításai, amelyek mellőzik a magyar nyelv és kultúra specifikus elemeit. Ilyen lehet a nyelvi árnyalatok, kultúra, történelem, illetve a regionális kontextus. Ezekre a kihívásokra igyekszik választ adni a márciusban publikált, magyar és külföldi kutatók által kialakított OpenHU eval, amely 8 dimenzióban 3953 kérdéssel igyekszik mérni az LLM-ek magyar nyelvű és a kulturális sajátosságokkal is törődőteljesítményét. Számunkra ez rendkívül fontos, hiszen a magyar csupán körülbelül 14 millió ember anyanyelve világszerte. A kutatásban megfigyelhető, hogy az angol nyelvű benchmarkokon jól teljesítő modellek nem feltétlenül teljesítenek ugyanolyan jól a magyar nyelvű hasonló kérdéseken, a vizsgált modellek 70%-a esetében rangsorbeli változás tapasztalható az angol nyelvű tesztekhez képest.

Ugyan a kutatásból hiányzik több csúcsmodell, különösen kiemelve a Gemini 2.5, illetve Grok modelleket, azonban az jól látszik a vizsgált LLM-ek tekintetében, hogy a nagyobb paraméterszámmal rendelkező modellek jellemzően jobban teljesítenek magyar nyelven. Így a kutatásban a csúcstartók a Deepseek R1 (Thinking model – 671 milliárd paraméter, Deepseek V3 alapokon nyugszik), a GPT4-o (nem publikus a paraméterszám, de valószínűleg 1500 és 2000 milliárd változóparaméteres modell lehet), és a Deepseek V3 (671 milliárd változó paraméter). A 600 milliárd paraméter feletti modelleknél a teljesítmény már nem különbözik nagyban magyar nyelven.
Hogyan lehet erre a szempontra jobban odafigyelni, amikor LLM-megoldást választunk saját kutatási céljainkra?
Ismét csak az a hatékony és gyakorlatias megoldás, ha a modellek saját tesztelése magyar nyelvű adatokkal történik. A kutatóknak érdemes kipróbálni, hogy a modell hogyan teljesít magyar jogi szövegek elemzésében, például egy törvény vagy más jogszabály összefoglalásában, egy interjú átiratának feldolgozásában. Ahogyan már jeleztem, hasznos lehet a Chatbot Arena, mivel valós felhasználói visszajelzéseket nyújt a modellek magyar nyelvi teljesítményéről. További kihívást jelent még, hogy a magyar nyelvű kutatásokban a kulturális és jogi kontextus megértése elengedhetetlen. Például egy modellnek nemcsak a szöveget kell fordítania, hanem a magyar jogrendszer sajátosságait is figyelembe kell vennie, például az alkotmányos alapelveket vagy a bírói gyakorlatot. A nyílt forráskódú modellek, mint a Llama3.1, előnyt nyújthatnak, mivel testreszabhatók magyar jogi adatokkal, de ehhez technikai szakértelem szükséges. Összességében a magyar nyelvű kutatásokban a modellek kiválasztása során a benchmarkok mellett a gyakorlati tesztelés és a helyi kontextus figyelembevétele kulcsfontosságú. A jövőben a magyar nyelvű adatbázisokkal finomhangolt modellek megjelenése jelentősen csökkentheti ezeket a kihívásokat.
Riportalanyunk által javasolt további szakirodalmak a témában
[1] S. Kumar, T. Ghosal, V. Goyal, és A. Ekbal, „Can Large Language Models Unlock Novel Scientific Research Ideas?”, 2024, arXiv. doi: 10.48550/ARXIV.2409.06185.
[2] W.-L. Chiang és mtsai., „Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference”, 2024. március 7., arXiv: arXiv:2403.04132. doi: 10.48550/arXiv.2403.04132.
[3] M. Parashar, T. DeBlanc-Knowles, E. Gianchandani, és L. E. Parker, „Strengthening and Democratizing Artificial Intelligence Research and Development”, Computer, köt. 56, sz. 11, o. 85–90, nov. 2023, doi: 10.1109/MC.2023.3284568.
[4] F. Petruska, „A nagy nyelvi modellek sebezhetőségei”, Ludovika.hu. Elérés: 2024. november 1. [Online].
[5] F. Petruska, „Mivel foglalkozik egy akadémiai adatszakértő?”, Ludovika.hu. [Online].
[6] H. Yang és mtsai., „OpenHuEval: Evaluating Large Language Model on Hungarian Specifics”, 2025, arXiv.
Nyitókép forrása: Solen Feyissa / Pexels