Milyen benchmarkok alapján tudjuk kiválasztani a legjobb nyelvi modelleket?
A jelen blogbejegyzés hangsúlyozza ͏a nagy nyelvi͏ modell képességei megértésének fontosságát a társadalomtudományi kutatásokban. Következtetései segítséget nyújtanak az egyetemi polgároknak a munkájukhoz szükséges nagy nyelvi modellek kiválasztásában. Ezek a modellek ugyanis rendkívül értékesnek bizonyulhatnak a szövegelemzést, az interjúfeldolgozást és a ͏komplex társadalomtudományi kutatásokat magában foglaló munkák során.
A mesterséges͏ intelligencia (MI) gyors fejlődése új lehetőségeket nyitott meg a tudományos kutatásban. A fejlett͏ nagy nyelvi modellek (Large Language Models – LLM) új lehetőségeket kínálnak a szövegek értelmezésére, megírására, értékelésére és͏ fordítására, ami megkönnyíti a kutatók munkáját. A legjobb modell kiválasztása továbbra is fontos tényező, ami a magyar nyelven publikáló kutatók számára nehéz feladat, hiszen ezeket a modelleket világnyelveken – leginkább angolul – tanították fel, a tesztelés szintén világnyelveken folyik. Ez a blogbejegyzés ezt a͏ problémát kívánja megvitatni és a választást megkönnyíteni, különösen a társadalomtudományi kutatási igényekkel kapcsolatban[1]. A társadalomtudományokban a kutatás ugyanis jellemzően szöveges adatok értelmezését és͏ szintetizálását foglalja magában. Ezért kulcsfontosságúak a͏z ezekre a speciális területekre vonatkozó kritériumok. A͏ társadalomtudományi kutatás alapvető képességei közé tartozik a nyelv általános megértése, a szöveg ͏elemzése és a hosszú szövegek kezelése͏.͏
Ezen képességek mérésére szolgálnak a kiemelten fontos benchmarkok. Az MMLU (Massive Multitask Language Understanding), MMLU-Redux és MMLU-Pro 57 különböző tudományterületet felölelő feleletválasztós kérdéssorok, amelyek a modell tudását és szövegértési képességét tesztelik, beleértve a társadalomtudományokat is, mint például a jog, a történelem, a szociológia és a politológia. Például egy MMLU kérdés megkérdezheti, hogy „Mi volt a fő oka a francia forradalom kitörésének?”, a modellnek pedig négy lehetséges válasz közül kell kiválasztania a helyeset. A DROP (Discrete Reading Comprehension Over Paragraphs) egy olvasott szövegértési feladat, ahol a modellnek egy bekezdés elolvasása után kell megválaszolnia a hozzá kapcsolódó kérdéseket. Például a modell kaphat egy részletet egy szociológiai tanulmányból, majd meg kell válaszolnia olyan kérdéseket, mint „Milyen társadalmi csoportot vizsgált a tanulmány?” vagy „Milyen módszert alkalmaztak az adatgyűjtésre?”. A LongBench v2 a hosszú szövegek megértését és feldolgozását értékeli. Egy társadalomtudományi kutató számára ez azért fontos, mert gyakran kell hosszú tanulmányokat, interjúkat vagy jogi dokumentumokat elemezni. A LongBench v2-ben a modellnek például egy hosszú tudományos cikk alapján kell összefoglalót írnia vagy kérdésekre válaszolnia a cikk tartalmával kapcsolatban.
A fontos benchmarkok olyan képességeket mérnek, amelyek szintén relevánsak lehetnek a társadalomtudományi kutatásokban. Az IFE-val (Instruction Following Evaluation) azt teszteli, hogy a modell mennyire képes követni az összetett, szigorú utasításokat. Például a modell kaphat egy olyan utasítást, hogy „Elemezze a következő szöveget a kritikai diskurzuselemzés módszerével, és azonosítsa a domináns narratívákat!”. Ez a képesség a kutatási folyamat során felmerülő összetett feladatok végrehajtásában lehet hasznos. A GPQA-Diamond (Graduate-Level Google-Proof Q&A) egy nagyon nehéz, szakértői szintű kérdés–válasz benchmark. A kérdések megválaszolásához mély tudásra és következtetési képességekre van szükség. Például egy GPQA-Diamond kérdés lehet: „Hogyan befolyásolja a globalizáció a nemzetállamok szuverenitását a XXI. században? Fejtse ki a különböző elméleti megközelítéseket!”. Ezen a benchmarkon elért magas pontszám azt jelzi, hogy a modell képes a komplex, elvont gondolkodásra, ami a tudományos kutatásban, különösen a társadalomtudományi kutatások esetében elengedhetetlen.
Az esetenként fontos benchmarkok specifikusabb képességeket mérnek, amelyek bizonyos kutatási területeken vagy feladatokban lehetnek relevánsak, de nem feltétlenül általánosan fontosak a társadalomtudományokban. A SimpleQA (Correct) egy egyszerű kérdés-válasz benchmark, amely a modell tényszerű tudását teszteli. Például egy SimpleQA kérdés lehet: „Ki volt Magyarország miniszterelnöke 1910-ben?”. A FRAMES (Acc.) a dialógusrendszerek teljesítményét értékeli, ami például interjúk elemzésénél vagy chatbotok társadalomtudományi kutatásban történő alkalmazásánál lehet hasznos.
Benchmark (metrika) | DeepSeek V3 | DeepSeek V2.5 | Qwen2.5 72B-Inst | Llama3.1 405B-Inst | Claude-3.5 Sonnet-1022 | GPT-4o 0513 |
Architektúra | MoE | MoE | Dense | Dense | – | – |
Aktivált paraméterek száma | 37B | 21B | 72B | 405B | – | – |
Összes paraméter száma | 671B | 236B | 72B | 405B | – | – |
MMLU (EM) | 88.5 | 80.6 | 85.3 | 88.6 | 88.3 | 87.2 |
MMLU-Redux (EM) | 89.1 | 80.3 | 85.6 | 86.2 | 88.9 | 88.0 |
MMLU-Pro (EM) | 75.9 | 66.2 | 71.6 | 73.3 | 78.0 | 72.6 |
DROP (3-shot F1) | 91.6 | 87.8 | 76.7 | 88.7 | 88.3 | 83.7 |
IF-Eval (Prompt Strict) | 86.1 | 80.6 | 84.1 | 86.0 | 86.5 | 84.3 |
GPQA-Diamond (Pass@1) | 59.1 | 41.3 | 49.0 | 51.1 | 65.0 | 49.9 |
SimpleQA (Correct) | 24.9 | 10.2 | 9.1 | 17.1 | 28.4 | 38.2 |
FRAMES (Acc.) | 73.3 | 65.4 | 69.8 | 70.0 | 72.5 | 80.5 |
LongBench v2 (Acc.) | 48.7 | 35.4 | 39.4 | 36.1 | 41.0 | 48.1 |
HumanEval-Mul (Pass@1) | 82.6 | 77.4 | 77.3 | 77.2 | 81.7 | 80.5 |
LiveCodeBench (Pass@1-COT) | 40.5 | 29.2 | 31.1 | 28.4 | 36.3 | 33.4 |
LiveCodeBench (Pass@1) | 37.6 | 28.4 | 28.7 | 30.1 | 32.8 | 34.2 |
Codeforces (Percentile) | 51.6 | 35.6 | 24.8 | 25.3 | 20.3 | 23.6 |
SWE Verified (Resolved) | 42.0 | 22.6 | 23.8 | 24.5 | 50.8 | 38.8 |
Aider-Edit (Acc.) | 79.7 | 71.6 | 65.4 | 63.9 | 84.2 | 72.9 |
Aider-Polyglot (Acc.) | 49.6 | 18.2 | 7.6 | 5.8 | 45.3 | 16.0 |
(a szerző szerkesztése) Forrás: deepseek, letöltés ideje: 2025.01.02.
Természetesen a fenti lista közel sem tekinthető állandónak, sőt heti szinten jelennek meg akár teljesen új szereplők (például a DeepSeek V3c, az OpenAI o1, hamarosan pedig az OpenAI o3), amelyek nagyságrendekkel jobbak az addigi dobogós modelleknél. Ezért javaslom a LMSYS-ként ismert, jelenleg OpenLMAI Chatbot Arena weblap gyakori látogatását, ahol a legújabb modellek szólóban, sőt egymással párhuzamosan tesztelhetők. A weboldalon nemcsak hagyományos benchmarkokat találunk, hanem a megjelenést követő hetekben több tízezer felhasználó szubjektív értékelését is. Saját tapasztalatom alapján érdemesebb a felhasználók összegzett tapasztalatára hagyakozni, mint egy-egy modell átütő benchmarkjára. A Chatbot Arenaban magasra értékelt modellek általában komoly teljesítményt tudnak felmutatni a magyar nyelvű felhasználás során is[2].
A táblázatban foglalt benchmarkok egyébként is angol nyelvűek, ezért – a magyar nyelven történő alkalmazás a kutatómunkában és a kiválasztás előtt – megkerülhetetlen a modellek saját tesztelése. E͏z biztosítja, hogy a választott modell való͏ban hatékonyan támogassa a tudományos törekvése͏ket. ͏A jövőbeni siker a mesterséges intelligencia és az emberi szakértelem ötvözésén múlik, így a nyelvi modellek létfontosságú elemei lesznek ennek az͏ együttműködésnek[3], [4], [5].
Hivatkozások
[1] S. Kumar, T. Ghosal, V. Goyal, és A. Ekbal, „Can Large Language Models Unlock Novel Scientific Research Ideas?”, 2024, arXiv. doi: 10.48550/ARXIV.2409.06185.
[2] W.-L. Chiang és mtsai., „Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference”, 2024. március 7., arXiv: arXiv:2403.04132. doi: 10.48550/arXiv.2403.04132.
[3] M. Parashar, T. DeBlanc-Knowles, E. Gianchandani, és L. E. Parker, „Strengthening and Democratizing Artificial Intelligence Research and Development”, Computer, köt. 56, sz. 11, o. 85–90, nov. 2023, doi: 10.1109/MC.2023.3284568.
[4] F. Petruska, „A nagy nyelvi modellek sebezhetőségei”, Ludovika.hu. Elérés: 2024. november 1. [Online].
[5] F. Petruska, „Mivel foglalkozik egy akadémiai adatszakértő?”, Ludovika.hu. [Online].