Ugrás a tartalomhoz
  • MAGAZIN
  • BLOGTÉR
  • PODCAST
  • TV
  • GYŰJTEMÉNY
  • WEBSHOP
  • FOLYÓIRATOK
  • KIADÓ
Menü
  • MAGAZIN
  • BLOGTÉR
  • PODCAST
  • TV
  • GYŰJTEMÉNY
  • WEBSHOP
  • FOLYÓIRATOK
  • KIADÓ
  • MAGAZIN
  • BLOGTÉR
  • PODCAST
  • TV
  • GYŰJTEMÉNY
  • WEBSHOP
  • FOLYÓIRATOK
  • KIADÓ
Menü
  • MAGAZIN
  • BLOGTÉR
  • PODCAST
  • TV
  • GYŰJTEMÉNY
  • WEBSHOP
  • FOLYÓIRATOK
  • KIADÓ
Balogh Zsolt György

Jog és logika – III. rész

A fuzzy logika a klasszikus logika kiterjesztése.

Balogh Zsolt György 2025.05.13.
Ződi Zsolt

A zürichi kutatók esete az etikus Reddittel

Kutatási szabadság és etikus tudomány a mesterséges intelligencia korában.

Ződi Zsolt 2025.05.06.
Fehér András Tibor

Az MI-télről egy MI-tavaszban – II. rész

Okok a szakirodalom szerint.

Fehér András Tibor 2025.05.05.
Fehér András Tibor

Az MI-télről egy MI-tavaszban – I. rész

Miért torpant meg korábban az MI fejlődése?

Fehér András Tibor 2025.04.23.
Dobos Gábor

A függetlenek „csendes forradalma”

A demokrácia hanyatlása vagy demokratikus innováció?

Dobos Gábor 2025.04.22.
ITKI BLOG
Petruska Ferenc
Petruska Ferenc
alezredes, kutató, NKE EJKK Vallás és Társadalom Kutatóintézet
  • 2025.01.21.
  • 2025.01.21.

Melyik nyelvi modellt válasszam?

Milyen benchmarkok alapján tudjuk kiválasztani a legjobb nyelvi modelleket? 

A jelen blogbejegyzés hangsúlyozza ͏a nagy nyelvi͏ modell képességei megértésének fontosságát a társadalomtudományi kutatásokban. Következtetései segítséget nyújtanak az egyetemi polgároknak a munkájukhoz szükséges nagy nyelvi modellek kiválasztásában. Ezek a modellek ugyanis rendkívül értékesnek bizonyulhatnak a szövegelemzést, az interjúfeldolgozást és a ͏komplex társadalomtudományi kutatásokat magában foglaló munkák során.

A mesterséges͏ intelligencia (MI) gyors fejlődése új lehetőségeket nyitott meg a tudományos kutatásban. A fejlett͏ nagy nyelvi modellek (Large Language Models – LLM) új lehetőségeket kínálnak a szövegek értelmezésére, megírására, értékelésére és͏ fordítására, ami megkönnyíti a kutatók munkáját. A legjobb modell kiválasztása továbbra is fontos tényező, ami a magyar nyelven publikáló kutatók számára nehéz feladat, hiszen ezeket a modelleket világnyelveken – leginkább angolul – tanították fel, a tesztelés szintén világnyelveken folyik. Ez a blogbejegyzés ezt a͏ problémát kívánja megvitatni és a választást megkönnyíteni, különösen a társadalomtudományi kutatási igényekkel kapcsolatban[1]. A társadalomtudományokban a kutatás ugyanis jellemzően szöveges adatok értelmezését és͏ szintetizálását foglalja magában. Ezért kulcsfontosságúak a͏z ezekre a speciális területekre vonatkozó kritériumok. A͏ társadalomtudományi kutatás alapvető képességei közé tartozik a nyelv általános megértése, a szöveg ͏elemzése és a hosszú szövegek kezelése͏.͏

Ezen képességek mérésére szolgálnak a kiemelten fontos benchmarkok. Az MMLU (Massive Multitask Language Understanding), MMLU-Redux és MMLU-Pro 57 különböző tudományterületet felölelő feleletválasztós kérdéssorok, amelyek a modell tudását és szövegértési képességét tesztelik, beleértve a társadalomtudományokat is, mint például a jog, a történelem, a szociológia és a politológia. Például egy MMLU kérdés megkérdezheti, hogy „Mi volt a fő oka a francia forradalom kitörésének?”, a modellnek pedig négy lehetséges válasz közül kell kiválasztania a helyeset. A DROP (Discrete Reading Comprehension Over Paragraphs) egy olvasott szövegértési feladat, ahol a modellnek egy bekezdés elolvasása után kell megválaszolnia a hozzá kapcsolódó kérdéseket. Például a modell kaphat egy részletet egy szociológiai tanulmányból, majd meg kell válaszolnia olyan kérdéseket, mint „Milyen társadalmi csoportot vizsgált a tanulmány?” vagy „Milyen módszert alkalmaztak az adatgyűjtésre?”. A LongBench v2 a hosszú szövegek megértését és feldolgozását értékeli. Egy társadalomtudományi kutató számára ez azért fontos, mert gyakran kell hosszú tanulmányokat, interjúkat vagy jogi dokumentumokat elemezni. A LongBench v2-ben a modellnek például egy hosszú tudományos cikk alapján kell összefoglalót írnia vagy kérdésekre válaszolnia a cikk tartalmával kapcsolatban.

A fontos benchmarkok olyan képességeket mérnek, amelyek szintén relevánsak lehetnek a társadalomtudományi kutatásokban. Az IFE-val (Instruction Following Evaluation) azt teszteli, hogy a modell mennyire képes követni az összetett, szigorú utasításokat. Például a modell kaphat egy olyan utasítást, hogy „Elemezze a következő szöveget a kritikai diskurzuselemzés módszerével, és azonosítsa a domináns narratívákat!”. Ez a képesség a kutatási folyamat során felmerülő összetett feladatok végrehajtásában lehet hasznos. A GPQA-Diamond (Graduate-Level Google-Proof Q&A) egy nagyon nehéz, szakértői szintű kérdés–válasz benchmark. A kérdések megválaszolásához mély tudásra és következtetési képességekre van szükség. Például egy GPQA-Diamond kérdés lehet: „Hogyan befolyásolja a globalizáció a nemzetállamok szuverenitását a XXI. században? Fejtse ki a különböző elméleti megközelítéseket!”. Ezen a benchmarkon elért magas pontszám azt jelzi, hogy a modell képes a komplex, elvont gondolkodásra, ami a tudományos kutatásban, különösen a társadalomtudományi kutatások esetében elengedhetetlen.

Az esetenként fontos benchmarkok specifikusabb képességeket mérnek, amelyek bizonyos kutatási területeken vagy feladatokban lehetnek relevánsak, de nem feltétlenül általánosan fontosak a társadalomtudományokban. A SimpleQA (Correct) egy egyszerű kérdés-válasz benchmark, amely a modell tényszerű tudását teszteli. Például egy SimpleQA kérdés lehet: „Ki volt Magyarország miniszterelnöke 1910-ben?”. A FRAMES (Acc.) a dialógusrendszerek teljesítményét értékeli, ami például interjúk elemzésénél vagy chatbotok társadalomtudományi kutatásban történő alkalmazásánál lehet hasznos.

Benchmark (metrika)DeepSeek V3DeepSeek V2.5Qwen2.5 72B-InstLlama3.1 405B-InstClaude-3.5 Sonnet-1022GPT-4o 0513
ArchitektúraMoEMoEDenseDense––
Aktivált paraméterek száma37B21B72B405B––
Összes paraméter száma671B236B72B405B––
MMLU (EM)88.580.685.388.688.387.2
MMLU-Redux (EM)89.180.385.686.288.988.0
MMLU-Pro (EM)75.966.271.673.378.072.6
DROP (3-shot F1)91.687.876.788.788.383.7
IF-Eval (Prompt Strict)86.180.684.186.086.584.3
GPQA-Diamond (Pass@1)59.141.349.051.165.049.9
SimpleQA (Correct)24.910.29.117.128.438.2
FRAMES (Acc.)73.365.469.870.072.580.5
LongBench v2 (Acc.)48.735.439.436.141.048.1
HumanEval-Mul (Pass@1)82.677.477.377.281.780.5
LiveCodeBench (Pass@1-COT)40.529.231.128.436.333.4
LiveCodeBench (Pass@1)37.628.428.730.132.834.2
Codeforces (Percentile)51.635.624.825.320.323.6
SWE Verified (Resolved)42.022.623.824.550.838.8
Aider-Edit (Acc.)79.771.665.463.984.272.9
Aider-Polyglot (Acc.)49.618.27.65.845.316.0
A társadalomtudományi kutatások szempontjából releváns benchmarkok
(a szerző szerkesztése) Forrás: deepseek, letöltés ideje: 2025.01.02.

Természetesen a fenti lista közel sem tekinthető állandónak, sőt heti szinten jelennek meg akár teljesen új szereplők (például a DeepSeek V3c, az OpenAI o1, hamarosan pedig az OpenAI o3), amelyek nagyságrendekkel jobbak az addigi dobogós modelleknél. Ezért javaslom a LMSYS-ként ismert, jelenleg OpenLMAI Chatbot Arena weblap gyakori látogatását, ahol a legújabb modellek szólóban, sőt egymással párhuzamosan tesztelhetők. A weboldalon nemcsak hagyományos benchmarkokat találunk, hanem a megjelenést követő hetekben több tízezer felhasználó szubjektív értékelését is. Saját tapasztalatom alapján érdemesebb a felhasználók összegzett tapasztalatára hagyakozni, mint egy-egy modell átütő benchmarkjára. A Chatbot Arenaban magasra értékelt modellek általában komoly teljesítményt tudnak felmutatni a magyar nyelvű felhasználás során is[2].

A táblázatban foglalt benchmarkok egyébként is angol nyelvűek, ezért – a magyar nyelven történő alkalmazás a kutatómunkában és a kiválasztás előtt – megkerülhetetlen a modellek saját tesztelése. E͏z biztosítja, hogy a választott modell való͏ban hatékonyan támogassa a tudományos törekvése͏ket. ͏A jövőbeni siker a mesterséges intelligencia és az emberi szakértelem ötvözésén múlik, így a nyelvi modellek létfontosságú elemei lesznek ennek az͏ együttműködésnek[3], [4], [5].

Hivatkozások

[1] S. Kumar, T. Ghosal, V. Goyal, és A. Ekbal, „Can Large Language Models Unlock Novel Scientific Research Ideas?”, 2024, arXiv. doi: 10.48550/ARXIV.2409.06185.

[2] W.-L. Chiang és mtsai., „Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference”, 2024. március 7., arXiv: arXiv:2403.04132. doi: 10.48550/arXiv.2403.04132.

[3] M. Parashar, T. DeBlanc-Knowles, E. Gianchandani, és L. E. Parker, „Strengthening and Democratizing Artificial Intelligence Research and Development”, Computer, köt. 56, sz. 11, o. 85–90, nov. 2023, doi: 10.1109/MC.2023.3284568.

[4] F. Petruska, „A nagy nyelvi modellek sebezhetőségei”, Ludovika.hu. Elérés: 2024. november 1. [Online].

[5] F. Petruska, „Mivel foglalkozik egy akadémiai adatszakértő?”, Ludovika.hu. [Online].

Témakörök: elemzés, mesterséges intelligencia, társadalomtudomány, technológia
nke-cimer

LUDOVIKA.hu

KAPCSOLAT

1083 Budapest, Ludovika tér 2.
E-mail:
Kéziratokkal, könyv- és folyóirat-kiadással kapcsolatos ügyek: kiadvanyok@uni-nke.hu
Blogokkal és a magazinnal kapcsolatos ügyek: szerkesztoseg@uni-nke.hu

IMPRESSZUM

Ez a weboldal sütiket használ. Ha Ön ezzel egyetért, kérjük fogadja el az adatkezelési szabályzatunkat. Süti beállításokElfogad
Adatvédemi és süti beállítások

Adatvédelmi áttekintés

This website uses cookies to improve your experience while you navigate through the website. Out of these cookies, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may have an effect on your browsing experience.
Necessary
Always Enabled
Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
Non-necessary
Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.
SAVE & ACCEPT