Hogyan ismerhetjük fel a mesterséges intelligencia által írt magyar nyelvű szöveget?
A mesterséges intelligencia (MI) fejlődése forradalmi hatással van az akadémiai szövegalkotásra és a plágium elleni küzdelemre. A nagy nyelvi modellek, mint amilyenek a GPT sorozatú rendszerek, képesek emberi szintű szakirodalom megírására, fordítására, összegzésére és egyéb interakciókra, ami új kihívásokat jelent a tudományetika területén. Ebben a blogbejegyzésben bemutatom, hogy szövegolvasás során miből lehet felismerni az MI által írt vagy módosított szövegeket, valamint a MI-keresők és MI bypass-ek használatát is.
A MI fejlődése átütő hatással van az akadémiai szövegalkotásra is. A nagy nyelvi modellek egyik kategóriája, a GPT (Generative Pre-trained Transformer), azaz a mesterséges intelligencia alapú generatív nyelvi modell az akadémia életben vegyes fogadtatásra talált. A nagy nyelvi modellek között az „előre képzett” (pre-trained) kifejezés azt jelenti, hogy a GPT-t már korábban „feltanították” nagy mennyiségű szöveges adaton, hogy megtanulja a nyelvek szerkezetét és nyelvtanát. Ez lehetővé teszi, hogy a GPT új szövegeket generáljon, anélkül, hogy szövegszerű vagy akár túlságosan direkt, illetve specifikus utasításokat kapna. E modellek képes emberi szöveges kommunikációra, fordításra, összegzésre és egyéb interakciókra. A GPT-modellek új kihívásokat jelent a plágiumdetektálás területén. Ebben a blogban azt vizsgálom, hogyan lehet felismerni az MI által írt magyar szövegeket.
Az MI-alapú plágiumkeresők képesek összehasonlítani a szöveget más dokumentumokkal, azonosítva a hasonlóságokat és a lehetséges forrásokat. Ezek a rendszerek nemcsak a szövegazonosságokat, hanem a hasonló jelentésű kifejezéseket és szinonimákat is képesek felismerni. Az MI-keresők továbbá felismerik a mesterséges intelligencia által generált szövegek jellegzetességeit, mint például az érzelemmentes stílus, a formális nyelvezet vagy a terjengős mondatok. Ez lehetővé teszi a plágium azonosítását még akkor is, ha a szöveg nem közvetlen másolat. Az MI-keresők hatékonysága nyelvtől függően változhat. Míg az angol nyelvű szövegeknél az olyan platformok, mint a GPTZero[1], Qillbot[2], SciSpace[3] vagy a Nemzeti Közszolgálati Egyetem által is hivatalosan alkalmazott plágiumkereső, a Turnitin[4] kiválóan működnek, a magyar nyelvű szövegeknél a nagyobb szövegtömbök esetén mutatkozik meg igazán a hatékonyságuk. A magyar nyelv komplexitása és a kisebb adatmennyiség miatt a detektálás ugyanis jóval nehezebb lehet, amelyre az alábbi javaslataim vannak.
Az MI által generált szövegek felismerése során az első árulkodó jel lehet, hogy hiányzik vagy kevés a tudományos hivatkozás a dolgozatok szövegében. A mesterséges intelligencia – persze vannak már kivételek, mint a HIX AI[5] – nem képes felismerni a szükséges hivatkozásokat, és nem tudja megfelelően idézni a forrásokat.
Emellett gyakran benne marad a szövegben GPT-re utaló válasz bevezető szövege is, ami további jellemzője lehet az MI által generált szövegeknek. Sokszor benne maradnak a GPT által adott válaszok olyan szívélyes hangulatú kezdő szavai, mint a „[s]zívesen válaszolok a kérdésére” vagy a „[k]érdésedre az alábbi válaszokat találtam”.
A helyesírási hibák is jelentősen eltérhetnek az emberi hibáktól. A MI elenyésző elírást vét, inkább szemantikai hibákat követ el. Amíg a személyek gyakran elírják, az MI-alapú rendszerek inkább rosszul használják a szavakat vagy olyan szavakat használnak, amelyek nem illenek a kontextusba. Emellett a szöveg stílusa is megváltozhat, például az MI által generált szövegek gyakran tartalmaznak ismétlődő kifejezéseket vagy túl sok szinonimát tartalmaznak. Az emberek tehát inkább szintaktikai, a mesterséges intelligencia pedig szemantikai hibákat vét a szövegben.
Az egyik legjellemzőbb tulajdonság a korlátozottabb szókincs használata, ami azt eredményezi, hogy az MI által generált szövegek gyakran ismétlődők és kevésbé változatosak. Az ismételt szavak tipikusan semleges stílusúak, nem közvetítenek erős érzelmet.
A MI gyakran használ olyan nyelvtani szerkezeteket, amelyek nem jellemzők a magyar nyelvre. Az MI által generált szövegek gyakran eltérő stílusúak az ember által írt szövegektől, például gyakran hivatalosabbak és formálisabbak. Például „kiemelkedő illatú rózsa”, „magas intelligenciájú személy” már árulkodó kifejezések szerepelhetnek a szövegben. Gyakran látszik tehát, hogy olyan jelzős szerkezeteket használ, amelyek nem megszokottak a magyar nyelvben.
Az MI által generált szövegek gyakran nem veszik figyelembe a kontextust vagy nem értik megfelelően a kontextust, ami azt eredményezi, hogy gyakran nem relevánsak vagy értelmetlenek a kifejezések. A hosszú terjengős, többszörösen alá- vagy mellérendelt mondatok máris elárulják a szerzőt. Különösen akkor, ha az írásmű vegyes, azaz ember alkotta és MI generálta szöveget egyaránt tartalmaz. A két „szerző” stílusa közötti különbség rendkívül erős kontrasztot képez ugyanis egyazon szövegben.
A mesterséges intelligencia által generált szövegek gyakran nem tartalmaznak érzelmeket vagy nem fejezik ki megfelelően azokat, ami azt eredményezi, hogy mesterkéltnek tűnnek. Például egy MI által generált szöveg nem lesz képes átadni azt az érzelmi töltést, amit egy emberi szerző tudna. Ez egy szakirodalom megalkotásánál persze nem is fontos.
A mesterséges intelligencia által generált szövegekből gyakran hiányzik a kreativitás, ami miatt sokszor egyhangúk és vontattak. Például egy MI által generált jogi szakvélemény nem lesz képes olyan újszerű érveket és megoldásokat javasolni, mint egy tapasztalt jogász, aki képes a törvényeket és joggyakorlatot alkalmazni a konkrét esetre, és kreatív módon megoldani a problémákat. Ezenkívül a jogi nyelv használata eleve jelentős kihívást jelenthet a mesterséges intelligencia számára. A jogi szakkifejezések és fogalmak pontos használata, valamint a jogi érvelés logikája és felépítése sokszor nehéz feladat elé állítja az MI-rendszert. Emiatt a mesterséges intelligencia által generált jogi szövegek gyakran messze nem felelnek meg a szakmai elvárásoknak.
A mesterséges intelligencia által generált szövegek gyakran nem tartalmaznak egyedi elemeket vagy nem fejezik ki megfelelően az egyediséget, ami azt eredményezi, hogy hasonlítanak más MI generálta szövegekhez, így nem tudják kifejezni a szerző egyedi hangját. Például egy MI által generált cikk nem lesz képes olyan egyedi szemszögből megközelíteni a témát, mint egy emberi szerző, aki saját tapasztalatait és nézőpontját hozza bele a szövegbe.
A szerzői jogok területén is fontos szerepet játszanak az MI-keresők. Sokan nem tudják, hogy az MI által generált szövegek nem élveznek szerzői jogi védelmet, mivel a magyar jogrendszer csak személyeknek biztosít szerzői jogokat. A szerzői jogról szóló 1999. évi LXXVI. törvény alapján a szerzői jog azt illeti meg, aki a művet megalkotta (szerző), szerzői jogi védelem alatt áll más szerző művének átdolgozása, feldolgozása vagy fordítása is, ha annak egyéni, eredeti jellege van. Az MI-keresők segíthetnek a hallgatóknak és kutatóknak a helyes hivatkozások használatában és a szöveg átdolgozásában, ezzel elkerülve a plágium vádjait [1999. évi LXXVI. törvény 4. § (1)-(2) bek.]. A szerzőt a mű létrejöttétől kezdve megilleti a szerzői jogok összessége, beleértve a személyhez fűződő jogokat és a vagyoni jogokat. A szerző személyhez fűződő jogait nem ruházhatja át, azok másként sem szállhatnak át és a szerző nem mondhat le róluk [1999. évi LXXVI. törvény 9. § (1)-(2) bek.]. Kivételes esetekben jogi személy is lehet szerző például, ha a művet egy vállalat alkalmazottja készítette el a vállalat számára és a cég a művet közzéteszi. Ilyen esetekben a jogi személy lesz a szerző [1999. évi LXXVI. törvény 6. § (1) bek.].
Külön felhívom a figyelmet a MI-keresőket félrevezető mesterséges intelligencia elkerülők (artifical intelligence bypass) használatára. Ezek az MI bypass eszközök olyan szoftverek, amelyek lehetővé teszik, hogy az MI által írt szöveget az MI-keresők tévesen emberi írásként értelmezzék és észrevétlenné tegyék. Ezeket az eszközöket arra használják, hogy humanizálják a szöveget és kijátsszák a népszerű MI-keresőket, illetve biztosítsák, hogy a tartalom 100%-ban eredetinek és plágiummentesnek tűnjön. A legnépszerűbb HIX Bypass például egy olyan eszköz, amely a legfejlettebb MI bypass technológiát használja. Még azt is lehetővé teszi a felhasználók számára, hogy visszaellenőrizhessék, hogy a módosított szöveg valóban észrevétlen-e az MI-detektorok számára. A HIX Bypass például több mint félszáz nyelvet, többek között a magyart is támogatja. Ezek az eszközök hasznosak lehetnek azok számára, akik profi színvonalú szövegeket szeretnének létrehozni anélkül, hogy aggódniuk kellene az MI-detektorok miatt. Az MI bypass technológia ellen egyelőre nincs hatékony módszer.
Összességében az MI által generált szövegek jellemzői közé tartozik a szókincs korlátozottsága, a nyelvtani hibák, az ismétlődések, a stílusbeli eltérések, a kontextusbeli hibák, az érzelemmentesség, a kreativitás hiánya és az egyediség hiánya. Ezeket a jellemzőket felhasználhatjuk az MI által generált szövegek felismerésére, és a nyelvtani, stílusbeli, kontextusbeli, érzelembeli, kreativitásbeli és egyediségbeli elemzések segítségével azonosíthatjuk ezeket a jellemzőket. Az MI által generált szövegek felismerése érdekében a következő módszereket alkalmazhatjuk: nyelvtani elemzés, stíluselemzés, kontextuselemzés, érzelemelemzés, kreativitáselemzés és egyediség elemzés. Ezek a módszerek segíthetnek azonosítani a fent említett jellemzőket, így felismerni az MI által generált szövegeket. Végül ne feledjük az MI-detektorokat sem, amelyek hétről hétre egyre jobb hatásfokkal működnek, de a MI bypass technológiával ezek is kijátszhatók.
Felhasznált irodalom
[1] „GPTZero | The Trusted AI Detector for ChatGPT, GPT-4, & More”, GPTZero. Elérés: 2024. március 16. [Online].
[2] R. Margaret, „What is Quillbot? How It Works, How to Use It, Top Competitors”. Elérés: 2024. január 18. [Online].
[3] „SciSpace: Revolutionizing Research Paper Understanding with AI | by Nicole Gallicchio-Elz | Medium”. Elérés: 2024. január 18. [Online].
[4] „Why Turnitin? | Turnitin”. Elérés: 2024. március 16. [Online]
[5] „HIX AI – All-in-One AI-Powered Writing Copilot – ToolPilot”. Elérés: 2024. január 18. [Online]
Nyitókép forrása: MI által generált fotó