Ugrás a tartalomhoz
  • MAGAZIN
  • BLOGTÉR
  • PODCAST
  • TV
  • GYŰJTEMÉNY
  • WEBSHOP
  • FOLYÓIRATOK
  • OPEN ACCESS
  • MAGAZIN
  • BLOGTÉR
  • PODCAST
  • TV
  • GYŰJTEMÉNY
  • WEBSHOP
  • FOLYÓIRATOK
  • OPEN ACCESS
  • MAGAZIN
  • BLOGTÉR
  • PODCAST
  • TV
  • GYŰJTEMÉNY
  • WEBSHOP
  • FOLYÓIRATOK
  • OPEN ACCESS
  • MAGAZIN
  • BLOGTÉR
  • PODCAST
  • TV
  • GYŰJTEMÉNY
  • WEBSHOP
  • FOLYÓIRATOK
  • OPEN ACCESS
Marton Ádám

A változás állandósága az MI korában

A bizonytalanság és az alkalmazkodás munkaerő-piaci vetületei.

Marton Ádám 2025.09.22.
Balázs Eszter

A cseh Karel Čapek öröksége

Robotoktól a mesterséges intelligenciáig.

Balázs Eszter 2025.09.17.
Czeczeli Vivien

Az MI-paradoxon

Milliárdok égnek el, de hol marad a növekedés?

Czeczeli Vivien 2025.08.26.
Petruska Ferenc

Mit várhatunk a GPT-5-től az egyetemen?

Átfogó útmutató a kutatási feladatokhoz megfelelő MI-modell kiválasztásához.

Petruska Ferenc 2025.08.18.
Rab Árpád

A humanoid robotok jelenlegi piaci és technológiai trendjei

A humanoid robotok gyors ütemben terjednek a szolgáltatóiparban, az iparban és a mindennapi élet különböző területein.

Rab Árpád 2025.08.12.
ITKI BLOG
Picture of Beyer Fülöp
Beyer Fülöp
doktorandusz, ELTE
  • 2025.09.26.
  • 2025.09.26.

Gépi zene és felhasználói tudatosság

Közismert, hogy a generatív mesterséges intelligencia nem kizárólag emberi szöveget tud előállítani. A nyelven kívül más médiumok is tömegesen fellelhetőek az interneten, azaz esetükben a gépi tanuláshoz szükséges kritikus tömegű adat rendelkezésre áll, valamint – mint minden emberi médium tekintetében – e tömeges adat mintázatokat mutat, tanulható és a statisztikai valószínűség szerint reprodukálható. Ilyen médium a zene is.

A zenét először számokká, majd a nyelvi inputok alapján újra zenévé alakító mesterséges intelligencia komplex technológia. Megkülönböztetünk szimbolikus és audioalapú generatív modelleket. E modellek architektúrája abban különbözik radikálisan, hogy a szimbolikus reprezentációjú (főleg korai) modellek nem a zene füllel érzékelhető lenyomatát veszi alapul. A zenét szimbolikusan ábrázoló protokoll például a MIDI, amely géppel olvashatóan jeleníti meg a hangszereken lejátszott valahány hangot, időben tökéletesen elhelyezve. MIDI technológiával működik az a digitális dob is, amely által lejátszott valamennyi témát egy zenei producer rajzolta meg egy kottára hajazó szoftveres interfészen.

A szimbolikus modellek a zene ilyen szimbolikus reprezentációjából készítenek tokeneket, és extenzív tanulási folyamataik folytán felhasznált statisztikai tudásuk segítségével jósolják meg a következő tokent, azaz gyakorlatilag a zenében a következő hangot. Az ilyen modellek a zene egy szimbolikus reprezentációját, azaz nem konkrét audio hullámformákat állítanak elő a generatív folyamat végén. A szimbolikus generatív MI-k lehetővé teszik a zene mély statisztikai alapú vizsgálatát vagy könnyebbé tehetik adott esetben egy zeneszám meghangszerelését, például egy hiányzó dob- vagy billentyűsáv pótlásával a már említett produceri interfészen.

Az audioalapú modellek a nyers audio hullámformákon tanulnak és ezeket is állítják elő. Az audioalapú modellek közül a legfigyelemreméltóbbnak a diffúziós modellek tekinthetők, hiszen e megoldások képesek a legnagyobb felbontású, leginkább testreszabott (gyakran nagy nyelvi modellekkel támogatott promptolási mechanizmusokkal) eredményt előállítani úgy, hogy a megoldást használónak sem hangszerekre vagy zenei jártasságra, sem bármilyen további szoftverre vagy azt futtató hardverre nincs szüksége. A diffúziós modelleket minden írni, olvasni tudó ember tudja használni.

A diffúziós modellek mint masszív, a legnagyobb számítási erőforrásigénnyel működő szoftveres megoldások alapja egy spektogram, azaz a zenét képező frekvencia, amplitúdó és idő dimenzióiba készült képi megjelenítés. A spektogramok azért fontosak, mert a megoldások ezek segítségével tudnak tanulni, tartalmat generálni. A tanítási folyamat során a spektogrammot felzajosítják, annyi lépésben, amennyi csak kell ahhoz, hogy az eredeti zenéhez képest egy tiszta zaj képződjön. Az adott időpillanatban létező tiszta zaj és zene ekkor párokká válnak, a neurális hálózaton alapuló modell e párok segítségével előállított masszív tanulási folyamata során képessé válik arra, hogy a következő időpillanatban létező zajos jelet vagy tiszta jelet megjósolja. A neurális hálózat képessé teszi a megoldást arra, hogy a modellt a tartalomgenerálás közben a felhasználó kondícionálni tudja. A diffúziós modellek spektogramokon keresztül (a zene képi manifesztációja vizsgálatával) kezelik a zenét, de a szimbolikus modellekkel ellentétben nem a következő hangot jósolják meg. Az ilyen modellek outputja a következő időpillanatban létező hullámforma, felhasználói szempontból pedig, a következő időpillanatban létező kész zene.

Az interneten számos – akár ingyenesen is igénybevehető – oldal található, amelyen a felhasználó nyelvi promptokkal generáltathat magának zenét. Ezek általában feliratkozási üzleti modellt követő, inkább végfelhasználóknak szóló, kevéssé egyediesíthető és kis beavatkozást engedő, dedikált interfésszel rendelkező, webes szolgáltatások. A vélhetően diffúziós modelleket használó generatív mesterségesintelligencia-megoldások azonban nem mindegyike ennyire könnyű súlyú. A piacvezető megoldások között megtalálható olyan is, amely képes akár üzleti igényeket kielégítve, iparszerűen működni.

Számos problémát felvetett már a mesterséges intelligenciával készült zene. Említésképpen egy hazai példában, a Kistehén zenekar Spotify felületen létező profilját egészített ki két váratlanul megjelent nagylemez. A két nagylemez messziről ugyan hasonlított a magyar alternatív rockszcénát meghatározó zenekar esztétikai hangulatára, közelebbről vizsgálva azonban nagyon gyorsan egyértelművé vált, hogy egyik nagylemez zenei tartalmát sem játszották el sosem gitáron, sosem énekelték el vagy vették fel. A Spotify admissziós folyamata ezt természetesen képtelen kigyomlálni, hiszen a techóriás érdekét egyáltalán nem képezi az, hogy a gyakorlatilag csalást megvalósító tartalom ne jelenjen meg a felületén, valamint a Spotify nem is feltétlenül jogosult, de biztos nem köteles vizsgálni a felületén megjelenő tartalom szerzői jogi megfelelőségét. A Spotifyon való megjelenés folyamata vagy teljesen professzionális úton (zenei kiadók, ügynökök) vagy gyakorlatilag kizárólag masszív, teljesen automatizált disztribútorokon keresztül történik. Ilyen disztribútor például a DistroKid, amelynek segítségével bárki feltölthet zenét a Spotifyra, amíg az hosszabb, mint harminc másodperc. 

A YouTube felületén számtalan DJ-ket tömörítő vagy csak kézzel készült válogatásokat feltöltő kiadó vagy szervezet létezik. Utóbbiak értéke az, hogy a teljes obskuritásból a lámpafénybe helyezzenek például egy elfelejtett diszkófelvételt, amelynek egyébként gyakorlatilag nem létezett digitalizált változata. Mindezt tegyék úgy, hogy számos szakember közreműködésével előáll egy különleges és egyedi audiovizuális tartalom, egy érdekes és hallgatható válogatás vagy egy ízléses DJ-szett. A YouTubeon e playlisteket, DJ-szetteket az ember általában jellemzőik folytán találja meg. Ezek fontos értékek, hiszen sok szerzői tartalmat mutatnak be a világnak egyben. Sokan e válogatások (playlistek) vagy DJ-szettek folytán szeretnek bele a következő kedvenc előadójukba.

Legújabban azonban e jellemzők folytán nem kizárólag emberi tartalmat lehet találni. A zenei deepfakek mellett ugyanis fontos problémát jelent az MI által készített több órát kitevő, generatív mesterséges intelligencia által előállított, playlistekbe tömörült, valódi válogatást vagy nagylemezt imitáló gépi tartalom.

A vélhetően szintén diffúziós modellekkel, iparszerűen és üzleti logika mentén létrejövő mesterséges intelligencia által generált tartalomra a YouTube reklámozási-monetizációs folyamatait kihasználva, élhető üzleti modellt lehet építeni. A végfelhasználók egyedi zenei igényeit, jellemzők alapján történő keresési szokásait kihasználó üzlet mögött láthatóan a zenét egyébként ismerő, technológiailag jártas gárda áll, hiszen az emberek – gyakran az általuk fogyasztott tartalom gépi voltát nem is ismerve – megtalálják ezekben a playlistekben azt, amit keresnek. Egy kerti sütögetés során elképzelhető, hogy a hordozható hangszórót működtető házigazda nem fog kézzel összeválogatni egy műsorlistát, hanem meglátva, hogy a „Psychedelic Desert Western Rock, Chillout Trip-Hop…” elnevezésű videó illik a hangulathoz, ráadásul 82 perc hosszú, egyet fog kattintani.

Természetesen nem feltétlenül meglepő, hogy a posztmodern, információs kapitalizmusban valamennyi monetizálható és automatizálható vagy indusztrializálható folyamat tekintetében létezik egy működő üzlet, azonban az mélyen elgondolkodtató, hogy ez utóbbi alapja és lényege részint az, hogy ezekből a zenékből hiányzik az emberi aspektus, azaz a szerző önmegvalósítási igénye. Ezek a zenék kizárólag azzal a céllal jönnek létre, hogy adott playlisten helyet kapjanak, végső soron pedig azért, hogy a készítő anyagi helyzetét előremozdítsák. Természetesen ismerjük azt a toposzt, hogy a zene világa már a művészet szabadságától elidegenítetten kommercializálódott, azonban amikor ez üzleti igény úgy jelenik meg, hogy kizárólag komplex matematikai módszerek játszanak egy dallamot emberek helyett, az egy minőségi szempontból eltérő helyzet.

Az ilyen generatív MI-vel előállított playlistek nagyon kompakt megoldások, azonban ez a kompakt megoldás csak úgy képzelhető el, ha a playlisten szereplő zenéket nem az ember önmegvalósítási igényéből eredő, jellemzők alapján nehezen kereshető kis- és nagylemezekről kell összeválogatni, hanem masszívan automatizáltan elő lehet állítani.

További probléma az, hogy a gépi zene mellett elszürkülhet a gyakran nem teljesen örökzöld emberi zene. Példaként vehetjük a sokak által ismert és sokra tartott kubai afro-jazz színtért. A Buena Vista Social Club a saját nevét viselő lemezében gyakorlatilag összefoglalta a zenei szcénára jellemző dal formáját, azaz azt a jelenséget, hogy egy adott – majdhogynem közkincset képző – művet több zenekar vagy több formáció előad. Ebből és a kubai szcéna nagyságából eredően a hozzájuk köthető művek száma csekély, a zenészek átlagéletkorát elnézve nem feltétlenül megújuló. Adott stílusban azonban néhány kattintással, ugyan magas számítási erőforrásigény mellett, de automatizáltan előállítható egy playlist, ami önmagában hosszabb lehet, mint az ismert szcéna összes opusa egyben. Mondani sem kell, hogy gyakran nem jelenik meg vagy a feltöltő elrejti azt az információt, hogy adott tartalom mesterséges intelligenciával generált.

Az információs társadalom egy olyan korában élünk, ahol a felhasználói tudatosság egyre fontosabb aspektussá válik. E tudatosság alapja pedig mindig valamilyen értékválasztás, amelyet a tekintetben kell meghoznunk, hogy számunkra mi a fontos. Elképzelhető, hogy megéri a mai napon nem a teljes komfortot választani minden információs technológiát érintő fogyasztói döntés során, ezáltal ösztönözve és megőrizve olyan értékeket, amelyeket egyébként fontosnak tartunk.

Nyitókép forrása: pvproductions / freepik.com

Témakörök: haszon, mesterséges intelligencia, társadalom, zene
nke-cimer

LUDOVIKA.hu

KAPCSOLAT

1083 Budapest, Ludovika tér 2.
E-mail:
Kéziratokkal, könyv- és folyóirat-kiadással kapcsolatos ügyek: kiadvanyok@uni-nke.hu
Blogokkal és a magazinnal kapcsolatos ügyek: szerkesztoseg@uni-nke.hu

IMPRESSZUM

Ez a weboldal sütiket használ. Ha Ön ezzel egyetért, kérjük fogadja el az adatkezelési szabályzatunkat. Süti beállításokElfogad
Adatvédemi és süti beállítások

Adatvédelmi áttekintés

This website uses cookies to improve your experience while you navigate through the website. Out of these cookies, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may have an effect on your browsing experience.
Necessary
Always Enabled
Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
Non-necessary
Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.
SAVE & ACCEPT