Közismert, hogy a generatív mesterséges intelligencia nem kizárólag emberi szöveget tud előállítani. A nyelven kívül más médiumok is tömegesen fellelhetőek az interneten, azaz esetükben a gépi tanuláshoz szükséges kritikus tömegű adat rendelkezésre áll, valamint – mint minden emberi médium tekintetében – e tömeges adat mintázatokat mutat, tanulható és a statisztikai valószínűség szerint reprodukálható. Ilyen médium a zene is.
A zenét először számokká, majd a nyelvi inputok alapján újra zenévé alakító mesterséges intelligencia komplex technológia. Megkülönböztetünk szimbolikus és audioalapú generatív modelleket. E modellek architektúrája abban különbözik radikálisan, hogy a szimbolikus reprezentációjú (főleg korai) modellek nem a zene füllel érzékelhető lenyomatát veszi alapul. A zenét szimbolikusan ábrázoló protokoll például a MIDI, amely géppel olvashatóan jeleníti meg a hangszereken lejátszott valahány hangot, időben tökéletesen elhelyezve. MIDI technológiával működik az a digitális dob is, amely által lejátszott valamennyi témát egy zenei producer rajzolta meg egy kottára hajazó szoftveres interfészen.
A szimbolikus modellek a zene ilyen szimbolikus reprezentációjából készítenek tokeneket, és extenzív tanulási folyamataik folytán felhasznált statisztikai tudásuk segítségével jósolják meg a következő tokent, azaz gyakorlatilag a zenében a következő hangot. Az ilyen modellek a zene egy szimbolikus reprezentációját, azaz nem konkrét audio hullámformákat állítanak elő a generatív folyamat végén. A szimbolikus generatív MI-k lehetővé teszik a zene mély statisztikai alapú vizsgálatát vagy könnyebbé tehetik adott esetben egy zeneszám meghangszerelését, például egy hiányzó dob- vagy billentyűsáv pótlásával a már említett produceri interfészen.
Az audioalapú modellek a nyers audio hullámformákon tanulnak és ezeket is állítják elő. Az audioalapú modellek közül a legfigyelemreméltóbbnak a diffúziós modellek tekinthetők, hiszen e megoldások képesek a legnagyobb felbontású, leginkább testreszabott (gyakran nagy nyelvi modellekkel támogatott promptolási mechanizmusokkal) eredményt előállítani úgy, hogy a megoldást használónak sem hangszerekre vagy zenei jártasságra, sem bármilyen további szoftverre vagy azt futtató hardverre nincs szüksége. A diffúziós modelleket minden írni, olvasni tudó ember tudja használni.
A diffúziós modellek mint masszív, a legnagyobb számítási erőforrásigénnyel működő szoftveres megoldások alapja egy spektogram, azaz a zenét képező frekvencia, amplitúdó és idő dimenzióiba készült képi megjelenítés. A spektogramok azért fontosak, mert a megoldások ezek segítségével tudnak tanulni, tartalmat generálni. A tanítási folyamat során a spektogrammot felzajosítják, annyi lépésben, amennyi csak kell ahhoz, hogy az eredeti zenéhez képest egy tiszta zaj képződjön. Az adott időpillanatban létező tiszta zaj és zene ekkor párokká válnak, a neurális hálózaton alapuló modell e párok segítségével előállított masszív tanulási folyamata során képessé válik arra, hogy a következő időpillanatban létező zajos jelet vagy tiszta jelet megjósolja. A neurális hálózat képessé teszi a megoldást arra, hogy a modellt a tartalomgenerálás közben a felhasználó kondícionálni tudja. A diffúziós modellek spektogramokon keresztül (a zene képi manifesztációja vizsgálatával) kezelik a zenét, de a szimbolikus modellekkel ellentétben nem a következő hangot jósolják meg. Az ilyen modellek outputja a következő időpillanatban létező hullámforma, felhasználói szempontból pedig, a következő időpillanatban létező kész zene.
Az interneten számos – akár ingyenesen is igénybevehető – oldal található, amelyen a felhasználó nyelvi promptokkal generáltathat magának zenét. Ezek általában feliratkozási üzleti modellt követő, inkább végfelhasználóknak szóló, kevéssé egyediesíthető és kis beavatkozást engedő, dedikált interfésszel rendelkező, webes szolgáltatások. A vélhetően diffúziós modelleket használó generatív mesterségesintelligencia-megoldások azonban nem mindegyike ennyire könnyű súlyú. A piacvezető megoldások között megtalálható olyan is, amely képes akár üzleti igényeket kielégítve, iparszerűen működni.
Számos problémát felvetett már a mesterséges intelligenciával készült zene. Említésképpen egy hazai példában, a Kistehén zenekar Spotify felületen létező profilját egészített ki két váratlanul megjelent nagylemez. A két nagylemez messziről ugyan hasonlított a magyar alternatív rockszcénát meghatározó zenekar esztétikai hangulatára, közelebbről vizsgálva azonban nagyon gyorsan egyértelművé vált, hogy egyik nagylemez zenei tartalmát sem játszották el sosem gitáron, sosem énekelték el vagy vették fel. A Spotify admissziós folyamata ezt természetesen képtelen kigyomlálni, hiszen a techóriás érdekét egyáltalán nem képezi az, hogy a gyakorlatilag csalást megvalósító tartalom ne jelenjen meg a felületén, valamint a Spotify nem is feltétlenül jogosult, de biztos nem köteles vizsgálni a felületén megjelenő tartalom szerzői jogi megfelelőségét. A Spotifyon való megjelenés folyamata vagy teljesen professzionális úton (zenei kiadók, ügynökök) vagy gyakorlatilag kizárólag masszív, teljesen automatizált disztribútorokon keresztül történik. Ilyen disztribútor például a DistroKid, amelynek segítségével bárki feltölthet zenét a Spotifyra, amíg az hosszabb, mint harminc másodperc.
A YouTube felületén számtalan DJ-ket tömörítő vagy csak kézzel készült válogatásokat feltöltő kiadó vagy szervezet létezik. Utóbbiak értéke az, hogy a teljes obskuritásból a lámpafénybe helyezzenek például egy elfelejtett diszkófelvételt, amelynek egyébként gyakorlatilag nem létezett digitalizált változata. Mindezt tegyék úgy, hogy számos szakember közreműködésével előáll egy különleges és egyedi audiovizuális tartalom, egy érdekes és hallgatható válogatás vagy egy ízléses DJ-szett. A YouTubeon e playlisteket, DJ-szetteket az ember általában jellemzőik folytán találja meg. Ezek fontos értékek, hiszen sok szerzői tartalmat mutatnak be a világnak egyben. Sokan e válogatások (playlistek) vagy DJ-szettek folytán szeretnek bele a következő kedvenc előadójukba.
Legújabban azonban e jellemzők folytán nem kizárólag emberi tartalmat lehet találni. A zenei deepfakek mellett ugyanis fontos problémát jelent az MI által készített több órát kitevő, generatív mesterséges intelligencia által előállított, playlistekbe tömörült, valódi válogatást vagy nagylemezt imitáló gépi tartalom.
A vélhetően szintén diffúziós modellekkel, iparszerűen és üzleti logika mentén létrejövő mesterséges intelligencia által generált tartalomra a YouTube reklámozási-monetizációs folyamatait kihasználva, élhető üzleti modellt lehet építeni. A végfelhasználók egyedi zenei igényeit, jellemzők alapján történő keresési szokásait kihasználó üzlet mögött láthatóan a zenét egyébként ismerő, technológiailag jártas gárda áll, hiszen az emberek – gyakran az általuk fogyasztott tartalom gépi voltát nem is ismerve – megtalálják ezekben a playlistekben azt, amit keresnek. Egy kerti sütögetés során elképzelhető, hogy a hordozható hangszórót működtető házigazda nem fog kézzel összeválogatni egy műsorlistát, hanem meglátva, hogy a „Psychedelic Desert Western Rock, Chillout Trip-Hop…” elnevezésű videó illik a hangulathoz, ráadásul 82 perc hosszú, egyet fog kattintani.
Természetesen nem feltétlenül meglepő, hogy a posztmodern, információs kapitalizmusban valamennyi monetizálható és automatizálható vagy indusztrializálható folyamat tekintetében létezik egy működő üzlet, azonban az mélyen elgondolkodtató, hogy ez utóbbi alapja és lényege részint az, hogy ezekből a zenékből hiányzik az emberi aspektus, azaz a szerző önmegvalósítási igénye. Ezek a zenék kizárólag azzal a céllal jönnek létre, hogy adott playlisten helyet kapjanak, végső soron pedig azért, hogy a készítő anyagi helyzetét előremozdítsák. Természetesen ismerjük azt a toposzt, hogy a zene világa már a művészet szabadságától elidegenítetten kommercializálódott, azonban amikor ez üzleti igény úgy jelenik meg, hogy kizárólag komplex matematikai módszerek játszanak egy dallamot emberek helyett, az egy minőségi szempontból eltérő helyzet.
Az ilyen generatív MI-vel előállított playlistek nagyon kompakt megoldások, azonban ez a kompakt megoldás csak úgy képzelhető el, ha a playlisten szereplő zenéket nem az ember önmegvalósítási igényéből eredő, jellemzők alapján nehezen kereshető kis- és nagylemezekről kell összeválogatni, hanem masszívan automatizáltan elő lehet állítani.
További probléma az, hogy a gépi zene mellett elszürkülhet a gyakran nem teljesen örökzöld emberi zene. Példaként vehetjük a sokak által ismert és sokra tartott kubai afro-jazz színtért. A Buena Vista Social Club a saját nevét viselő lemezében gyakorlatilag összefoglalta a zenei szcénára jellemző dal formáját, azaz azt a jelenséget, hogy egy adott – majdhogynem közkincset képző – művet több zenekar vagy több formáció előad. Ebből és a kubai szcéna nagyságából eredően a hozzájuk köthető művek száma csekély, a zenészek átlagéletkorát elnézve nem feltétlenül megújuló. Adott stílusban azonban néhány kattintással, ugyan magas számítási erőforrásigény mellett, de automatizáltan előállítható egy playlist, ami önmagában hosszabb lehet, mint az ismert szcéna összes opusa egyben. Mondani sem kell, hogy gyakran nem jelenik meg vagy a feltöltő elrejti azt az információt, hogy adott tartalom mesterséges intelligenciával generált.
Az információs társadalom egy olyan korában élünk, ahol a felhasználói tudatosság egyre fontosabb aspektussá válik. E tudatosság alapja pedig mindig valamilyen értékválasztás, amelyet a tekintetben kell meghoznunk, hogy számunkra mi a fontos. Elképzelhető, hogy megéri a mai napon nem a teljes komfortot választani minden információs technológiát érintő fogyasztói döntés során, ezáltal ösztönözve és megőrizve olyan értékeket, amelyeket egyébként fontosnak tartunk.
Nyitókép forrása: pvproductions / freepik.com