A digitális platformok felhasználói és az ő okoseszközeik által generált rengeteg adat nem csupán a marketing szakma, de a társadalomkutatók számára is új lehetőségeket, esetünkben konkrétan kutatási terepet jelent. Az ún. számítógépes társadalomtudomány (angolul computational social science) éppen az ilyen kutatásokra specializálódott és sikeresen implementál nagy adatmennyiséggel dolgozó kutatásokat, legyen szó numerikus vagy éppen szöveges adatokról.
A kattintások, nézettségi mutatók, illetve az okoseszközök és a digitális platformok felhasználási adatai mellett a kibertér felhasználói szöveges adatból is hatalmas mennyiséget hoznak létre, elsősorban a közösségi oldalakra, blogokra és egyéb weboldalakra feltöltött posztok és hozzászólások formájában, ahogy ide tartoznak a különböző darknetes platformok, fórumok tartalmai is. Az ilyen szöveges adatok gyűjtésével, feldolgozásával és elemzésével foglalkozó területet összefoglalóan szövegbányászatnak hívjuk, de sokszor szöveganalitikaként vagy automatizált szöveganalitikaként utalnak rá.
A természetes-nyelvfeldolgozás, a szövegbányászat és az automatizált szöveganalitika fogalmi elhatárolásáról, illetve az automatizált szöveganalitika folyamatáról már magyar nyelvű, társadalomtudományi folyóiratban megjelent cikk is olvasható.[1] Nagyon leegyszerűsítve a szövegbányászat ún. természetes-nyelvfeldolgozási algoritmust alkalmazva alakítja át a strukturálatlan adathalmazt elemezhető szövegkorpusszá (a szöveg nagyobb, strukturált halmazává). E folyamat lépései közé tartozik a tokenizáció (a szöveg kifejezésekre, szavakra, szimbólumokra vagy más értelmes egységekre bontása), a stemmelés (a szavak végének levágása, többnyire a toldalékok egyszerű eltávolítása), illetve a lemmatizáció (az eredeti szótő megadása).[2] Az így létrejött strukturált adatokon lehetséges olyan automatizált elemzési módszereket alkalmazni, mint például a szentimentanalízis vagy a topikmodellezés.
A fent felvázolt feladatokat különböző számítógépes szoftverek, illetve programmnyelvek segítségével tudjuk végrehajtani. Az adatok feldolgozása és elemzése során alkalmazható programcsomagok, dedikált szoftverek tára igen tág, és tekintve, hogy használatukat még viszonylag kevés egyetemi kurzus keretében oktatják, a szöveganalitikát alkalmazni kívánó kutatók nehéz helyzetben vannak munkájuk kezdetekor. Könnyebbséget jelenthet azonban, hogy a szövegbányászatra szakosodott programok és programcsomagok jellemzően nyílt forrásúak, és használatukat számtalan ingyenes oktatóanyag támogatja.
Az R programnyelv a nyílt forráskód és a különböző dedikált programcsomagok fejlesztése és alkalmazása köré épült közösségnek[3] köszönhetően az akadémiai szféra egyik legelterjedtebb statisztikai eszközévé vált. Így nem meglepő módon a számítógépes társadalomtudomány terén is az egyik legnépszerűbb megoldás. Az R programcsomagra épül például az MIT Open szöveganalitika kurzusa is[4]. Az R-ben több dedikált, szövegbányászatot alkalmazó programcsomag is készült, ilyen a tidytextmining[5] is, amely a feldolgozás folyamatának leegyszerűsítését tűzte ki célul. Ez a programnyelv a tokeneket, vagyis a szöveg jelentéssel bíró egységeit (jellemzően szavakat), kvázi adatbázisba rendezi, ahol egy sor egy token, ezzel lehetővé téve az elemzés és vizualizáció egyéb programcsomagokban (pl. dplyr, tidyr, ggplot2) való kivitelezését. A tidytextmining kompatibilis más szövegbányászati eszközökkel is, képes például a quantenda[6] nevű programcsomaggal is együttműködni. A quantenda célja a teljes természetes-nyelvfeldolgozási munkafolyamat lefedése, a korpusz kezelésétől a tokenizáción és az elemzésen át egészen a vizualizációig. Bár a quantenda használata egyértelműen igényel R programozási ismereteket, alapvetően úgy alakították ki, hogy minimálisra csökkentsék az ismeretek elsajátításának nehézségét.[7]
A Python szintén egy nyílt forrású programnyelv, jelentős tudásbázissal. Bár a Python elsősorban szoftverfejlesztésre “szakosodott”, az adattudomány szélesebb (ipari) területének is az egyik legfontosabb eszközévé vált, és már a társadalomtudomány területén is megjelent. A pandas[8] nevű programcsomag kifejezetten adatelemzésre íródott és a társadalomtudományban alkalmazott lehetőségekhez (R, Stata) hasonló adatbáziskezelő felületet nyújt (például lehetőséget ad az adattábla megtekintésére és a változók értékeinek címkézésére). De készült már számos dedikáltan szövegbányászatra alkalmas Python programcsomag is. Ilyen az NLTK[9] (Natural Language Toolkit), mely képes a strukturálatlan szövegkorpuszok feldolgozására, használatát pedig ingyenesen elérhető oktatóanyag is segíti. Az adatelemzésre pedig olyan programcsomagok készültek, mint például a Gensim, ami a szöveganalitikában gyakran alkalmazott topikmodellezési eljárás során válik hasznossá.
Bár a Java általános alkalmazásra írt programnyelv, az adattudományi célú felhasználása egyelőre korlátozott. Az OpenNLP[10] egy Java programcsomag, mely képes olyan természetes-nyelvfeldolgozási feladatokra, mint a tokenizáció, a mondat szegmentáció, a szófajok címkézése, az entitások kigyűjtése, a nyelvfelismerés stb. Az Elasticsearch szintén egy Java programnyelven írt csomag, amelyet eredetileg keresésre és elemzésre fejlesztettek ki, ugyanakkor szövegbányászati célra is felhasználható. Az Elasticsearch viszonylag könnyen alkalmassá tehető szövegklasszifikációra, klaszterezésre, kulcsszavak kigyűjtésére, ugyanakkor használata elsősorban akkor lehet releváns, ha eredetileg is Elasticsearch-ben kezelt dokumentumokról van szó.[11]
Természetesen nem csupán nyílt forráskódú megoldások léteznek. A természetes-nyelvfeldolgozás világpiacának elitjéhez tartozó IBM (International Business Machines Corportation) által fejlesztett IBM SPSS Modeler kifejezetten adatbányászatra és szöveganalitikára íródott szoftver, melynek elsőrendű célja a különböző forrásból származó adatok összekapcsolása. A Modeler-ben a feladatok végrehajtása az SPSS Statistics-hez hasonlóan alapvetően egy grafikus felületen történik. Másik terméküket, az IBM SPSS Text Analytics-et elsősorban a kérdőívek nyitott kérdéseire adott válaszok elemzésére hozták létre. Magyarországon a Clementine nevű, kifejezetten adatbányászatra és szöveganalitikára szakosodott cég foglalkozik az IBM programok forgalmazásával és oktatásával[12]. Az IBM SPSS Statistics társadalomkutatók körében való elterjedtsége miatt a fenti megoldások a szövegbányászat világával ismerkedő társadalomkutatók számára logikus választásnak tűnnek, ugyanakkor fontos megjegyezni, hogy ahogy az SPSS esetében is, úgy a Text Analytics használatában is szerepet kaphatnak az R[13] vagy Python[14] integrációk.
A szöveges adatok elemzésére és az eredmények vizualizációjára ugyanakkor a fentieken túl más lehetőségek is vannak, például dedikált programok is készültek (pl. Provalis QDA Miner és Wordstat[15], T-lab[16], SAS text miner[17], WORDij[18], LIWC[19]), melyek közül nyilvánvalóan az adott munka célja és a rendelkezésre álló technikai és anyagi háttér, illetve szakértelem alapján érdemes kiválasztani a legmegfelelőbbet. Posztommal támpontokat kívántam adni a szöveganalitikával hozzám hasonlóan ismerkedő társadalomkutatók számára, bemutatva az általam eddig feltárt megoldásokat, és elősegítve a vállalati szférában és a számítógépes társadalomtudomány terén már alkalmazott módszer hazai kriminológiai kutatásokban való megjelenését.
[1] Németh R. – Katona E. – Kmetty Z. (2020). Az automatizált szövegelemzés perspektívája a társadalomtudományokban. Szociológiai Szemle 30(1): 44–62. Elérthető: https://szociologia.hu/dynamic/44_62_oldal.pdf Utoljára letöltve: 2020. december 21.
[2] Veltri, G. (2020). Digital social research. Cambridge, UK Medford, MA: Polity Press. p. 224.
[3] Pl. a Meetup.com oldalon kifejezetten aktív csoport az R-Ladies Budapest vagy a Budapest Users of R Network.
[4] MIT/Sloan School of Management/The Analytics Edge/Unit 5: Text Analytics. Elérhető: https://ocw.mit.edu/courses/sloan-school-of-management/15-071-the-analytics-edge-spring-2017/text-analytics/ Utoljára letöltve: 2020. december 11.
[5] Julia Silge and David Robinson: Text Mining with R – A Tidy Approach. [Szövegbányászat R-ben. A Tidy megközelítésmód.] Elérhető: https://www.tidytextmining.com/ Utoljára letöltve: 2020. december 12.
[6] R package for managing and analyzing text, created by Kenneth Benoit. [R programcsomag szövegek kezelése és elemzése céljából, készítette Kenneth Benoit] Elérhető: https://quanteda.io/ Utoljára letöltve: 2020. december 12.
[7] Benoit et al., (2018). quanteda: An R package for the quantitative analysis of textual data. Journal of Open Source Software, 3(30), 774.
[8] Python – Pandas https://pandas.pydata.org Utoljára letöltve: 2020. december 21.
[9] Python – NLTK https://www.nltk.org Utoljára letöltve: 2020. december 21.
[10] OpenNLP: A machine learning based toolkit for the processing of natural language text. [Gépi tanulásra alapuló természetes-nyelv feldlgozó eszközcsomag.] Elérhető: https://opennlp.apache.org/ Utoljára letöltve: 2020. december 12.
[11] Text Classification made easy with Elasticsearch [Egyszerű szöveg-klasszifikáció az Elastcsearch segítségével.] Elérhető: https://www.elastic.co/blog/text-classification-made-easy-with-elasticsearch Utoljára letöltve: 2020. december 12.
[12] Clementine: IBM SPSS Text Analytics. Elérhető: https://clementine.hu/termekek/szoveganalitika/ibm-spss-text-analytics Utoljára letöltve: 2020. december 12.
[13] Clementine: R integráció. Elérhető: https://clementine.hu/megoldasok/integracio/r-integracio Utoljára letöltve: 2020. december 12.
[14] Clementine: Python integráció. Elérhető: https://clementine.hu/megoldasok/integracio/phyton-integracio Utoljára letöltve: 2020. december 12.
[15] Provalis QDA Miner és Wordstat Elérhető: https://provalisresearch.com/ Utoljára letöltve: 2020. december 13.
[16] T-Lab. Elérhető: https://www.tlab.it/ Utoljára letöltve: 2020. december 13.
[17] SAS Text Miner. Elérhető: https://www.sas.com/hu_hu/software/text-miner.html Utoljára letöltve: 2020. december 13.
[18] WORDij. Elérhető: https://www.wordij.net/ Utoljára letöltve: 2020. december 13.
[19] LIWC. Elérhető: https://liwc.wpengine.com/ Utoljára letöltve: 2020. december 13.
Kép: xresch képe a Pixabay-en.