V príspevku analyzujeme výskyt lexémy vojna v hlavných slovenských jazykových korpusoch. Zaujíma nás, ako a čím môžu korpusy prispieť k poznaniu jazykovej situácie v konkrétnom lingvokultúrnom priestore, aké informácie prinášajú a ako načrtávajú jazykový obraz sveta. Téma vojny za posledných 30 rokov nevystupovala v slovenskom prostredí do popredia, keďže populácia ju prevažne vnímala ako jav temporálne alebo geograficky vzdialený, teda niečo, čo priamo neovplyvňuje každodenný život.
Zameriame sa na synchrónnu a diachrónnu analýzu v troch hlavných podkorpusoch Slovenského národného korpusu, publicistike, beletrii a odborných textoch, ako aj hovorenom korpuse slovenčiny. Ukazuje sa, že výskyt výrazu vojna a príbuzných lexém (napr. vojak, vojenský, vojnový) je vo webovom korpuse relatívne nízky a predpokladáme, že odráža bežnú jazykovú prax v slovenskom diskurze. Mierne vyšší výskyt je v publicistike a beletrii, pričom v korpuse odborných textov sa tento výraz objavuje ešte častejšie, čo je spôsobené prítomnosťou vedeckých a odborných publikácií z oblasti histórie. Všeobecný hovorený korpus má tiež podobný výskyt ako webový, ale v nahrávkach Ústavu pamäti národa má vojna výrazne vyšší výskyt. Ide o prirodzený odraz orálnej histórie a tzv. malých dejín, ktoré sú písané príbehmi jednotlivcov a pamätníkov historických udalosti (napr. SNP).
Potvrdzuje sa, že dejiny spoločenstiev sú stále písané aj ako dejiny vojen. Pre diachrónnu analýzu sme preskúmali výskyty v niektorých časovo vymedzených korpusoch. V korpuse pokrývajúcom roky 1995 až 1989 je výskyt výrazu vojna výrazne vyšší. V skoršom období rokov 1843 až 1954 je však porovnateľný so súčasným bežným jazykom. Vďakaj anotácii Slovenského národného korpusu sme schopní analyzovať časovú závislosť frekvencie výskytu lexémy v rokoch 1955–2024. Očakávaný predpoklad poklesu týchto výskytov v závislosti od času sa potvrdil len čiastočne, najmä v odborných textoch, v dôsledku nárastu popularity iných vedných odborov. V beletrii a publicistických textoch sa v poslednom desaťročí frekvencia lexémy vojna značne zvýšila. V porovnaní s historickými textami z druhej polovice 19. storočia a prvej polovice 20. storočia sa moderné korpusy ani všeobecný hovorený korpus výrazne nelíšia.
Do analýzy sme zaradili aj vektorové reprezentácie slov a ich vizualizáciu na skúmanie sémantických vzťahov slov. V slovenskom modeli má k výrazu vojna najbližšie spojenie vojnový konflikt a považujeme ho za kontextovú dominantu sémantického poľa pojmu vojna. Reflektujeme aj vektorový prenos z mužského rodu (vojak) do ženského rodu (vojačka). Napriek zjavnej veľmi veľkej rodovej nerovnosti v modernej armáde model nevykazuje rodovo zaujaté výsledky (nižšiu prestíž ženských variantov slov), ako to často vidíme v anglickojazyčných modeloch (v slovenských tento jav nebol potvrdený). Na záver ukazujeme možnosť použitia veľkého jazykového modelu na generovanie lexikografických definícií ako príklad možného budúceho smerovania lexikografie.
In this paper, we analyze the occurrences of the lexeme vojna (war) in major Slovak language corpora. Military topics is something that for the last 30 years did not enter Slovak linguistic landscape, a war being something remote either geographically or historically, thus not directly influencing daily life. We focus on both synchronic and diachronic analysis, looking at different number of occurrences of a web corpus and three major subcorpora of the Slovak National Corpus, viz. newspaper texts, fiction and professional texts, as well as the spoken corpus of Slovak. The occurrence of this and related military lexemes is relatively low in the web corpus, which might better reflect ordinary language. The occurrence is slightly higher in newspapers and fiction, while in the corpus of professional texts the lexeme appears significantly more than in others, largely due to scientific publications concerning history. The general spoken corpus also shows a similar occurrence to the web corpus, but in the recordings of the Nation’s Memory Institute vojna has a significantly higher occurrence. For diachronic analysis, we looked into some date delimited corpora. In the corpus of texts covering the years from 1995 to 1989, the occurrence is also significantly higher. However, in the earlier period from 1843 to 1954, it is comparable to contemporary ordinary language. Thanks to the detailed annotation of the Slovak National Corpus, we are able to analyze time dependency of the frequency of occurrences of the lexeme for the three main subcorpora for the years 1955–2024. Although we expected a decline in these occurrences over time, the assumption was only partially proven, primarily in professional texts (possibly due to the growth of scientific fields other than history). In fiction and news texts, the frequency of the lexeme has significantly increased in the last decade. Compared to historical texts from the second half of the 19th and the first half of the 20th century, neither modern text corpora nor the spoken corpus differ significantly. We also use word embeddings and their visualization to explore semantic grouping of words similar to vojna, and the results of an expected vector transfer from masculine vojak to feminine. Despite obvious and striking gender inequality in the modern military, the model does not show gender-biased results, as often exhibited by English language word embeddings models, but not the Slovak ones. Finally, we use a large language model with a few shot method to generate lexicographic definitions of the headword vojna, as an example of a possible path future lexicography can take.
Benko Vladimír 2014 O korpusovej lingvistike aj o Slovenskom národnom korpuse. Slovenská reč 79, 3–4, 155–180.
Benko Vladimír 2024 The Aranea Corpora Family: Ten+ Years of Processing Web-Crawled Data. In: Nöth Elmar – Horák Aleš – Sojka Petr (eds.): TSD 2024. Berlin, Springer, 51–35. In print.
Čermák František 2015 Jazyk totalitní a dnešní: jak odráží realitu a ovlivňuje lidské vědomí. Sociolinguistica Slovaca. In: Wachtarczyková Jana – Satinská Lucia – Ondrejovič Slavomír (eds.): Jazyk v politických, ideologických a interkultúrnych vzťahoch. Bratislava, Veda, 50–60.
Čermák František – Cvrček Václav – Schmiedtová Věra 2010 Slovník komunistické totality. Praha, Nakladatelství Lidové noviny.
Garabík Radovan 2004 Štruktúra dát v Slovenskom národnom korpuse a ich vonkajšia anotácia. In: Imrichová Mária (ed.): Slovenčina na začiatku 21. storočia. Prešov, Prešovská univerzita – Fakulta humanitných a prírodných vied, 164–173.
Garabík Radovan 2024 Korpusové projekty a nástroje spracovania prirodzeného jazyka v Jazykovednom ústave Ľ. Štúra Slovenskej akadémie vied, v. v. i. Jazykovědné aktuality. Časopis Jazykovědného sdružení České republiky 61, 1, 25–36.
Garabík Radovan a kol. 2018 Retrográdny slovník súčasnej slovenčiny – slovné tvary na báze Slovenského národného korpusu. VEDA, vydavateľstvo Slovenskej akadémie vied, Bratislava.
Garabík Radovan–Mitana Denis 2023 Analysing Accuracy of Slovak Language Lemmatization and MSD Tagging. Slovenská reč 88, 2, 129–140.
Garabík Radovan–Wachtarczyková Jana 2022 Gender asymmetry of Visegrád group languages as reflected by word embeddings. Jazykovedný časopis 73, 3, 354–379.
Kováč Dušan 2021 Virtuálny faun. Bratislava, Petrus.
Králik Ľubor 2015 Stručný etymologický slovník slovenčiny. Bratislava, Veda.
Mikolov Tomáš–Chen Kai–Corrado Greg–Dean Jeffrey 2013 Efficient Estimation of Word Representations in Vector Space. Proceedings of Workshop at ICLR, Scottsdale, Arizona, USA, May 2–4, 2013.
Mňačko Ladislav 1963 Oneskorené reportáže. Bratislava, Vydavateľstvo politickej literatúry.
Papuček Gregor 1981 Romboid 16, 8, 57–59.
Řehůřek Radim–Sojka Petr 2010 Software framework for topic modelling with large corpora. Proceedings of the LREC 2010 Workshop on New Challenges for NLP Frameworks, 46–50.
Savický Petr–Hlaváčová Jaroslava 2002 Measures of word commonness. Journal of Quantitative Linguistics 9, 215–231.
Schmiedtová Věra 2015 Malý slovník reálií komunistické Totality (Československo 1948–1989). Sociolinguistica Slovaca. In: Wachtarczyková Jana – Satinská Lucia – Ondrejovič Slavomír (eds.): Jazyk v politických, ideologických a interkultúrnych vzťahoch. Bratislava, Veda, 61–70.
Šimková Mária 2013 Slovenský národný korpus a korpusová lingvistika na Slovensku po roku 2002. Slovenská reč 78, 6, 354–367.
Tatarka Dominik 1968 Proti démonom. Výber statí o literatúre a výtvarníctve. Bratislava, Slovenský spisovateľ.
Tenenbaum Joshua B.–De Silva Vin–Langford John C. 2000 A global geometric framework for nonlinear dimensionality reduction. Science 290, 2319–2323.
Wachtarczyková Jana–Jarošová Alexandra 2022 Sledujme skôr zmysel celej výpovede než význam slov. Slovenská reč 87, 2, 126–145.
Wei Jason et al. 2022 Emergent Abilities of Large Language Models. Transactions on Machine Learning Research 08. [on-line] https://openreview.net/pdf?id=yzkSU5zdwD [8-10-2024].
ARANEA: Araneum Slovacum VII Maximum. [on-line] http://aranea.juls.savba.sk [10-10-2024].
Cvrček Václav – Jeziorský Tomáš – Henyš Jan 2022 ONLINE2_NOW: monitorovací korpus internetové češtiny. Ústav Českého národního korpusu FF UK, Praha. [on-line] http://www.korpus.cz [17-10-2024].
DEVELOPER: [on-line] https://korpus.sk/korpusy-a-databazy/nastroje-snk/developer [7-10-2024]. OpenAI: [on-line] https://platform.openai.com/docs/models [10-10-2024].
SEMÄ: [on-line] https://www.juls.savba.sk/semä.html [7-10-2024].
SNK AN: [on-line] https://korpus.sk/bibliograficka-a-stylovo-zanrova-anotacia [8-10-2024].