Authors:
Radovan Garabík Jazykovedný ústav Ľudovíta Štúra Slovenskej akadémie vied, v. v. i., Panská 26, 811 01 Bratislava, Slovensko

Search for other papers by Radovan Garabík in
Current site
Google Scholar
PubMed
Close
and
Jana Wachtarczyková Jazykovedný ústav Ľudovíta Štúra Slovenskej akadémie vied, v. v. i., Panská 26, 811 01 Bratislava, Slovensko

Search for other papers by Jana Wachtarczyková in
Current site
Google Scholar
PubMed
Close
Restricted access

V príspevku analyzujeme výskyt lexémy vojna v hlavných slovenských jazykových korpusoch. Zaujíma nás, ako a čím môžu korpusy prispieť k poznaniu jazykovej situácie v konkrétnom lingvokultúrnom priestore, aké informácie prinášajú a ako načrtávajú jazykový obraz sveta. Téma vojny za posledných 30 rokov nevystupovala v slovenskom prostredí do popredia, keďže populácia ju prevažne vnímala ako jav temporálne alebo geograficky vzdialený, teda niečo, čo priamo neovplyvňuje každodenný život.

Zameriame sa na synchrónnu a diachrónnu analýzu v troch hlavných podkorpusoch Slovenského národného korpusu, publicistike, beletrii a odborných textoch, ako aj hovorenom korpuse slovenčiny. Ukazuje sa, že výskyt výrazu vojna a príbuzných lexém (napr. vojak, vojenský, vojnový) je vo webovom korpuse relatívne nízky a predpokladáme, že odráža bežnú jazykovú prax v slovenskom diskurze. Mierne vyšší výskyt je v publicistike a beletrii, pričom v korpuse odborných textov sa tento výraz objavuje ešte častejšie, čo je spôsobené prítomnosťou vedeckých a odborných publikácií z oblasti histórie. Všeobecný hovorený korpus má tiež podobný výskyt ako webový, ale v nahrávkach Ústavu pamäti národa má vojna výrazne vyšší výskyt. Ide o prirodzený odraz orálnej histórie a tzv. malých dejín, ktoré sú písané príbehmi jednotlivcov a pamätníkov historických udalosti (napr. SNP).

Potvrdzuje sa, že dejiny spoločenstiev sú stále písané aj ako dejiny vojen. Pre diachrónnu analýzu sme preskúmali výskyty v niektorých časovo vymedzených korpusoch. V korpuse pokrývajúcom roky 1995 až 1989 je výskyt výrazu vojna výrazne vyšší. V skoršom období rokov 1843 až 1954 je však porovnateľný so súčasným bežným jazykom. Vďakaj anotácii Slovenského národného korpusu sme schopní analyzovať časovú závislosť frekvencie výskytu lexémy v rokoch 1955–2024. Očakávaný predpoklad poklesu týchto výskytov v závislosti od času sa potvrdil len čiastočne, najmä v odborných textoch, v dôsledku nárastu popularity iných vedných odborov. V beletrii a publicistických textoch sa v poslednom desaťročí frekvencia lexémy vojna značne zvýšila. V porovnaní s historickými textami z druhej polovice 19. storočia a prvej polovice 20. storočia sa moderné korpusy ani všeobecný hovorený korpus výrazne nelíšia.

Do analýzy sme zaradili aj vektorové reprezentácie slov a ich vizualizáciu na skúmanie sémantických vzťahov slov. V slovenskom modeli má k výrazu vojna najbližšie spojenie vojnový konflikt a považujeme ho za kontextovú dominantu sémantického poľa pojmu vojna. Reflektujeme aj vektorový prenos z mužského rodu (vojak) do ženského rodu (vojačka). Napriek zjavnej veľmi veľkej rodovej nerovnosti v modernej armáde model nevykazuje rodovo zaujaté výsledky (nižšiu prestíž ženských variantov slov), ako to často vidíme v anglickojazyčných modeloch (v slovenských tento jav nebol potvrdený). Na záver ukazujeme možnosť použitia veľkého jazykového modelu na generovanie lexikografických definícií ako príklad možného budúceho smerovania lexikografie.

In this paper, we analyze the occurrences of the lexeme vojna (war) in major Slovak language corpora. Military topics is something that for the last 30 years did not enter Slovak linguistic landscape, a war being something remote either geographically or historically, thus not directly influencing daily life. We focus on both synchronic and diachronic analysis, looking at different number of occurrences of a web corpus and three major subcorpora of the Slovak National Corpus, viz. newspaper texts, fiction and professional texts, as well as the spoken corpus of Slovak. The occurrence of this and related military lexemes is relatively low in the web corpus, which might better reflect ordinary language. The occurrence is slightly higher in newspapers and fiction, while in the corpus of professional texts the lexeme appears significantly more than in others, largely due to scientific publications concerning history. The general spoken corpus also shows a similar occurrence to the web corpus, but in the recordings of the Nation’s Memory Institute vojna has a significantly higher occurrence. For diachronic analysis, we looked into some date delimited corpora. In the corpus of texts covering the years from 1995 to 1989, the occurrence is also significantly higher. However, in the earlier period from 1843 to 1954, it is comparable to contemporary ordinary language. Thanks to the detailed annotation of the Slovak National Corpus, we are able to analyze time dependency of the frequency of occurrences of the lexeme for the three main subcorpora for the years 1955–2024. Although we expected a decline in these occurrences over time, the assumption was only partially proven, primarily in professional texts (possibly due to the growth of scientific fields other than history). In fiction and news texts, the frequency of the lexeme has significantly increased in the last decade. Compared to historical texts from the second half of the 19th and the first half of the 20th century, neither modern text corpora nor the spoken corpus differ significantly. We also use word embeddings and their visualization to explore semantic grouping of words similar to vojna, and the results of an expected vector transfer from masculine vojak to feminine. Despite obvious and striking gender inequality in the modern military, the model does not show gender-biased results, as often exhibited by English language word embeddings models, but not the Slovak ones. Finally, we use a large language model with a few shot method to generate lexicographic definitions of the headword vojna, as an example of a possible path future lexicography can take.

  • Benko Vladimír 2014 O korpusovej lingvistike aj o Slovenskom národnom korpuse. Slovenská reč 79, 3–4, 155180.

  • Benko Vladimír 2024 The Aranea Corpora Family: Ten+ Years of Processing Web-Crawled Data. In: Nöth ElmarHorák AlešSojka Petr (eds.): TSD 2024. Berlin, Springer, 5135. In print.

    • Search Google Scholar
    • Export Citation
  • Čermák František 2015 Jazyk totalitní a dnešní: jak odráží realitu a ovlivňuje lidské vědomí. Sociolinguistica Slovaca. In: Wachtarczyková JanaSatinská LuciaOndrejovič Slavomír (eds.): Jazyk v politických, ideologických a interkultúrnych vzťahoch. Bratislava, Veda, 5060.

    • Search Google Scholar
    • Export Citation
  • Čermák FrantišekCvrček VáclavSchmiedtová Věra 2010 Slovník komunistické totality. Praha, Nakladatelství Lidové noviny.

    • Search Google Scholar
    • Export Citation
  • Garabík Radovan 2004 Štruktúra dát v Slovenskom národnom korpuse a ich vonkajšia anotácia. In: Imrichová Mária (ed.): Slovenčina na začiatku 21. storočia. Prešov, Prešovská univerzita – Fakulta humanitných a prírodných vied, 164173.

    • Search Google Scholar
    • Export Citation
  • Garabík Radovan 2024 Korpusové projekty a nástroje spracovania prirodzeného jazyka v Jazykovednom ústave Ľ. Štúra Slovenskej akadémie vied, v. v. i. Jazykovědné aktuality. Časopis Jazykovědného sdružení České republiky 61, 1, 2536.

    • Search Google Scholar
    • Export Citation
  • Garabík Radovan a kol. 2018 Retrográdny slovník súčasnej slovenčiny – slovné tvary na báze Slovenského národného korpusu. VEDA, vydavateľstvo Slovenskej akadémie vied, Bratislava.

    • Search Google Scholar
    • Export Citation
  • Garabík RadovanMitana Denis 2023 Analysing Accuracy of Slovak Language Lemmatization and MSD Tagging. Slovenská reč 88, 2, 129140.

    • Search Google Scholar
    • Export Citation
  • Garabík RadovanWachtarczyková Jana 2022 Gender asymmetry of Visegrád group languages as reflected by word embeddings. Jazykovedný časopis 73, 3, 354379.

    • Search Google Scholar
    • Export Citation
  • Kováč Dušan 2021 Virtuálny faun. Bratislava, Petrus.

  • Králik Ľubor 2015 Stručný etymologický slovník slovenčiny. Bratislava, Veda.

  • Mikolov TomášChen KaiCorrado GregDean Jeffrey 2013 Efficient Estimation of Word Representations in Vector Space. Proceedings of Workshop at ICLR, Scottsdale, Arizona, USA, May 2–4, 2013.

    • Search Google Scholar
    • Export Citation
  • Mňačko Ladislav 1963 Oneskorené reportáže. Bratislava, Vydavateľstvo politickej literatúry.

  • Papuček Gregor 1981 Romboid 16, 8, 5759.

  • Řehůřek RadimSojka Petr 2010 Software framework for topic modelling with large corpora. Proceedings of the LREC 2010 Workshop on New Challenges for NLP Frameworks, 4650.

    • Search Google Scholar
    • Export Citation
  • Savický PetrHlaváčová Jaroslava 2002 Measures of word commonness. Journal of Quantitative Linguistics 9, 215231.

  • Schmiedtová Věra 2015 Malý slovník reálií komunistické Totality (Československo 1948–1989). Sociolinguistica Slovaca. In: Wachtarczyková JanaSatinská LuciaOndrejovič Slavomír (eds.): Jazyk v politických, ideologických a interkultúrnych vzťahoch. Bratislava, Veda, 6170.

    • Search Google Scholar
    • Export Citation
  • Šimková Mária 2013 Slovenský národný korpus a korpusová lingvistika na Slovensku po roku 2002. Slovenská reč 78, 6, 354367.

  • Tatarka Dominik 1968 Proti démonom. Výber statí o literatúre a výtvarníctve. Bratislava, Slovenský spisovateľ.

  • Tenenbaum Joshua B.–De Silva VinLangford John C. 2000 A global geometric framework for nonlinear dimensionality reduction. Science 290, 23192323.

    • Search Google Scholar
    • Export Citation
  • Wachtarczyková JanaJarošová Alexandra 2022 Sledujme skôr zmysel celej výpovede než význam slov. Slovenská reč 87, 2, 126145.

    • Search Google Scholar
    • Export Citation
  • Wei Jason et al. 2022 Emergent Abilities of Large Language Models. Transactions on Machine Learning Research 08. [on-line] https://openreview.net/pdf?id=yzkSU5zdwD [8-10-2024].

    • Search Google Scholar
    • Export Citation
  • ARANEA: Araneum Slovacum VII Maximum. [on-line] http://aranea.juls.savba.sk [10-10-2024].

  • Cvrček VáclavJeziorský TomášHenyš Jan 2022 ONLINE2_NOW: monitorovací korpus internetové češtiny. Ústav Českého národního korpusu FF UK, Praha. [on-line] http://www.korpus.cz [17-10-2024].

    • Search Google Scholar
    • Export Citation
  • DEVELOPER: [on-line] https://korpus.sk/korpusy-a-databazy/nastroje-snk/developer [7-10-2024]. OpenAI: [on-line] https://platform.openai.com/docs/models [10-10-2024].

  • SEMÄ: [on-line] https://www.juls.savba.sk/semä.html [7-10-2024].

  • Collapse
  • Expand

Senior editors

Editor-in-Chief: Róbert KISS SZEMÁN (Eötvös Loránd University of Budapest, HU)

Editorial Board

  • Krisztina MENYHÁRT (Eötvös Loránd University of Budapest, HU)
  • Péter PÁTROVICS (Eötvös Loránd University of Budapest, HU)
  • Siarhiej ZAPRUDSKI (Belarusian State University, Minsk, BLR)

Secretary of the Board

  • Sarolta TÓTHPÁL ((Eötvös Loránd University of Budapest, HU)

Advisory Board

  • Krasimira ALEKSOVA (Sofia University St. Kliment Ohridski, BG)
  • Dalibor DOBIÁŠ (Czech Academy of Sciences, CZ)
  • Joanna GOSZCZIYŃSKA (University of Warsaw, PL)
  • Mária GYÖNGYÖSI (Eötvös Loránd University of Budapest, HU)
  • László JÁSZAY (Eötvös Loránd University of Budapest, HU)
  • Marko JESENŠEK (University of Maribor, SLO)
  • Mihály KOCSIS (University of Szeged, HU)
  • Katalin KROÓ (Eötvös Loránd University of Budapest, HU)
  • Stefan Michael NEWERKLA (University of Vienna, A)
  • Ivana TARANENKOVÁ (Slovak Academy of Sciences, SK)
  • Dalibor TUREČEK (University of South Bohemia in České Budějovice, CZ)
  • Slobodanka Millicent VLADIV-GLOVER (Monash University, Clayton Campus, AUS)
  • Kazimierz WOLNY-ZMORZYŃSKI (University of Silesia in Katowice, PL)
  • András ZOLTÁN (Eötvös Loránd University of Budapest, HU)

 

Sarolta TÓTHPÁL (Secretary of the board)
Institute of Slavonic and Baltic Philology
Eötvös Loránd University
H-1088 Budapest, Hungary
Phone: (+36-1)411-6500 ext. 5253
E-mail: studiasl@btk.elte.hu

Indexing and Abstracting Services:

  • America: History and Life
  • Bibliographie Linguistique/Linguistic Bibliography
  • CABELLS Journalytics
  • Historical Abstracts
  • International Bibliographies IBZ and IBR
  • Linguistics Abstracts
  • MLA International Bibliography
  • SCOPUS

 

 

2023  
Scopus  
CiteScore 0
CiteScore rank Q4 (History)
SNIP 0
Scimago  
SJR index 0.101
SJR Q rank Q4

Studia Slavica Academiae Scientiarum Hungaricae
Publication Model Hybrid
Submission Fee none
Article Processing Charge 900 EUR/article
Printed Color Illustrations 40 EUR (or 10 000 HUF) + VAT / piece
Regional discounts on country of the funding agency World Bank Lower-middle-income economies: 50%
World Bank Low-income economies: 100%
Further Discounts Editorial Board / Advisory Board members: 50%
Corresponding authors, affiliated to an EISZ member institution subscribing to the journal package of Akadémiai Kiadó: 100%
Subscription fee 2025 Online subsscription: 632 EUR / 694 USD
Print + online subscription: 724 EUR / 796 USD
Subscription Information Online subscribers are entitled access to all back issues published by Akadémiai Kiadó for each title for the duration of the subscription, as well as Online First content for the subscribed content.
Purchase per Title Individual articles are sold on the displayed price.

Studia Slavica Academiae Scientiarum Hungaricae
Language Slavic languages
English
French
German
Size B5
Year of
Foundation
1955
Volumes
per Year
1
Issues
per Year
2
Founder Akadémiai Kiadó
Founder's
Address
H-1117 Budapest, Hungary 1516 Budapest, PO Box 245.
Publisher Akadémiai Kiadó
Publisher's
Address
H-1117 Budapest, Hungary 1516 Budapest, PO Box 245.
Responsible
Publisher
Chief Executive Officer, Akadémiai Kiadó
ISSN 0039-3363 (Print)
ISSN 1588-290X (Online)