Ruský národní korpus

Ruský národní korpus
URL ruscorpora.ru
Komerční Ne
Typ webu vzdělávací/vědecký projekt
Registrace ano : vyžadováno pro přístup k textům; licenční smlouva
jazyky) ruština / angličtina
Umístění serveru Rusko
Majitel Ústav ruského jazyka pojmenovaný po V. V. Vinogradov RAS
Začátek práce 2003
Aktuální stav funguje a rozvíjí se

Národní korpus ruského jazyka (NCRL)  je elektronický online korpus ruských textů s možností vyhledávání. Otevřeno 29. dubna 2004 . K vyhledávání je také dostupný historický korpus církevněslovanských, staroruských (XI-XIV. století) a středoruských (XV-začátek XVIII. století) textů.

Kompilátory

Práce na vytvoření korpusu zahájila v roce 2001 skupina filologů z Moskvy , Petrohradu , Voroněže a dalších měst.

Na programu vytvoření Národního korpusu ruského jazyka se podílejí tyto organizace [1] :

Složení sboru

Korpus zahrnuje jak psané texty (beletrie, memoáry, publicistika, vědecká, náboženská literatura, každodenní tiskoviny), tak záznamy ústních textů (veřejné projevy a soukromé rozhovory).

Součástí korpusu jsou i subkorpusy básnických a dialektických textů, korpusy paralelních textů (korpusy paralelní s ruštinou jsou k dispozici pro tyto jazyky: angličtina, arménština, běloruština, bulharština, burjatština, španělština, italština, čínština, lotyština, němčina, polština , ukrajinský, francouzský , švédský, estonský a vícejazyčný), samostatný korpus novin (mediální materiály z počátku 21. století), církevněslovanský korpus (liturgické texty, novověk (XIX-XX století) a starší období), historický (mj. stará ruština, staroruština, písmena březové kůry), syntaktické, akcentologické, multimediální a výukové subkorpusy.

Od roku 2010 je v rámci historického subkorpusu Národního korpusu ruského jazyka k dispozici textový korpus z písmen březové kůry s plným morfologickým značením. Texty písmen březové kůry jako součást korpusu jsou interaktivně propojeny s jejich prezentací na webu gramoty.ru [3] .

Objem trupu

Objem hlavního korpusu k červnu 2022 byl 375 milionů slovních použití a celkový objem korpusů přesahuje 1,5 miliardy slovních použití [4] .

Texty jsou opatřeny metaznačkou (podle data vytvoření, autora, žánru atd.); slovní tvary v textech jsou vybaveny automatickým morfologickým a sémantickým značením; paralelní texty jsou zarovnány; texty básnického korpusu jsou rovněž opatřeny speciálními metrickými značkami.

1,5 % textů je opatřeno morfologickým [5] a sémantickým [6] značením s ručně odstraněnou homonymií („disambiguovaný subkorpus“).

Rám Počet textů Počet nabídek Počet použití slov % použití slov
Dezambiguirovannaya část těla 2 tisíce 500 tisíc 6 milionů 1,6 %
Hlavní budova 84 tisíc 19,1 milionu 209 milionů 57,3 %
Celé tělo 342 tisíc 32 milionů 364 milionů 100 %

Přístup

V současné době je bezplatné a bezplatné pouze vyhledávání v korpusu . Web korpusu a jeho vyhledávání spravuje společnost Yandex , jejíž zaměstnanci se také podíleli na vývoji korpusového softwaru. Přístup k celému korpusu (kopírování a přenos jeho databáze) je licenčním ujednáním zakázán. Pro získání přístupu k 1/6 označené části subkorpusu se musíte zaregistrovat a přijmout licenční ujednání [7] . Problém s omezením přístupu má řešit projekt Open Corpus, který rovněž vytváří korpus ruského jazyka, ale pod svobodnou licencí [8] .

Viz také

Poznámky

  1. Účastníci projektu . Národní korpus ruského jazyka . Získáno 7. března 2018. Archivováno z originálu dne 8. března 2018.
  2. O projektu. Paralelní korpusy psaných textů . Národní korpus ruského jazyka . Získáno 7. března 2018. Archivováno z originálu dne 8. března 2018.
  3. Zaliznyak A. A., Yanin V. L., Gippius A. A. Novgorodská písmena na březové kůře (z vykopávek v letech 2001-2014) Archivní kopie ze dne 27. března 2019 na Wayback Machine . Svazek XII. - M .: Jazyky slovanské kultury, 2015. - 288 s.
  4. Národní korpus ruského jazyka . ruscorpora.ru. Získáno 7. března 2018. Archivováno z originálu dne 7. října 2011.
  5. Morfologie . Národní korpus ruského jazyka . Získáno 7. března 2018. Archivováno z originálu 19. února 2018.
  6. Sémantika . Národní korpus ruského jazyka . Získáno 7. března 2018. Archivováno z originálu 19. února 2018.
  7. Použití těla. Licenční smlouva . Národní korpus ruského jazyka . Získáno 7. března 2018. Archivováno z originálu dne 8. března 2018.
  8. OpenCorpora: otevřený korpus ruského jazyka . opencorpora.org . Získáno 26. ledna 2022. Archivováno z originálu dne 26. ledna 2022.

Literatura

Odkazy