Ruský národní korpus

Ruský národní korpus
URL	ruscorpora.ru
Komerční	Ne
Typ webu	vzdělávací/vědecký projekt
Registrace	ano : vyžadováno pro přístup k textům; licenční smlouva
jazyky)	ruština / angličtina
Umístění serveru	Rusko
Majitel	Ústav ruského jazyka pojmenovaný po V. V. Vinogradov RAS
Začátek práce	2003
Aktuální stav	funguje a rozvíjí se

Národní korpus ruského jazyka (NCRL) je elektronický online korpus ruských textů s možností vyhledávání. Otevřeno 29. dubna 2004 . K vyhledávání je také dostupný historický korpus církevněslovanských, staroruských (XI-XIV. století) a středoruských (XV-začátek XVIII. století) textů.

Kompilátory

Práce na vytvoření korpusu zahájila v roce 2001 skupina filologů z Moskvy , Petrohradu , Voroněže a dalších měst.

Na programu vytvoření Národního korpusu ruského jazyka se podílejí tyto organizace [1] :

Ústav ruského jazyka pojmenovaný po V. V. Vinogradov RAS (IRL RAS).
Jazykovědný ústav RAS (ÚLS RAS).
Ústav pro problémy s přenosem informací pojmenovaný po A. A. Charkevich RAS (IITP RAS).
Ústav lingvistických studií Ruské akademie věd (IL RAS) v Petrohradě (společně se St. Petersburg State University (SPbSU)).
Voroněžská státní univerzita [2] .

Složení sboru

Korpus zahrnuje jak psané texty (beletrie, memoáry, publicistika, vědecká, náboženská literatura, každodenní tiskoviny), tak záznamy ústních textů (veřejné projevy a soukromé rozhovory).

Součástí korpusu jsou i subkorpusy básnických a dialektických textů, korpusy paralelních textů (korpusy paralelní s ruštinou jsou k dispozici pro tyto jazyky: angličtina, arménština, běloruština, bulharština, burjatština, španělština, italština, čínština, lotyština, němčina, polština , ukrajinský, francouzský , švédský, estonský a vícejazyčný), samostatný korpus novin (mediální materiály z počátku 21. století), církevněslovanský korpus (liturgické texty, novověk (XIX-XX století) a starší období), historický (mj. stará ruština, staroruština, písmena březové kůry), syntaktické, akcentologické, multimediální a výukové subkorpusy.

Od roku 2010 je v rámci historického subkorpusu Národního korpusu ruského jazyka k dispozici textový korpus z písmen březové kůry s plným morfologickým značením. Texty písmen březové kůry jako součást korpusu jsou interaktivně propojeny s jejich prezentací na webu gramoty.ru [3] .

Objem trupu

Objem hlavního korpusu k červnu 2022 byl 375 milionů slovních použití a celkový objem korpusů přesahuje 1,5 miliardy slovních použití [4] .

Texty jsou opatřeny metaznačkou (podle data vytvoření, autora, žánru atd.); slovní tvary v textech jsou vybaveny automatickým morfologickým a sémantickým značením; paralelní texty jsou zarovnány; texty básnického korpusu jsou rovněž opatřeny speciálními metrickými značkami.

1,5 % textů je opatřeno morfologickým [5] a sémantickým [6] značením s ručně odstraněnou homonymií („disambiguovaný subkorpus“).

Rám	Počet textů	Počet nabídek	Počet použití slov	% použití slov
Dezambiguirovannaya část těla	2 tisíce	500 tisíc	6 milionů	1,6 %
Hlavní budova	84 tisíc	19,1 milionu	209 milionů	57,3 %
Celé tělo	342 tisíc	32 milionů	364 milionů	100 %

Přístup

V současné době je bezplatné a bezplatné pouze vyhledávání v korpusu . Web korpusu a jeho vyhledávání spravuje společnost Yandex , jejíž zaměstnanci se také podíleli na vývoji korpusového softwaru. Přístup k celému korpusu (kopírování a přenos jeho databáze) je licenčním ujednáním zakázán. Pro získání přístupu k 1/6 označené části subkorpusu se musíte zaregistrovat a přijmout licenční ujednání [7] . Problém s omezením přístupu má řešit projekt Open Corpus, který rovněž vytváří korpus ruského jazyka, ale pod svobodnou licencí [8] .

Viz také

Poznámky

↑ Účastníci projektu . Národní korpus ruského jazyka . Získáno 7. března 2018. Archivováno z originálu dne 8. března 2018. (neurčitý)
↑ O projektu. Paralelní korpusy psaných textů . Národní korpus ruského jazyka . Získáno 7. března 2018. Archivováno z originálu dne 8. března 2018. (neurčitý)
↑ Zaliznyak A. A., Yanin V. L., Gippius A. A. Novgorodská písmena na březové kůře (z vykopávek v letech 2001-2014) Archivní kopie ze dne 27. března 2019 na Wayback Machine . Svazek XII. - M .: Jazyky slovanské kultury, 2015. - 288 s.
↑ Národní korpus ruského jazyka . ruscorpora.ru. Získáno 7. března 2018. Archivováno z originálu dne 7. října 2011. (neurčitý)
↑ Morfologie . Národní korpus ruského jazyka . Získáno 7. března 2018. Archivováno z originálu 19. února 2018. (neurčitý)
↑ Sémantika . Národní korpus ruského jazyka . Získáno 7. března 2018. Archivováno z originálu 19. února 2018. (neurčitý)
↑ Použití těla. Licenční smlouva . Národní korpus ruského jazyka . Získáno 7. března 2018. Archivováno z originálu dne 8. března 2018. (neurčitý)
↑ OpenCorpora: otevřený korpus ruského jazyka . opencorpora.org . Získáno 26. ledna 2022. Archivováno z originálu dne 26. ledna 2022. (neurčitý)

Literatura

Národní korpus ruského jazyka: 2003-2005. Sborník článků / Otv. vyd. V. A. Plungyan . — M .: Indrik , 2005. — 502 s. — ISBN ISBN 5-85759-358-1 .
Národní korpus ruského jazyka: 2006-2008. Nové výsledky a vyhlídky / Ed. vyd. V. A. Plungyan . - Petrohrad. : Nestor-History, 2009. - 502 s. — ISBN ISBN 978-5-98187-327-0 .
Plungyan V. A. Proč vytváříme Národní korpus ruského jazyka? // Domácí bankovky . - 2005. - č. 2 (23) .

Odkazy

Oficiální stránka

Korpusová lingvistika
Anglické korpusy	Národní korpus americké angličtiny Bank of English Bergen Corpus of London Teenage Language britský národní sbor Hnědý korpus Korpus Buckeye Cambridge English Corpus Korpus moderní americké angličtiny Korpus Enron Mezinárodní korpus angličtiny Korpus Lancaster-Oslo-Bergen Oxfordský anglický korpus Prop Bank Mluvený anglický korpus ČAS VerbNet Wellingtonův korpus mluvené novozélandské angličtiny
ruskojazyčné korpusy	Obecný internetový korpus ruského jazyka Ruský národní korpus Otevřený korpus ruského jazyka SinTagRus Tübingenský korpus ruského jazyka Uppsalský korpus ruských textů Helsinský anotovaný korpus ruského jazyka
Korpusy v jiných jazycích	Korpus Bijankhan DĚTI Korpus chorvatštiny Chorvatský národní korpus Europarl Corpus Mannheimský korpus německy Sbor Hamshahri Polský národní korpus Projekt novoasyrského textového korpusu Koranický korpus Skotský národní korpus Slovinský národní korpus mluvit banka Tatoeba Teheránský jednojazyčný korpus Tekstaro de Esperanto Thesaurus Linguae Graecae
Organizace	Konsorcium BNC COBUILD