Ruský národní korpus | |
---|---|
URL | ruscorpora.ru |
Komerční | Ne |
Typ webu | vzdělávací/vědecký projekt |
Registrace | ano : vyžadováno pro přístup k textům; licenční smlouva |
jazyky) | ruština / angličtina |
Umístění serveru | Rusko |
Majitel | Ústav ruského jazyka pojmenovaný po V. V. Vinogradov RAS |
Začátek práce | 2003 |
Aktuální stav | funguje a rozvíjí se |
Národní korpus ruského jazyka (NCRL) je elektronický online korpus ruských textů s možností vyhledávání. Otevřeno 29. dubna 2004 . K vyhledávání je také dostupný historický korpus církevněslovanských, staroruských (XI-XIV. století) a středoruských (XV-začátek XVIII. století) textů.
Práce na vytvoření korpusu zahájila v roce 2001 skupina filologů z Moskvy , Petrohradu , Voroněže a dalších měst.
Na programu vytvoření Národního korpusu ruského jazyka se podílejí tyto organizace [1] :
Korpus zahrnuje jak psané texty (beletrie, memoáry, publicistika, vědecká, náboženská literatura, každodenní tiskoviny), tak záznamy ústních textů (veřejné projevy a soukromé rozhovory).
Součástí korpusu jsou i subkorpusy básnických a dialektických textů, korpusy paralelních textů (korpusy paralelní s ruštinou jsou k dispozici pro tyto jazyky: angličtina, arménština, běloruština, bulharština, burjatština, španělština, italština, čínština, lotyština, němčina, polština , ukrajinský, francouzský , švédský, estonský a vícejazyčný), samostatný korpus novin (mediální materiály z počátku 21. století), církevněslovanský korpus (liturgické texty, novověk (XIX-XX století) a starší období), historický (mj. stará ruština, staroruština, písmena březové kůry), syntaktické, akcentologické, multimediální a výukové subkorpusy.
Od roku 2010 je v rámci historického subkorpusu Národního korpusu ruského jazyka k dispozici textový korpus z písmen březové kůry s plným morfologickým značením. Texty písmen březové kůry jako součást korpusu jsou interaktivně propojeny s jejich prezentací na webu gramoty.ru [3] .
Objem hlavního korpusu k červnu 2022 byl 375 milionů slovních použití a celkový objem korpusů přesahuje 1,5 miliardy slovních použití [4] .
Texty jsou opatřeny metaznačkou (podle data vytvoření, autora, žánru atd.); slovní tvary v textech jsou vybaveny automatickým morfologickým a sémantickým značením; paralelní texty jsou zarovnány; texty básnického korpusu jsou rovněž opatřeny speciálními metrickými značkami.
1,5 % textů je opatřeno morfologickým [5] a sémantickým [6] značením s ručně odstraněnou homonymií („disambiguovaný subkorpus“).
Rám | Počet textů | Počet nabídek | Počet použití slov | % použití slov |
---|---|---|---|---|
Dezambiguirovannaya část těla | 2 tisíce | 500 tisíc | 6 milionů | 1,6 % |
Hlavní budova | 84 tisíc | 19,1 milionu | 209 milionů | 57,3 % |
Celé tělo | 342 tisíc | 32 milionů | 364 milionů | 100 % |
V současné době je bezplatné a bezplatné pouze vyhledávání v korpusu . Web korpusu a jeho vyhledávání spravuje společnost Yandex , jejíž zaměstnanci se také podíleli na vývoji korpusového softwaru. Přístup k celému korpusu (kopírování a přenos jeho databáze) je licenčním ujednáním zakázán. Pro získání přístupu k 1/6 označené části subkorpusu se musíte zaregistrovat a přijmout licenční ujednání [7] . Problém s omezením přístupu má řešit projekt Open Corpus, který rovněž vytváří korpus ruského jazyka, ale pod svobodnou licencí [8] .
Korpusová lingvistika | |
---|---|
Anglické korpusy |
|
ruskojazyčné korpusy |
|
Korpusy v jiných jazycích |
|
Organizace |