SinTagRus

SinTagRus
Objem pouzdra	více než 1,1 milionu slov
Jazyk	ruština
Základní typy značek	morfologické , syntaktické , lexikálně- sémantické
Kompilátory	Laboratoř počítačové lingvistiky IPTP RAS
datum vytvoření	1998
Přístup	volný, uvolnit
Licence	proprietární
webová stránka	proling.iitp.ru/ru/proje…

SynTagRus ( eng. SynTagRus , zkratka pro angličtinu. Syntakticky označený ruský textový korpus , “syntakticky anotovaný korpus ruských textů”) je hluboce anotovaný korpus ruských textů , první korpus ruských textů se syntaktickým značením. Vyvíjí ji od roku 1998 Laboratoř výpočetní lingvistiky IPTP RAS ve spolupráci se Sektorem teoretické sémantiky IRL RAS . Korpus tvoří texty různých žánrů; celkový počet použití slov je více než 1 milion .

SynTagRus je založen na ideologii víceúčelového lingvistického procesoru ETAP . Charakteristickým rysem korpusu je přítomnost několika úrovní anotace různé hloubky, včetně kompletního morfologického a syntaktického značení s odstraněnou homonymií . Značkovací jazyk je XML .

SynTagRus je distribuován pod nekomerční licencí . Kromě toho byl korpus převeden do různých formátů; některé z těchto verzí (nebo konvertorů) jsou ve veřejné doméně a omezená verze původního korpusu je součástí ruského národního korpusu .

Historie

Vznik syntaktických značkovacích korpusů na počátku 90. let vedl k rozvoji empirických metod v problémech zpracování přirozeného jazyka . Využití takových korpusů navíc našlo své uplatnění nejen v kontextu samotné syntaktické analýzy, ale také v řadě dalších úloh, včetně řešení lexikální polysémie , sémantické analýzy atd. [1]

Do konce 90. let byly pro většinu hlavních evropských jazyků vytvořeny anotované korpusy , zatímco pro ruský jazyk žádné takové korpusy ve skutečnosti neexistovaly [2] . Navíc ani neoznačené korpusy, které v té době existovaly (například Uppsalský korpus ruských textů ), nebyly veřejně dostupné [3] .

Z těchto důvodů začal od roku 1998 [4] vývoj prvního anotovaného korpusu ruského jazyka SinTagRus [2] [5] , který se později stal standardem mezi korpusy se syntaktickým značením [6] . Vývojáři se zároveň podíleli i na tvorbě Národního korpusu ruského jazyka; konkrétně SynTagRus (s určitými omezeními) je nedílnou, ale zcela autonomní součástí NCRP již od vytvoření NCRP [7] [8] . V NKRY pro SinTagRus (jako subkorpus) se také používá název "hluboce anotovaný korpus" [9] .

Vývoj SinTagRus provádí Laboratoř počítačové lingvistiky IPTP RAS ve spolupráci se Sektorem teoretické sémantiky IRL RAS [10] .

Složení sboru

Zdrojovým materiálem pro SinTagRus byl korpus ruských textů v Uppsale : asi 10 000 vět bylo převzato z textů beletrie. Následně byly do korpusu přidány krátké (do 30 vět) texty převzaté z webových stránek populárních zpravodajských publikací ( yandex.ru , rbc.ru , polit.ru , lenta.ru , strana.ru , news.ru ) [ 2] [11] .

SynTagRus se neustále vyvíjí a od roku 2020 má asi 77 tisíc vět (více než 1,1 milionu slovních použití) [12] převzatých z textů následujících žánrů [13] [8] [14] :

umělecká próza 20. století;
moderní literatura faktu ;
žurnalistika ;
biografie ;
novinové a časopisecké články publikované od roku 1960 do současnosti ;
zpravodajské kanály (texty společensko-politického, kulturního, ekonomického, vědeckého a technického charakteru).

Typy a formát značek

Charakteristickým rysem SynTagRus ve srovnání s jinými anotovanými korpusy ruského jazyka je přítomnost několika úrovní anotace různé hloubky, které lze nezávisle extrahovat z korpusu, a počet těchto úrovní je potenciálně neomezený. Značkovací jazyk korpusu je XML a formát značek je kompatibilní s formalismem TEI s výjimkou některých dodatečně zavedených prvků a atributů [2] . V zásadě se značkování volného textu provádí ve dvou krocích [11] :

Předběžné značkování textu v automatickém režimu pomocí lingvistického procesoru ETAP, což je praktická implementace modelu Meaning-Text .
Kontrola a případně oprava označení odborným lingvistou .

Následuje seznam typů značek dostupných v korpusu.

Rozdělení textu na věty a lexikální jednotky

Každý text v SinTagRus je rozdělen do vět. Každá věta je prvek s názvem S a každý takový prvek má atribut ID , jehož hodnota je pořadové číslo věty v textu. Podobně je každá věta rozdělena na lexikální prvky pojmenované W a každý takový prvek má atribut ID , jehož hodnotou je pořadové číslo slova v této větě [11] . Interpunkční znaménka jsou formátována jako text tagu věty (zachování jejich relativní pozice ve zdrojovém textu) a nejsou vyjádřena vlastními tagy [15] .

Morfologické značení

Morfologická struktura slovního tvaru je název lexému nebo lemmatu , kterému je připisován slovní druh a morfologické charakteristiky , tedy významy odpovídajících morfologických kategorií . Pro odpovídající slovní tvar je lemma hodnotou atributu LEMMA a slovní druh a morfologické charakteristiky dohromady jsou hodnotou atributu FEAT [8] [16] .

Popis morfologického značení [17] Použité slovní druhy

Část mluvy	Snížení	Příklady
Podstatné jméno	S	továrna , I
Přídavné jméno	A	nový můj _
Sloveso	PROTI	šaty
Příslovce	ADV	špatný , tak nějak
číslice	NUM	pět , 2
Záminka	PR	pod
Kompozitní	COM	vzduch , hydro
unie	CONJ	a
Částice	ČÁST	po všem
Citoslovce	INTJ	tak a tak
Slovo je cizojazyčná inkluze	NID	Whatsapp , Berliner Zeitung

Použité morfologické charakteristiky

Morfologická charakteristika	Snížení	Poznámka
Animace
animovaný	OD
neživý	NEOD
Rod
mužský	MANŽEL
ženský	ŽENA
Průměrný	STŘEDA
Číslo
Jediná věc	ED
množný	MN
případ
Jmenovaný	JIM
Genitiv	ROD
Partitivní	ČÁST	Uvádí se pouze u podstatných jmen, u kterých je tento tvar graficky odlišný od tvaru genitivu
Dativ	DAT
Akuzativ	VIN
Instrumentální	TVOR
Předložkový	ATD
Místní	MÍSTNÍ	Uvádí se pouze u podstatných jmen, u kterých je tento tvar graficky odlišný od tvaru předložkového
Vokativ	SW	Uvádí se pouze u podstatných jmen, u kterých se tento tvar graficky liší od tvaru nominativního pádu
Stupeň srovnání
Srovnávací	SRAV
vynikající	PŘEDCHOZÍ
Stručnost
Stručný	KR
zastoupení
Infinitiv	INF
Participium	PRICH
gerundium	HLUBOKÝ
Nálada
orientační	SELHÁNÍ
rozkazovací způsob	POV
Pohled
Nedokonalý	NESOV
Perfektní	SOVA
Čas
Neminulý	NEPROSH
Minulý	PROSH
Přítomnost	NAST	Připisuje se pouze slovesu být v osobním tvaru
Tvář
První	1-L	Připisováno pouze slovesům
Druhý	2-L
Třetí	3-L
Slib
Pasivní	STRAD
doplňkové vlastnosti
Složení	SL
Změkčený srovnávací stupeň	SMYAG

Syntaktické značení

Syntaktické značení korpusových vět se provádí v rámci závislostní gramatiky : syntaktická struktura je orientovaný strom , jehož uzly jsou slova a každá hrana směřuje od hlavního slova ke slovu služebníka a odpovídá nějakému syntaktickému vztahu . . Slovo odpovídající kořenu stromu se nazývá vrchol věty a na rozdíl od ostatních slov ve větě syntakticky nezávisí na žádném jiném. Syntaktické skupiny jsou uspořádány ve formě podstromů zdrojového stromu: v každém takovém podstromu je jeden z členů skupiny jejím zástupcem ve vnějších vztazích a podřizuje zbývající členy skupiny [18] . Celkem se v SinTagRus rozlišuje asi 70 typů syntaktických vztahů [13] .

Použité syntaktické vztahy [17] Aktantní syntaktické vztahy

Syntaktický vztah	Snížení	Slovo hostitel	Slovní sluha
Predikativní	predikát	Predikát	Předmět
Dativ-subjektivní	datum-předmět	Státní slovo	předmět státu označený hostitelským slovem
Agent	činidlo	slovo za čin	Předmět akce označený hostitelským slovem
Kvazi-agentní	kvazi-agent	predikát podstatné jméno	Slovo, které implementuje první syntaktickou valenci hostitelského slova
Proprietární-agent	chybný agent	Sloveso	Slovo, které implementuje první sémantickou valenci podstatného jména, které je sémantickým aktantem hostitelského slova
Nejprve kompletní	1 set	predikátové slovo	Syntaktický aktant hostitelského slova, kromě prvního. První komplexní vztah tedy odkazuje na druhý aktant, druhý na třetí a tak dále.
Druhý kompletní	2-set
Třetí kompletní	3-set
Čtvrtá kompletní	4-set
Pátá dokončena	5-set
Příloha	svázaný	Spojovat sloveso	Jmenná část predikátu
První nesprávná-úplná	1-špatná sada	funkční sloveso	Doplněk (první, druhý atd.), jehož sémantickým hostitelem je nějaký sémantický aktant hostitelského slova
Druhý nesprávný-úplný	2-špatná sada
Třetí nesprávné-úplné	3-špatná sada
Čtvrtý nesprávný-úplný	4-špatná sada
Pátá nesprávná-úplná	5-nesprávná sada
Neaktant-úplný	neaktuální	predikátové slovo	Slovo, které není plnohodnotným sémantickým aktantem hostitelského slova, ale je syntaktickou funkcí podobné doplňku
Doplňkově-apozitivní	nastavit appos	Parametrické podstatné jméno nebo podstatné jméno typu let , trasa , vlak	Sémantický aktant hostitelského slova, je-li tento aktant vyjádřen v nominativu nebo jeho syntaktickém ekvivalentu
předložkový	nabídka	Záminka	Vrchol jmenné fráze v závislosti na předložce
Podřízený-spojenecký	podaliance	Podřízená unie	Vrchol vedlejší věty zavedený opravárenským odborem
infinitiv-sjednocení	inf-unie	Podřízená unie	Infinitiv
Srovnávací	porovnat	Srovnávací přídavné jméno nebo příslovce	Vrchol jmenné fráze v genitivu představující druhý z porovnávaných členů nebo komparativní spojení než
Srovnávací	porovnat	Sloveso, jméno nebo příslovce	srovnávací unie
srovnávací unie	srovnat-unie	srovnávací unie	Druhý ze srovnávaných termínů srovnávací konstrukce
volitelný	volitelný	Číslovka, řadové přídavné jméno, superlativní přídavné jméno nebo přídavné jméno se slovem nejvíce	Předložka z nebo mezi uvádějící označení množiny, ve které se výběr provádí
větný-predikativní	svatý predikát	Horní část věty vyjadřující situaci popsanou v identifikační konstrukci	Ukazovací zájmenné podstatné jméno ten či onen v nominativu
Cílová vazba	přiřadit-adr	Relační slovo působící jako jmenná část predikátu s (případně nulovou) vazbou	Podstatné jméno v dativu, které v podstatě vyplňuje syntaktickou valenci hostitelského slova

Atributové syntaktické vztahy

Syntaktický vztah	Snížení	Slovo hostitel	Slovní sluha
Determinanty
definitivní	definovaný	Podstatné jméno nebo přídavné jméno	přídavné jméno nebo příčestí
Popisně-definitivní	op-def	Podstatné jméno nebo přídavné jméno	Přídavné jméno nebo příčestí fungující jako samostatná definice
Přibližné pořadové číslo	přibližné pořadí	Podstatné jméno	řadové přídavné jméno
Relativní	vztah	Podstatné jméno nebo přídavné jméno	Vrchol relativního atributu
obecný atribut
atributivní	atrib	Podstatné jméno nebo přídavné jméno	Nekonzistentní definice
Kompozitní	složení	Druhá část složeného slova	První část složeného slova
vstřícný
vstřícný	appos	Podstatné jméno	Další aplikace
Samostatné-apozitivní	ob-appos	Podstatné jméno	Oddělte aplikaci od hostitelského slova
nominativní-apozitivní	nom-appos	Podstatné jméno	Začátek každé skupiny v uvozovkách vyjadřující jméno
Numerativní-apozitivní	num appoz	Podstatné jméno označující pravidelně číslované předměty	Jméno je číslice v nominativním případě nebo psané číslicemi (označující číslo)
kvantitativní
kvantitativní	Množství	Podstatné jméno	Číslovka v předložce
Přibližně-kvantitativní	přibližný počet	Podstatné jméno	Číslovka v postpozici
Kvantitativní-Kopredikativní	číslo-copred	Sloveso, ve kterém je podstatné jméno v genitivu, které s ním působí jako podmět	Vrchol číselné skupiny nebo vrchol nominální skupiny s hlavní hodnotou
Kvantitativní-restriktivní	počet-limit	Srovnávací přídavné jméno nebo příslovce	Příslovce nebo vrchol skupiny s předložkami v nebo na , označující intenzitu
rozdělení	rozdělení	Horní část podstatného sousloví označující určitý parametr (cena, rychlost, hmotnost atd.)	Podstatné jméno v nominativním případě nebo v horní části skupiny s předložkami v , na , pro , označující měrnou jednotku
přísada	přidat	Číslice nebo vrchol kvantitativní skupiny	Číslice nebo vrchol kvantitativní skupiny
nepřímé
nepřímé	obst	Sloveso nebo slovo jiného slovního druhu, které je vrcholem věty	Okolnost
dlouho	dlouho	Sloveso	Okolnost trvání vyjádřená podstatným jménem v akuzativu nebo předložkovou skupinou s významem přibližného množství nebo rozdělení
Vícenásobné dlouhé	vícenásobné dlouhé	Sloveso	Okolnost více trvání vyjádřená podstatným jménem v instrumentálu množného čísla
Dálkový	vzdálenost	Sloveso	Okolnost prostorového rozsahu vyjádřená podstatným jménem v akuzativu nebo předložkovou skupinou s významem přibližné množství nebo rozdělení
okolnostně-tautologické	obst-napjatý	Sloveso	Podstatné jméno v instrumentálním případě, duplikující část významu hostitelského slova
subjektivní okolnost	sub-prostředí	Sloveso	Okolnost v instrumentálním případě, která zároveň charakterizuje předmět žaloby
Objekt nepřímý	obst	Sloveso	Okolnost v instrumentálním případě, která zároveň charakterizuje předmět jednání
subjektivně-kopredikativní	podkopr	Sloveso	Vrchol jmenné fráze v nominativním nebo instrumentálním pádě nebo vrchol předložkové skupiny, působící ve funkci blízké funkci jmenné části složeného predikátu, ale charakterizující předmět významově a (v případě nominální fráze) v souladu s ní v rodu a čísle
Objektově-kopredikativní	ob-copr	Sloveso	Vrchol jmenné skupiny v instrumentálu nebo akuzativu nebo vrchol předložkové skupiny, který charakterizuje předmět. Pokud je slovo sluha vyjádřeno jmennou frází, pak je v souladu s doplňkem v rodu a čísle
Restriktivní	omezený	Slovo jakékoli části řeči	Částicové nebo omezující příslovce
úvodní	úvod	Přísudek nebo jiný člen věty	Úvodní slovo , úvodní obrat, věta nebo odvolání
Vysvětlující	Průhledná	Horní část hlavní věty	Horní část vedlejší věty, včetně souvisejícího slova co , proč nebo proč
vysvětlující	vysvětlit	Libovolné slovo	Slovo, které má závislé a spolu s nimi poskytuje další informace o hostitelském slově nebo skupině slov reprezentovaných hostitelským slovem. Je vyžadován formální „upřesňující znak“, což může být interpunkční znaménko nebo výraz, který zavádí další informace
sousedící	sousedící	Slovo, které je „pánem“ výrazu, jehož vrcholem je slovo služebník	Vrchol výrazu závislý na hostitelském slově, umístěný napravo od hostitelského slova a uzavřený v závorkách nebo oddělený na obou stranách pomlčkou
kvalifikátor	vyjasnění	Zástupce (vrchol) nějakého výrazu	Představitel nějakého výrazu. Tento výraz sémanticky zpřesňuje výraz reprezentovaný hostitelským slovem, ale oba tyto výrazy mají stejnou syntaktickou funkci.

Koordinační syntaktické vztahy

Syntaktický vztah	Snížení	Slovo hostitel	Slovní sluha
psaní	psaní	Člen koordinační struktury	Člen koordinační konstrukce nebo koordinační konjunkce. Nachází se bezprostředně napravo od hostitelského slova.
větný-koordinační	svatý op	Vrchol první z homogenních vět	Na začátek druhé věty nebo koordinační unie
Koordinační svaz	op-unie	spisovatelský svaz	Horní část druhého z homogenních termínů nebo vět
Násobek	násobek	Hlavním členem vícenásobné konstrukce je podstatné jméno , přídavné jméno , příslovce , číslovka nebo sloveso .	Závislý člen vícenásobné konstrukce. Tvoří se buď stejným způsobem jako hlavní člen a odděluje se od něj pomlčkou, pomlčkou, dvojtečkou nebo lomítkem, nebo se uvozuje předložkou „on“ nebo „to“

Syntaktické vztahy služeb

Syntaktický vztah	Snížení	Slovo hostitel	Slovní sluha
Analytický	analyt	Prvky složeného slovesného predikátu . Tyto prvky tvoří komplexní budoucí čas nebo konjunktiv .
Pasivně-analytické	projít análním	Sloveso – odkaz „být“	Pasivní přijímání
Kvantitativní-pomocné	číslo-pomocný	Pravá strana složené číslovky nebo složeného řadového přídavného jména	Levá strana složené číslovky nebo složeného řadového přídavného jména
relativní	korelace	Levá strana přerušené párové spojky , předložky nebo částice nebo pravá strana přerušené párové koordinační spojky	Pravá strana přerušené párové spojky, předložky nebo částice nebo levá strana přerušené párové koordinační spojky
EXPLENTNÍ	explodovat	Ukazovací zájmeno - „těsnění“ takhle , tamto	Podřadný svazek nebo vrchol věty. Hlavní slovo je „dešifrováno“ slovem služebníka
Proleptik	proleptus	Sémanticky nejednoznačné slovo, které zaujímá plnou pozici ve větě	Slovo ven
Pomocný	pomocný	Části syntaktické a sémantické jednoty frází

K zaznamenání informací o syntaktické struktuře věty v SynTagRus se používají dva atributy každého slova věty: DOM , jehož hodnota je ID hostitelského slova, a LINK , jehož hodnota je název slova. odpovídající syntaktický vztah [16] . Horní část věty má speciální hodnotu atributu _root DOM [19] .

Lexikálně-sémantické značení

Každému slovnímu tvaru je kromě lemmatu přiřazen atribut KSNAME , jehož hodnotou je název odpovídajícího hesla ve výkladově-kombinatorickém slovníku lingvistického procesoru ETAP. Díky tomu se jednak upřesňuje význam polysémantických a homonymních slov a jednak se navazuje spojení s hesly slovníku, který používá zpracovatel ETAP, a informacemi obsaženými v těchto jsou k dispozici záznamy o sémantických vlastnostech slov [10] .

Lexicofunkční značení

Věty jsou označeny frázemi, které lze interpretovat z hlediska lexikálních funkcí . Pro označení takových frází uvnitř věty jsou další prvky vytvořeny odděleně od samotných slovních tvarů [13] .

Mikrosyntaktické značení

Mikrosyntaktické jednotky v SynTagRus jsou chápány jako frazeologické jednotky se syntaktickou specifitou [20] . Příkladem je platná složená předložka . Na jednu stranu má syntakticky blízko k primitivním předložkám. Nelze totiž mezi prvky této předložky vložit k podstatnému jménu zájmennou definici , jako je tomu u jiných předložkových konstrukcí typu ve tvaru , in case atd. Pokud je navíc osobní zájmeno třetí osoby podmětem k této předložce ve větě pak ve většině případů počáteční n- , jako u primitivních předložek. Na druhou stranu se první část některých párových spojek , stejně jako částice zda nebo , může nacházet mezi platnou předložkou a podstatným jménem, které na ní závisí, což znemožňuje přisoudit tuto předložku primitivům [21] .

Vyskytuje-li se v některé větě korpusu mikrosyntaktická jednotka, pak je přidán nový větný atribut - MICROSYNT , jehož hodnotou je název příslušné mikrosyntaktické jednotky a její lineární hranice [20] .

Anaforické značky

U anaforického zájmena , se kterým se v textu setkáváme , je uveden jeho předchůdce , tedy výraz, ke kterému toto zájmeno odkazuje. Věta, ve které se nachází anaforické zájmeno, má navíc atribut COREF , jehož hodnotou je seznam párů zájmeno-předchůdce odpovídajících danému zájmenu. U každého anaforického zájmena je uvedena jeho lineární poloha ve větě a u předchůdce je navíc navíc uvedeno, ve které větě se vzhledem k uvažovanému nachází (v rámci tří vět v obou směrech) [4] .

Zpracování eliptických struktur

V SynTagRus jsou vynechané fragmenty eliptických vět explicitně obnoveny. Odpovídající obnovený tvar slova je označen stejným způsobem jako jiné tvary slova; z takových „přízračných“ slov se čerpají zejména všechny potřebné syntaktické vazby. Tomuto slovnímu tvaru je přiřazen atribut NODETYPE s hodnotou FANTOM [2] [22] .

Použití těla

SynTagRus se používá v různých oblastech. Na jeho základě je na jedné straně prováděn čistě lingvistický výzkum, teoretický i praktický (zejména v oblasti lexikografie ). Na druhou stranu korpus nachází své uplatnění v úlohách výpočetní lingvistiky jako zdroj lingvistických dat, například při vytváření parserů . Tyto úlohy lze řešit pomocí různých formátů značek. Kombinace několika budov s různým značením do jedné ji zároveň činí reprezentativnější. Tyto okolnosti vedou k problému převodu korpusu [4] .

Došlo k opakovaným pokusům přeložit SynTagRus do jiných značkovacích formátů: jsou známy experimenty s převodem korpusu do formátů HPSG a PDT [13] . Kromě toho byl SynTagRus úspěšně převeden na formáty CoNLL-U [22] , PTB [23] a SD [24] . Konverze se však za prvé ve všech případech týkala pouze morfologických a syntaktických značek a za druhé byla prováděna automaticky, což se stalo překážkou plnohodnotné konverze. Takže například slovní druh NID nemohl být jednoznačně přeložen do formátu CoNLL-U (ve kterém takový slovní druh není) automaticky, takže všechny věty SinTagRus, ve kterých alespoň jeden tvar slova měly takový část řeči byla před konverzí z korpusu vyloučena [22] .

Přístup

SynTagRus je distribuován zdarma pod nekomerční licencí [25] . Verze korpusu bez některých typů značek je navíc k dispozici pro nekomerční použití pro výzkumné a výukové účely jako subkorpus Národního korpusu ruského jazyka a je ve veřejné doméně [13] , stejně jako verze ve formátech CoNLL-U (licence CC BY-NC-SA 4.0 ) [22] a PTB (dostupný pouze konvertor) [23] .

Poznámky

↑ Eric Brill , Raymond J. Mooney. Přehled empirického zpracování přirozeného jazyka // Magazín AI. - AAAI, 1997. - Sv. 18 , č. 4 . - str. 13-24 .
↑ 1 2 3 4 5 Boguslavsky I. M. , Grigoriev N. V. , Grigoryeva S. A. , Kreydlin L. G. , Frid N. E. Anotovaný korpus ruských textů: koncept, značkovací nástroje, typy informací // Sborník Mezinárodní seminář o výpočetních 200ialogue jeho aplikacích ". - Protvino, 2000. Archivováno 31. července 2019. (Ruština)
↑ Reznikova T. I. , Kopotěv M. V. Lingvisticky komentované korpusy ruského jazyka (přehled veřejných zdrojů) // Národní korpus ruského jazyka: 2003-2005. - M .: Indrik , 2005. - S. 31-61 . Archivováno z originálu 31. července 2019. (Ruština)
↑ 1 2 3 Inshakova E. S. , Iomdin L. L. , Mityushin L. G. , Sizov V. G. , Frolova T. I. , Tsinman L. L. SinTagRus dnes // Proceedings of the Institute of the Russian Language. V. V. Vinogradová. - M . : "Nestor-History", 2019. - Vydání. 21 . - S. 14-40 . Archivováno 26. března 2020. (Ruština)
↑ Moskvina A. D. , Orlova D. , Panicheva P. V. , Mitrofanova O. A. Vývoj jádra analyzátoru pro ruský jazyk na základě knihoven NLTK // Sborník příspěvků ze Spojené vědecké konference „Internet a moderní společnost“. - 2016. - S. 44-54 . Archivováno z originálu 10. října 2019. (Ruština)
↑ Kibrik A. E. , Fedorova O. V., Tatevosov S. G. , Lyutikova E. A., Kibrik A. A. , Kobozeva I. M. , Falikman M. V., Chenki A., T. Sekerina I. , Nikolaeva Yu. V., Daniel' M. A., V. Bely Bergelova, M. A., Bely Bergelson. S. Yu., Bonch-Osmolovskaya A. A. , Podlesskaya V. I. , Krivnova O. F. Corpus linguistics // Úvod do vědy o jazyce / ed. O. V. Fedorová a S. G. Tatevosov. - M. : Buki Vedi, 2019. - S. 420. - 672 s. — ISBN 978-5-4465-2188-3 . (Ruština)
↑ Sichinava D.V. Národní korpus ruského jazyka: přehled pravěku // Národní korpus ruského jazyka: 2003-2005. - M. : Indrik, 2005. - S. 21-30 . Archivováno z originálu 31. července 2019. (Ruština)
↑ 1 2 3 Apresyan Yu. D. , Boguslavsky I. M. , Iomdin B. L. , Iomdin L. L. , Sannikov A. V. , Sannikov V. Z. , Sizov V. G. , Tsinman L. L. Syntakticky a sémanticky komentovaný korpus / aktuální státní a prospekt ruského jazyka Ruský jazyk: 2003-2005. - M .: Indrik, 2005. - S. 193-214 . Archivováno z originálu 31. července 2019. (Ruština)
↑ Zakharov V.P. , Bogdanova S.Yu. Korpusová lingvistika . - 3. vyd., revidováno. - Petrohrad. : St. Petersburg University Press, 2020. - S. 47. - 234 s. - ISBN 978-5-288-05997-1 . (Ruština)
↑ 1 2 Apresyan Yu. D. , Iomdin L. L. , Sannikov A. V. , Sizov V. G. Sémantické značení v hluboce anotovaném korpusu ruského jazyka // Sborník z mezinárodní konference "Corpus Linguistics-2004". - Petrohrad. : St. Petersburg State University, 2004. - S. 41-54 . Archivováno z originálu 31. července 2019. (Ruština)
↑ 1 2 3 Boguslavsky I. M. , Grigoriev N. V. , Iomdin L. L. , Kreydlin L. G. , Frid N. E. , Chardin I. S. Vývoj syntakticky označeného korpusu ruského jazyka // Zprávy z vědecké konference „Korpusová lingvistika a lingvistika“. - Petrohrad. : St. Petersburg State University, 2002. - S. 40-50 . Archivováno z originálu 31. července 2019. (Ruština)
↑ Korpusová lingvistika . Laboratoř počítačové lingvistiky IPTP RAS (11. února 2020). Staženo 12. února 2020. Archivováno z originálu dne 22. února 2020. (Ruština)
↑ 1 2 3 4 5 Dyachenko P. V. , Iomdin L. L. , Lazursky A. V. , Mityushin L. G. , Podlesskaya O. Yu. , Sizov V. G. , Frolova T. I. , Tsinman L L. Současný stav korpusu Tsinman L. L. ) // Sborník "Národní korpus ruského jazyka: 10 let projektu." - M . : Sborník Ústavu ruského jazyka. V. V. Vinogradova, 2015. - Vydání. 6 . - S. 272-299 . Archivováno z originálu 31. července 2019. (Ruština)
↑ Boguslavsky I. , Iomdin L. , Sizov V. , Tsinman L. , Petrochenkov V. Pravidlový analyzátor závislostí zpřesněný empirickou korpusovou statistikou // Sborník příspěvků z Mezinárodní konference o závislostní lingvistice. - 2011. - S. 318-327 . Archivováno z originálu 31. července 2019.
↑ Droganova K. , Lyashevskaya O. , Zeman D. Konverze dat a konzistence jednojazyčných korpusů: Russian UD treebanks (anglicky) // Proceedings of the 17th International Workshop on Treebanks and Linguistic Theories (TLT 2018). - Univerzita v Oslo, Norsko: Linköping University Electronic Press, 2018. - S. 52-65 . Archivováno 19. března 2020.
↑ 1 2 Igor Boguslavskij , Ivan Chardin , Světlana Grigorjeva , Nikolaj Grigorjev , Leonid Iomdin , Leonid Kreydlin , Naděžda Frid. Vývoj stromové banky závislostí pro ruštinu a její možné aplikace v NLP (angličtina) // Sborník příspěvků ze třetí mezinárodní konference o jazykových zdrojích a hodnocení (LREC-2002). — Las Palmas, 2002. — Sv. III . - S. 852-856 . Archivováno z originálu 10. srpna 2017.
↑ 1 2 Syntakticky označený korpus ruského jazyka: informace pro uživatele . Národní korpus ruského jazyka . Získáno 29. března 2020. Archivováno z originálu dne 25. března 2020. (Ruština)
↑ Apresyan Y. D. , Boguslavsky I. M. , Iomdin L. L. , Lazursky A. V. , Mityushin L. G. , Sannikov V. Z. , Tsinman L. L. Lingvistický procesor pro komplexní informační systémy. - M .: Science , 1992. - S. 32-40, 56-73. — 256 s.
↑ Leonid Iomdin , Victor Sizov. Structure Editor: Výkonné prostředí pro tagované korporace // Výzkumná infrastruktura pro digitální lexikografii. - Lublaň: Institut Jožefa Stefana, 2009. - S. 1-12 .
↑ 1 2 Iomdin L. L. Mikrosyntaktický markup v korpusu ruských textů // Sborník příspěvků z mezinárodní vědecké konference "Corpus Linguistics - 2017". - Petrohrad. : St. Petersburg State University, 2017. - S. 188-194 . Archivováno z originálu 20. listopadu 2021. (Ruština)
↑ Iomdin L. L. V hlubinách mikrosyntaxe: jedna lexikální třída syntaktických frází // Počítačová lingvistika a inteligentní technologie. - M .: RGGU, 2008. - S. 178-184 . Archivováno z originálu 29. srpna 2019. (Ruština)
↑ 1 2 3 4 Droganova K. , Zeman D. Konverze SynTagRus (ruská stromová banka závislostí) na Universal Dependencies (anglicky) // Technická zpráva. — Ústav formální a aplikované lingvistiky, Matematicko-fyzikální fakulta UK, 2016. Archivováno z originálu 8. června 2021.
↑ 1 2 Luu A. , Malamud SA , Xue N. Převod stromové banky závislostí SynTagRus na styl stromové banky Penn // Sborník z 10. workshopu lingvistické anotace konaného ve spojení s ACL 2016 (LAW-X 2016). - 2016. - S. 16-21 . Archivováno z originálu 27. února 2019.
↑ Lipenkova J. , Souček M. Converting Russian Dependency treebank to Stanford typed Dependencies Representatives (anglicky) // Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics. - 2014. - Sv. 2 . - S. 143-147 . Archivováno z originálu 8. června 2018.
↑ Ljaševskaja O. N. Korpusové nástroje v gramatických studiích ruského jazyka. - M . : Nakladatelství YASK, 2016. - S. 193. - 520 s.

Odkazy

Korpusová lingvistika
Anglické korpusy	Národní korpus americké angličtiny Bank of English Bergen Corpus of London Teenage Language britský národní sbor Hnědý korpus Korpus Buckeye Cambridge English Corpus Korpus moderní americké angličtiny Korpus Enron Mezinárodní korpus angličtiny Korpus Lancaster-Oslo-Bergen Oxfordský anglický korpus Prop Bank Mluvený anglický korpus ČAS VerbNet Wellingtonův korpus mluvené novozélandské angličtiny
ruskojazyčné korpusy	Obecný internetový korpus ruského jazyka Ruský národní korpus Otevřený korpus ruského jazyka SinTagRus Tübingenský korpus ruského jazyka Uppsalský korpus ruských textů Helsinský anotovaný korpus ruského jazyka
Korpusy v jiných jazycích	Korpus Bijankhan DĚTI Korpus chorvatštiny Chorvatský národní korpus Europarl Corpus Mannheimský korpus německy Sbor Hamshahri Polský národní korpus Projekt novoasyrského textového korpusu Koranický korpus Skotský národní korpus Slovinský národní korpus mluvit banka Tatoeba Teheránský jednojazyčný korpus Tekstaro de Esperanto Thesaurus Linguae Graecae
Organizace	Konsorcium BNC COBUILD