SinTagRus | |
---|---|
Objem pouzdra | více než 1,1 milionu slov |
Jazyk | ruština |
Základní typy značek | morfologické , syntaktické , lexikálně- sémantické |
Kompilátory | Laboratoř počítačové lingvistiky IPTP RAS |
datum vytvoření | 1998 |
Přístup | volný, uvolnit |
Licence | proprietární |
webová stránka | proling.iitp.ru/ru/proje… |
SynTagRus ( eng. SynTagRus , zkratka pro angličtinu. Syntakticky označený ruský textový korpus , “syntakticky anotovaný korpus ruských textů”) je hluboce anotovaný korpus ruských textů , první korpus ruských textů se syntaktickým značením. Vyvíjí ji od roku 1998 Laboratoř výpočetní lingvistiky IPTP RAS ve spolupráci se Sektorem teoretické sémantiky IRL RAS . Korpus tvoří texty různých žánrů; celkový počet použití slov je více než 1 milion .
SynTagRus je založen na ideologii víceúčelového lingvistického procesoru ETAP . Charakteristickým rysem korpusu je přítomnost několika úrovní anotace různé hloubky, včetně kompletního morfologického a syntaktického značení s odstraněnou homonymií . Značkovací jazyk je XML .
SynTagRus je distribuován pod nekomerční licencí . Kromě toho byl korpus převeden do různých formátů; některé z těchto verzí (nebo konvertorů) jsou ve veřejné doméně a omezená verze původního korpusu je součástí ruského národního korpusu .
Vznik syntaktických značkovacích korpusů na počátku 90. let vedl k rozvoji empirických metod v problémech zpracování přirozeného jazyka . Využití takových korpusů navíc našlo své uplatnění nejen v kontextu samotné syntaktické analýzy, ale také v řadě dalších úloh, včetně řešení lexikální polysémie , sémantické analýzy atd. [1]
Do konce 90. let byly pro většinu hlavních evropských jazyků vytvořeny anotované korpusy , zatímco pro ruský jazyk žádné takové korpusy ve skutečnosti neexistovaly [2] . Navíc ani neoznačené korpusy, které v té době existovaly (například Uppsalský korpus ruských textů ), nebyly veřejně dostupné [3] .
Z těchto důvodů začal od roku 1998 [4] vývoj prvního anotovaného korpusu ruského jazyka SinTagRus [2] [5] , který se později stal standardem mezi korpusy se syntaktickým značením [6] . Vývojáři se zároveň podíleli i na tvorbě Národního korpusu ruského jazyka; konkrétně SynTagRus (s určitými omezeními) je nedílnou, ale zcela autonomní součástí NCRP již od vytvoření NCRP [7] [8] . V NKRY pro SinTagRus (jako subkorpus) se také používá název "hluboce anotovaný korpus" [9] .
Vývoj SinTagRus provádí Laboratoř počítačové lingvistiky IPTP RAS ve spolupráci se Sektorem teoretické sémantiky IRL RAS [10] .
Zdrojovým materiálem pro SinTagRus byl korpus ruských textů v Uppsale : asi 10 000 vět bylo převzato z textů beletrie. Následně byly do korpusu přidány krátké (do 30 vět) texty převzaté z webových stránek populárních zpravodajských publikací ( yandex.ru , rbc.ru , polit.ru , lenta.ru , strana.ru , news.ru ) [ 2] [11] .
SynTagRus se neustále vyvíjí a od roku 2020 má asi 77 tisíc vět (více než 1,1 milionu slovních použití) [12] převzatých z textů následujících žánrů [13] [8] [14] :
Charakteristickým rysem SynTagRus ve srovnání s jinými anotovanými korpusy ruského jazyka je přítomnost několika úrovní anotace různé hloubky, které lze nezávisle extrahovat z korpusu, a počet těchto úrovní je potenciálně neomezený. Značkovací jazyk korpusu je XML a formát značek je kompatibilní s formalismem TEI s výjimkou některých dodatečně zavedených prvků a atributů [2] . V zásadě se značkování volného textu provádí ve dvou krocích [11] :
Následuje seznam typů značek dostupných v korpusu.
Každý text v SinTagRus je rozdělen do vět. Každá věta je prvek s názvem S a každý takový prvek má atribut ID , jehož hodnota je pořadové číslo věty v textu. Podobně je každá věta rozdělena na lexikální prvky pojmenované W a každý takový prvek má atribut ID , jehož hodnotou je pořadové číslo slova v této větě [11] . Interpunkční znaménka jsou formátována jako text tagu věty (zachování jejich relativní pozice ve zdrojovém textu) a nejsou vyjádřena vlastními tagy [15] .
Morfologická struktura slovního tvaru je název lexému nebo lemmatu , kterému je připisován slovní druh a morfologické charakteristiky , tedy významy odpovídajících morfologických kategorií . Pro odpovídající slovní tvar je lemma hodnotou atributu LEMMA a slovní druh a morfologické charakteristiky dohromady jsou hodnotou atributu FEAT [8] [16] .
Popis morfologického značení [17]Část mluvy | Snížení | Příklady |
---|---|---|
Podstatné jméno | S | továrna , I |
Přídavné jméno | A | nový můj _ |
Sloveso | PROTI | šaty |
Příslovce | ADV | špatný , tak nějak |
číslice | NUM | pět , 2 |
Záminka | PR | pod |
Kompozitní | COM | vzduch , hydro |
unie | CONJ | a |
Částice | ČÁST | po všem |
Citoslovce | INTJ | tak a tak |
Slovo je cizojazyčná inkluze | NID | Whatsapp , Berliner Zeitung |
Morfologická charakteristika | Snížení | Poznámka |
---|---|---|
Animace | ||
animovaný | OD | |
neživý | NEOD | |
Rod | ||
mužský | MANŽEL | |
ženský | ŽENA | |
Průměrný | STŘEDA | |
Číslo | ||
Jediná věc | ED | |
množný | MN | |
případ | ||
Jmenovaný | JIM | |
Genitiv | ROD | |
Partitivní | ČÁST | Uvádí se pouze u podstatných jmen, u kterých je tento tvar graficky odlišný od tvaru genitivu |
Dativ | DAT | |
Akuzativ | VIN | |
Instrumentální | TVOR | |
Předložkový | ATD | |
Místní | MÍSTNÍ | Uvádí se pouze u podstatných jmen, u kterých je tento tvar graficky odlišný od tvaru předložkového |
Vokativ | SW | Uvádí se pouze u podstatných jmen, u kterých se tento tvar graficky liší od tvaru nominativního pádu |
Stupeň srovnání | ||
Srovnávací | SRAV | |
vynikající | PŘEDCHOZÍ | |
Stručnost | ||
Stručný | KR | |
zastoupení | ||
Infinitiv | INF | |
Participium | PRICH | |
gerundium | HLUBOKÝ | |
Nálada | ||
orientační | SELHÁNÍ | |
rozkazovací způsob | POV | |
Pohled | ||
Nedokonalý | NESOV | |
Perfektní | SOVA | |
Čas | ||
Neminulý | NEPROSH | |
Minulý | PROSH | |
Přítomnost | NAST | Připisuje se pouze slovesu být v osobním tvaru |
Tvář | ||
První | 1-L | Připisováno pouze slovesům |
Druhý | 2-L | |
Třetí | 3-L | |
Slib | ||
Pasivní | STRAD | |
doplňkové vlastnosti | ||
Složení | SL | |
Změkčený srovnávací stupeň | SMYAG |
Syntaktické značení korpusových vět se provádí v rámci závislostní gramatiky : syntaktická struktura je orientovaný strom , jehož uzly jsou slova a každá hrana směřuje od hlavního slova ke slovu služebníka a odpovídá nějakému syntaktickému vztahu . . Slovo odpovídající kořenu stromu se nazývá vrchol věty a na rozdíl od ostatních slov ve větě syntakticky nezávisí na žádném jiném. Syntaktické skupiny jsou uspořádány ve formě podstromů zdrojového stromu: v každém takovém podstromu je jeden z členů skupiny jejím zástupcem ve vnějších vztazích a podřizuje zbývající členy skupiny [18] . Celkem se v SinTagRus rozlišuje asi 70 typů syntaktických vztahů [13] .
Použité syntaktické vztahy [17]Syntaktický vztah | Snížení | Slovo hostitel | Slovní sluha |
---|---|---|---|
Predikativní | predikát | Predikát | Předmět |
Dativ-subjektivní | datum-předmět | Státní slovo | předmět státu označený hostitelským slovem |
Agent | činidlo | slovo za čin | Předmět akce označený hostitelským slovem |
Kvazi-agentní | kvazi-agent | predikát podstatné jméno | Slovo, které implementuje první syntaktickou valenci hostitelského slova |
Proprietární-agent | chybný agent | Sloveso | Slovo, které implementuje první sémantickou valenci podstatného jména, které je sémantickým aktantem hostitelského slova |
Nejprve kompletní | 1 set | predikátové slovo | Syntaktický aktant hostitelského slova, kromě prvního. První komplexní vztah tedy odkazuje na druhý aktant, druhý na třetí a tak dále. |
Druhý kompletní | 2-set | ||
Třetí kompletní | 3-set | ||
Čtvrtá kompletní | 4-set | ||
Pátá dokončena | 5-set | ||
Příloha | svázaný | Spojovat sloveso | Jmenná část predikátu |
První nesprávná-úplná | 1-špatná sada | funkční sloveso | Doplněk (první, druhý atd.), jehož sémantickým hostitelem je nějaký sémantický aktant hostitelského slova |
Druhý nesprávný-úplný | 2-špatná sada | ||
Třetí nesprávné-úplné | 3-špatná sada | ||
Čtvrtý nesprávný-úplný | 4-špatná sada | ||
Pátá nesprávná-úplná | 5-nesprávná sada | ||
Neaktant-úplný | neaktuální | predikátové slovo | Slovo, které není plnohodnotným sémantickým aktantem hostitelského slova, ale je syntaktickou funkcí podobné doplňku |
Doplňkově-apozitivní | nastavit appos | Parametrické podstatné jméno nebo podstatné jméno typu let , trasa , vlak | Sémantický aktant hostitelského slova, je-li tento aktant vyjádřen v nominativu nebo jeho syntaktickém ekvivalentu |
předložkový | nabídka | Záminka | Vrchol jmenné fráze v závislosti na předložce |
Podřízený-spojenecký | podaliance | Podřízená unie | Vrchol vedlejší věty zavedený opravárenským odborem |
infinitiv-sjednocení | inf-unie | Podřízená unie | Infinitiv |
Srovnávací | porovnat | Srovnávací přídavné jméno nebo příslovce | Vrchol jmenné fráze v genitivu představující druhý z porovnávaných členů nebo komparativní spojení než |
Sloveso, jméno nebo příslovce | srovnávací unie | ||
srovnávací unie | srovnat-unie | srovnávací unie | Druhý ze srovnávaných termínů srovnávací konstrukce |
volitelný | volitelný | Číslovka, řadové přídavné jméno, superlativní přídavné jméno nebo přídavné jméno se slovem nejvíce | Předložka z nebo mezi uvádějící označení množiny, ve které se výběr provádí |
větný-predikativní | svatý predikát | Horní část věty vyjadřující situaci popsanou v identifikační konstrukci | Ukazovací zájmenné podstatné jméno ten či onen v nominativu |
Cílová vazba | přiřadit-adr | Relační slovo působící jako jmenná část predikátu s (případně nulovou) vazbou | Podstatné jméno v dativu, které v podstatě vyplňuje syntaktickou valenci hostitelského slova |
Syntaktický vztah | Snížení | Slovo hostitel | Slovní sluha |
---|---|---|---|
Determinanty | |||
definitivní | definovaný | Podstatné jméno nebo přídavné jméno | přídavné jméno nebo příčestí |
Popisně-definitivní | op-def | Podstatné jméno nebo přídavné jméno | Přídavné jméno nebo příčestí fungující jako samostatná definice |
Přibližné pořadové číslo | přibližné pořadí | Podstatné jméno | řadové přídavné jméno |
Relativní | vztah | Podstatné jméno nebo přídavné jméno | Vrchol relativního atributu |
obecný atribut | |||
atributivní | atrib | Podstatné jméno nebo přídavné jméno | Nekonzistentní definice |
Kompozitní | složení | Druhá část složeného slova | První část složeného slova |
vstřícný | |||
vstřícný | appos | Podstatné jméno | Další aplikace |
Samostatné-apozitivní | ob-appos | Podstatné jméno | Oddělte aplikaci od hostitelského slova |
nominativní-apozitivní | nom-appos | Podstatné jméno | Začátek každé skupiny v uvozovkách vyjadřující jméno |
Numerativní-apozitivní | num appoz | Podstatné jméno označující pravidelně číslované předměty | Jméno je číslice v nominativním případě nebo psané číslicemi (označující číslo) |
kvantitativní | |||
kvantitativní | Množství | Podstatné jméno | Číslovka v předložce |
Přibližně-kvantitativní | přibližný počet | Podstatné jméno | Číslovka v postpozici |
Kvantitativní-Kopredikativní | číslo-copred | Sloveso, ve kterém je podstatné jméno v genitivu, které s ním působí jako podmět | Vrchol číselné skupiny nebo vrchol nominální skupiny s hlavní hodnotou |
Kvantitativní-restriktivní | počet-limit | Srovnávací přídavné jméno nebo příslovce | Příslovce nebo vrchol skupiny s předložkami v nebo na , označující intenzitu |
rozdělení | rozdělení | Horní část podstatného sousloví označující určitý parametr (cena, rychlost, hmotnost atd.) | Podstatné jméno v nominativním případě nebo v horní části skupiny s předložkami v , na , pro , označující měrnou jednotku |
přísada | přidat | Číslice nebo vrchol kvantitativní skupiny | Číslice nebo vrchol kvantitativní skupiny |
nepřímé | |||
nepřímé | obst | Sloveso nebo slovo jiného slovního druhu, které je vrcholem věty | Okolnost |
dlouho | dlouho | Sloveso | Okolnost trvání vyjádřená podstatným jménem v akuzativu nebo předložkovou skupinou s významem přibližného množství nebo rozdělení |
Vícenásobné dlouhé | vícenásobné dlouhé | Sloveso | Okolnost více trvání vyjádřená podstatným jménem v instrumentálu množného čísla |
Dálkový | vzdálenost | Sloveso | Okolnost prostorového rozsahu vyjádřená podstatným jménem v akuzativu nebo předložkovou skupinou s významem přibližné množství nebo rozdělení |
okolnostně-tautologické | obst-napjatý | Sloveso | Podstatné jméno v instrumentálním případě, duplikující část významu hostitelského slova |
subjektivní okolnost | sub-prostředí | Sloveso | Okolnost v instrumentálním případě, která zároveň charakterizuje předmět žaloby |
Objekt nepřímý | obst | Sloveso | Okolnost v instrumentálním případě, která zároveň charakterizuje předmět jednání |
subjektivně-kopredikativní | podkopr | Sloveso | Vrchol jmenné fráze v nominativním nebo instrumentálním pádě nebo vrchol předložkové skupiny, působící ve funkci blízké funkci jmenné části složeného predikátu, ale charakterizující předmět významově a (v případě nominální fráze) v souladu s ní v rodu a čísle |
Objektově-kopredikativní | ob-copr | Sloveso | Vrchol jmenné skupiny v instrumentálu nebo akuzativu nebo vrchol předložkové skupiny, který charakterizuje předmět. Pokud je slovo sluha vyjádřeno jmennou frází, pak je v souladu s doplňkem v rodu a čísle |
Restriktivní | omezený | Slovo jakékoli části řeči | Částicové nebo omezující příslovce |
úvodní | úvod | Přísudek nebo jiný člen věty | Úvodní slovo , úvodní obrat, věta nebo odvolání |
Vysvětlující | Průhledná | Horní část hlavní věty | Horní část vedlejší věty, včetně souvisejícího slova co , proč nebo proč |
vysvětlující | vysvětlit | Libovolné slovo | Slovo, které má závislé a spolu s nimi poskytuje další informace o hostitelském slově nebo skupině slov reprezentovaných hostitelským slovem. Je vyžadován formální „upřesňující znak“, což může být interpunkční znaménko nebo výraz, který zavádí další informace |
sousedící | sousedící | Slovo, které je „pánem“ výrazu, jehož vrcholem je slovo služebník | Vrchol výrazu závislý na hostitelském slově, umístěný napravo od hostitelského slova a uzavřený v závorkách nebo oddělený na obou stranách pomlčkou |
kvalifikátor | vyjasnění | Zástupce (vrchol) nějakého výrazu | Představitel nějakého výrazu. Tento výraz sémanticky zpřesňuje výraz reprezentovaný hostitelským slovem, ale oba tyto výrazy mají stejnou syntaktickou funkci. |
Syntaktický vztah | Snížení | Slovo hostitel | Slovní sluha |
---|---|---|---|
psaní | psaní | Člen koordinační struktury | Člen koordinační konstrukce nebo koordinační konjunkce. Nachází se bezprostředně napravo od hostitelského slova. |
větný-koordinační | svatý op | Vrchol první z homogenních vět | Na začátek druhé věty nebo koordinační unie |
Koordinační svaz | op-unie | spisovatelský svaz | Horní část druhého z homogenních termínů nebo vět |
Násobek | násobek | Hlavním členem vícenásobné konstrukce je podstatné jméno , přídavné jméno , příslovce , číslovka nebo sloveso . | Závislý člen vícenásobné konstrukce. Tvoří se buď stejným způsobem jako hlavní člen a odděluje se od něj pomlčkou, pomlčkou, dvojtečkou nebo lomítkem, nebo se uvozuje předložkou „on“ nebo „to“ |
Syntaktický vztah | Snížení | Slovo hostitel | Slovní sluha |
---|---|---|---|
Analytický | analyt | Prvky složeného slovesného predikátu . Tyto prvky tvoří komplexní budoucí čas nebo konjunktiv . | |
Pasivně-analytické | projít análním | Sloveso – odkaz „být“ | Pasivní přijímání |
Kvantitativní-pomocné | číslo-pomocný | Pravá strana složené číslovky nebo složeného řadového přídavného jména | Levá strana složené číslovky nebo složeného řadového přídavného jména |
relativní | korelace | Levá strana přerušené párové spojky , předložky nebo částice nebo pravá strana přerušené párové koordinační spojky | Pravá strana přerušené párové spojky, předložky nebo částice nebo levá strana přerušené párové koordinační spojky |
EXPLENTNÍ | explodovat | Ukazovací zájmeno - „těsnění“ takhle , tamto | Podřadný svazek nebo vrchol věty. Hlavní slovo je „dešifrováno“ slovem služebníka |
Proleptik | proleptus | Sémanticky nejednoznačné slovo, které zaujímá plnou pozici ve větě | Slovo ven |
Pomocný | pomocný | Části syntaktické a sémantické jednoty frází |
K zaznamenání informací o syntaktické struktuře věty v SynTagRus se používají dva atributy každého slova věty: DOM , jehož hodnota je ID hostitelského slova, a LINK , jehož hodnota je název slova. odpovídající syntaktický vztah [16] . Horní část věty má speciální hodnotu atributu _root DOM [19] .
Každému slovnímu tvaru je kromě lemmatu přiřazen atribut KSNAME , jehož hodnotou je název odpovídajícího hesla ve výkladově-kombinatorickém slovníku lingvistického procesoru ETAP. Díky tomu se jednak upřesňuje význam polysémantických a homonymních slov a jednak se navazuje spojení s hesly slovníku, který používá zpracovatel ETAP, a informacemi obsaženými v těchto jsou k dispozici záznamy o sémantických vlastnostech slov [10] .
Věty jsou označeny frázemi, které lze interpretovat z hlediska lexikálních funkcí . Pro označení takových frází uvnitř věty jsou další prvky vytvořeny odděleně od samotných slovních tvarů [13] .
Mikrosyntaktické jednotky v SynTagRus jsou chápány jako frazeologické jednotky se syntaktickou specifitou [20] . Příkladem je platná složená předložka . Na jednu stranu má syntakticky blízko k primitivním předložkám. Nelze totiž mezi prvky této předložky vložit k podstatnému jménu zájmennou definici , jako je tomu u jiných předložkových konstrukcí typu ve tvaru , in case atd. Pokud je navíc osobní zájmeno třetí osoby podmětem k této předložce ve větě pak ve většině případů počáteční n- , jako u primitivních předložek. Na druhou stranu se první část některých párových spojek , stejně jako částice zda nebo , může nacházet mezi platnou předložkou a podstatným jménem, které na ní závisí, což znemožňuje přisoudit tuto předložku primitivům [21] .
Vyskytuje-li se v některé větě korpusu mikrosyntaktická jednotka, pak je přidán nový větný atribut - MICROSYNT , jehož hodnotou je název příslušné mikrosyntaktické jednotky a její lineární hranice [20] .
U anaforického zájmena , se kterým se v textu setkáváme , je uveden jeho předchůdce , tedy výraz, ke kterému toto zájmeno odkazuje. Věta, ve které se nachází anaforické zájmeno, má navíc atribut COREF , jehož hodnotou je seznam párů zájmeno-předchůdce odpovídajících danému zájmenu. U každého anaforického zájmena je uvedena jeho lineární poloha ve větě a u předchůdce je navíc navíc uvedeno, ve které větě se vzhledem k uvažovanému nachází (v rámci tří vět v obou směrech) [4] .
V SynTagRus jsou vynechané fragmenty eliptických vět explicitně obnoveny. Odpovídající obnovený tvar slova je označen stejným způsobem jako jiné tvary slova; z takových „přízračných“ slov se čerpají zejména všechny potřebné syntaktické vazby. Tomuto slovnímu tvaru je přiřazen atribut NODETYPE s hodnotou FANTOM [2] [22] .
SynTagRus se používá v různých oblastech. Na jeho základě je na jedné straně prováděn čistě lingvistický výzkum, teoretický i praktický (zejména v oblasti lexikografie ). Na druhou stranu korpus nachází své uplatnění v úlohách výpočetní lingvistiky jako zdroj lingvistických dat, například při vytváření parserů . Tyto úlohy lze řešit pomocí různých formátů značek. Kombinace několika budov s různým značením do jedné ji zároveň činí reprezentativnější. Tyto okolnosti vedou k problému převodu korpusu [4] .
Došlo k opakovaným pokusům přeložit SynTagRus do jiných značkovacích formátů: jsou známy experimenty s převodem korpusu do formátů HPSG a PDT [13] . Kromě toho byl SynTagRus úspěšně převeden na formáty CoNLL-U [22] , PTB [23] a SD [24] . Konverze se však za prvé ve všech případech týkala pouze morfologických a syntaktických značek a za druhé byla prováděna automaticky, což se stalo překážkou plnohodnotné konverze. Takže například slovní druh NID nemohl být jednoznačně přeložen do formátu CoNLL-U (ve kterém takový slovní druh není) automaticky, takže všechny věty SinTagRus, ve kterých alespoň jeden tvar slova měly takový část řeči byla před konverzí z korpusu vyloučena [22] .
SynTagRus je distribuován zdarma pod nekomerční licencí [25] . Verze korpusu bez některých typů značek je navíc k dispozici pro nekomerční použití pro výzkumné a výukové účely jako subkorpus Národního korpusu ruského jazyka a je ve veřejné doméně [13] , stejně jako verze ve formátech CoNLL-U (licence CC BY-NC-SA 4.0 ) [22] a PTB (dostupný pouze konvertor) [23] .
Korpusová lingvistika | |
---|---|
Anglické korpusy |
|
ruskojazyčné korpusy |
|
Korpusy v jiných jazycích |
|
Organizace |