SinTagRus

SinTagRus
Objem pouzdra více než 1,1 milionu slov
Jazyk ruština
Základní typy značek morfologické , syntaktické , lexikálně- sémantické
Kompilátory Laboratoř počítačové lingvistiky IPTP RAS
datum vytvoření 1998
Přístup volný, uvolnit
Licence proprietární
webová stránka proling.iitp.ru/ru/proje…

SynTagRus ( eng.  SynTagRus , zkratka pro angličtinu.  Syntakticky označený ruský textový korpus , “syntakticky anotovaný korpus ruských textů”) je hluboce anotovaný korpus ruských textů , první korpus ruských textů se syntaktickým značením. Vyvíjí ji od roku 1998 Laboratoř výpočetní lingvistiky IPTP RAS ve spolupráci se Sektorem teoretické sémantiky IRL RAS . Korpus tvoří texty různých žánrů; celkový počet použití slov je více než 1 milion .

SynTagRus je založen na ideologii víceúčelového lingvistického procesoru ETAP . Charakteristickým rysem korpusu je přítomnost několika úrovní anotace různé hloubky, včetně kompletního morfologického a syntaktického značení s odstraněnou homonymií . Značkovací jazyk je XML .

SynTagRus je distribuován pod nekomerční licencí . Kromě toho byl korpus převeden do různých formátů; některé z těchto verzí (nebo konvertorů) jsou ve veřejné doméně a omezená verze původního korpusu je součástí ruského národního korpusu .

Historie

Vznik syntaktických značkovacích korpusů na počátku 90. let vedl k rozvoji empirických metod v problémech zpracování přirozeného jazyka . Využití takových korpusů navíc našlo své uplatnění nejen v kontextu samotné syntaktické analýzy, ale také v řadě dalších úloh, včetně řešení lexikální polysémie , sémantické analýzy atd. [1]

Do konce 90. let byly pro většinu hlavních evropských jazyků vytvořeny anotované korpusy , zatímco pro ruský jazyk žádné takové korpusy ve skutečnosti neexistovaly [2] . Navíc ani neoznačené korpusy, které v té době existovaly (například Uppsalský korpus ruských textů ), nebyly veřejně dostupné [3] .

Z těchto důvodů začal od roku 1998 [4] vývoj prvního anotovaného korpusu ruského jazyka SinTagRus [2] [5] , který se později stal standardem mezi korpusy se syntaktickým značením [6] . Vývojáři se zároveň podíleli i na tvorbě Národního korpusu ruského jazyka; konkrétně SynTagRus (s určitými omezeními) je nedílnou, ale zcela autonomní součástí NCRP již od vytvoření NCRP [7] [8] . V NKRY pro SinTagRus (jako subkorpus) se také používá název "hluboce anotovaný korpus" [9] .

Vývoj SinTagRus provádí Laboratoř počítačové lingvistiky IPTP RAS ve spolupráci se Sektorem teoretické sémantiky IRL RAS [10] .

Složení sboru

Zdrojovým materiálem pro SinTagRus byl korpus ruských textů v Uppsale : asi 10 000 vět bylo převzato z textů beletrie. Následně byly do korpusu přidány krátké (do 30 vět) texty převzaté z webových stránek populárních zpravodajských publikací ( yandex.ru , rbc.ru , polit.ru , lenta.ru , strana.ru , news.ru ) [ 2] [11] .

SynTagRus se neustále vyvíjí a od roku 2020 má asi 77 tisíc vět (více než 1,1 milionu slovních použití) [12] převzatých z textů následujících žánrů [13] [8] [14] :

Typy a formát značek

Charakteristickým rysem SynTagRus ve srovnání s jinými anotovanými korpusy ruského jazyka je přítomnost několika úrovní anotace různé hloubky, které lze nezávisle extrahovat z korpusu, a počet těchto úrovní je potenciálně neomezený. Značkovací jazyk korpusu je XML a formát značek je kompatibilní s formalismem TEI s výjimkou některých dodatečně zavedených prvků a atributů [2] . V zásadě se značkování volného textu provádí ve dvou krocích [11] :

  1. Předběžné značkování textu v automatickém režimu pomocí lingvistického procesoru ETAP, což je praktická implementace modelu Meaning-Text .
  2. Kontrola a případně oprava označení odborným lingvistou .

Následuje seznam typů značek dostupných v korpusu.

Rozdělení textu na věty a lexikální jednotky

Každý text v SinTagRus je rozdělen do vět. Každá věta je prvek s názvem S a každý takový prvek má atribut ID , jehož hodnota je pořadové číslo věty v textu. Podobně je každá věta rozdělena na lexikální prvky pojmenované W a každý takový prvek má atribut ID , jehož hodnotou je pořadové číslo slova v této větě [11] . Interpunkční znaménka jsou formátována jako text tagu věty (zachování jejich relativní pozice ve zdrojovém textu) a nejsou vyjádřena vlastními tagy [15] .

Morfologické značení

Morfologická struktura slovního tvaru je název lexému nebo lemmatu , kterému je připisován slovní druh a morfologické charakteristiky , tedy významy odpovídajících morfologických kategorií . Pro odpovídající slovní tvar je lemma hodnotou atributu LEMMA a slovní druh a morfologické charakteristiky dohromady jsou hodnotou atributu FEAT [8] [16] .

Popis morfologického značení [17] Použité slovní druhy Použité morfologické charakteristiky

Syntaktické značení

Syntaktické značení korpusových vět se provádí v rámci závislostní gramatiky : syntaktická struktura je orientovaný strom , jehož uzly jsou slova a každá hrana směřuje od hlavního slova ke slovu služebníka a odpovídá nějakému syntaktickému vztahu . . Slovo odpovídající kořenu stromu se nazývá vrchol věty a na rozdíl od ostatních slov ve větě syntakticky nezávisí na žádném jiném. Syntaktické skupiny jsou uspořádány ve formě podstromů zdrojového stromu: v každém takovém podstromu je jeden z členů skupiny jejím zástupcem ve vnějších vztazích a podřizuje zbývající členy skupiny [18] . Celkem se v SinTagRus rozlišuje asi 70 typů syntaktických vztahů [13] .

Použité syntaktické vztahy [17] Aktantní syntaktické vztahy Atributové syntaktické vztahy Koordinační syntaktické vztahy Syntaktické vztahy služeb

K zaznamenání informací o syntaktické struktuře věty v SynTagRus se používají dva atributy každého slova věty: DOM , jehož hodnota je ID hostitelského slova, a LINK , jehož hodnota je název slova. odpovídající syntaktický vztah [16] . Horní část věty má speciální hodnotu atributu _root DOM [19] .

Lexikálně-sémantické značení

Každému slovnímu tvaru je kromě lemmatu přiřazen atribut KSNAME , jehož hodnotou je název odpovídajícího hesla ve výkladově-kombinatorickém slovníku lingvistického procesoru ETAP. Díky tomu se jednak upřesňuje význam polysémantických a homonymních slov a jednak se navazuje spojení s hesly slovníku, který používá zpracovatel ETAP, a informacemi obsaženými v těchto jsou k dispozici záznamy o sémantických vlastnostech slov [10] .

Lexicofunkční značení

Věty jsou označeny frázemi, které lze interpretovat z hlediska lexikálních funkcí . Pro označení takových frází uvnitř věty jsou další prvky vytvořeny odděleně od samotných slovních tvarů [13] .

Mikrosyntaktické značení

Mikrosyntaktické jednotky v SynTagRus jsou chápány jako frazeologické jednotky se syntaktickou specifitou [20] . Příkladem je platná složená předložka . Na jednu stranu má syntakticky blízko k primitivním předložkám. Nelze totiž mezi prvky této předložky vložit k podstatnému jménu zájmennou definici , jako je tomu u jiných předložkových konstrukcí typu ve tvaru , in case atd. Pokud je navíc osobní zájmeno třetí osoby podmětem k této předložce ve větě pak ve většině případů počáteční n- , jako u primitivních předložek. Na druhou stranu se první část některých párových spojek , stejně jako částice zda nebo , může nacházet mezi platnou předložkou a podstatným jménem, ​​které na ní závisí, což znemožňuje přisoudit tuto předložku primitivům [21] .

Vyskytuje-li se v některé větě korpusu mikrosyntaktická jednotka, pak je přidán nový větný atribut - MICROSYNT , jehož hodnotou je název příslušné mikrosyntaktické jednotky a její lineární hranice [20] .

Anaforické značky

U anaforického zájmena , se kterým se v textu setkáváme , je uveden jeho předchůdce , tedy výraz, ke kterému toto zájmeno odkazuje. Věta, ve které se nachází anaforické zájmeno, má navíc atribut COREF , jehož hodnotou je seznam párů zájmeno-předchůdce odpovídajících danému zájmenu. U každého anaforického zájmena je uvedena jeho lineární poloha ve větě a u předchůdce je navíc navíc uvedeno, ve které větě se vzhledem k uvažovanému nachází (v rámci tří vět v obou směrech) [4] .

Zpracování eliptických struktur

V SynTagRus jsou vynechané fragmenty eliptických vět explicitně obnoveny. Odpovídající obnovený tvar slova je označen stejným způsobem jako jiné tvary slova; z takových „přízračných“ slov se čerpají zejména všechny potřebné syntaktické vazby. Tomuto slovnímu tvaru je přiřazen atribut NODETYPE s hodnotou FANTOM [2] [22] .

Použití těla

SynTagRus se používá v různých oblastech. Na jeho základě je na jedné straně prováděn čistě lingvistický výzkum, teoretický i praktický (zejména v oblasti lexikografie ). Na druhou stranu korpus nachází své uplatnění v úlohách výpočetní lingvistiky jako zdroj lingvistických dat, například při vytváření parserů . Tyto úlohy lze řešit pomocí různých formátů značek. Kombinace několika budov s různým značením do jedné ji zároveň činí reprezentativnější. Tyto okolnosti vedou k problému převodu korpusu [4] .

Došlo k opakovaným pokusům přeložit SynTagRus do jiných značkovacích formátů: jsou známy experimenty s převodem korpusu do formátů HPSG a PDT [13] . Kromě toho byl SynTagRus úspěšně převeden na formáty CoNLL-U [22] , PTB [23] a SD [24] . Konverze se však za prvé ve všech případech týkala pouze morfologických a syntaktických značek a za druhé byla prováděna automaticky, což se stalo překážkou plnohodnotné konverze. Takže například slovní druh NID nemohl být jednoznačně přeložen do formátu CoNLL-U (ve kterém takový slovní druh není) automaticky, takže všechny věty SinTagRus, ve kterých alespoň jeden tvar slova měly takový část řeči byla před konverzí z korpusu vyloučena [22] .

Přístup

SynTagRus je distribuován zdarma pod nekomerční licencí [25] . Verze korpusu bez některých typů značek je navíc k dispozici pro nekomerční použití pro výzkumné a výukové účely jako subkorpus Národního korpusu ruského jazyka a je ve veřejné doméně [13] , stejně jako verze ve formátech CoNLL-U (licence CC BY-NC-SA 4.0 ) [22] a PTB (dostupný pouze konvertor) [23] .

Poznámky

  1. Eric Brill , Raymond J. Mooney. Přehled empirického zpracování přirozeného jazyka  //  Magazín AI. - AAAI, 1997. - Sv. 18 , č. 4 . - str. 13-24 .
  2. 1 2 3 4 5 Boguslavsky I. M. , Grigoriev N. V. , Grigoryeva S. A. , Kreydlin L. G. , Frid N. E. Anotovaný korpus ruských textů: koncept, značkovací nástroje, typy informací  // Sborník Mezinárodní seminář o výpočetních 200ialogue jeho aplikacích ". - Protvino, 2000. Archivováno 31. července 2019.
  3. Reznikova T. I. , Kopotěv M. V. Lingvisticky komentované korpusy ruského jazyka (přehled veřejných zdrojů)  // Národní korpus ruského jazyka: 2003-2005. - M .: Indrik , 2005. - S. 31-61 . Archivováno z originálu 31. července 2019.
  4. 1 2 3 Inshakova E. S. , Iomdin L. L. , Mityushin L. G. , Sizov V. G. , Frolova T. I. , Tsinman L. L. SinTagRus dnes  // Proceedings of the Institute of the Russian Language. V. V. Vinogradová. - M . : "Nestor-History", 2019. - Vydání. 21 . - S. 14-40 . Archivováno 26. března 2020.
  5. Moskvina A. D. , Orlova D. , Panicheva P. V. , Mitrofanova O. A. Vývoj jádra analyzátoru pro ruský jazyk na základě knihoven NLTK  // Sborník příspěvků ze Spojené vědecké konference „Internet a moderní společnost“. - 2016. - S. 44-54 . Archivováno z originálu 10. října 2019.
  6. Kibrik A. E. , Fedorova O. V., Tatevosov S. G. , Lyutikova E. A., Kibrik A. A. , Kobozeva I. M. , Falikman M. V., Chenki A., T. Sekerina I. , Nikolaeva Yu. V., Daniel' M. A., V. Bely Bergelova, M. A., Bely Bergelson. S. Yu., Bonch-Osmolovskaya A. A. , Podlesskaya V. I. , Krivnova O. F. Corpus linguistics // Úvod do vědy o jazyce / ed. O. V. Fedorová a S. G. Tatevosov. - M. : Buki Vedi, 2019. - S. 420. - 672 s. — ISBN 978-5-4465-2188-3 .
  7. Sichinava D.V. Národní korpus ruského jazyka: přehled pravěku  // Národní korpus ruského jazyka: 2003-2005. - M. : Indrik, 2005. - S. 21-30 . Archivováno z originálu 31. července 2019.
  8. 1 2 3 Apresyan Yu. D. , Boguslavsky I. M. , Iomdin B. L. , Iomdin L. L. , Sannikov A. V. , Sannikov V. Z. , Sizov V. G. , Tsinman L. L. Syntakticky a sémanticky komentovaný korpus  / aktuální státní a prospekt ruského jazyka Ruský jazyk: 2003-2005. - M .: Indrik, 2005. - S. 193-214 . Archivováno z originálu 31. července 2019.
  9. Zakharov V.P. , Bogdanova S.Yu. Korpusová lingvistika . - 3. vyd., revidováno. - Petrohrad. : St. Petersburg University Press, 2020. - S. 47. - 234 s. - ISBN 978-5-288-05997-1 .
  10. 1 2 Apresyan Yu. D. , Iomdin L. L. , Sannikov A. V. , Sizov V. G. Sémantické značení v hluboce anotovaném korpusu ruského jazyka  // Sborník z mezinárodní konference "Corpus Linguistics-2004". - Petrohrad. : St. Petersburg State University, 2004. - S. 41-54 . Archivováno z originálu 31. července 2019.
  11. 1 2 3 Boguslavsky I. M. , Grigoriev N. V. , Iomdin L. L. , Kreydlin L. G. , Frid N. E. , Chardin I. S. Vývoj syntakticky označeného korpusu ruského jazyka  // Zprávy z vědecké konference „Korpusová lingvistika a lingvistika“. - Petrohrad. : St. Petersburg State University, 2002. - S. 40-50 . Archivováno z originálu 31. července 2019.
  12. Korpusová lingvistika . Laboratoř počítačové lingvistiky IPTP RAS (11. února 2020). Staženo 12. února 2020. Archivováno z originálu dne 22. února 2020.
  13. 1 2 3 4 5 Dyachenko P. V. , Iomdin L. L. , Lazursky A. V. , Mityushin L. G. , Podlesskaya O. Yu. , Sizov V. G. , Frolova T. I. , Tsinman L L. Současný stav korpusu Tsinman L. L. )  // Sborník "Národní korpus ruského jazyka: 10 let projektu." - M . : Sborník Ústavu ruského jazyka. V. V. Vinogradova, 2015. - Vydání. 6 . - S. 272-299 . Archivováno z originálu 31. července 2019.
  14. Boguslavsky I. , Iomdin L. , Sizov V. , Tsinman L. , Petrochenkov V. Pravidlový analyzátor závislostí zpřesněný empirickou korpusovou statistikou  //  Sborník příspěvků z Mezinárodní konference o závislostní lingvistice. - 2011. - S. 318-327 . Archivováno z originálu 31. července 2019.
  15. Droganova K. , Lyashevskaya O. , Zeman D. Konverze dat a konzistence jednojazyčných korpusů: Russian UD treebanks  (anglicky)  // Proceedings of the 17th International Workshop on Treebanks and Linguistic Theories (TLT 2018). - Univerzita v Oslo, Norsko: Linköping University Electronic Press, 2018. - S. 52-65 . Archivováno 19. března 2020.
  16. 1 2 Igor Boguslavskij , Ivan Chardin , Světlana Grigorjeva , Nikolaj Grigorjev , Leonid Iomdin , Leonid Kreydlin , Naděžda Frid. Vývoj stromové banky závislostí pro ruštinu a její možné aplikace v NLP  (angličtina)  // Sborník příspěvků ze třetí mezinárodní konference o jazykových zdrojích a hodnocení (LREC-2002). — Las Palmas, 2002. — Sv. III . - S. 852-856 . Archivováno z originálu 10. srpna 2017.
  17. 1 2 Syntakticky označený korpus ruského jazyka: informace pro uživatele . Národní korpus ruského jazyka . Získáno 29. března 2020. Archivováno z originálu dne 25. března 2020.
  18. Apresyan Y. D. , Boguslavsky I. M. , Iomdin L. L. , Lazursky A. V. , Mityushin L. G. , Sannikov V. Z. , Tsinman L. L. Lingvistický procesor pro komplexní informační systémy. - M .: Science , 1992. - S. 32-40, 56-73. — 256 s.
  19. Leonid Iomdin , Victor Sizov. Structure Editor: Výkonné prostředí pro tagované korporace  //  Výzkumná infrastruktura pro digitální lexikografii. - Lublaň: Institut Jožefa Stefana, 2009. - S. 1-12 .
  20. 1 2 Iomdin L. L. Mikrosyntaktický markup v korpusu ruských textů  // Sborník příspěvků z mezinárodní vědecké konference "Corpus Linguistics - 2017". - Petrohrad. : St. Petersburg State University, 2017. - S. 188-194 . Archivováno z originálu 20. listopadu 2021.
  21. Iomdin L. L. V hlubinách mikrosyntaxe: jedna lexikální třída syntaktických frází  // Počítačová lingvistika a inteligentní technologie. - M .: RGGU, 2008. - S. 178-184 . Archivováno z originálu 29. srpna 2019.
  22. 1 2 3 4 Droganova K. , Zeman D. Konverze SynTagRus (ruská stromová banka závislostí) na Universal Dependencies  (anglicky)  // Technická zpráva. — Ústav formální a aplikované lingvistiky, Matematicko-fyzikální fakulta UK, 2016. Archivováno z originálu 8. června 2021.
  23. 1 2 Luu A. , Malamud SA , Xue N. Převod stromové banky závislostí SynTagRus na styl stromové banky Penn  //  Sborník z 10. workshopu lingvistické anotace konaného ve spojení s ACL 2016 (LAW-X 2016). - 2016. - S. 16-21 . Archivováno z originálu 27. února 2019.
  24. Lipenkova J. , Souček M. Converting Russian Dependency treebank to Stanford typed Dependencies Representatives  (anglicky)  // Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics. - 2014. - Sv. 2 . - S. 143-147 . Archivováno z originálu 8. června 2018.
  25. Ljaševskaja O. N. Korpusové nástroje v gramatických studiích ruského jazyka. - M . : Nakladatelství YASK, 2016. - S. 193. - 520 s.

Odkazy