Obecný internetový korpus ruského jazyka

Obecný internetový korpus ruského jazyka
URL webcorpora.ru
Komerční Ne
Typ webu vzdělávací/vědecký projekt
Registrace ano : vyžadováno pro přístup k vyhledávání
jazyky) ruština
Umístění serveru Rusko
Začátek práce rok 2012
Aktuální stav funguje a rozvíjí se

Obecný internetový korpus ruského jazyka (GIKRYA)  je prohledávatelný elektronický online korpus ruských textů z internetu. Otevřeno v roce 2013 . Korpus obsahuje textové materiály z blogosféry , sociálních sítí , z největších zpravodajských zdrojů az literárních časopisů .

Cíle projektu

Projekt má status vzdělávací a vědecký a mnoho problémů počítačové lingvistiky je řešeno nezávislými výzkumníky a vědeckými skupinami na základě materiálů obdržených GICR. Zatímco jiné korpusové projekty se zaměřují na beletrii a upravené texty, General Internet Corpus poskytuje ruským lingvistům včasnou [1] příležitost studovat jazyk takový, jaký je, se všemi regionálními a slangovými rysy.

Tělo umožňuje:

V různých dobách prováděli výzkum a nezávislý výzkum materiálu projektu studenti, postgraduální studenti a zaměstnanci Moskevské státní univerzity , Moskevského fyzikálního a technologického institutu , Ruské státní univerzity pro humanitní studia , Novosibirské státní univerzity , Národní výzkumné univerzity. Vyšší ekonomická škola , Ústav jaderného výzkumu, Ruská akademie věd , Jižní federální univerzita , ChSU , VGPU , ISAA MSU .

Vědečtí školitelé projektu:

Na vzniku a podpoře projektu se podíleli tito lidé:

Objem a složení těla

Objem korpusu za léto 2016 je 19,8 miliardy slov, z nichž 49 % je na Vkontakte , 40 % na LiveJournal , další 4 % na [email protected] a News a 2 % na Journal hall [4] . Segment Zprávy obsahuje materiály ze zdrojů: RIA Novosti , Regnum , Lenta.ru , Rosbalt . Texty jsou opatřeny metaznačkou (podle data vytvoření textu, pohlaví, místa a roku narození autora, žánru internetu atd.); všechny texty jsou vybaveny automatickým morfologickým značením a lemmatizovány [4] . Většina textů je vytvořena hesly pro roky 2013-2014 , i když některé segmenty, např. v Síni žurnálu, obsahují texty od roku 1994 [5] .

Subcorpus Slova, milion texty
[email protected] 707 9882120
V kontaktu s 9820 193770717
Livejournal 8110 73229158
časopisová místnost 313 56547
Zpravodajský subkorpus ( RIA Novosti , Regnum , Lenta.ru , Rosbalt ) 851 2964897
Celé tělo 19801 279903439

GICR je jedním z mála megakorpusů, které dosahují několika miliard slov.

Rám Jazyky Přístup webová stránka Hlasitost Schopnosti
COW: Zdarma, velké webové korporace v evropských jazycích Angličtina , francouzština , němčina , španělština , švédština , holandština zdarma, po registraci je možný zkušební přístup bez registrace https://web.archive.org/web/20160221212019/https://webcorpora.org/ asi 30 miliard slov Formát KWIC, morph markup, CQP vyhledávání, značkování a vyhledávání podle data, URL , země, města atd.
skicovací motor angličtina , francouzština , němčina , italština , arabština , ruština , španělština , portugalština , korejština , japonština , čínština ; více jazyků k dispozici za poplatek za poplatek je po registraci možný zkušební přístup https://www.sketchengine.co.uk/ 86 miliard slov konkordance, náčrt gramatiky, tezaury , KWIC, morpho-tagging, CQP vyhledávání
Aranea Corpora angličtina , ruština , finština , francouzština , němčina , maďarština , španělština , italština , holandština , polština , slovenština zdarma, po registraci je možný zkušební přístup bez registrace http://sketch.juls.savba.sk/aranea_about/ asi 14 miliard slov noSketch Engine, konkordance, gramatika skic, KWIC, morpho markup, vyhledávání CQP, porovnání výsledků dotazů v různých jazycích
GIKRYA Obecný internetový korpus ruského jazyka ruština zdarma, registrace na vyžádání http://www.webcorpora.ru/ 20 miliard slov Formát KWIC, morpho-markup, konkordance, vyhledávání CQP, označení a vyhledávání podle data, země, města, segmentu runet , pohlaví, roku a místa narození autora, zasílání výsledků uživateli mezi sebou
KORPUS GLOBÁLNÍ WEBU ANGLICKY (GloWbE) angličtina , specifikace 20 zemí bez registrace http://corpus.byu.edu/glowbe/ 1,9 miliardy slov KWIC, konkordance, kolokaty , porovnání výsledků podle dialektů , CQP, celý korpus ke stažení

Přístup

Rozhraní korpusu je v současné době ve fázi beta testování , takže přístup k vyhledávání korpusů je poskytován a je zdarma, na vyžádání.

Viz také

Poznámky

  1. VLADIMÍR BELÍKOV . Získáno 26. prosince 2019. Archivováno z originálu 16. listopadu 2019.
  2. Automatická klasifikace webových textů pomocí funkčních rozměrů textu . Získáno 8. června 2016. Archivováno z originálu 26. června 2016.
  3. Tým | GIKRYA . Získáno 26. prosince 2019. Archivováno z originálu 5. ledna 2020.
  4. 1 2 sbor | GIKRYA . Získáno 26. prosince 2019. Archivováno z originálu 3. prosince 2019.
  5. #geekrya #geekrya_stats Za co.. | GIKRYA Obecný internetový korpus ruského jazyka | VK

Literatura

Odkazy