Obecný internetový korpus ruského jazyka

Obecný internetový korpus ruského jazyka
URL	webcorpora.ru
Komerční	Ne
Typ webu	vzdělávací/vědecký projekt
Registrace	ano : vyžadováno pro přístup k vyhledávání
jazyky)	ruština
Umístění serveru	Rusko
Začátek práce	rok 2012
Aktuální stav	funguje a rozvíjí se

Obecný internetový korpus ruského jazyka (GIKRYA) je prohledávatelný elektronický online korpus ruských textů z internetu. Otevřeno v roce 2013 . Korpus obsahuje textové materiály z blogosféry , sociálních sítí , z největších zpravodajských zdrojů az literárních časopisů .

Cíle projektu

Projekt má status vzdělávací a vědecký a mnoho problémů počítačové lingvistiky je řešeno nezávislými výzkumníky a vědeckými skupinami na základě materiálů obdržených GICR. Zatímco jiné korpusové projekty se zaměřují na beletrii a upravené texty, General Internet Corpus poskytuje ruským lingvistům včasnou [1] příležitost studovat jazyk takový, jaký je, se všemi regionálními a slangovými rysy.

Tělo umožňuje:

Lingvistická studia širokého spektra: dialektologická studia, studium distribuce slov, studium jazyka sociálních sítí , studium vlivu pohlaví , věku a dalších faktorů na jazyk , frekvence slov, množiny výrazů a různé konstrukce, stylistické rysy textů různých segmentů internetu atd.;
Analýza sociálních médií ;
Strojové učení založené na korpusu [2] , zdokonalující algoritmy automatického označování.

V různých dobách prováděli výzkum a nezávislý výzkum materiálu projektu studenti, postgraduální studenti a zaměstnanci Moskevské státní univerzity , Moskevského fyzikálního a technologického institutu , Ruské státní univerzity pro humanitní studia , Novosibirské státní univerzity , Národní výzkumné univerzity. Vyšší ekonomická škola , Ústav jaderného výzkumu, Ruská akademie věd , Jižní federální univerzita , ChSU , VGPU , ISAA MSU .

Vědečtí školitelé projektu:

Belikov V. I. - Moskevská státní univerzita , Ruská státní humanitní univerzita , Moskva , Rusko ;
Selegey V.P. - Ruská státní univerzita pro humanitní vědy ; MIPT ; ABBYY , Moskva , Rusko ;
Sharov SA – Ruská státní univerzita humanitních věd , Moskva , Rusko ; University of Leeds , UK [3] .

Na vzniku a podpoře projektu se podíleli tito lidé:

Objem a složení těla

Objem korpusu za léto 2016 je 19,8 miliardy slov, z nichž 49 % je na Vkontakte , 40 % na LiveJournal , další 4 % na [email protected] a News a 2 % na Journal hall [4] . Segment Zprávy obsahuje materiály ze zdrojů: RIA Novosti , Regnum , Lenta.ru , Rosbalt . Texty jsou opatřeny metaznačkou (podle data vytvoření textu, pohlaví, místa a roku narození autora, žánru internetu atd.); všechny texty jsou vybaveny automatickým morfologickým značením a lemmatizovány [4] . Většina textů je vytvořena hesly pro roky 2013-2014 , i když některé segmenty, např. v Síni žurnálu, obsahují texty od roku 1994 [5] .

Subcorpus	Slova, milion	texty
[email protected]	707	9882120
V kontaktu s	9820	193770717
Livejournal	8110	73229158
časopisová místnost	313	56547
Zpravodajský subkorpus ( RIA Novosti , Regnum , Lenta.ru , Rosbalt )	851	2964897
Celé tělo	19801	279903439

GICR je jedním z mála megakorpusů, které dosahují několika miliard slov.

Rám	Jazyky	Přístup	webová stránka	Hlasitost	Schopnosti
COW: Zdarma, velké webové korporace v evropských jazycích	Angličtina , francouzština , němčina , španělština , švédština , holandština	zdarma, po registraci je možný zkušební přístup bez registrace	https://web.archive.org/web/20160221212019/https://webcorpora.org/	asi 30 miliard slov	Formát KWIC, morph markup, CQP vyhledávání, značkování a vyhledávání podle data, URL , země, města atd.
skicovací motor	angličtina , francouzština , němčina , italština , arabština , ruština , španělština , portugalština , korejština , japonština , čínština ; více jazyků k dispozici za poplatek	za poplatek je po registraci možný zkušební přístup	https://www.sketchengine.co.uk/	86 miliard slov	konkordance, náčrt gramatiky, tezaury , KWIC, morpho-tagging, CQP vyhledávání
Aranea Corpora	angličtina , ruština , finština , francouzština , němčina , maďarština , španělština , italština , holandština , polština , slovenština	zdarma, po registraci je možný zkušební přístup bez registrace	http://sketch.juls.savba.sk/aranea_about/	asi 14 miliard slov	noSketch Engine, konkordance, gramatika skic, KWIC, morpho markup, vyhledávání CQP, porovnání výsledků dotazů v různých jazycích
GIKRYA Obecný internetový korpus ruského jazyka	ruština	zdarma, registrace na vyžádání	http://www.webcorpora.ru/	20 miliard slov	Formát KWIC, morpho-markup, konkordance, vyhledávání CQP, označení a vyhledávání podle data, země, města, segmentu runet , pohlaví, roku a místa narození autora, zasílání výsledků uživateli mezi sebou
KORPUS GLOBÁLNÍ WEBU ANGLICKY (GloWbE)	angličtina , specifikace 20 zemí	bez registrace	http://corpus.byu.edu/glowbe/	1,9 miliardy slov	KWIC, konkordance, kolokaty , porovnání výsledků podle dialektů , CQP, celý korpus ke stažení

Přístup

Rozhraní korpusu je v současné době ve fázi beta testování , takže přístup k vyhledávání korpusů je poskytován a je zdarma, na vyžádání.

Viz také

Poznámky

↑ VLADIMÍR BELÍKOV . Získáno 26. prosince 2019. Archivováno z originálu 16. listopadu 2019. (Ruština)
↑ Automatická klasifikace webových textů pomocí funkčních rozměrů textu . Získáno 8. června 2016. Archivováno z originálu 26. června 2016. (neurčitý)
↑ Tým | GIKRYA . Získáno 26. prosince 2019. Archivováno z originálu 5. ledna 2020. (Ruština)
↑ 1 2 sbor | GIKRYA . Získáno 26. prosince 2019. Archivováno z originálu 3. prosince 2019. (Ruština)
↑ #geekrya #geekrya_stats Za co.. | GIKRYA Obecný internetový korpus ruského jazyka | VK

Literatura

Odkazy

Oficiální stránky GIKRYA

Korpusová lingvistika
Anglické korpusy	Národní korpus americké angličtiny Bank of English Bergen Corpus of London Teenage Language britský národní sbor Hnědý korpus Korpus Buckeye Cambridge English Corpus Korpus moderní americké angličtiny Korpus Enron Mezinárodní korpus angličtiny Korpus Lancaster-Oslo-Bergen Oxfordský anglický korpus Prop Bank Mluvený anglický korpus ČAS VerbNet Wellingtonův korpus mluvené novozélandské angličtiny
ruskojazyčné korpusy	Obecný internetový korpus ruského jazyka Ruský národní korpus Otevřený korpus ruského jazyka SinTagRus Tübingenský korpus ruského jazyka Uppsalský korpus ruských textů Helsinský anotovaný korpus ruského jazyka
Korpusy v jiných jazycích	Korpus Bijankhan DĚTI Korpus chorvatštiny Chorvatský národní korpus Europarl Corpus Mannheimský korpus německy Sbor Hamshahri Polský národní korpus Projekt novoasyrského textového korpusu Koranický korpus Skotský národní korpus Slovinský národní korpus mluvit banka Tatoeba Teheránský jednojazyčný korpus Tekstaro de Esperanto Thesaurus Linguae Graecae
Organizace	Konsorcium BNC COBUILD