Obecný internetový korpus ruského jazyka | |
---|---|
URL | webcorpora.ru |
Komerční | Ne |
Typ webu | vzdělávací/vědecký projekt |
Registrace | ano : vyžadováno pro přístup k vyhledávání |
jazyky) | ruština |
Umístění serveru | Rusko |
Začátek práce | rok 2012 |
Aktuální stav | funguje a rozvíjí se |
Obecný internetový korpus ruského jazyka (GIKRYA) je prohledávatelný elektronický online korpus ruských textů z internetu. Otevřeno v roce 2013 . Korpus obsahuje textové materiály z blogosféry , sociálních sítí , z největších zpravodajských zdrojů az literárních časopisů .
Projekt má status vzdělávací a vědecký a mnoho problémů počítačové lingvistiky je řešeno nezávislými výzkumníky a vědeckými skupinami na základě materiálů obdržených GICR. Zatímco jiné korpusové projekty se zaměřují na beletrii a upravené texty, General Internet Corpus poskytuje ruským lingvistům včasnou [1] příležitost studovat jazyk takový, jaký je, se všemi regionálními a slangovými rysy.
Tělo umožňuje:
V různých dobách prováděli výzkum a nezávislý výzkum materiálu projektu studenti, postgraduální studenti a zaměstnanci Moskevské státní univerzity , Moskevského fyzikálního a technologického institutu , Ruské státní univerzity pro humanitní studia , Novosibirské státní univerzity , Národní výzkumné univerzity. Vyšší ekonomická škola , Ústav jaderného výzkumu, Ruská akademie věd , Jižní federální univerzita , ChSU , VGPU , ISAA MSU .
Vědečtí školitelé projektu:
Na vzniku a podpoře projektu se podíleli tito lidé:
Objem korpusu za léto 2016 je 19,8 miliardy slov, z nichž 49 % je na Vkontakte , 40 % na LiveJournal , další 4 % na [email protected] a News a 2 % na Journal hall [4] . Segment Zprávy obsahuje materiály ze zdrojů: RIA Novosti , Regnum , Lenta.ru , Rosbalt . Texty jsou opatřeny metaznačkou (podle data vytvoření textu, pohlaví, místa a roku narození autora, žánru internetu atd.); všechny texty jsou vybaveny automatickým morfologickým značením a lemmatizovány [4] . Většina textů je vytvořena hesly pro roky 2013-2014 , i když některé segmenty, např. v Síni žurnálu, obsahují texty od roku 1994 [5] .
Subcorpus | Slova, milion | texty |
[email protected] | 707 | 9882120 |
V kontaktu s | 9820 | 193770717 |
Livejournal | 8110 | 73229158 |
časopisová místnost | 313 | 56547 |
Zpravodajský subkorpus ( RIA Novosti , Regnum , Lenta.ru , Rosbalt ) | 851 | 2964897 |
Celé tělo | 19801 | 279903439 |
GICR je jedním z mála megakorpusů, které dosahují několika miliard slov.
Rám | Jazyky | Přístup | webová stránka | Hlasitost | Schopnosti |
---|---|---|---|---|---|
COW: Zdarma, velké webové korporace v evropských jazycích | Angličtina , francouzština , němčina , španělština , švédština , holandština | zdarma, po registraci je možný zkušební přístup bez registrace | https://web.archive.org/web/20160221212019/https://webcorpora.org/ | asi 30 miliard slov | Formát KWIC, morph markup, CQP vyhledávání, značkování a vyhledávání podle data, URL , země, města atd. |
skicovací motor | angličtina , francouzština , němčina , italština , arabština , ruština , španělština , portugalština , korejština , japonština , čínština ; více jazyků k dispozici za poplatek | za poplatek je po registraci možný zkušební přístup | https://www.sketchengine.co.uk/ | 86 miliard slov | konkordance, náčrt gramatiky, tezaury , KWIC, morpho-tagging, CQP vyhledávání |
Aranea Corpora | angličtina , ruština , finština , francouzština , němčina , maďarština , španělština , italština , holandština , polština , slovenština | zdarma, po registraci je možný zkušební přístup bez registrace | http://sketch.juls.savba.sk/aranea_about/ | asi 14 miliard slov | noSketch Engine, konkordance, gramatika skic, KWIC, morpho markup, vyhledávání CQP, porovnání výsledků dotazů v různých jazycích |
GIKRYA Obecný internetový korpus ruského jazyka | ruština | zdarma, registrace na vyžádání | http://www.webcorpora.ru/ | 20 miliard slov | Formát KWIC, morpho-markup, konkordance, vyhledávání CQP, označení a vyhledávání podle data, země, města, segmentu runet , pohlaví, roku a místa narození autora, zasílání výsledků uživateli mezi sebou |
KORPUS GLOBÁLNÍ WEBU ANGLICKY (GloWbE) | angličtina , specifikace 20 zemí | bez registrace | http://corpus.byu.edu/glowbe/ | 1,9 miliardy slov | KWIC, konkordance, kolokaty , porovnání výsledků podle dialektů , CQP, celý korpus ke stažení |
Rozhraní korpusu je v současné době ve fázi beta testování , takže přístup k vyhledávání korpusů je poskytován a je zdarma, na vyžádání.
Korpusová lingvistika | |
---|---|
Anglické korpusy |
|
ruskojazyčné korpusy |
|
Korpusy v jiných jazycích |
|
Organizace |