Strojový fond ruského jazyka
Strojový fond ruského jazyka je projektem vytvoření velkého reprezentativního korpusu ruského jazyka. Zkušenosti MFRL se od roku 2004 využívají při vývoji Národního korpusu ruského jazyka .
Program pro vytvoření MFRN
Oddělení strojového fondu ruského jazyka bylo založeno v roce 1985 z iniciativy akademika A.P. Ershova po zvláštní celounijní konferenci konané v roce 1983 [ 1] Pod vedením člena korespondenta Akademie věd SSSR Yu.N. vědecký výzkum a aplikovaný vývoj na vytvoření Strojového fondu ruského jazyka na léta 1996-2000 a informatizaci výzkumu.
Na vytvoření Strojového fondu ruského jazyka (1986-1990) se podílelo více než 40 spolupracujících organizací, mezi nimi moskevské , Leningradské , Charkovské , Grodno , Syktyvkarské a Saratovské univerzity.
Komplexní informatizace vědeckého výzkumu a aplikovaného vývoje v ruských studiích byla chápána jako:
- Důsledné vybavování pracovišť Ústavu ruského jazyka a spolupracujících organizací moderními počítači s perspektivou jejich spojení do lokální sítě (nedokončeno)
- Důsledná akumulace na strojových médiích a v databázích hlavních zdrojů nezbytných jak pro vědecké studium ruského jazyka, tak pro realizaci aplikovaného vývoje (částečně dokončeno)
- Vytvoření softwarových nástrojů nezbytných jak pro přípravu vědeckých prací ve filologii, tak pro aplikovaný výzkum (vyvinuty 2 programy MS-DOS a převedeno několik slovníků do elektronické podoby);
- Rozvoj aplikovaných oblastí (lexikografie, terminologie, automatické zpracování dat v přirozeném jazyce) jako nedílné součásti akademické rusistiky, které jsou na jedné straně dirigentem výsledků základního výzkumu do praxe, na straně druhé zdroj nových nápadů a dat pro základní vědu (program nebyl realizován).
Realizace programu (1985-1992)
Za 8 let práce oddělení strojního fondu ruského jazyka (částečně za účasti spoluvykonavatelů) provedlo:
- Vývoj koncepce a architektury Strojového fondu ruského jazyka [2]
- Vývoj konceptu terminologické databanky [3]
- Nahromadění značného množství pramenů - textové prameny ruské literatury 19.-20. století, hlavní slovníky ruského jazyka, Brief Academic Grammar, některé další referenční materiály byly nashromážděny na strojových médiích a částečně v databázích, textové korpusy poezie, beletrie, sociálně-politické a technické texty [4]
- Vývoj dvou programů pod MS-DOS :
— UNILEX-T pro vytváření frekvenčních slovníků, rejstříků slov (rejstříky slov k textům) a
konkordancí a práci s nimi
[5]
- UNILEX-D pro vytváření a práci se slovníkovými databázemi.
[6]
- Vývoj zdrojových softwarových balíků (jejich vývoj byl zastaven), např.
Automatický slovník syntaxe ruského jazyka
Automatický slovník ruských synonym
Automatická verze
Slovníku ruského jazyka od S. I. Ožegova
Automatický slovník ovládání sloves v ruštině.
[7]
Činnost odboru ministerstva financí ruského jazyka (1992-1998)
Kompletní testování systémů pro zpracování lingvistických dat UNILEX prostřednictvím účasti na přípravě Pravopisného slovníku a Slovníku poezie 20. století.
Zrychlená akumulace nových zdrojů založených na elektronických vydáních novin a skenování děl ruské klasické literatury. Kompletní archiv zdrojů Strojového fondu ruského jazyka nyní obsahuje více než 100 milionů slovních použití;
Práce na slovníku jazyka F. M. Dostojevského [8] .
Akumulace pramenů za účelem široké distribučně-statistické studie ruské prózy poslední třetiny 19. století. a noviny konce 20. století.
Akumulace a analýza distributivně-statistických dat, příprava publikací souhrnných dat [9] .
Analýza aktivit pro rozvoj MF ruského jazyka
Koncepce rozvoje MF ruského jazyka (1983)
- tvorba komponent jazykové podpory pro úlohy informatiky a
- informatizace vědeckého výzkumu v rusistice.
Moderní úkoly vytváření MFRN
- distribučně-statistická analýza a akumulace jazykových zdrojů na internetu
- hromadění zdrojů na webových stránkách nadace
- další rozvoj funkcí Automatického slovníku fondu
- vybudování globálního lingvistického zpracování všech textových zdrojů Fondu v interaktivním režimu [10] .
Viz také
Poznámky
- ↑ Materiály publikované v knize: Machine Fund of the Russian Language: Ideas and Judgments, M .: Nauka , 1989
- ↑ Publikováno v knize V. M. Andrjuščenka Koncepce a architektura strojového fondu ruského jazyka, M .: 1989
- ↑ Publikováno v knize Lingvistická koncepce terminologické databanky Strojového fondu ruského jazyka (projekt), ed. A. S. Gerda, M.: 1989
- ↑ obsah Archivu pramenů byl publikován ve Věstníku strojního fondu ruského jazyka, sv. jeden; je nyní velmi zastaralý a současný stav archivu nejlépe odráží zde: [ 1] Archivováno 13. září 2007 na Wayback Machine Wayback Machine
- ↑ Vývojář Zh. G. Anoshkina
- ↑ Vývojář L. I. Kolodyazhnaya
- ↑ Popisy ve Věstníku strojního fondu ruského jazyka, sv. 1-3).
- ↑ pod vedením Yu. N. Karaulova
- ↑ prvním výsledkem takové publikace je kniha A. Ya. Shaikevich, V. M. Andryushchenko a N. A. Rebetskaya „Statistický slovník jazyka F. M. Dostojevského“
- ↑ příklad takového zpracování je uveden ve Statistickém slovníku jazyka Dostojevského). V. M. Andrjuščenko
Literatura
- Ershov A.P. Strojový fond ruského jazyka: vnější prostředí // Strojový fond ruského jazyka: nápady a soudy. M.: Nauka , 1986 .
- Andryushchenko V. M. Koncepce a architektura Strojového fondu ruského jazyka. M.: Nauka, 1989 .
- Andrjuščenko V. M. Vývoj kombinovaných vydání (kniha + CD + Internet) // Moscow Linguistic Journal, vol. 7 No. 1, 2003 .
- Shaikevich A. Ya. Distributivně-statistická analýza v sémantice // Principy a metody sémantického výzkumu. Moskva: Nauka, 1976.
- Shaikevich A. Ya. Hypotézy o přirozených třídách a možnosti kvantitativní taxonomie v lingvistice // Hypotéza v moderní lingvistice. M.: Nauka, 1979 .
- Shaikevich A. Ya., Andryushchenko V. M., Rebetskaya N. A. Statistical Dictionary of Dostojevsky's Language. M.: Jazyky slovanské kultury, 2003 .
Odkazy