Psaný korpus tatarštiny | |
---|---|
URL | korpus.tatar |
Typ webu | korpus textů |
jazyky) | tatarský/ruský/anglický |
Umístění serveru | Tatarstán |
Autor | Sayhunov M.R., Ibragimov T.I., Khusainov R.R. |
Začátek práce | 2011 |
Aktuální stav | Funguje a vyvíjí se |
Psaný korpus tatarštiny je elektronický korpus tatarštiny, dostupný pro online použití. Korpus je určen pro zájemce o systém, stav a perspektivu tatarštiny. Je nezbytný pro lingvisty studující tatarský jazyk v rámci korpusové lingvistiky.
Stránky byly otevřeny 15. března 2012. Aktuální adresa je http://corpus.tatar Archivováno 26. dubna 2016 na Wayback Machine .
K dispozici v tatarštině, ruštině a angličtině.
Od konce roku 2014 má objem korpusu více než 116 milionů slov, která tvoří více než 10 milionů vět, počet různých slovních tvarů se blíží 1,5
milionu.Texty v korpusu jsou ukládány jako samostatné věty, aby bylo možné zabránit jejich kopírování.
Přístup k užívání budovy je zdarma.
Tvorba pouzdra začala v roce 2010 skupinou nadšenců. Bylo to diktováno potřebou vyvinout systém pro strojový překlad textů z tatarštiny do cizího jazyka a naopak a také systém pro automatickou syntézu a rozpoznávání tatarské řeči na určité téma.
Korpus mohou využít lingvisté studující tatarský jazyk v rámci korpusové lingvistiky, dále při výuce jazyka a jako reference při sestavování různých dokumentů.
Korpus umožňuje zobrazit kontext, určit četnost výskytů a najít slova s požadovanými vlastnostmi.
Tento typ vyhledávání Archived 26. dubna 2016 na Wayback Machine umožňuje zobrazit pravý, levý a sémantický kontext hledaného slova seřazeného podle frekvence.
Správný kontext – slova umístěná bezprostředně za aktuálním slovem.
Levý kontext jsou slova bezprostředně před aktuálním slovem.
Sémantický kontext - slova, která se nacházejí ve stejné větě s aktuálním slovem, to znamená, že s ním do té či oné míry mají sémantickou souvislost.
V roce 2014 bylo provedeno morfologické značení Sboru. Metajazyk gramatických značek je založen na systému „tagů“ pro turkické jazyky, vyvinutém mezinárodním projektem Apertium Archived 14. dubna 2016 na Wayback Machine . V rámci tohoto projektu vzniká systém strojového překladu pro velké množství jazyků. Hlavní argumenty ve prospěch výběru morfologického taggeru Apertia pro označení písemného korpusu jsou:
— vysoká kvalita morfologické anotace;
- absolutní otevřenost tohoto projektu: všechny zdrojové kódy a vývoj jsou veřejně dostupné všem zdarma. Komplexní morfologický vyhledávací systém
vyvinutý námi v letech 2015-2016 Archivováno 26. dubna 2016 na Wayback Machine vám umožňuje prohledávat korpus na základě různých kombinací takových parametrů, jako je tvar slova, lemma, sada morfologických (gramatických) značek, začátek, střed, konec slova s uvedením možných vzdáleností mezi lexémy.
Na stránkách Psaného korpusu tatarského jazyka je možné si poslechnout jak nalezené věty, tak i volný text Archivováno 26. dubna 2016 na Wayback Machine .
Webová stránka Corpus hostí různá statistická data Archivní kopie ze dne 26. dubna 2016 na Wayback Machine , kterou autoři obdrží při zpracování dat.
Tvůrci korpusu jsou:
Asistence: