Psaný korpus tatarštiny

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 25. prosince 2017; kontroly vyžadují 2 úpravy .
Psaný korpus tatarštiny
URL korpus.tatar
Typ webu korpus textů
jazyky) tatarský/ruský/anglický
Umístění serveru Tatarstán
Autor Sayhunov M.R., Ibragimov T.I., Khusainov R.R.
Začátek práce 2011
Aktuální stav Funguje a vyvíjí se

Psaný korpus tatarštiny  je elektronický korpus tatarštiny, dostupný pro online použití. Korpus je určen pro zájemce o systém, stav a perspektivu tatarštiny. Je nezbytný pro lingvisty studující tatarský jazyk v rámci korpusové lingvistiky.
Stránky byly otevřeny 15. března 2012. Aktuální adresa je http://corpus.tatar Archivováno 26. dubna 2016 na Wayback Machine .
K dispozici v tatarštině, ruštině a angličtině.

Objem trupu

Od konce roku 2014 má objem korpusu více než 116 milionů slov, která tvoří více než 10 milionů vět, počet různých slovních tvarů se blíží 1,5
milionu.Texty v korpusu jsou ukládány jako samostatné věty, aby bylo možné zabránit jejich kopírování.

Přístup

Přístup k užívání budovy je zdarma.

O budování sboru

Tvorba pouzdra začala v roce 2010 skupinou nadšenců. Bylo to diktováno potřebou vyvinout systém pro strojový překlad textů z tatarštiny do cizího jazyka a naopak a také systém pro automatickou syntézu a rozpoznávání tatarské řeči na určité téma.

Praktický význam a možnosti použití

Korpus mohou využít lingvisté studující tatarský jazyk v rámci korpusové lingvistiky, dále při výuce jazyka a jako reference při sestavování různých dokumentů.
Korpus umožňuje zobrazit kontext, určit četnost výskytů a najít slova s ​​požadovanými vlastnostmi.

Kontextové statistické vyhledávání

Tento typ vyhledávání Archived 26. dubna 2016 na Wayback Machine umožňuje zobrazit pravý, levý a sémantický kontext hledaného slova seřazeného podle frekvence.
Správný kontext – slova umístěná bezprostředně za aktuálním slovem.
Levý kontext jsou slova bezprostředně před aktuálním slovem.
Sémantický kontext - slova, která se nacházejí ve stejné větě s aktuálním slovem, to znamená, že s ním do té či oné míry mají sémantickou souvislost.

Komplexní morfologické vyhledávání

V roce 2014 bylo provedeno morfologické značení Sboru. Metajazyk gramatických značek je založen na systému „tagů“ pro turkické jazyky, vyvinutém mezinárodním projektem Apertium Archived 14. dubna 2016 na Wayback Machine . V rámci tohoto projektu vzniká systém strojového překladu pro velké množství jazyků. Hlavní argumenty ve prospěch výběru morfologického taggeru Apertia pro označení písemného korpusu jsou:
— vysoká kvalita morfologické anotace;
- absolutní otevřenost tohoto projektu: všechny zdrojové kódy a vývoj jsou veřejně dostupné všem zdarma. Komplexní morfologický vyhledávací systém
vyvinutý námi v letech 2015-2016 Archivováno 26. dubna 2016 na Wayback Machine vám umožňuje prohledávat korpus na základě různých kombinací takových parametrů, jako je tvar slova, lemma, sada morfologických (gramatických) značek, začátek, střed, konec slova s ​​uvedením možných vzdáleností mezi lexémy.

Tatarský systém syntézy řeči

Na stránkách Psaného korpusu tatarského jazyka je možné si poslechnout jak nalezené věty, tak i volný text Archivováno 26. dubna 2016 na Wayback Machine .

Statistiky

Webová stránka Corpus hostí různá statistická data Archivní kopie ze dne 26. dubna 2016 na Wayback Machine , kterou autoři obdrží při zpracování dat.

Nevýhody a vyhlídky rozvoje

Kompilátory

Tvůrci korpusu jsou:

Asistence:

Literatura [1]

Poznámky

  1. Psaný korpus tatarštiny . Získáno 22. dubna 2016. Archivováno z originálu 25. dubna 2016.

Odkazy