Korpus textů

V lingvistice je korpus (v tomto smyslu množné číslo korpus , nikoli korpus [1] ) soubor textů vybraných a zpracovaných podle určitých pravidel, sloužící jako základ pro studium jazyka. Používají se pro statistickou analýzu a testování statistických hypotéz , ověřující lingvistická pravidla v daném jazyce. Korpus textů je předmětem studia v korpusové lingvistice .

Základní vlastnosti trupu

Mezi mnoha definicemi korpusu lze rozlišit jeho hlavní vlastnosti :

Klasifikace případu

Korpusy lze klasifikovat podle různých kritérií: účel vytvoření korpusu, typ jazykových dat, "literární", žánr, dynamika, typ označení, objem textů atd. Podle kritéria paralelismu lze například korpusy rozdělit na jednojazyčné, dvojjazyčné a vícejazyčné. Vícejazyčné a bilingvní se dělí na dva typy:

  1. paralelní  - soubor textů a jejich překladů do jednoho nebo více jazyků.
  2. srovnatelné (pseudoparalelní) - původní texty ve dvou a více jazycích.

Označení trupu

Značení spočívá v přidělování speciálních značek textům a jejich složkám : lingvistické a externí (extralingvistické). Rozlišují se tyto lingvistické typy značení: morfologické, sémantické, syntaktické, anaforické, prozodické, diskurzivní atd. Na některé korpusy jsou aplikovány další strukturální úrovně analýzy. Zejména některé malé korpusy lze zcela syntakticky označit. Takové korpusy se obvykle nazývají hluboce anotované nebo syntaktické korpusy a samotná syntaktická struktura je strom závislostí .

Ruční značkování (anotace) textů je nákladný a časově náročný úkol. V současné době jsou veřejně dostupné různé softwarové nástroje pro označování korpusů [3] . Obvykle je lze rozdělit na samostatné (samostatné) a webové (webové) . Zároveň se pozornost vývojářů v posledních letech přesouvá směrem k webovým aplikacím. Tyto systémy mají řadu výhod:

Internet jako korpus

Moderní technologie umožňují vytvářet „webové korpusy“, tedy korpusy získané zpracováním internetových zdrojů:

Webový korpus je speciální druh lingvistického korpusu, který vzniká postupným stahováním textů z internetu pomocí automatizovaných postupů, které za běhu určují jazyk a kódování jednotlivých webových stránek, odstraňují šablony, navigační prvky, odkazy a reklamy (tzv. tzv. boilerplate), provádějí transformaci na text, filtrování, normalizaci a deduplikaci přijatých dokumentů, které lze následně zpracovat tradičními nástroji korpusové lingvistiky (tokenizace, mirfosyntaktická a syntaktická anotace) a implementovat do vyhledávacího korpusového systému. Vytvoření webového korpusu je nejen mnohem levnější, ale především jeho velikost může být i řádově větší než u klasického korpusu [4] .

— Vladimir Benko ARANEA — RODINA MILIARDŮ WEBOVÝCH SBORŮ

Aplikace

Korpus je hlavní pojem a databáze korpusové lingvistiky. Analýza a zpracování různých typů korpusů je předmětem většiny prací v počítačové lingvistice (např. extrakce klíčových slov ), rozpoznávání řeči a strojovém překladu , ve kterých se korpusy často používají k vytváření skrytých Markovových modelů pro značkování slovními druhy a jiné úkoly. Při výuce cizích jazyků mohou být užitečné korpusy a frekvenční slovníky .

Ruské textové korpusy

Viz také

Poznámky

  1. GRAMOTA.RU - referenční a informační internetový portál "Ruský jazyk" | Slovníky | Kontrola slov . gramota.ru. Staženo 26. prosince 2019. Archivováno z originálu 17. září 2019.
  2. Diagram byl vytvořen na základě materiálů knihy "Zacharov V.P., Bogdanova S.Yu. Korpusová lingvistika: učebnice. 3. vyd., revidováno - Petrohrad: Nakladatelství Petrohradské univerzity, 2020. - 234 s. "
  3. Vanyushkin, Grashchenko, 2017 .
  4. ARANEA: RODINA MILIARDŮ WEBOVÝCH PŘÍPADŮ – Komunita písemného dědictví . textalheritage.org. Získáno 26. prosince 2019. Archivováno z originálu 9. srpna 2020.
  5. Glazková, A. (2018), Automatické vyhledávání fragmentů obsahujících biografické informace v textu přirozeného jazyka , Proceedings of the Institute for System Programming RAS T. 30(6): 221-236, doi : 10.15514/ISPRAS-2018-30( 6)-12 , < https://www.researchgate.net/publication/330689783_Automatic_search_for_fragments_contained_biographical_information_in_a_natural_language_text > 
  6. Rubtsova, Y. (2015), Sestavení textového korpusu pro nastavení tónového klasifikátoru , Softwarové produkty a systémy T. 1(109): 72-78, doi : 10.15827/0236-235x.109.072-078 , < http: //www .swsys.ru/index.php?page=article&id=3962&lang= > Archivováno 7. srpna 2020 na Wayback Machine 

Literatura