Korpus textů

V lingvistice je korpus (v tomto smyslu množné číslo korpus , nikoli korpus [1] ) soubor textů vybraných a zpracovaných podle určitých pravidel, sloužící jako základ pro studium jazyka. Používají se pro statistickou analýzu a testování statistických hypotéz , ověřující lingvistická pravidla v daném jazyce. Korpus textů je předmětem studia v korpusové lingvistice .

Základní vlastnosti trupu

Mezi mnoha definicemi korpusu lze rozlišit jeho hlavní vlastnosti :

elektronický - v moderním pojetí musí být korpus v elektronické podobě
zástupce – měl by dobře „reprezentovat“ objekt, který modeluje
označeno - hlavní rozdíl mezi korpusem a sbírkou textů
pragmaticky zaměřené – měly by být vytvořeny pro konkrétní úkol

Klasifikace případu

Korpusy lze klasifikovat podle různých kritérií: účel vytvoření korpusu, typ jazykových dat, "literární", žánr, dynamika, typ označení, objem textů atd. Podle kritéria paralelismu lze například korpusy rozdělit na jednojazyčné, dvojjazyčné a vícejazyčné. Vícejazyčné a bilingvní se dělí na dva typy:

paralelní - soubor textů a jejich překladů do jednoho nebo více jazyků.
srovnatelné (pseudoparalelní) - původní texty ve dvou a více jazycích.

Označení trupu

Značení spočívá v přidělování speciálních značek textům a jejich složkám : lingvistické a externí (extralingvistické). Rozlišují se tyto lingvistické typy značení: morfologické, sémantické, syntaktické, anaforické, prozodické, diskurzivní atd. Na některé korpusy jsou aplikovány další strukturální úrovně analýzy. Zejména některé malé korpusy lze zcela syntakticky označit. Takové korpusy se obvykle nazývají hluboce anotované nebo syntaktické korpusy a samotná syntaktická struktura je strom závislostí .

Ruční značkování (anotace) textů je nákladný a časově náročný úkol. V současné době jsou veřejně dostupné různé softwarové nástroje pro označování korpusů [3] . Obvykle je lze rozdělit na samostatné (samostatné) a webové (webové) . Zároveň se pozornost vývojářů v posledních letech přesouvá směrem k webovým aplikacím. Tyto systémy mají řadu výhod:

možnost označit jeden dokument několika lidmi současně
nevyžadují instalaci dalšího softwaru kromě prohlížeče
flexibilní diferenciace přístupových práv
zobrazující aktuální průběh procesu označování
možnost úpravy označeného těla

Internet jako korpus

Moderní technologie umožňují vytvářet „webové korpusy“, tedy korpusy získané zpracováním internetových zdrojů:

Webový korpus je speciální druh lingvistického korpusu, který vzniká postupným stahováním textů z internetu pomocí automatizovaných postupů, které za běhu určují jazyk a kódování jednotlivých webových stránek, odstraňují šablony, navigační prvky, odkazy a reklamy (tzv. tzv. boilerplate), provádějí transformaci na text, filtrování, normalizaci a deduplikaci přijatých dokumentů, které lze následně zpracovat tradičními nástroji korpusové lingvistiky (tokenizace, mirfosyntaktická a syntaktická anotace) a implementovat do vyhledávacího korpusového systému. Vytvoření webového korpusu je nejen mnohem levnější, ale především jeho velikost může být i řádově větší než u klasického korpusu [4] .

— Vladimir Benko ARANEA — RODINA MILIARDŮ WEBOVÝCH SBORŮ

Aplikace

Korpus je hlavní pojem a databáze korpusové lingvistiky. Analýza a zpracování různých typů korpusů je předmětem většiny prací v počítačové lingvistice (např. extrakce klíčových slov ), rozpoznávání řeči a strojovém překladu , ve kterých se korpusy často používají k vytváření skrytých Markovových modelů pro značkování slovními druhy a jiné úkoly. Při výuce cizích jazyků mohou být užitečné korpusy a frekvenční slovníky .

Ruské textové korpusy

Viz také

Poznámky

↑ GRAMOTA.RU - referenční a informační internetový portál "Ruský jazyk" | Slovníky | Kontrola slov . gramota.ru. Staženo 26. prosince 2019. Archivováno z originálu 17. září 2019. (neurčitý)
↑ Diagram byl vytvořen na základě materiálů knihy "Zacharov V.P., Bogdanova S.Yu. Korpusová lingvistika: učebnice. 3. vyd., revidováno - Petrohrad: Nakladatelství Petrohradské univerzity, 2020. - 234 s. "
↑ Vanyushkin, Grashchenko, 2017 .
↑ ARANEA: RODINA MILIARDŮ WEBOVÝCH PŘÍPADŮ – Komunita písemného dědictví . textalheritage.org. Získáno 26. prosince 2019. Archivováno z originálu 9. srpna 2020. (neurčitý)
↑ Glazková, A. (2018), Automatické vyhledávání fragmentů obsahujících biografické informace v textu přirozeného jazyka , Proceedings of the Institute for System Programming RAS T. 30(6): 221-236, doi : 10.15514/ISPRAS-2018-30( 6)-12 , < https://www.researchgate.net/publication/330689783_Automatic_search_for_fragments_contained_biographical_information_in_a_natural_language_text >
↑ Rubtsova, Y. (2015), Sestavení textového korpusu pro nastavení tónového klasifikátoru , Softwarové produkty a systémy T. 1(109): 72-78, doi : 10.15827/0236-235x.109.072-078 , < http: //www .swsys.ru/index.php?page=article&id=3962&lang= > Archivováno 7. srpna 2020 na Wayback Machine

Literatura

Vanyushkin A.S., Grashchenko L.A. Odhad algoritmů extrakce klíčových slov: nástroje a zdroje // Nové informační technologie v automatizovaných systémech. - 2017. - Vydání. 20 . — ISSN 2227-0973 .
Nikolaev I. S., Mitrenina O. V., Lando T. M. Aplikovaná a počítačová lingvistika. - M. : URSS, 2016. - 320 s.

zpracování přirozeného jazyka
Obecné definice	Korpus textů řečový korpus Zastavte slova pytel slov úplnost AI N-gram Bigramová šifra trigram
Analýza textu	Segmentace textu Částečné značení Analýza povrchu Složené textové zpracování Extrahování kolokací pramenící Lematizace Rozpoznávání pojmenované entity Koreferenční rozlišení Analýza sentimentu textu Extrakce konceptu rozebrat Řešení lexikální polysémie Výpis terminologie Extrakce informací Identifikace jazyka Definice případu
Odkazování	Vytahování vět Abstraktní generace Odkazování na více dokumentů Zjednodušení textu
Strojový překlad	Automatizovaný Hybridní Interlingual Na základě pravidel Na základě příkladů Slovník založený Na základě transformace neurální Statistický Synchronní
Identifikace a sběr dat	Rozpoznávání řeči syntéza řeči Optické rozpoznávání znaků Generování textu
Tematický model	Umístění Pachinko Latentní Dirichletovo umístění Latentní sémantická analýza
Peer review	Automatické hodnocení esejí Concordancer Prediktivní zadávání textu Kontrola gramatiky Kontrola pravopisu Syntax Guessing
Rozhraní přirozeného jazyka	virtuální asistentka Virtuální partner Systém otázek a odpovědí Hlasové rozhraní Interaktivní literatura