V lingvistice je korpus (v tomto smyslu množné číslo korpus , nikoli korpus [1] ) soubor textů vybraných a zpracovaných podle určitých pravidel, sloužící jako základ pro studium jazyka. Používají se pro statistickou analýzu a testování statistických hypotéz , ověřující lingvistická pravidla v daném jazyce. Korpus textů je předmětem studia v korpusové lingvistice .
Mezi mnoha definicemi korpusu lze rozlišit jeho hlavní vlastnosti :
Korpusy lze klasifikovat podle různých kritérií: účel vytvoření korpusu, typ jazykových dat, "literární", žánr, dynamika, typ označení, objem textů atd. Podle kritéria paralelismu lze například korpusy rozdělit na jednojazyčné, dvojjazyčné a vícejazyčné. Vícejazyčné a bilingvní se dělí na dva typy:
Značení spočívá v přidělování speciálních značek textům a jejich složkám : lingvistické a externí (extralingvistické). Rozlišují se tyto lingvistické typy značení: morfologické, sémantické, syntaktické, anaforické, prozodické, diskurzivní atd. Na některé korpusy jsou aplikovány další strukturální úrovně analýzy. Zejména některé malé korpusy lze zcela syntakticky označit. Takové korpusy se obvykle nazývají hluboce anotované nebo syntaktické korpusy a samotná syntaktická struktura je strom závislostí .
Ruční značkování (anotace) textů je nákladný a časově náročný úkol. V současné době jsou veřejně dostupné různé softwarové nástroje pro označování korpusů [3] . Obvykle je lze rozdělit na samostatné (samostatné) a webové (webové) . Zároveň se pozornost vývojářů v posledních letech přesouvá směrem k webovým aplikacím. Tyto systémy mají řadu výhod:
Moderní technologie umožňují vytvářet „webové korpusy“, tedy korpusy získané zpracováním internetových zdrojů:
Webový korpus je speciální druh lingvistického korpusu, který vzniká postupným stahováním textů z internetu pomocí automatizovaných postupů, které za běhu určují jazyk a kódování jednotlivých webových stránek, odstraňují šablony, navigační prvky, odkazy a reklamy (tzv. tzv. boilerplate), provádějí transformaci na text, filtrování, normalizaci a deduplikaci přijatých dokumentů, které lze následně zpracovat tradičními nástroji korpusové lingvistiky (tokenizace, mirfosyntaktická a syntaktická anotace) a implementovat do vyhledávacího korpusového systému. Vytvoření webového korpusu je nejen mnohem levnější, ale především jeho velikost může být i řádově větší než u klasického korpusu [4] .
— Vladimir Benko ARANEA — RODINA MILIARDŮ WEBOVÝCH SBORŮKorpus je hlavní pojem a databáze korpusové lingvistiky. Analýza a zpracování různých typů korpusů je předmětem většiny prací v počítačové lingvistice (např. extrakce klíčových slov ), rozpoznávání řeči a strojovém překladu , ve kterých se korpusy často používají k vytváření skrytých Markovových modelů pro značkování slovními druhy a jiné úkoly. Při výuce cizích jazyků mohou být užitečné korpusy a frekvenční slovníky .
zpracování přirozeného jazyka | |
---|---|
Obecné definice | |
Analýza textu |
|
Odkazování |
|
Strojový překlad |
|
Identifikace a sběr dat | |
Tematický model | |
Peer review |
|
Rozhraní přirozeného jazyka |