Americký národní korpus ( ANC) je korpus textů americké angličtiny obsahující 22 milionů slov z písemných a ústních zdrojů publikovaných od roku 1990. ANC obsahuje řadu textů z nových zdrojů, včetně e-mailů , tweetů a textů z webových stránek , které nejsou obsaženy v dřívějších anglických korpusech, jako je British National Corpus . Implementuje konkordanci slovních druhů s lemmatizací , včetně vlastních podstatných jmen a povrchovou analýzu .
ANC je k dispozici členům Linguistic Data Consortium . Zdroj (subkorpus) obsahující 15 milionů slov korpusu se nazývá Open American National Corpus (OANC) a je veřejně dostupný na webu ANC [1] .
Texty korpusu jsou vytvořeny v souladu s požadavky technické komise ISO/TC 37 "Lingvistický anotační rámec". Díky veřejně dostupnému transdukčnímu nástroji ANC2Go jsou uživatelem generované korpusové fragmenty a anotace prezentovány v několika formátech, jako je CoNLL IOB, formát XML odpovídající standardu kódování XCES (který lze použít v British National Corpus XAIRA search engine ), formát vyhovující UIMA a formáty vhodné pro širokou škálu konkordančních programů. K dispozici jsou také zásuvné moduly pro import anotací do systému zpracování přirozeného jazyka GATE .
ANC se od ostatních anglických korpusů liší svou rozsáhlou anotací, včetně různých slovních druhů (tagy Penn, CLAWS5 a CLAWS7), mělkých anotací analýzy a anotací pro několik typů pojmenovaných objektů. Další anotace jsou přidávány do celého korpusu nebo jeho částí, jakmile budou k dispozici, často jako výsledek jiných projektů. Na rozdíl od online textových korpusů, které z důvodu omezení autorských práv poskytují přístup pouze k jednotlivým větám, je celý korpus ANC k dispozici pro výzkum, včetně vývoje statistických jazykových modelů a plnotextových lingvistických anotací.
Anotace ANC se generují automaticky a nejsou ověřovány. Sekce 500 000 slov OANC, známá jako ručně anotovaný subkorpus ANC (MASC), je anotována pro asi 20 různých druhů lingvistických anotací, které jsou ručně kontrolovány nebo vytvářeny. Patří mezi ně syntaktická anotace Penn Treebank, sémantické sítě WordNet a FrameNet a další. Stejně jako OANC je i MASC volně k dispozici pro jakékoli použití a lze jej stáhnout z webových stránek ANC nebo Linguistic Data Consortium. Je také distribuován s Natural Language Toolkit , balíkem knihoven a programů pro symbolické a statistické zpracování přirozeného jazyka .
ANC a jeho subkorpusy se od podobných textových korpusů liší především charakteristikou lingvistických anotací a zařazením textů do současných žánrů, které se nenacházejí ve zdrojích, jako je například British National Corpus . Navíc, protože původním účelem ANC je vyvíjet statistické jazykové modely, jsou uživatelům ANC k dispozici úplná data a všechny anotace, na rozdíl od Corpus of Modern American English (COCA), jehož texty jsou pouze selektivně dostupné prostřednictvím webového prohlížeče.
Růst textových bází OANC a MASC pokračuje přidáváním dat a anotací vytvořených komunitami počítačové lingvistiky a korpusové lingvistiky .
Korpusová lingvistika | |
---|---|
Anglické korpusy |
|
ruskojazyčné korpusy |
|
Korpusy v jiných jazycích |
|
Organizace |