Mannheimský německý korpus (COSMAS corpora nebo DeReKo) je sbírka moderních německy psaných textů spravovaných Institutem pro německý jazyk v Mannheimu v Německu. Korpus obsahuje různé typy textů: vědeckou a populárně naučnou literaturu, velké množství novinových textů, beletrii atd. Představuje největší světovou elektronickou sbírku moderních německy psaných textů a je nástrojem korpusové lingvistiky .
Mannheimský německý korpus má několik alternativních názvů jako German Reference Corpus, IDS corpora, COSMAS corpora. Od roku 2004 je oficiální název sboru Deutsches Referenzkorpus (DeReKo).
Vytvoření korpusu v Německém jazykovém institutu (IDS) má dlouhou historii. Již v roce 1964 vytvořili Paul Grebe a Ulrich Engel Mannheim Corps 1, projekt, který do roku 1967 úspěšně shromáždil asi 2,2 milionu běžně používaných slov v německy psaném jazyce. Od té doby byla elektronická textová databáze doplňována a rozšiřována řadou navazujících projektů korpusové sbírky. Od roku 2013 je DeReKo jedním z hlavních zdrojů pro výuku němčiny na celém světě . Tempo růstu objemu korpusu je asi 300 milionů slov ročně. Hlavním cílem Institutu IDS je „studium německého jazyka v jeho moderním použití“ a jeho politika zajišťuje dlouhodobý provoz DeReKo.
Klíčové vlastnosti DeReKo jsou:
Hlavním cílem DeReKo je sloužit jako praktický základ pro vědecké studium moderního německého písma. Jednou z důležitých zásad je, že důraz je kladen na jazyk samotný, a ne na informace, které sděluje.
Korpus obsahuje různé druhy textů: beletrii, vědeckou a populárně-naučnou literaturu, periodika aj. Nechybí ani subkorpus ústní řeči (hovorová řeč, nahrávky řečí mluvčích různých dialektů atd.). Zdroj obsahuje korpusovou databázi německých slovních spojení.
Tento korpus obsahuje 6 hlavních podkorpusů:
Korpus psaného projevu zahrnuje 3 vlastní mannheimský korpus a mnoho dalších (beletrie, historický korpus, publicistika, sebraná díla Karla Marxe a Friedricha Engelse , korpus Thomase Manna, korpus rozhovorů atd.).
Objem korpusu je více než 1846 milionů slovních použití. Na rozdíl od jiných známých korpusů (jako je např. British National Corpus ) si DeReKo klade za cíl pokrýt maximální možný objem textů a nevyvážit jejich skladbu: rozložení textů podle doby vzniku nebo typu textu neodpovídá na předem určená procenta.
DeReKo má lemmatizaci a morfologické značení , ale pouze pro některé texty. V archivu však existuje několik plně konzistentních anotací na různých jazykových úrovních (alespoň na úrovni slovních druhů a syntaxe). Vzhledem k velké velikosti korpusu není možné provádět ruční anotaci ani ruční ovládání automatické anotace. V důsledku toho je očekávaná míra nepřesnosti velmi vysoká, zejména tam, kde se vyskytují jazykově složité jevy.
Základní jednotky textu v korpusu DeReKo jsou doplněny speciálními informacemi - metadaty . Důležitým principem korpusu je, že tato metadata musí být přístupná. Jaké konkrétní informace jsou k dispozici, závisí na zdroji dat a typu textu.
Hlavní kategorie metadat:
Kvůli autorským právům a licenčním omezením nelze archivní databáze DeReKo kopírovat nebo stahovat z webu na pevný disk. Tato data však lze zdarma vyžádat a analyzovat prostřednictvím systému COSMAS II [1] , jehož uživatelé se musí zaregistrovat a souhlasit s používáním dat výhradně pro nekomerční, vzdělávací účely. COSMAS II umožňuje použít pouzdro DeReKo pro řešení konkrétních vědeckých problémů.
Korpusová lingvistika | |
---|---|
Anglické korpusy |
|
ruskojazyčné korpusy |
|
Korpusy v jiných jazycích |
|
Organizace |