Mannheimský korpus německy

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 17. října 2013; kontroly vyžadují 8 úprav .

Mannheimský německý korpus (COSMAS corpora nebo DeReKo)  je sbírka moderních německy psaných textů spravovaných Institutem pro německý jazyk v Mannheimu v Německu. Korpus obsahuje různé typy textů: vědeckou a populárně naučnou literaturu, velké množství novinových textů, beletrii atd. Představuje největší světovou elektronickou sbírku moderních německy psaných textů a je nástrojem korpusové lingvistiky .

Alternativní názvy

Mannheimský německý korpus má několik alternativních názvů jako German Reference Corpus, IDS corpora, COSMAS corpora. Od roku 2004 je oficiální název sboru Deutsches Referenzkorpus (DeReKo).

Historie vytvoření

Vytvoření korpusu v Německém jazykovém institutu (IDS) má dlouhou historii. Již v roce 1964 vytvořili Paul Grebe a Ulrich Engel Mannheim Corps 1,  projekt, který do roku 1967 úspěšně shromáždil asi 2,2 milionu běžně používaných slov v německy psaném jazyce. Od té doby byla elektronická textová databáze doplňována a rozšiřována řadou navazujících projektů korpusové sbírky. Od roku 2013 je DeReKo jedním z hlavních zdrojů pro výuku němčiny na celém světě . Tempo růstu objemu korpusu je asi 300 milionů slov ročně. Hlavním cílem Institutu IDS je „studium německého jazyka v jeho moderním použití“ a jeho politika zajišťuje dlouhodobý provoz DeReKo.

Klíčové vlastnosti DeReKo jsou:

Hlavním cílem DeReKo je sloužit jako praktický základ pro vědecké studium moderního německého písma. Jednou z důležitých zásad je, že důraz je kladen na jazyk samotný, a ne na informace, které sděluje.

Složení sboru

Korpus obsahuje různé druhy textů: beletrii, vědeckou a populárně-naučnou literaturu, periodika aj. Nechybí ani subkorpus ústní řeči (hovorová řeč, nahrávky řečí mluvčích různých dialektů atd.). Zdroj obsahuje korpusovou databázi německých slovních spojení.

Tento korpus obsahuje 6 hlavních podkorpusů:

Korpus psaného projevu zahrnuje 3 vlastní mannheimský korpus a mnoho dalších (beletrie, historický korpus, publicistika, sebraná díla Karla Marxe a Friedricha Engelse , korpus Thomase Manna, korpus rozhovorů atd.).

Objem trupu

Objem korpusu je více než 1846 milionů slovních použití. Na rozdíl od jiných známých korpusů (jako je např. British National Corpus ) si DeReKo klade za cíl pokrýt maximální možný objem textů a nevyvážit jejich skladbu: rozložení textů podle doby vzniku nebo typu textu neodpovídá na předem určená procenta.

Označení a anotace

DeReKo má lemmatizaci a morfologické značení , ale pouze pro některé texty. V archivu však existuje několik plně konzistentních anotací na různých jazykových úrovních (alespoň na úrovni slovních druhů a syntaxe). Vzhledem k velké velikosti korpusu není možné provádět ruční anotaci ani ruční ovládání automatické anotace. V důsledku toho je očekávaná míra nepřesnosti velmi vysoká, zejména tam, kde se vyskytují jazykově složité jevy.

Metadata

Základní jednotky textu v korpusu DeReKo jsou doplněny speciálními informacemi - metadaty . Důležitým principem korpusu je, že tato metadata musí být přístupná. Jaké konkrétní informace jsou k dispozici, závisí na zdroji dat a typu textu.

Hlavní kategorie metadat:

Přístup

Kvůli autorským právům a licenčním omezením nelze archivní databáze DeReKo kopírovat nebo stahovat z webu na pevný disk. Tato data však lze zdarma vyžádat a analyzovat prostřednictvím systému COSMAS II [1] , jehož uživatelé se musí zaregistrovat a souhlasit s používáním dat výhradně pro nekomerční, vzdělávací účely. COSMAS II umožňuje použít pouzdro DeReKo pro řešení konkrétních vědeckých problémů.

Poznámky

  1. Systém COSMAS II . Datum přístupu: 17. října 2013. Archivováno z originálu 22. října 2013.

Viz také

Literatura

Odkazy