Český národní korpus

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 5. října 2020; ověření vyžaduje 1 úpravu .
Český národní sbor
URL ucnk.ff.cuni.cz
Komerční Ne
Typ webu vzdělávací/vědecký projekt
jazyky) česky/anglicky
Umístění serveru Česká republika , Praha
Autor Univerzita Karlova
Aktuální stav Funguje a vyvíjí se

Český národní korpus (ČNK)  je veřejně prohledávatelná databáze psaných textů v elektronické podobě v českém jazyce provozovaná Univerzitou Karlovou v Praze . Stránka je dostupná v češtině a angličtině.

Historie vytvoření

Myšlenka CNC byla poprvé předložena v roce 1991 a podpořena zástupci Filosofické fakulty Univerzity Karlovy , Matematicko-fyzikální fakulty Univerzity Karlovy, Masarykovy univerzity , Univerzity Palackého , Ústavu pro jazyk český AV ČR. vědy .

Předpokladem pro vznik korpusu byly takové faktory jako odklon moderní češtiny od obecně uznávaných norem (vytvoření korpusu by pomohlo zachránit českou lexikografii od takových odchylek) a stabilizace politické situace (širší spolupráce mezinárodní vědecká komunita pomohla zavést počítačovou lexikografii a korpusovou lingvistiku jako samostatné obory do české lingvistiky). V roce 1994 byl na Filosofické fakultě Univerzity Karlovy zřízen Ústav Českého národního korpusu a byly podepsány smlouvy o spolupráci mezi Ústavem a některými institucemi České republiky [1] .

Kompilátory

Od 10. září 2017 pracují na Českém národním korpusu:

Složení a objem případu

Korpus psaných textů / Psané korpusy (synchronní) ~2705 milionů slov
Korpus ústních textů / mluvené korpusy (synchronní) ~4 miliony slov
Diachronní korpus / Diachronní korpusy 1,95 milionu slov
Korpus cizích jazyků / Cizí jazykové korpusy 6248 milionů slov
Paralelní korpus / Paralelní korpus 92 milionů slov

Celkový objem korpusu je přes 9 miliard slovních použití, z nichž ~8894,5 milionu je lemmatizovaných a označených morfologickými tagy [3] .

Textové zdroje

Hlavní obsah CHNC je:

Samostatný CNC korpus je věnován dystopii George Orwella1984 “, jejíž relativně malá velikost (80 000 slov a 20 000 interpunkčních znamének) umožňovala téměř bezchybně ručně označovat text [4] .

Přístup

Existují dva typy přístupu na web: veřejný a úplný.

Neoprávněný uživatel může vyhledávat pouze v korpusu SYN2010, což je pouhých 100 milionů slov, což je jedna devadesátina celé základny Českého národního korpusu. SYN2010 se skládá [5] ze 40 % beletrie, 27 % technické literatury a 33 % žurnalistiky. Většina textů v korpusu vznikla v letech 2005 až 2009.

Veřejný přístup vám umožňuje vidět počet výskytů v SYN2010 a prvních 50 příkladů. Slova jsou uváděna ve formátu konkordančních řádků, kdy každý řádek je součástí textu, ve kterém je daný výraz přítomen. Pro veřejný přístup je možné použít základní regulární výrazy, lze také vyhledávat podle klíčových slov.

Registrovaný uživatel má plný přístup do databáze institutu ChNK a také ke speciálnímu case managerovi Bonito.

Bonito

Bonito (A Modular Corpus Manager Bonito) je grafické uživatelské rozhraní ( GUI ) Manatee Corpus Manager, vytvořené v Centru zpracování přirozeného jazyka, které sídlí na Fakultě informatiky Masarykova ústavu v Brně. Vytvořil Pavel Rychlý, asistent fakulty [6] .

Spolupráce

Momentálně[ upřesněte ] Se sborem spolupracují tyto instituce ČR:

Korpus dále spolupracuje s Fakultou slovanských jazyků Brown University ( USA ), Filologicko - filologickou fakultou St. Petersburg State University ( Rusko ), Fakultou filozofie a literatury Univerzity v Granadě ( Španělsko ), Ústav německého jazyka v Mannheimu ( Německo ), University Amsterdam ( Nizozemsko ) a další významná vědecká centra [7] .

Viz také

Poznámky

  1. 1 2 Český národní korpus (CNC)
  2. Lidé | Ústav Českého národního korpusu
  3. Dostupné korpusy | Ústav Českého národního korpusu (nepřístupný odkaz) . Získáno 10. září 2017. Archivováno z originálu 10. září 2017. 
  4. ORWELL | Ústav Českého národního korpusu
  5. Public Access Archived 29. října 2013 na Wayback Machine  (nepřístupný odkaz - historie ) Získáno 10. září 2017.
  6. Manatee/Bonito – Modulární korpusový manažer
  7. 1 2 Spolupráce | Ústav Českého národního korpusu

Odkazy