Český národní korpus

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 5. října 2020; ověření vyžaduje 1 úpravu .

Český národní sbor
URL	ucnk.ff.cuni.cz
Komerční	Ne
Typ webu	vzdělávací/vědecký projekt
jazyky)	česky/anglicky
Umístění serveru	Česká republika , Praha
Autor	Univerzita Karlova
Aktuální stav	Funguje a vyvíjí se

Český národní korpus (ČNK) je veřejně prohledávatelná databáze psaných textů v elektronické podobě v českém jazyce provozovaná Univerzitou Karlovou v Praze . Stránka je dostupná v češtině a angličtině.

Historie vytvoření

Myšlenka CNC byla poprvé předložena v roce 1991 a podpořena zástupci Filosofické fakulty Univerzity Karlovy , Matematicko-fyzikální fakulty Univerzity Karlovy, Masarykovy univerzity , Univerzity Palackého , Ústavu pro jazyk český AV ČR. vědy .

Předpokladem pro vznik korpusu byly takové faktory jako odklon moderní češtiny od obecně uznávaných norem (vytvoření korpusu by pomohlo zachránit českou lexikografii od takových odchylek) a stabilizace politické situace (širší spolupráce mezinárodní vědecká komunita pomohla zavést počítačovou lexikografii a korpusovou lingvistiku jako samostatné obory do české lingvistiky). V roce 1994 byl na Filosofické fakultě Univerzity Karlovy zřízen Ústav Českého národního korpusu a byly podepsány smlouvy o spolupráci mezi Ústavem a některými institucemi České republiky [1] .

Kompilátory

Od 10. září 2017 pracují na Českém národním korpusu:

Režisér Michal Krshen
Zástupce ředitele Václav Cvrček
sekretářka Lucie Nováková ( Lucie Nováková (odkaz nepřístupný) )
profesor František Čermák ( František Čermák )
Profesor a vedoucí sekce diachronního korpusu Karel Kučera
Vedoucí lingvistické sekce Václav Cvrček
vedoucí oddělení výpočetní techniky Pavel Vondřička ( odkaz nepřístupný )
Vedoucí sekce mluveného sboru Marie Kopřivova
Vedoucí oddělení lingvistické analýzy a anotace Tomasz Jelinek ( Tomáš Jelínek )
Vedoucí sekce Paralelního sboru Alexander Rosen ( Alexandr Rosen (odkaz nepřístupný) )
a další [2] .

Složení a objem případu

Korpus psaných textů / Psané korpusy (synchronní)	~2705 milionů slov
Korpus ústních textů / mluvené korpusy (synchronní)	~4 miliony slov
Diachronní korpus / Diachronní korpusy	1,95 milionu slov
Korpus cizích jazyků / Cizí jazykové korpusy	6248 milionů slov
Paralelní korpus / Paralelní korpus	92 milionů slov

Celkový objem korpusu je přes 9 miliard slovních použití, z nichž ~8894,5 milionu je lemmatizovaných a označených morfologickými tagy [3] .

Textové zdroje

Hlavní obsah CHNC je:

Texty přijaté elektronicky od vydavatelství a jednotlivých vlastníků
Texty získané z novin (tvoří naprostou většinu textů korpusu - cca 60 %)
Slovníkové texty (např. korpus FSC2000 odkazuje na Český frekvenční slovník) [1]

Samostatný CNC korpus je věnován dystopii George Orwella „ 1984 “, jejíž relativně malá velikost (80 000 slov a 20 000 interpunkčních znamének) umožňovala téměř bezchybně ručně označovat text [4] .

Přístup

Existují dva typy přístupu na web: veřejný a úplný.

Neoprávněný uživatel může vyhledávat pouze v korpusu SYN2010, což je pouhých 100 milionů slov, což je jedna devadesátina celé základny Českého národního korpusu. SYN2010 se skládá [5] ze 40 % beletrie, 27 % technické literatury a 33 % žurnalistiky. Většina textů v korpusu vznikla v letech 2005 až 2009.

Veřejný přístup vám umožňuje vidět počet výskytů v SYN2010 a prvních 50 příkladů. Slova jsou uváděna ve formátu konkordančních řádků, kdy každý řádek je součástí textu, ve kterém je daný výraz přítomen. Pro veřejný přístup je možné použít základní regulární výrazy, lze také vyhledávat podle klíčových slov.

Registrovaný uživatel má plný přístup do databáze institutu ChNK a také ke speciálnímu case managerovi Bonito.

Bonito

Bonito (A Modular Corpus Manager Bonito) je grafické uživatelské rozhraní ( GUI ) Manatee Corpus Manager, vytvořené v Centru zpracování přirozeného jazyka, které sídlí na Fakultě informatiky Masarykova ústavu v Brně. Vytvořil Pavel Rychlý, asistent fakulty [6] .

Spolupráce

Momentálně[ upřesněte ] Se sborem spolupracují tyto instituce ČR:

Ústav formální a aplikované lingvistiky a Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Katedra výpočetní techniky, Fakulta elektrotechnická , ČVUT , Praha
Fakulta informatiky Masarykova univerzita , Brno
Pedagogická fakulta Masarykovy univerzity, Brno
Ústav češtiny a slovanské jazykovědy Filologické fakulty Masarykovy univerzity, Brno
Městské knihovny v Praze
Slezská univerzita , Opava
Univerzita Hradec Králové
Univerzita Palackého , Olomouc
Ústav pro jazyk český Akademie věd ČR
a další [7] .

Korpus dále spolupracuje s Fakultou slovanských jazyků Brown University ( USA ), Filologicko - filologickou fakultou St. Petersburg State University ( Rusko ), Fakultou filozofie a literatury Univerzity v Granadě ( Španělsko ), Ústav německého jazyka v Mannheimu ( Německo ), University Amsterdam ( Nizozemsko ) a další významná vědecká centra [7] .

Viz také

Ruský národní korpus

Poznámky

↑ 1 2 Český národní korpus (CNC)
↑ Lidé | Ústav Českého národního korpusu
↑ Dostupné korpusy | Ústav Českého národního korpusu (nepřístupný odkaz) . Získáno 10. září 2017. Archivováno z originálu 10. září 2017. (neurčitý)
↑ ORWELL | Ústav Českého národního korpusu
↑ Public Access Archived 29. října 2013 na Wayback Machine (nepřístupný odkaz - historie ) Získáno 10. září 2017.
↑ Manatee/Bonito – Modulární korpusový manažer
↑ 1 2 Spolupráce | Ústav Českého národního korpusu

Odkazy

Oficiální stránky sboru

V bibliografických katalozích	LCCN : no2005122116