Český národní sbor | |
---|---|
URL | ucnk.ff.cuni.cz |
Komerční | Ne |
Typ webu | vzdělávací/vědecký projekt |
jazyky) | česky/anglicky |
Umístění serveru | Česká republika , Praha |
Autor | Univerzita Karlova |
Aktuální stav | Funguje a vyvíjí se |
Český národní korpus (ČNK) je veřejně prohledávatelná databáze psaných textů v elektronické podobě v českém jazyce provozovaná Univerzitou Karlovou v Praze . Stránka je dostupná v češtině a angličtině.
Myšlenka CNC byla poprvé předložena v roce 1991 a podpořena zástupci Filosofické fakulty Univerzity Karlovy , Matematicko-fyzikální fakulty Univerzity Karlovy, Masarykovy univerzity , Univerzity Palackého , Ústavu pro jazyk český AV ČR. vědy .
Předpokladem pro vznik korpusu byly takové faktory jako odklon moderní češtiny od obecně uznávaných norem (vytvoření korpusu by pomohlo zachránit českou lexikografii od takových odchylek) a stabilizace politické situace (širší spolupráce mezinárodní vědecká komunita pomohla zavést počítačovou lexikografii a korpusovou lingvistiku jako samostatné obory do české lingvistiky). V roce 1994 byl na Filosofické fakultě Univerzity Karlovy zřízen Ústav Českého národního korpusu a byly podepsány smlouvy o spolupráci mezi Ústavem a některými institucemi České republiky [1] .
Od 10. září 2017 pracují na Českém národním korpusu:
Korpus psaných textů / Psané korpusy (synchronní) | ~2705 milionů slov |
Korpus ústních textů / mluvené korpusy (synchronní) | ~4 miliony slov |
Diachronní korpus / Diachronní korpusy | 1,95 milionu slov |
Korpus cizích jazyků / Cizí jazykové korpusy | 6248 milionů slov |
Paralelní korpus / Paralelní korpus | 92 milionů slov |
Celkový objem korpusu je přes 9 miliard slovních použití, z nichž ~8894,5 milionu je lemmatizovaných a označených morfologickými tagy [3] .
Hlavní obsah CHNC je:
Samostatný CNC korpus je věnován dystopii George Orwella „ 1984 “, jejíž relativně malá velikost (80 000 slov a 20 000 interpunkčních znamének) umožňovala téměř bezchybně ručně označovat text [4] .
Existují dva typy přístupu na web: veřejný a úplný.
Neoprávněný uživatel může vyhledávat pouze v korpusu SYN2010, což je pouhých 100 milionů slov, což je jedna devadesátina celé základny Českého národního korpusu. SYN2010 se skládá [5] ze 40 % beletrie, 27 % technické literatury a 33 % žurnalistiky. Většina textů v korpusu vznikla v letech 2005 až 2009.
Veřejný přístup vám umožňuje vidět počet výskytů v SYN2010 a prvních 50 příkladů. Slova jsou uváděna ve formátu konkordančních řádků, kdy každý řádek je součástí textu, ve kterém je daný výraz přítomen. Pro veřejný přístup je možné použít základní regulární výrazy, lze také vyhledávat podle klíčových slov.
Registrovaný uživatel má plný přístup do databáze institutu ChNK a také ke speciálnímu case managerovi Bonito.
Bonito (A Modular Corpus Manager Bonito) je grafické uživatelské rozhraní ( GUI ) Manatee Corpus Manager, vytvořené v Centru zpracování přirozeného jazyka, které sídlí na Fakultě informatiky Masarykova ústavu v Brně. Vytvořil Pavel Rychlý, asistent fakulty [6] .
Momentálně[ upřesněte ] Se sborem spolupracují tyto instituce ČR:
Korpus dále spolupracuje s Fakultou slovanských jazyků Brown University ( USA ), Filologicko - filologickou fakultou St. Petersburg State University ( Rusko ), Fakultou filozofie a literatury Univerzity v Granadě ( Španělsko ), Ústav německého jazyka v Mannheimu ( Německo ), University Amsterdam ( Nizozemsko ) a další významná vědecká centra [7] .
V bibliografických katalozích |
---|