Korpusová lingvistika

Korpusová [1] lingvistika  je obor lingvistiky , který se zabývá vývojem, tvorbou a používáním textových korpusů . Termín byl zaveden v 60. letech 20. století v souvislosti s rozvojem praxe vytváření případů, k čemuž od 80. let 20. století přispěl rozvoj výpočetní techniky.

Lingvistický nebo jazykový korpus textů  je velký, strojově čitelný formát, jednotný, strukturovaný, označený, filologicky kompetentní soubor lingvistických dat, určený k řešení specifických lingvistických problémů [2] . Hlavními znaky moderního korpusu jsou strojově čitelný formát, reprezentativnost a přítomnost metalingvistických informací [2] . Reprezentativnosti je dosaženo speciálním postupem pro výběr textů.

Lingvistický korpus je soubor textů shromážděných podle určitých zásad, označených podle určitého standardu a vybavených specializovaným vyhledávačem . . Někdy se korpusem („korpusem prvního řádu“) zjednodušeně nazývá jakákoliv sbírka textů, které spojuje nějaký společný znak (jazyk, žánr , autor, období vzniku textů).

Účelnost vytváření textových korpusů je vysvětlena takto:

Historie

Brown Corpus (BK, anglicky  Brown Corpus , BC), který vznikl v 60. letech 20. století na Brownově univerzitě a obsahoval 500 fragmentů textů po 2 tisících slov, které byly publikovány v angličtině ve Spojených státech v roce 1961. V důsledku toho stanovil standard 1 milionu slovních použití pro vytváření reprezentativních korpusů v jiných jazycích. Podle vzoru blízkého BK vznikl v 70. letech 20. století frekvenční slovník ruského jazyka Zasorina , vybudovaný na základě korpusu textů o objemu rovněž 1 milion slov a obsahující přibližně stejný podíl společensko-politických textů. , beletristické, vědecké a populárně vědecké texty z různých oblastí a dramaturgie. Ruský sbor, vytvořený v 80. letech na univerzitě v Uppsale ve Švédsku, byl také postaven na podobném modelu.

Velikost jednoho milionu slov je dostatečná pro lexikografický popis pouze těch nejfrekventovanějších slov, protože slova a gramatické konstrukce průměrné frekvence se vyskytují několikrát na milion slov (ze statistického hlediska je jazyk velký soubor vzácných událostí ). Takže každé z takových obyčejných slov, jako je angličtina.  zdvořilý (slušný) nebo inž.  sunshine (sluneční svit) se v BC vyskytuje pouze 7x, výraz je angl.  zdvořilý dopis pouze jednou a takové ustálené výrazy jako angličtina.  zdvořilý rozhovor, úsměv, žádost  - nikdy.

Z těchto důvodů a v souvislosti s růstem počítačového výkonu schopného pracovat s velkými objemy textů bylo v 80. letech po celém světě učiněno několik pokusů o vytvoření větších korpusů. Ve Spojeném království byly takovými projekty Bank of English (Bank of English) na University of Birmingham a British National Corpus ( British National Corpus , BNC). V SSSR byl takovým projektem Strojový fond ruského jazyka , vytvořený z iniciativy A. P. Ershova .

Aktuální stav

Přítomnost velkého množství textů v elektronické podobě značně usnadnila úkol vytvořit velké reprezentativní korpusy o desítkách a stovkách milionů slov, ale neodstranila problémy: shromáždit tisíce textů, odstranit problémy s autorským právem, uvést všechny texty do jednotná forma, vyvážení korpusu podle tématu a žánru zabere hodně času. Reprezentativní korpusy existují (nebo se vyvíjejí) pro němčinu, polštinu, češtinu, slovinštinu, finštinu, novořečtinu, arménštinu, čínštinu, japonštinu, bulharštinu a další jazyky.

Národní korpus ruského jazyka , vytvořený u Ruské akademie věd , v současné době obsahuje více než 500 milionů slovních použití [4] .

Spolu s reprezentativními korpusy, které pokrývají širokou škálu žánrů a funkčních stylů, se v lingvistickém výzkumu často používají oportunistické sbírky textů, jako jsou noviny (často The Wall Street Journal a The New York Times ), zpravodajské kanály ( Reuters ), sbírky beletrie ( Knihovna Maxima Moshkova nebo Projekt Gutenberg ).

Problémy

Problém reprezentativnosti

Korpus se skládá z konečného počtu textů, je však koncipován tak, aby adekvátně odrážel lexikogramatické jevy typické pro celý objem textů v odpovídajícím jazyce (nebo podjazyce ). Pro reprezentativnost je důležitá jak velikost, tak struktura pouzdra. Reprezentativní velikost závisí na úloze, protože je určena tím, kolik příkladů lze nalézt pro zkoumané jevy. Vzhledem k tomu, že ze statistického hlediska jazyk obsahuje velké množství poměrně vzácných slov ( Zipfův zákon ), pro prostudování prvních pěti tisíc nejfrekventovanějších slov (například ztráta, omluva ), vznikl korpus cca. Je potřeba 10-20 milionů slovních použití, zatímco jak popsat prvních dvacet tisíc slov ( nenáročný, tep, roj ) už vyžaduje korpus přes sto milionů slovních použití.

Problém se značkami

Primární označení textů zahrnuje kroky požadované pro každý korpus:

Problém s prezentací

Ve velkých korpusech nastává problém, který byl dříve irelevantní: vyhledávání pomocí dotazu může vyprodukovat stovky i tisíce výsledků (kontextů použití), které je prostě fyzicky nemožné zobrazit v omezeném čase. K vyřešení tohoto problému se vyvíjejí systémy, které umožňují seskupovat výsledky vyhledávání a automaticky je rozdělovat do podmnožin ( shlukování výsledků vyhledávání ) nebo rozdávat nejstabilnější fráze ( kolokace ) se statistickým hodnocením jejich významnosti.

Web jako korpus

Použití vyhledávačů

Jako korpus lze použít spoustu textů dostupných na internetu (tedy miliardy slovních použití pro hlavní světové jazyky). Pro lingvisty zůstává nejběžnějším způsobem práce s internetem dotazování do vyhledávače a interpretace výsledků buď podle počtu nalezených stránek, nebo podle prvních vrácených odkazů. Tato metodika se nazývá  Googleologie [5] . Je třeba poznamenat, že tento přístup je vhodný pro řešení omezené třídy problémů, protože nástroje pro označování textu používané na webu nepopisují řadu lingvistických rysů textu (označení přízvuků , gramatické třídy, hranice frází atd.) . Věc je navíc komplikována nízkou prevalencí sémantického uspořádání .

V praxi vedou omezení tohoto přístupu k tomu, že je nejjednodušší ověřit například kompatibilitu dvou slov pomocí dotazu jako „slovo1 slovo2“. Na základě získaných výsledků lze soudit, jak častá je tato kombinace a v jakých textech je častější. Viz také statistika dotazů .

Používání webových stránek

Druhým způsobem je automatické extrahování velkého množství stránek z internetu a jejich následné použití jako běžného korpusu, což umožňuje jeho označení a použití jazykových parametrů v dotazech. Tato metoda umožňuje rychle vytvořit reprezentativní korpus pro jakýkoli jazyk dostatečně zastoupený na internetu, ale jeho žánrová a tematická rozmanitost bude odrážet zájmy uživatelů internetu [6] .

Využití Wikipedie jako souboru textů si získává ve vědecké komunitě stále větší oblibu [7] .

Projekt Tatoeba

V roce 2006 se objevila stránka Tatoeba (Tatoeba), která vám umožňuje volně přidávat nové a měnit stávající věty v různých jazycích, které mají význam. Vycházel pouze z anglo-japonského korpusu a již nyní počet jazyků přesahuje 80 a počet vět je 600 000 [8] . Každý může přidávat nové věty a jejich překlady a v případě potřeby si zdarma stáhnout celé nebo část všech jazykových korpusů.

Russian Open Corpus

Zajímavý je projekt otevřeného korpusu ruského jazyka , který nejen využívá texty publikované pod svobodnými licencemi, ale umožňuje každému, kdo se chce podílet na jazykovém značení korpusu. Tato forma crowdsourcingu je umožněna rozdělením značkovacího úkolu na malé úkoly, z nichž většinu zvládne i osoba bez speciálního jazykového vzdělání [9] . Korpus je neustále aktualizován, veškeré texty a software s ním související jsou dostupné pod licencí GNU GPL v2 a CC-BY-SA .

Viz také

Poznámky

  1. Na první i předposlední slabice jsou přízvuky. „... přídavné jméno by se mělo vyslovovat s důrazem na první slabiku –“ sbor “ (Velký vysvětlující slovník ruského jazyka, Petrohrad, 1998). Rozbor dosavadního používání specialistů přitom svědčí ve prospěch tvarů „sbor“, „sbor“, „sbor“, které se často používají, takže zřejmě s opatrností můžeme říci, že v současnosti tato otázka zůstává otevřená. Neexistují žádná pravidla upravující používání té či oné formy ve vztahu ke korpusové lingvistice, i když se zdá, že by měla zvítězit varianta „korpusy“, protože odlišuje terminologický význam slova od jeho běžně používaného významu. V učebnici autoři tuto možnost využijí. Zakharov V.P., Bogdanova S.Yu. Korpusová lingvistika Archivováno 3. července 2019 na Wayback Machine . Petrohrad, 2013
  2. 1 2 Zacharov, Bogdanova, 2013 , str. 5.
  3. Dovnar P.Yu., Vorontsov A.V. Lingvistický procesor čínského jazyka. Vývojové funkce  // Mezinárodní kongres o informatice: Informační systémy a technologie: Sborník příspěvků z mezinárodního vědeckého kongresu 31. října. – 3. listopadu 2011 - Minsk: BGU: BGU, 2011.
  4. Statistiky. Národní korpus ruského jazyka . www.ruscorpora.ru Získáno 27. prosince 2019. Archivováno z originálu dne 29. prosince 2019.
  5. Kilgarriff A. Googleologie je špatná věda. Archivováno 8. září 2008 na Wayback Machine Computational Linguistics, , 33(1), 2007.
  6. Baroni M. a Bernardini S. (editoři). šílený! Pracovní dokumenty na webu jako korpus. Archivováno 31. března 2022 na Wayback Machine Gedit, Bologna, 2006.
  7. Viz díla: Wikipedie v akademických studiích
  8. Seznam návrhů podle jazyka . Datum přístupu: 16. prosince 2010. Archivováno z originálu 11. března 2011.
  9. Bocharov V.V., Granovský D.V. Software pro kolektivní práci na morfologickém značení korpusu  // Sborník příspěvků z mezinárodní konference "Korpusová lingvistika - 2011". - Petrohrad: Petrohrad: Petrohradská státní univerzita. Univerzita, Filologická fakulta, 2011.

Literatura

Odkazy