Počítačová lexikografie

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 27. prosince 2020; ověření vyžaduje 1 úpravu .

Počítačová lexikografie  je aplikovaná vědní disciplína v lingvistice , která studuje metody využití výpočetní techniky při sestavování slovníků . Jedná se o dočasnou disciplínu období přechodu od ruční a ručně psané lexikografické praxe k novým bezpapírovým informačním technologiím [1] .

Počítačová lexikografie je reprezentována souborem metod a softwarových nástrojů pro zpracování textových informací pro tvorbu slovníků [2] . V rámci počítačové lexikografie jsou rozvíjeny počítačové technologie pro sestavování a provozování slovníků. Speciální programy - databáze , počítačové kartotéky, programy pro zpracování textu - umožňují automaticky generovat slovníkové záznamy, ukládat informace ze slovníku a zpracovávat je [3] .

Mnoho různých počítačových lexikografických programů se dělí do dvou velkých skupin: programy pro podporu lexikografických děl a elektronické slovníky různého typu, včetně lexikografických databází.

Historie počítačové lexikografie [4]

Termín „počítačová lexikografie“ byl vytvořen pro označení studijního oboru strojově čitelné (elektronické) slovníky [5] a objevil se v polovině 60. let 20. století. Této disciplíně se až do počátku 90. let věnovala malá pozornost. Pojem „strojově čitelný slovník“ znamená, že data ze slovníku (uložená v elektronické podobě) lze zpracovávat a zkoumat pomocí moderní výpočetní techniky.

Průkopnická práce Evense [6] a Amslera [7] (1980) posloužila jako podnět k rozšíření výzkumu elektronických slovníků, např. praktické práce probíhaly s využitím Websterova sedmého kolegiálního slovníku [8] . Tento výzkum podnítilo také rozšířené používání Longman Dictionary of Contemporary English [9] v 80. letech 20. století, který je dodnes jedním z nejlepších elektronických slovníků.

Zpočátku měly elektronické slovníky stejný zápis jako konvenční slovníky a výzkumníci museli strávit mnoho času výkladem tohoto zápisu (například určit, do kterého slovního druhu určité slovo patří). S rozvojem technologií se vydavatelé rozhodli oddělit databázi elektronického slovníku od toho, jak vypadá po vytištění. Dnes existují pohodlnější formy zápisu, jako je například XML XML . Pomocí XML získají výzkumníci rychlý přístup k informacím uloženým v elektronickém slovníku.

Základní pojmy počítačové lexikografie

Hypertextové technologie umožňují snadno kombinovat různé typy informací – prostý text, kresbu, graf, tabulku, diagram, zvuk a pohyblivý obraz. Tradiční text i hypertext jsou fenomény generované novými technologiemi. V prvním případě technologie umožňovala snadno replikovat a šířit poznatky různého typu a ve druhém umožňovala výpočetní technika měnit samotný vzhled textu a jeho strukturu. Heterogenita hypertextu je první technologickou vlastností hypertextu, technologickou v tom smyslu, že vyplývá přímo z použité výpočetní techniky. Druhou technologickou vlastností hypertextu je jeho nelinearita. Hypertext nemá standardní, pravidelnou sekvenci čtení. Další vlastnosti hypertextu jsou v té či oné míře důsledky těchto dvou technologických vlastností [11] . Praktická hodnota hypertextu v počítačové lexikografii spočívá v tom, že popisuje typ interaktivního prostředí se schopností sledovat odkazy. Nelineární povaha hypertextu umožňuje tvořit informace ve formě rozvětvené struktury, což umožňuje výrazně rozšířit rozsah slovníkového hesla, to znamená, že popisuje typ interaktivního prostředí se schopností sledovat Odkazy. Slova, fráze nebo obrázky, které jsou odkazy na konkrétní text nebo obrázek, umožňují uživateli vybrat potřebné informace a zobrazit související informace a materiály [12] .

Elektronické slovníky

Elektronický slovník  je jakékoli uspořádané, relativně konečné pole jazykových informací prezentované ve formě seznamu, tabulky nebo seznamu, vhodné pro umístění do paměti počítače a vybavené programy pro automatické zpracování a doplňování [14] .

Termín elektronický slovník lze použít k označení jakéhokoli referenčního materiálu uloženého elektronicky, který poskytuje informace o pravopisu, významu nebo použití slov. Takže kontrola pravopisu v textovém editoru , zařízení, které skenuje a překládá tištěná slova, a elektronická verze papírového slovníku jsou všechny elektronické slovníky, které mají podobné systémy ukládání a vyhledávání [15] .

V (Nesy, 2000) [16] existuje několik kategorií elektronických slovníků pro výuku jazyků: internetové slovníky, slovníky pro online výukové kurzy, slovníky na CD-ROM a kapesní elektronické slovníky. Nessi [17] uvádí několik nejslavnějších CD slovníků:

Online slovníky

Éra internetu zpřístupnila online slovníky přímo z plochy počítače a později ze smartphonu. Skinner v roce 2013 poznamenal: „Seznam nejvyhledávanějších slov v online slovníku Merriam-Webster nyní zahrnuje 'holistický', 'pragmatický', 'varovat', 'esoterický' a 'buržoazní'. Historicky bylo účelem lexikografie vysvětlit čtenářům neznámá slova. A moderní slovníky se s tím úspěšně vyrovnávají. [osmnáct]

Existuje velké množství webových stránek, které fungují jako online slovníky, obvykle specializované na určitý obor. Některé z nich obsahují pouze údaje (často včetně neologismů), které přidali sami uživatelé. Zde jsou některé z nejznámějších příkladů:

Vztah k automatickým úlohám zpracování textu

Počítačová lingvistika se od tradičních metod zpracování přirozeného jazyka liší tím, že v prvním případě je pozornost zaměřena na modelování všeho, co lingvistika studuje jako celek, zatímco ve druhém je hlavní pozornost věnována rozdělení procesu porozumění jazyku. a na teoretickou lingvistickou správnost a přiměřenost navržených modelů.

Výpočetní lingvistika úzce souvisí s ústředním problémem umělé inteligence  – elektronickou reprezentací znalostí. Hlavním úkolem výpočetní lingvistiky je konstrukce logicko-lingvistických modelů a jim odpovídajících algoritmů a programů [19] .

Řešení lexikální polysémie

Řešení problému lexikální disambiguace (WSD) a rozvoj lexikografie si vzájemně prospívají: WSD poskytuje empirické seskupení významů a statisticky významné indikátory kontextu pro nové nebo existující významy. WSD navíc umožňuje vytvářet sémantickou síť založenou na strojově čitelných slovnících. Na druhou stranu lexikografie poskytuje větší a lepší soubor smyslů a sbírku anotací k významům slov, což může být pro WSD přínosem [20] .

Extrakce informací [21]

Extrakce informací [ 22] je  úkolem automatické extrakce strukturovaných dat (automatická identifikace vybraných typů objektů, vztahů nebo událostí) z nestrukturovaných nebo slabě strukturovaných strojově čitelných dokumentů .  Problém IE byl identifikován na Message Understanding Conferences , kde bylo hlavním úkolem extrahovat určitá data z textu a umístit je do daných šablon šablon. Vyplnění vzorů nevyžaduje úplnou analýzu textu, toho lze dosáhnout porovnáním s určitým vzorem (například pomocí regulárních výrazů). Štěrbiny vzorů jsou vyplněny řadou slov, obvykle klasifikovaných. Například jména lidí, názvy organizací, chemické prvky atd.

K extrakci jmen osob lze například použít šablony, které používají elektronické slovníky obsahující seznamy jmen a zkratek, které předcházejí jména osob. Seznamy mohou být často velmi rozsáhlé, například seznam názvů společností nebo záznamů ve věstníku. Jména lze poměrně spolehlivě určit, aniž by se překračovaly jednoduché seznamy, protože se v textu objevují jako pouhá podstatná jména. Pomocí takového modelu je také možné rozpoznat a charakterizovat událost v textu, ale musí být použity další lexikální informace.

Události jsou obvykle popisovány slovesy a tento popis lze vyjádřit různými syntaktickými vzory. I když lze tyto vzorce vyjádřit s určitou mírou jistoty (např. společnost najala osobu nebo osoba byla najata společností) jako základ pro srovnávání řetězců, tento přístup nedosahuje požadované úrovně obecnosti. Rozpoznání události znamená částečnou analýzu věty.

Větší obecnosti lze dosáhnout rozšířením šablon požadovaných sémantických tříd. Elektronický slovník WordNet je široce používán v IE, zejména pomocí hypernymických vztahů jako základu pro definování sémantických tříd. Další vývoj v IE bude pravděpodobně doprovázen používáním složitějších výpočetních slovníků.

Odpovědi na otázky [21]

Přestože většina výzkumů na téma „ Odpovídání na otázky “ byla provedena již v 60. letech 20. století, přidání tématu „Odpovědi na otázky“ na konferenci TREC v roce 1998 učinilo v tomto směru významný pokrok. Od počátku vědci považovali tento úkol za zahrnující sémantické zpracování a poskytnutí vhodného nástroje pro určování významu slov . Obecně se ukázalo, že tomu tak je, ale ve zpracování různých typů otázek bylo mnoho nuancí. Tezaurus WordNet se začal používat téměř ve všech systémech Q&A.

Otázky jsou analyzovány, aby se určilo, jaký "typ" odpovědi je vyžadován, jako je například otázka "Jaká je délka...?" vyžaduje, aby odpověď obsahovala číslo a měrnou jednotku; kandidát v odpovědi používá data WordNet k určení, zda výraz pro měrnou jednotku existuje. Zkoumání způsobů použití WordNet v úloze Q&A prokázalo užitečnost hierarchických a jiných druhů vztahů ve strojově čitelných slovnících.

Po mnoho let vedení tématu „Odpovědi na otázky“ na konferenci TREC se metody řešení tohoto problému neustále zdokonalovaly, což umožnilo klást stále složitější otázky. Bylo vymyšleno mnoho otázek, k jejichž zodpovězení je potřeba alespoň rozbor krátkých textů obsahujících odpověď. Mnoho otázek vyžaduje k zodpovězení abstraktnější úvahy. Zlepšení v odpovídání na otázky budou i nadále silně záviset na pokroku v počítačové lexikografii.

Abstrahování textů

Oblast výzkumu automatické sumarizace textu také těžila ze série hodnotících akcí známých jako Document Understanding Conference (v roce 2004) [23] . V „extrakční sumarizaci“ ( angl.  extractive summarization ) (z textu se vytahují věty nápadně odlišné od ostatních) se počítačové slovníky používají mnohem méně než při konstrukci anotací ( angl.  abstractive summarization ). V druhém případě je potřeba hlubší rozbor textu, což klade vážné nároky na strojově čitelný slovník [23] .

Rozpoznávání a syntéza řeči

Použití elektronických slovníků v technologiích rozpoznávání řeči je omezené. Strojově čitelné slovníky obvykle obsahují výslovnost, ale tyto informace poskytují pouze první krok k řešení problému rozpoznávání a syntézy řeči. Elektronický slovník slovní zásoby řeči zahrnuje pravopisnou formu slov nebo kanonickou výslovnost. Slovník plných tvarů obsahuje také všechny tvary slov v hesle slovníku; formuláře lze generovat na základě pravidel, ale obvykle jsou všechny tvary slov jednoduše uloženy ve slovníku [24] .

Znalost kanonické výslovnosti nestačí ke zpracování mluvené řeči. Je třeba vzít v úvahu odchylky výslovnosti vyplývající z regionálních rozdílů, vliv rodného jazyka u cizinců, závislost výslovnosti a důraz na slovosled. Některé z těchto potíží lze vyřešit algoritmicky, ale většinu z nich lze vyřešit pouze pomocí většího souboru informací. Výsledkem je, že databáze řeči obsahují empirická data o skutečné výslovnosti, fragmenty mluvené řeči a její písemný zápis. Tyto databáze obsahují informace o těch, jejichž hlasy jsou nahrány, typ řeči, kvalitu nahrávky a další údaje. Nejdůležitější je, že tyto databáze obsahují data řeči ve formě signálu zaznamenaného v analogové nebo digitální formě. Vzhledem k velkému množství dat zapojených do implementace hlavních systémů rozpoznávání a syntézy řeči tyto systémy zatím neobsahují celou škálu sémantických a syntaktických schopností pro zpracování znělých dat [25] .

Výhody

Elektronické slovníky jsou lepší než papírové slovníky ve své funkčnosti a mají řadu výhod:

Problémy počítačové lexikografie

Při převodu papírových slovníků na strojově čitelné slovníky ( w:Machine-readable dictionary ) čelí vědci a programátoři mnoha problémům:

  1. Analýza  je úkol, který spočívá v extrahování informací ze slovníku přirozeného jazyka a jejich prezentaci jako stromové struktury s uzly, které se skládají z atributů. Každý atribut má svou hodnotu [31] .
  2. Vytvoření lexikální databáze  - úkolem je, že při vytváření lexikální databáze, která uchovává informace tvořeného slovníku, je nutné zajistit rychlý, flexibilní a pohodlný přístup. Také záznamy, které zde budou uloženy, musí mít strukturovanou podobu. Dotazovací jazyk pro tuto databázi by měl poskytovat nejpohodlnější přidávání, změnu a mazání informací [32] .
  3. Lexikální analýza elektronických slovníků  - úkolem je provést analýzu obsahu slovníku (lexikální analýza slova, hledání synonym, hledání interních odkazů) [33] :
    1. Odhad počtu vícehodnotových-jednohodnotových slov. Většina slov ve slovnících je jednoznačná, ale existují slova s ​​více významy. Úkolem je spočítat počet významů slov v elektronickém slovníku a počet polysémantických slov [34] ;
    2. Automatická extrakce vztahů hyponyma-hypernyma . Úkolem je najít všechny dvojice hyponymum-hypernymum pro daný slovník. Vzhledem k tomu, že slova jsou polysémantická, každé slovo může mít několik hypernym, takže pokud vezmete všechny páry hyponyma-hypernyma ve slovníku jako skupinu, pak podle Amslerovy definice [35] to bude „spletitá hierarchie“ ( angl.  tangled hierarchy ) [ 36] ;
    3. Zobrazení hodnot při načítání z více slovníků najednou  - úkolem je porovnat významy slova uvedeného v jednom slovníku s hodnotami stejného slova v jiném slovníku (obdobně jako v úloze mapování ontologie ). Řešení problému zobrazování hodnot je nezbytné pro kombinování dat z různých slovníků. To by například umožnilo korelovat gramatické informace z Longman Dictionary of Contemporary English s definicí z Webster's Seventh Collegiate Dictionary [37] ;
    4. Definování hodnoty v rámci jednoho slovníku . Vztah synonymie (hyperonymie atd.) je vztah mezi významy, nikoli slovy. Úkolem je tedy vybrat význam polysémantického slova v rámci stejného slovníku, aby byl označen synonymní význam. Tato úloha úzce souvisí s předchozí, protože při porovnávání hodnot několika slovníků je nutné automaticky vybrat odpovídající hodnotu ze seznamu všech hodnot uvedených v položce slovníku [38] ;
    5. Extrahování informací pomocí sady jednojazyčných a překladových slovníků  - cílem je převzít informace z jednojazyčného slovníku pro daný jazyk a pomocí přeloženého (dvojjazyčného) slovníku jako přenosového zařízení přenést informace z jednojazyčného slovníku do druhého jazyka [39] .

Viz také

Poznámky

  1. Filippovich, 1999 .
  2. Tuzlukova V.I.- Typologie pedagogických lexikografických zdrojů v mezinárodní pedagogické lexikografii - Sborník příspěvků z 2. mezinárodní vědecko-praktické konference - str.45 Cit. autor: Kashevarova I. S. — Elektronický slovník jako nová etapa ve vývoji lexikografie — Mladý vědec — 2010
  3. 1 2 Chepik, 2006 , str. 275.
  4. Litkowski, 2005 , str. 2.
  5. Amsler, RA Výpočetní lexikologie: Výzkumný program. In American Federated Information Processing Societies Conference Proceedings.—National Computer Conference. — 1982 Cit. od: Litkowski Výpočtové lexikony a slovníky// - 2004.
  6. Evens, M., & Smith, R. Lexikon pro počítačový systém odpovědí na otázky.—American Journal of Computational Linguistics.—1978—Mf.81 Op. od: Litkowski Výpočtové lexikony a slovníky// - 2005.
  7. Amsler, RA Struktura kapesního slovníku Merriam-Webster [Diss]—Austin: University of Texas.—1980 op. od: Litkowski Výpočtové lexikony a slovníky// - 2005.
  8. Gove, P. (Ed.). Webster's Seventh New Collegiate Dictionary - G & C. Merriam Co. - 1972 op. od: Litkowski Výpočtové lexikony a slovníky// - 2005.
  9. Proctor, P. (Ed.). Longman Dictionary of Contemporary English - Harlow, Essex - England: Longman Group. — 1978 Cit. od: Litkowski Výpočtové lexikony a slovníky// - 2005.
  10. Baranov A.N., 2001 , s. 19.
  11. Baranov A.N., 2001 , s. 21.
  12. Chepik, 2006 , str. 277.
  13. Potapová R. K. Nové informační technologie a lingvistika. - M.: MGLU, 2002. - 575 s. Cit. Citace: Tabanakova V.D., Kovyazina M.A. Nový model dvojjazyčného ekologického slovníku-tezauru. — Ural. Stát ped. un-t, 2007. - S. 29 - 32
  14. Nelyubin L. L. Překlad a aplikovaná lingvistika. - M .: Vyšší škola, 1983. - 208 s. Cit. Citováno z: Sivakova N.A. Lexikografický popis anglických a ruských fytonymů v elektronickém glosáři // Tyumen. - 2004. - S. 11.
  15. Hilary NESI, 2000 , str. 839.
  16. Hilary NESI, 2000 , str. 842.
  17. Hilary NESI, 2000 , str. 843.
  18. David Skinner, 2013 .
  19. Shemyakin Yu.I., 2003 , str. 5.
  20. Navigli, 2009 , pp. 10-53.
  21. 12 Litkowski , 2005 , s. 9-11.
  22. Grishman, R. Extrakce informací. In R. Mitkov (Ed.) — The Oxford handbook of computational linguistics, Oxford University Press. 2003. Op. od: Litkowski Výpočtové lexikony a slovníky// - 2005.
  23. 12 Litkowski , 2005 , s. jedenáct.
  24. Litkowski, 2005 , str. 11-12.
  25. Litkowski, 2005 , str. 12.
  26. 1 2 3 4 Leonova A.V., 2012 , str. 2.
  27. 1 2 3 4 Chepik, 2005 , str. 207.
  28. 1 2 3 Kashevarova I.S., 2010 , str. 146.
  29. 1 2 Tuzlukova V. I. - Typologie pedagogických lexikografických zdrojů v mezinárodní pedagogické lexikografii - Sborník příspěvků z 2. mezinárodní vědecko-praktické konference - str.47 Cit. autor: Kashevarova I. S. — Elektronický slovník jako nová etapa ve vývoji lexikografie — Mladý vědec — 2010
  30. Leonova A.V., 2012 , s. jeden.
  31. Roy J., 1987 , str. 220-223.
  32. Roy J., 1987 , str. 223-225.
  33. Roy J., 1987 , str. 225-226.
  34. Roy J., 1987 , s. 226.
  35. Amsler, 1980 .
  36. Roy J., 1987 , str. 226-227.
  37. Roy J., 1987 , str. 228-229.
  38. Roy J., 1987 , str. 234-236.
  39. Roy J., 1987 , str. 236-239.

Literatura

Odkazy