Koeficient lexikální diverzity

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 18. května 2020; kontroly vyžadují 4 úpravy .

Koeficient lexikální diverzity (CLR, anglicky  lexical diversity, LD ) je kvantitativní charakteristika textu, odrážející míru bohatosti slovníku při konstrukci textu dané délky. Indikátor je založen na poměru počtu jednotlivých lexikálních jednotek ( lemmata , anglické  typy ) a počtu jejich výskytů v textu (textové formy , anglické  tokeny ).

Vypočteno podle vzorce

,

kde

Lexikálně bohatý text má vysoký koeficient lexikální diverzity, tedy maximální počet unikátních jednotek na jednotku objemu textu, lexikálně chudý text má tendenci opakovat stejné lexémy, díky čemuž se snižuje jeho lexikální rozmanitost. Při výpočtu KLR je třeba vzít v úvahu následující omezení: zatímco počet textových formulářů je potenciálně nekonečný a může se zvyšovat pouze s rozšiřováním pole analyzovaných textových dat, počet tokenů je stále konečný. Proto je racionální počítat CLR pouze pro texty omezeného objemu. Ve výpočetní lingvistice bylo navrženo několik řešení tohoto problému [1] .

Blízko CLR je koeficient lexikální hustoty textu ( angl.  lexical density ), vyjadřující poměr samostatných slovních druhů v textu k celkovému počtu slov. Lexikálně hutnější proto budou texty, které používají méně pomocné slovní zásoby. Koeficienty lexikální hustoty je možné vypočítat jak pro samostatné slovní druhy obecně, tak samostatně pro podstatná jména, přídavná jména, slovesa, příslovce.

Metody pro výpočet CLR

TTR

TTR ( anglicky  type/token ratio ) je nejjednodušší a nejvíce kritizovaný způsob výpočtu koeficientu lexikální diverzity, který nezohledňuje vliv efektu délky textu. Do vědeckého využití byl TTR údajně zaveden v roce 1957 v práci specialisty na lingvodidaktiku M. Templina [2] . Například TTR v anglickém výrazu Musím koupit nějaké mléko, protože nemám mléko („Musím koupit mléko, protože nemám mléko“) je nízké a je 0,73 (pouze 8 lexémů na 11 slovních použití , 8/ 11), a např. ve frázi Došlo mi mléko, tak potřebuji nějaké koupit („Došlo mi mléko, potřebuji ho koupit“) TTR je již vyšší (TTR = 10/11 = 0,91).

TTR lze vypočítat interpretací pojmu typ různými způsoby : může to znamenat
1) lexém jako celek jeho slovních tvarů ( lemma ): například lexém košile pro tvary košile, košile, košile, košile atd. .,
2) samostatný slovní tvar nebo soubor homonymních slovních tvarů nebo i homonym ve vztahu k jednotlivým výskytům těchto slovních tvarů v textu („textové tvary“): např. domy pro textové tvary doma, doma .
První řešení je jazykově správné, ale zvyšuje požadavky na stupeň automatizace výpočtu koeficientu, protože implikuje schopnost morfologického analyzátoru provádět značkování slovními druhy a lemmatizaci. Druhý je z teoretického hlediska zranitelný, odhaluje závislost na morfologii konkrétního jazyka (což například snižuje jeho spolehlivost při porovnávání původních a přeložených textů), ale lze jej snadno automatizovat.

Vocd

Metoda VocD ( vocabulary diversity )  byla navržena D. Malvernem a jeho kolegy [3] a jedná se o vylepšenou verzi TTR, která vyhlazuje efekty délky textu. Metoda je založena na metodě náhodného výběru fragmentů z textu o délce 35 až 50 textových forem a výpočtu TTR pro ně s následným zprůměrováním výsledných grafů.

Použití

Koeficient lexikální diverzity se ukazuje jako důležitý měřený parametr ve studiích stylistiky, diskurzivní analýzy, translatologie (při srovnávání původních a přeložených textů), lingvistiky dětské řeči.

Poznámky

  1. Informace na textinspector.com . Získáno 21. ledna 2021. Archivováno z originálu dne 28. ledna 2021.
  2. Templin M. Určité jazykové dovednosti u dětí. - Minneapolis: University of Minnesota Press, 1957.
  3. McKee, G., Malvern, D., & Richards, B. Měření rozmanitosti slovní zásoby pomocí vyhrazeného softwaru. — Literární a lingvistická výpočetní technika. - 2000. - č. 15(3). - S. 323-337.

Literatura

Odkazy