Automatická abstrakce, anotace nebo sumace je vytvoření krátké verze ( abstrakt , anotace ) textového dokumentu pomocí počítačového programu.
První práci na automatickém odkazování provedl americký vědec G.P. Lun v roce 1958 na materiálu anglického jazyka. [1] [2] [3] Principy extraktivní abstrakce formuloval J. Salton koncem 50. a začátkem 60. let. [2] [4]
V SSSR byli průkopníky v oblasti automatického odkazování V. E. Berzon, I. P. Sevbo , E. F. Skorokhodko , D. G. Lakhuti , R. G. Piotrovsky a další [5] [2]
Existují dva hlavní přístupy k automatickému odkazování: extrahování (extrakce, povrchní) a generování (abstrakce, hluboké). [6] [1] [5] [2]
Nejdůležitější fráze, věty nebo odstavce jsou vybírány z výchozího textu, jehož souhrn tvoří určitý výtah, kvaziabstrakt. [5] V tomto případě se tyto fragmenty nezpracovávají, ale extrahují v pořadí a podobě, v jaké jsou uvedeny ve zdrojovém textu. [6]
Výhody přístupu: nezávislost na předmětu, srovnatelná snadnost vývoje. [1] Nevýhody: nekoherentní výsledek. [jeden]
Metody generování jsou založeny na lingvistických pravidlech zpracování přirozeného jazyka nebo metod umělé inteligence. [6] Obsahově zobecňují zdrojový dokument a vytvářejí text, který v něm není výslovně uveden. [6]
Výhody přístupu: nejlepší kvalita výsledku. [1] Nevýhody: složitost praktické realizace, nutnost shromáždit velké množství jazykových znalostí. [jeden]
zpracování přirozeného jazyka | |
---|---|
Obecné definice | |
Analýza textu |
|
Odkazování |
|
Strojový překlad |
|
Identifikace a sběr dat | |
Tematický model | |
Peer review |
|
Rozhraní přirozeného jazyka |