Propojení pojmenovaných entit

Propojování pojmenovaných entit (z angl.  Named entity linking , NEL ) je úkol, který spočívá v určení identity entit uvedených v textu. Vezměme si například větu "Tento víkend pojedu do Kirova." Podstatou spojení v tomto případě bude korelovat slovo „Kirov“ s městem Kirov, a ne s osobou jménem Kirov nebo s čímkoli jiným. NEL se liší od Rozpoznání pojmenované entity (NER) v tom, že NER určuje typ entity, na kterou se odkazuje (osoba, geografická poloha, organizace atd.), ale nesdružuje entitu s žádnou konkrétní entitou.

Propojení pojmenovaných entit vyžaduje znalostní bázi obsahující entity (nebo koncepty), se kterými lze odkazy propojit. Populárním řešením pro propojování entit v open source textu jsou znalostní báze založené na Wikipedii [1] [2] , ve kterých je každá stránka pojmenovanou entitou. NEL, které používají entity Wikipedie , se někdy označují jako wikiifikace .  Znalostní základnu lze také získat automaticky z výukového textu [3] nebo sestavit ručně [4] .

Odkazy na pojmenované entity mohou být v podstatě nejednoznačné, jakákoli metoda vazby musí být schopna tuto nejednoznačnost vyřešit. K vyřešení tohoto problému bylo vyzkoušeno mnoho přístupů. Jedno plodné řešení tohoto problému navrhli Milne a Witten a bylo založeno na učení pod dohledem pomocí textu odkazu na wikipedii jako tréninkových dat. [5] Kulkarni a kol., použili společnou vlastnost souvisejících dokumentů k označení entit silně příbuzných typů. [6] Seznam nejmodernějších systémů vázání pojmenovaných entit zahrnuje AIDA, [7] AGDISTIS, [8] Babelfy [9] a TagMe. [deset]

Propojování pojmenovaných entit se používá ke zlepšení kvality systémů vyhledávání informací [1] a ke zlepšení kvality digitálních knihoven. [11] [12] NEL je také klíčem k budování sémantického vyhledávání [13] . Například NEL byl úspěšně aplikován na validaci výsledku metod rozpoznávání pojmenovaných entit za předpokladu, že každý text má specifický rozsah a kontext, a proto by entity uvedené v tomto textu měly mít mezi sebou sémantický vztah [14] . Měření sémantické blízkosti lze použít k odfiltrování chyb při identifikaci entit mimo kontext, i když je pro jednu zmínku možné více interpretací.

Hodnotící kampaně NEL ( Entity Linking ) organizuje americký Národní institut pro standardy a technologie ( NIST ) v rámci úkolu Knowledge Base Population konference Text Analysis.

Poznámky

  1. 1 2 M. A. Khalid, V. Jijkoun a M. de Rijke (2008). Vliv normalizace pojmenované entity na získávání informací pro zodpovězení otázek  (mrtvý odkaz) . Proč. ECIR.
  2. Xianpei Han, Le Sun a Jun Zhao (2011). Propojení kolektivních entit ve webovém textu: metoda založená na grafech Archivováno 5. března 2016 na Wayback Machine . Proč. SIGIR.
  3. Aaron M. Cohen (2005). Normalizace pojmenovaných entit genu/proteinu bez dozoru pomocí automaticky extrahovaných slovníků. Proč. ACL -ISMB Workshop on Linking Biological Literature, Ontologies and Databases: Mining Biological Semantics, pp. 17-24.
  4. Wikipedie
  5. David Milne a Ian H. Witten (2008). Naučte se propojovat s Wikipedií. Proč. CIKM.
  6. Kulkarni, Sayali; Singh, Amit; Ramakrishnan, Ganesh; Chakrabarti, Soumen (2009). Hromadná anotace entit Wikipedie ve webovém textu . Proč. 15. mezinárodní konference ACM SIGKDD o získávání znalostí a dolování dat (KDD). DOI : 10.1145/1557019.1557073 . ISBN  9781605584959 .
  7. Hoffart, J., Yosef, M.A., Bordino, I., Fürstenau, H., Pinkal, M., Spaniol, M., Taneva, B., Thater, S., and Weikum, G. (2011). Robustní deambiguace pojmenovaných entit v textu Archivováno 29. března 2017 na Wayback Machine . V EMNLP
  8. Usbeck, R., Ngomo, AN, Röder, M., Gerber, D., Coelho, SA, Auer, S., and Both, A. (2014). AGDISTIS - grafová disambiguace pojmenovaných entit pomocí propojených dat. V ISWC Archivováno 17. listopadu 2015 na Wayback Machine
  9. Moro, A., Raganato, A., and Navigli, R. (2014). Entity Linking splňuje Word Sense Disambiguation: a Unified Approach Archived 13. července 2017 na Wayback Machine
  10. TAGME: průběžná anotace krátkých textových fragmentů! . tagme.d4science.org . Získáno 25. září 2016. Archivováno z originálu 27. září 2016.
  11. Hui Han, Hongyuan Zha, C. Lee Giles, „Disambiguace jmen v citacích autorů pomocí metody K-way spektrálního shlukování“, ACM/IEEE Joint Conference on Digital Libraries 2005 (JCDL 2005): 334–343, 2005
  12. Deutsche Nationalbibliothek - Projects - Evaluation of NERD process . Datum přístupu: 25. prosince 2016. Archivováno z originálu 5. ledna 2018.
  13. STICS . Získáno 25. prosince 2016. Archivováno z originálu 1. září 2021.
  14. Grego, Tiago; Couto, Francisco. Identifikace chemických entit v patentových dokumentech  (anglicky)  // PLOS One  : journal. - 2013. - doi : 10.1145/1557019.1557073 .