GATE (program)

Obecná architektura pro textové inženýrství (GATE)

Hlavní okno vývojáře GATE
Typ Data mining, extrakce informací
Vývojáři University of Sheffield
Zapsáno v Jáva
Rozhraní Grafické, GATE API
Operační systém Windows Vista, Windows XP, Mac OS X, Linux, Mac OS X, Solaris atd.
Jazyky rozhraní Angličtina
První vydání 1995
Hardwarová platforma Java virtuální stroj
Nejnovější verze
Licence LGPL
webová stránka gate.ac.uk
 Mediální soubory na Wikimedia Commons

Obecná architektura pro textové inženýrství (GATE, program)  je open source systém pro zpracování přirozeného jazyka, který využívá sady komponent v jazyce Java [1] . Systém byl původně vyvinut na University of Sheffield a byl vyvíjen od roku 1995.

Pomocí GATE jsou realizovány úlohy, kde je potřeba identifikovat sémantický obsah textu a zakódovat jej do strukturované podoby přidáním anotací do textových segmentů. GATE se používá spolu s NLTK , R a RapidMiner [2] . Systém se používá pro extrakci informací , ruční a automatické sémantické anotace, analýzu koreference , práci s ontologií (například WordNet), strojové učení (Weka, RASP, MAXENT, SVM Light), analýzu toku příspěvků na blogu (například Twitter) [3] .

Do rodiny nástrojů GATE patří: GATE Developer, GATE Mímir, GATE Cloud (pro práci s rozsáhlými lingvistickými projekty), GATE Teamware (optimalizace serveru pro kolaborativní anotaci textu), GATE Embedded (knihovna objektů) [4] .

GATE je podporována velkou komunitou vývojářů, uživatelů, pedagogů, studentů a vědců. Používá se v komerčních a výzkumných projektech velkými korporacemi, výzkumnými laboratořemi a univerzitami, malými a středními komerčními podniky po celém světě. GATE se používá v široké škále vědeckých oborů souvisejících s počítačovou lingvistikou , zpracováním přirozeného jazyka , modelováním jazykových procesů, počítačovou biologií a medicínou [5] . Projekty využívající GATE: ForgetIT (Velká Británie), The National Archives (Velká Británie), EMILLE (Velká Británie), myGRID Archivováno 29. září 2013 ve Wayback Machine (Velká Británie), AKT (Velká Británie), KIT Semantic Platform , Ontotext (Bulharsko), MeManage  (nedostupný odkaz) (Německo), Med Dictate (Kanada), IE Denso (Japonsko) [6] .

Architektura a základní operace

Architektura GATE se skládá ze vzájemně propojených komponent: „kusů“ softwaru s dobře definovanými rozhraními, které lze nasadit v různých kontextech. GATE implementuje hotová řešení pro tokenizaci, tagování, rozdělování textu na příkazy (splitter), extrahování pojmenovaných entit , strojové učení . Komponenty jsou rozděleny do tří kategorií podle funkce:

Podporovány jsou následující formáty dokumentů: prostý text, HTML, SGML, XML, RTF, e-mail, PDF (některé dokumenty), Microsoft Office (některé formáty), OpenOffice (některé formáty), UIMA CAS, CoNLL/IOB. Práce s formáty dokumentů v GATE má řadu specifických vlastností [7] . GATE má vestavěné různé nástroje pro práci s Unicode. Podporované jazyky: angličtina (výchozí), španělština, čínština, arabština, bulharština, francouzština, němčina, hindština, italština, cebuánština, rumunština, ruština.

Po spuštění programu obsahuje jeho hlavní okno čtyři položky hlavní nabídky: Aplikace, Jazykové prostředky, Zdroje zpracování, Úložiště dat.

Aplikace

Řadič spolu s přidruženými programy pro zpracování textu (Processing Resources). Definované a uložené procesy zpracování textu lze znovu použít na jeden dokument nebo textový korpus. To zajišťuje spolehlivé zpracování textu a šetří čas.

Jazykové zdroje (LR)

Obsahuje tři typy dat: dokumenty, korpusy a anotační grafy.

Zdroje zpracování (PR)

Programy pro zpracování textu. V GATE se prostředky používají k automatickému vytváření a správě anotací. Pomocí PR můžete přidat nebo změnit označení dokumentu. Nový PR se vytváří stejným způsobem jako LR. Při vytváření PR se nastavují parametry, které jsou dvojího typu: inicializační parametry a spouštěcí parametry. První musí být nastaven při vytváření prostředku, druhý těsně před jeho spuštěním z řadiče. Ovladače řídí provoz PR. Jsou zodpovědní za pořadí, ve kterém je PR aplikován, a za interakci PR s LR. Hlavní typy ovladačů:

Principy práce s Pipeline a Corpus Pipeline jsou podobné: vytvoří se nový kontrolér (pravým tlačítkem myši na Aplikace > Nový > název kontroleru), vyberou se PR ze seznamu vlevo a nainstalují se v pořadí zadaném uživatelem. Zadejte cílový dokument v případě Pipeline, cílový korpus v případě Corpus Pipeline, jsou definovány parametry pro PR. Po spuštění Run začne řadič postupně spouštět PR na vybraných dokumentech v pořadí zadaném uživatelem.

Konfigurace ovladače (PR + nastavení) lze uložit do Aplikace (Uložit stav aplikace), nejlépe pomocí přípony .gapp.

CREOLE resource pack

Sada zdrojů integrovaných s GATE je známá jako CREOLE  - Reusable Objects for Language Engineering. Zdroje jsou uloženy v repozitářích CREOLE, které obsahují soubory XML, archivní kódy Java a knihovny nezbytné pro zdroje. Použité zdroje jsou seskupeny do pluginů [8] , které jsou uloženy na konkrétní adrese (URL nebo file:/URL). Pluginy mohou být základní (načtené během instalace GATE) a vlastní, mohou být umístěny na místním disku nebo vzdáleném serveru. Když je soubor načten do GATE, vypadá jako soubor nastavení creole.xml. Zásuvné moduly CREOLE se spravují prostřednictvím rozhraní pomocí příkazu Soubor > Spravovat zásuvné moduly CREOLE > Přidat nový kreolský repozitář. GATE je reprezentován jako soubor nastavení (funkcí), kde uživatel připojuje CREOLE komponenty: uživatel zadá seznam adres, GATE z nich extrahuje odpovídající zdroje (PR). Po výběru zásuvného modulu se v poli vpravo zobrazí seznam jeho nastavení.

datová úložiště

Úložiště dat. Potřebné pro uložení dokumentů/případů a procesů pro pozdější použití. Ze všech typů úložiště se často používá Serial DataStore. skladovací plechovka

  • vytvořit (Datastores > Create datastore > Serial DataStore > zadejte prázdnou složku bez znaků azbuky a mezer v cestě),
  • otevřít dříve vytvořené (Otevřít datové úložiště),
  • ukládat do něj dokumenty a případy (Otevřít datové úložiště > dvakrát klikněte na dokument/případ),
  • uložit změny provedené v dokumentu nebo korpusu (Uložit do jeho datového úložiště).

Sekvenci procesů zpracování textu z aplikací lze spouštět z úložiště DataStore. Musíte otevřít DataStore, otevřít pouzdro a poté v Aplikace vybrat tento případ. Při spuštění aplikace na těle z DataStore se každý dokument načte, zpracuje, uloží a zavře. To znamená, že se zpracovává vždy pouze jeden dokument. Tím nedochází k přetížení paměti, ale proces je pomalejší, než kdyby byly všechny dokumenty zpracovávány současně.

Označení dokumentu v GATE Developer

Označování dokumentů podle jednotných pravidel umožňuje vyhledávat a extrahovat data z dokumentu, vytvářet ontologie .

V GATE se po otevření editoru dokumentu zobrazí záložky Sady anotací a Seznam anotací (nebo Anotace v závislosti na verzi Brány), kde v seznamu napravo můžete zaškrtnout typy anotací, které chcete zobrazit, nebo anotace vytvářet. . K dispozici je funkce Change Color. Když je vybrán kus textu, ke kterému má být přiřazena anotace, zobrazí se okno Editor anotací, které obsahuje následující pole a ovládací prvky:

  1. Typ anotace (pokud již byly některé typy přidány, můžete si vybrat ze stávajících)
  2. Název atributu (automaticky se zobrazí prázdná pole pro další atribut)
  3. Hodnota atributu
  4. Tlačítko Smazat anotaci

Anotace jsou seskupeny do AnnotationSets. Jedná se o šikovnou funkci, která vám umožňuje uložit několik možností označení pro jeden dokument, například expertní a automatické. Expertní označení je obvykle uloženo v AnnotationSet s názvem Key. Automatické označení se obvykle zapisuje do prázdné sady AnnotationSet, která je standardně přítomna ve všech dokumentech. V dokumentech není žádný AnnotationSet Key, musíte jej vytvořit, zadat slovo Key do pole pod typy anotací a kliknout na New.

Systém ANNIE

GATE má systém umělé inteligence nazvaný ANNIE (Nearly-New Information Extraction System), který zahrnuje sadu zdrojů, které poskytují tokenizaci (ANNIE English Tokenizer), POS-tagging (ANNIE POS-Tagger), rozdělené do vět (ANNIE Sentence Splitter) , extrakce pojmenovaných entit (ANNIE Gazetteer a ANNIE NE Transducer) a koreference analýza (ANNIE OrthoMatcher). Vývojáři: Hamish Cunningham, Valentin Tablan, Diana Maynard, Kalina Bontcheva, Marin Dimitrov a další. Vývojáři ANNIE používají JAPE [9] algoritmy konečných automatů a regulární výrazy .

Komponenty ANNIE jsou integrovány do aplikace, takže pro inicializaci stačí kliknout na odpovídající zelenou ikonu na nástrojové liště GATE a vybrat s výchozími hodnotami. Poté, co se všechny zdroje objeví v seznamu Processing Resources, poklepáním otevřete aplikaci ANNIE, která je v seznamu aplikací. Rozhraní aplikace ANNIE je stejné jako u ostatních aplikací. Na pravé straně je uspořádaný seznam zdrojů, které budou v dokumentu volány přesně v pořadí uvedeném v seznamu. Aplikace ANNIE patří do třídy Corpus Pipeline, to znamená, že musí běžet na korpusu textů. V důsledku provozu systému ANNIE je do výchozí sady AnnotationSet přidána řada anotací, včetně Tokenu (tokeny), Sentence (věty), Vyhledávání (položky ve slovníku), Osoba, Místo, Organizace. Pokud byly korpus a dokumenty v DataStore před spuštěním ANNIE, ANNIE načte dokumenty jeden po druhém, zpracuje je a vrátí je zpět.

Seznam komponentů:

  1. Seznam PR obsahuje zdroj PR Resetování dokumentu, který před zpracováním odstraní označení z dokumentu. Prostředek má parametr setsToKeep, který uvádí názvy AnnotationSets, které není třeba vymazat. Pokud je v dokumentu ruční označení, musíte se ujistit, že sada AnnotationSet obsahující toto označení je uvedena v tomto seznamu, jinak bude odstraněna. Ve výchozím nastavení je zde uvedena sada klíčů.
  2. Tokenizer . Rozděluje text na tokeny, jmenovitě čísla, interpunkci, slova, symboly, mezery. Každému tokenu je přiřazen jeho typ, respektive Word (atribut orth s parametry: upperInitial, allCaps, smallCase, mixedCaps), Number, Symbol, Interpunkce, SpaceToken.
  3. Věstník . Definuje pojmenované entity podle seznamu, tj. textový soubor (prostý text) se seznamem pojmenovaných entit řádek po řádku. Každý seznam obsahuje jinou sadu pojmenovaných entit: města, organizace, dny v týdnu atd. pouze pro jeden z daných jazyků. Soubor lists.def poskytuje přístup k seznamu pojmenovaných entit. Typ anotace můžete nastavit pro jednotlivý seznam pojmenovaných entit. Každý seznam musí být ve stejném adresáři jako indexový soubor lists.def.
  4. Rozdělovač vět . Rozdělí text do vět. Rozdělovač používá seznam zkratek z Gazetteer k rozlišení konce věty od jiných typů interpunkce. Každému výroku je přiřazena anotace 'Sentence', uvnitř které je anotace 'Split' s hodnotou 'interní' a 'external' pro rozlišení vět tázacích, zvolacích a kladných.
  5. RegEx Sentence Splitter . Alternativní způsob rozdělení textu do vět pomocí regulárních výrazů JAPE.
  6. Part of Speech Tagger . Popisuje každé slovo a znak. Existuje seznam použitých značek. Používá slovní zásobu a mnoho pravidel založených na korpusu Wall Street Journal. Pravidla a slovní zásobu lze měnit ručně.
  7. Sémantický Tagger . Sémantická anotace se provádí pomocí pravidel resolveru JAPE (regulárních výrazů), která používají značky získané v předchozích krocích anotace.
  8. Orthographic Coreference (OrthoMatcher nebo 'NameMatcher'). Přidá typ vztahu mezi pojmenované značky entity a sémantické značky. Nenajde nové pojmenované entity, ale dokáže přiřadit nezařaditelný typ k vlastnímu jménu na základě shody slov.
  9. Zájmenná koreference . Připojeno k PR jako další zdroj pluginu ANNIE. Dokáže najít citovaný text, přímou řeč, zájmena (záměna podstatných jmen, anafora ), opakování. Vyžaduje předběžnou anotaci tagů: Token (anglický Tokenizer), Sentence (Sentence Splitter), Split (Sentence Splitter), Místo (NE Transducer, OrthoMatcher), Osoba (NE Transducer, OrthoMatcher), Organizace (NE Transducer, OrthoMatcher). Analýza se provádí pomocí pravidel převodníku JAPE (regulární výrazy), je sestaven stavový automat pro vyhledávání znaků přímé řeči a uvozovek (jednoduché a dvojité uvozovky atd.), hledání zájmen "it, jeho, sebe“ a „já, já, můj, já“.

Testování výsledků zpracování textu

GATE má vestavěné nástroje pro testování výsledků zpracování textu:

  • Nástroj AnnotationDiff Tool provede porovnání na stejném dokumentu (tlačítko porovnání na panelu GATE).

Parametry: Sada klíčů (název sady AnnotationSet s označením #1), Sada odpovědí (název sady AnnotationSet s označením #2), Typ (v jednu chvíli lze testovat pouze jeden typ), Funkce (atributy, které porovnáváme). Po spuštění porovnávání (Compare) AnnotationDiff vypíše dvojice anotací, přičemž typ dvojice označí barvou. Typy: Správně (úplná shoda), Chybějící (správná anotace nenalezena), Nepravá/Nepravdivá pozitivní (nalezena dodatečná anotace), Částečně správně (částečně překračující hranice anotace). Podle počtu párů různých typů se počítají standardní metriky Precision, Recall a F.

  • Corpus Quality Assurance (CQA) je navržena pro výpočet metrik kvality na korpusu.

V požadovaném okně korpusu se otevře karta Corpus Quality Assurance. CQA bude shromažďovat data o sadách, anotacích a jejich atributech. Je nutné nastavit parametry, vybrat typy hodnocení (například F1.0-skóre přísné, mírné a průměrné). Spustit srovnání. Na záložce Statistika dokumentu můžete zobrazit statistiku dokumentů a také okamžitě otevřít vybraný dokument nebo pro něj zobrazit AnnotationDiff. Výsledky testů lze exportovat do HTML.

GATE Mimir

GATE Mímir je open source vyhledávač hostovaný na SourceForge, distribuovaný pod licencí GNU Lesser General Public License 3.0. GATE Mímir poskytuje podporu pro indexování a vyhledávání lingvistických a sémantických informací z aplikací s obrovskými databázemi lingvistických dat. GATE Mímir poskytuje možnost vyhledávat informace o textu, anotace, sémantické ontologie a sémantická metadata pomocí libovolných kombinací textu, strukturních informací a SPARQL. Vývojáři neposkytují hotový zabalený produkt, ale nabízejí stažení zdrojů a kompilaci vlastních souborů. K dispozici je uživatelská příručka GATE Mímir [10] , příklady použití [11] , pro nejnovější verze jsou k dispozici archivy celého stromu zdrojového kódu [12] .

Viz také

Poznámky

  1. tao , str. 5.
  2. Grimes, 2009 .
  3. TwitIE, 2013 .
  4. tao , str. 6.
  5. BiomedicalGate, 2013 .
  6. Projekty .
  7. Uživatelská příručka GATE , str. 93.
  8. Seznam GATE pluginů .
  9. Sekce o JAPE .
  10. Mimír .
  11. MimirExamples .
  12. Zdroj Mímir .

Literatura

Odkazy