GATE (program)

Obecná architektura pro textové inženýrství (GATE)
Hlavní okno vývojáře GATE
Typ	Data mining, extrakce informací
Vývojáři	University of Sheffield
Zapsáno v	Jáva
Rozhraní	Grafické, GATE API
Operační systém	Windows Vista, Windows XP, Mac OS X, Linux, Mac OS X, Solaris atd.
Jazyky rozhraní	Angličtina
První vydání	1995
Hardwarová platforma	Java virtuální stroj
Nejnovější verze	8.6.1 ( 17. ledna 2020 )
Licence	LGPL
webová stránka	gate.ac.uk
Mediální soubory na Wikimedia Commons

Obecná architektura pro textové inženýrství (GATE, program) je open source systém pro zpracování přirozeného jazyka, který využívá sady komponent v jazyce Java [1] . Systém byl původně vyvinut na University of Sheffield a byl vyvíjen od roku 1995.

Pomocí GATE jsou realizovány úlohy, kde je potřeba identifikovat sémantický obsah textu a zakódovat jej do strukturované podoby přidáním anotací do textových segmentů. GATE se používá spolu s NLTK , R a RapidMiner [2] . Systém se používá pro extrakci informací , ruční a automatické sémantické anotace, analýzu koreference , práci s ontologií (například WordNet), strojové učení (Weka, RASP, MAXENT, SVM Light), analýzu toku příspěvků na blogu (například Twitter) [3] .

Do rodiny nástrojů GATE patří: GATE Developer, GATE Mímir, GATE Cloud (pro práci s rozsáhlými lingvistickými projekty), GATE Teamware (optimalizace serveru pro kolaborativní anotaci textu), GATE Embedded (knihovna objektů) [4] .

GATE je podporována velkou komunitou vývojářů, uživatelů, pedagogů, studentů a vědců. Používá se v komerčních a výzkumných projektech velkými korporacemi, výzkumnými laboratořemi a univerzitami, malými a středními komerčními podniky po celém světě. GATE se používá v široké škále vědeckých oborů souvisejících s počítačovou lingvistikou , zpracováním přirozeného jazyka , modelováním jazykových procesů, počítačovou biologií a medicínou [5] . Projekty využívající GATE: ForgetIT (Velká Británie), The National Archives (Velká Británie), EMILLE (Velká Británie), myGRID Archivováno 29. září 2013 ve Wayback Machine (Velká Británie), AKT (Velká Británie), KIT Semantic Platform , Ontotext (Bulharsko), MeManage (nedostupný odkaz) (Německo), Med Dictate (Kanada), IE Denso (Japonsko) [6] .

Architektura a základní operace

Architektura GATE se skládá ze vzájemně propojených komponent: „kusů“ softwaru s dobře definovanými rozhraními, které lze nasadit v různých kontextech. GATE implementuje hotová řešení pro tokenizaci, tagování, rozdělování textu na příkazy (splitter), extrahování pojmenovaných entit , strojové učení . Komponenty jsou rozděleny do tří kategorií podle funkce:

Language Resources (LR) - lingvistické zdroje (data),
Processing Resources (PR) - programy pro zpracování dokumentů (zdrojů),
Visual Resources (VR) - GUI pro LR a PR.

Podporovány jsou následující formáty dokumentů: prostý text, HTML, SGML, XML, RTF, e-mail, PDF (některé dokumenty), Microsoft Office (některé formáty), OpenOffice (některé formáty), UIMA CAS, CoNLL/IOB. Práce s formáty dokumentů v GATE má řadu specifických vlastností [7] . GATE má vestavěné různé nástroje pro práci s Unicode. Podporované jazyky: angličtina (výchozí), španělština, čínština, arabština, bulharština, francouzština, němčina, hindština, italština, cebuánština, rumunština, ruština.

Po spuštění programu obsahuje jeho hlavní okno čtyři položky hlavní nabídky: Aplikace, Jazykové prostředky, Zdroje zpracování, Úložiště dat.

Aplikace

Řadič spolu s přidruženými programy pro zpracování textu (Processing Resources). Definované a uložené procesy zpracování textu lze znovu použít na jeden dokument nebo textový korpus. To zajišťuje spolehlivé zpracování textu a šetří čas.

Jazykové zdroje (LR)

Obsahuje tři typy dat: dokumenty, korpusy a anotační grafy.

Dokument/Prázdný dokument – Dokument brány načtený ze souboru nebo prázdný. Nový dokument se vytvoří pomocí Jazykové zdroje > Nový > Dokument brány. Dokument lze uložit ve formátu XML (klikněte pravým tlačítkem myši na název dokumentu > Uložit do XML).

Gate Corpus - pouzdro na ukládání dokumentů. Korpus se vytváří přes Jazykové zdroje > Nový > Korpus brány. Korpus můžete naplnit zadáním seznamu dokumentů při jeho vytváření nebo přidáním dokumentů v rozhraní již vytvořeného korpusu nebo pomocí příkazu Naplnit. Korpus lze uložit v XML stejným způsobem, ale místo názvu souboru je třeba zadat složku.
Anotace jsou organizovány jako grafy, které jsou modelovány jako sady Java. Popisy jsou reprezentovány jako oblouky s počátečním a koncovým uzlem, ID, přiřazený typ a FeatureMap (sada prvků). Uzly obsahují ukazatele na zdroje v dokumentu.

Zdroje zpracování (PR)

Programy pro zpracování textu. V GATE se prostředky používají k automatickému vytváření a správě anotací. Pomocí PR můžete přidat nebo změnit označení dokumentu. Nový PR se vytváří stejným způsobem jako LR. Při vytváření PR se nastavují parametry, které jsou dvojího typu: inicializační parametry a spouštěcí parametry. První musí být nastaven při vytváření prostředku, druhý těsně před jeho spuštěním z řadiče. Ovladače řídí provoz PR. Jsou zodpovědní za pořadí, ve kterém je PR aplikován, a za interakci PR s LR. Hlavní typy ovladačů:

potrubí . Důsledná aplikace řetězce PR na dokument. Po inicializaci požadovaných zdrojů a přidání dokumentů můžeme vytvořit kontroler a provozovat naše prostředky v určeném pořadí se zadanými parametry na zadané sadě dokumentů.
Korpus potrubí . Přikládání PR řetězu na tělo.

Principy práce s Pipeline a Corpus Pipeline jsou podobné: vytvoří se nový kontrolér (pravým tlačítkem myši na Aplikace > Nový > název kontroleru), vyberou se PR ze seznamu vlevo a nainstalují se v pořadí zadaném uživatelem. Zadejte cílový dokument v případě Pipeline, cílový korpus v případě Corpus Pipeline, jsou definovány parametry pro PR. Po spuštění Run začne řadič postupně spouštět PR na vybraných dokumentech v pořadí zadaném uživatelem.

Konfigurace ovladače (PR + nastavení) lze uložit do Aplikace (Uložit stav aplikace), nejlépe pomocí přípony .gapp.

CREOLE resource pack

Sada zdrojů integrovaných s GATE je známá jako CREOLE - Reusable Objects for Language Engineering. Zdroje jsou uloženy v repozitářích CREOLE, které obsahují soubory XML, archivní kódy Java a knihovny nezbytné pro zdroje. Použité zdroje jsou seskupeny do pluginů [8] , které jsou uloženy na konkrétní adrese (URL nebo file:/URL). Pluginy mohou být základní (načtené během instalace GATE) a vlastní, mohou být umístěny na místním disku nebo vzdáleném serveru. Když je soubor načten do GATE, vypadá jako soubor nastavení creole.xml. Zásuvné moduly CREOLE se spravují prostřednictvím rozhraní pomocí příkazu Soubor > Spravovat zásuvné moduly CREOLE > Přidat nový kreolský repozitář. GATE je reprezentován jako soubor nastavení (funkcí), kde uživatel připojuje CREOLE komponenty: uživatel zadá seznam adres, GATE z nich extrahuje odpovídající zdroje (PR). Po výběru zásuvného modulu se v poli vpravo zobrazí seznam jeho nastavení.

datová úložiště

Úložiště dat. Potřebné pro uložení dokumentů/případů a procesů pro pozdější použití. Ze všech typů úložiště se často používá Serial DataStore. skladovací plechovka

vytvořit (Datastores > Create datastore > Serial DataStore > zadejte prázdnou složku bez znaků azbuky a mezer v cestě),
otevřít dříve vytvořené (Otevřít datové úložiště),
ukládat do něj dokumenty a případy (Otevřít datové úložiště > dvakrát klikněte na dokument/případ),
uložit změny provedené v dokumentu nebo korpusu (Uložit do jeho datového úložiště).

Sekvenci procesů zpracování textu z aplikací lze spouštět z úložiště DataStore. Musíte otevřít DataStore, otevřít pouzdro a poté v Aplikace vybrat tento případ. Při spuštění aplikace na těle z DataStore se každý dokument načte, zpracuje, uloží a zavře. To znamená, že se zpracovává vždy pouze jeden dokument. Tím nedochází k přetížení paměti, ale proces je pomalejší, než kdyby byly všechny dokumenty zpracovávány současně.

Označení dokumentu v GATE Developer

Označování dokumentů podle jednotných pravidel umožňuje vyhledávat a extrahovat data z dokumentu, vytvářet ontologie .

V GATE se po otevření editoru dokumentu zobrazí záložky Sady anotací a Seznam anotací (nebo Anotace v závislosti na verzi Brány), kde v seznamu napravo můžete zaškrtnout typy anotací, které chcete zobrazit, nebo anotace vytvářet. . K dispozici je funkce Change Color. Když je vybrán kus textu, ke kterému má být přiřazena anotace, zobrazí se okno Editor anotací, které obsahuje následující pole a ovládací prvky:

Typ anotace (pokud již byly některé typy přidány, můžete si vybrat ze stávajících)
Název atributu (automaticky se zobrazí prázdná pole pro další atribut)
Hodnota atributu
Tlačítko Smazat anotaci

Anotace jsou seskupeny do AnnotationSets. Jedná se o šikovnou funkci, která vám umožňuje uložit několik možností označení pro jeden dokument, například expertní a automatické. Expertní označení je obvykle uloženo v AnnotationSet s názvem Key. Automatické označení se obvykle zapisuje do prázdné sady AnnotationSet, která je standardně přítomna ve všech dokumentech. V dokumentech není žádný AnnotationSet Key, musíte jej vytvořit, zadat slovo Key do pole pod typy anotací a kliknout na New.

Systém ANNIE

GATE má systém umělé inteligence nazvaný ANNIE (Nearly-New Information Extraction System), který zahrnuje sadu zdrojů, které poskytují tokenizaci (ANNIE English Tokenizer), POS-tagging (ANNIE POS-Tagger), rozdělené do vět (ANNIE Sentence Splitter) , extrakce pojmenovaných entit (ANNIE Gazetteer a ANNIE NE Transducer) a koreference analýza (ANNIE OrthoMatcher). Vývojáři: Hamish Cunningham, Valentin Tablan, Diana Maynard, Kalina Bontcheva, Marin Dimitrov a další. Vývojáři ANNIE používají JAPE [9] algoritmy konečných automatů a regulární výrazy .

Komponenty ANNIE jsou integrovány do aplikace, takže pro inicializaci stačí kliknout na odpovídající zelenou ikonu na nástrojové liště GATE a vybrat s výchozími hodnotami. Poté, co se všechny zdroje objeví v seznamu Processing Resources, poklepáním otevřete aplikaci ANNIE, která je v seznamu aplikací. Rozhraní aplikace ANNIE je stejné jako u ostatních aplikací. Na pravé straně je uspořádaný seznam zdrojů, které budou v dokumentu volány přesně v pořadí uvedeném v seznamu. Aplikace ANNIE patří do třídy Corpus Pipeline, to znamená, že musí běžet na korpusu textů. V důsledku provozu systému ANNIE je do výchozí sady AnnotationSet přidána řada anotací, včetně Tokenu (tokeny), Sentence (věty), Vyhledávání (položky ve slovníku), Osoba, Místo, Organizace. Pokud byly korpus a dokumenty v DataStore před spuštěním ANNIE, ANNIE načte dokumenty jeden po druhém, zpracuje je a vrátí je zpět.

Seznam komponentů:

Seznam PR obsahuje zdroj PR Resetování dokumentu, který před zpracováním odstraní označení z dokumentu. Prostředek má parametr setsToKeep, který uvádí názvy AnnotationSets, které není třeba vymazat. Pokud je v dokumentu ruční označení, musíte se ujistit, že sada AnnotationSet obsahující toto označení je uvedena v tomto seznamu, jinak bude odstraněna. Ve výchozím nastavení je zde uvedena sada klíčů.
Tokenizer . Rozděluje text na tokeny, jmenovitě čísla, interpunkci, slova, symboly, mezery. Každému tokenu je přiřazen jeho typ, respektive Word (atribut orth s parametry: upperInitial, allCaps, smallCase, mixedCaps), Number, Symbol, Interpunkce, SpaceToken.
Věstník . Definuje pojmenované entity podle seznamu, tj. textový soubor (prostý text) se seznamem pojmenovaných entit řádek po řádku. Každý seznam obsahuje jinou sadu pojmenovaných entit: města, organizace, dny v týdnu atd. pouze pro jeden z daných jazyků. Soubor lists.def poskytuje přístup k seznamu pojmenovaných entit. Typ anotace můžete nastavit pro jednotlivý seznam pojmenovaných entit. Každý seznam musí být ve stejném adresáři jako indexový soubor lists.def.
Rozdělovač vět . Rozdělí text do vět. Rozdělovač používá seznam zkratek z Gazetteer k rozlišení konce věty od jiných typů interpunkce. Každému výroku je přiřazena anotace 'Sentence', uvnitř které je anotace 'Split' s hodnotou 'interní' a 'external' pro rozlišení vět tázacích, zvolacích a kladných.
RegEx Sentence Splitter . Alternativní způsob rozdělení textu do vět pomocí regulárních výrazů JAPE.
Part of Speech Tagger . Popisuje každé slovo a znak. Existuje seznam použitých značek. Používá slovní zásobu a mnoho pravidel založených na korpusu Wall Street Journal. Pravidla a slovní zásobu lze měnit ručně.
Sémantický Tagger . Sémantická anotace se provádí pomocí pravidel resolveru JAPE (regulárních výrazů), která používají značky získané v předchozích krocích anotace.
Orthographic Coreference (OrthoMatcher nebo 'NameMatcher'). Přidá typ vztahu mezi pojmenované značky entity a sémantické značky. Nenajde nové pojmenované entity, ale dokáže přiřadit nezařaditelný typ k vlastnímu jménu na základě shody slov.
Zájmenná koreference . Připojeno k PR jako další zdroj pluginu ANNIE. Dokáže najít citovaný text, přímou řeč, zájmena (záměna podstatných jmen, anafora ), opakování. Vyžaduje předběžnou anotaci tagů: Token (anglický Tokenizer), Sentence (Sentence Splitter), Split (Sentence Splitter), Místo (NE Transducer, OrthoMatcher), Osoba (NE Transducer, OrthoMatcher), Organizace (NE Transducer, OrthoMatcher). Analýza se provádí pomocí pravidel převodníku JAPE (regulární výrazy), je sestaven stavový automat pro vyhledávání znaků přímé řeči a uvozovek (jednoduché a dvojité uvozovky atd.), hledání zájmen "it, jeho, sebe“ a „já, já, můj, já“.

Testování výsledků zpracování textu

GATE má vestavěné nástroje pro testování výsledků zpracování textu:

Nástroj AnnotationDiff Tool provede porovnání na stejném dokumentu (tlačítko porovnání na panelu GATE).

Parametry: Sada klíčů (název sady AnnotationSet s označením #1), Sada odpovědí (název sady AnnotationSet s označením #2), Typ (v jednu chvíli lze testovat pouze jeden typ), Funkce (atributy, které porovnáváme). Po spuštění porovnávání (Compare) AnnotationDiff vypíše dvojice anotací, přičemž typ dvojice označí barvou. Typy: Správně (úplná shoda), Chybějící (správná anotace nenalezena), Nepravá/Nepravdivá pozitivní (nalezena dodatečná anotace), Částečně správně (částečně překračující hranice anotace). Podle počtu párů různých typů se počítají standardní metriky Precision, Recall a F.

Corpus Quality Assurance (CQA) je navržena pro výpočet metrik kvality na korpusu.

V požadovaném okně korpusu se otevře karta Corpus Quality Assurance. CQA bude shromažďovat data o sadách, anotacích a jejich atributech. Je nutné nastavit parametry, vybrat typy hodnocení (například F1.0-skóre přísné, mírné a průměrné). Spustit srovnání. Na záložce Statistika dokumentu můžete zobrazit statistiku dokumentů a také okamžitě otevřít vybraný dokument nebo pro něj zobrazit AnnotationDiff. Výsledky testů lze exportovat do HTML.

GATE Mimir

GATE Mímir je open source vyhledávač hostovaný na SourceForge, distribuovaný pod licencí GNU Lesser General Public License 3.0. GATE Mímir poskytuje podporu pro indexování a vyhledávání lingvistických a sémantických informací z aplikací s obrovskými databázemi lingvistických dat. GATE Mímir poskytuje možnost vyhledávat informace o textu, anotace, sémantické ontologie a sémantická metadata pomocí libovolných kombinací textu, strukturních informací a SPARQL. Vývojáři neposkytují hotový zabalený produkt, ale nabízejí stažení zdrojů a kompilaci vlastních souborů. K dispozici je uživatelská příručka GATE Mímir [10] , příklady použití [11] , pro nejnovější verze jsou k dispozici archivy celého stromu zdrojového kódu [12] .

Viz také

Poznámky

↑ tao , str. 5.
↑ Grimes, 2009 .
↑ TwitIE, 2013 .
↑ tao , str. 6.
↑ BiomedicalGate, 2013 .
↑ Projekty .
↑ Uživatelská příručka GATE , str. 93.
↑ Seznam GATE pluginů .
↑ Sekce o JAPE .
↑ Mimír .
↑ MimirExamples .
↑ Zdroj Mímir .

Literatura

Hamish Cunningham, Diana Maynard, Kalina Bontcheva a kol. Vývoj komponent pro zpracování jazyka pomocí GATE verze 7 (uživatelská příručka ) . The University of Shelf (2013).
Seth Grimes. Open Source Text Analytics . — 2009.
K. Bontcheva, L. Derczynski, A. Funk, M. A. Greenwood, D. Maynard a N. Aswani. TwitIE: Open-Source Information Extraction Pipeline pro mikroblogový text // Asociace pro počítačovou lingvistiku. — 2013.
Hrají Hamish Cunningham, Valentin Tablan, Angus Roberts, Kalina Bontcheva. Získejte více z biomedicínských dokumentů pomocí GATE Full Lifecycle Open Source Text Analytics // PLoS Compput Biol 9(2) : journal . - USA, 2013. - Iss. 9(2) .
Cunningham H., Maynard D., Bontcheva K. a Tablan V. GATE: Framework and Graphical Development Environment for Robust NLP Tools and Applications (In proc. 40th Anniversary Meeting of the Association for Computational Linguistics, 2002 ) ) // University of Shelf. — 2009.
Konchady Manu. Vytváření vyhledávacích aplikací: Lucene, LingPipe a Gate . - Oakton, Virginia, USA: Mustru Publishing, 2008. - 447 s. — ISBN 978-0-61520-425-3 .
Graham Wilcock. Úvod do lingvistické anotace a analýzy textu . - Princeton, NJ: Morgan & Claypool Publishers, 2009. - 159 s. — ISBN 9781598297386 .
Valentin Tablan, Ian Roberts. Uživatelská příručka Mimir (anglicky) . The University of Shelf (2013).