Obecná architektura pro textové inženýrství (GATE) | |
---|---|
Hlavní okno vývojáře GATE | |
Typ | Data mining, extrakce informací |
Vývojáři | University of Sheffield |
Zapsáno v | Jáva |
Rozhraní | Grafické, GATE API |
Operační systém | Windows Vista, Windows XP, Mac OS X, Linux, Mac OS X, Solaris atd. |
Jazyky rozhraní | Angličtina |
První vydání | 1995 |
Hardwarová platforma | Java virtuální stroj |
Nejnovější verze | |
Licence | LGPL |
webová stránka | gate.ac.uk |
Mediální soubory na Wikimedia Commons |
Obecná architektura pro textové inženýrství (GATE, program) je open source systém pro zpracování přirozeného jazyka, který využívá sady komponent v jazyce Java [1] . Systém byl původně vyvinut na University of Sheffield a byl vyvíjen od roku 1995.
Pomocí GATE jsou realizovány úlohy, kde je potřeba identifikovat sémantický obsah textu a zakódovat jej do strukturované podoby přidáním anotací do textových segmentů. GATE se používá spolu s NLTK , R a RapidMiner [2] . Systém se používá pro extrakci informací , ruční a automatické sémantické anotace, analýzu koreference , práci s ontologií (například WordNet), strojové učení (Weka, RASP, MAXENT, SVM Light), analýzu toku příspěvků na blogu (například Twitter) [3] .
Do rodiny nástrojů GATE patří: GATE Developer, GATE Mímir, GATE Cloud (pro práci s rozsáhlými lingvistickými projekty), GATE Teamware (optimalizace serveru pro kolaborativní anotaci textu), GATE Embedded (knihovna objektů) [4] .
GATE je podporována velkou komunitou vývojářů, uživatelů, pedagogů, studentů a vědců. Používá se v komerčních a výzkumných projektech velkými korporacemi, výzkumnými laboratořemi a univerzitami, malými a středními komerčními podniky po celém světě. GATE se používá v široké škále vědeckých oborů souvisejících s počítačovou lingvistikou , zpracováním přirozeného jazyka , modelováním jazykových procesů, počítačovou biologií a medicínou [5] . Projekty využívající GATE: ForgetIT (Velká Británie), The National Archives (Velká Británie), EMILLE (Velká Británie), myGRID Archivováno 29. září 2013 ve Wayback Machine (Velká Británie), AKT (Velká Británie), KIT Semantic Platform , Ontotext (Bulharsko), MeManage (nedostupný odkaz) (Německo), Med Dictate (Kanada), IE Denso (Japonsko) [6] .
Architektura GATE se skládá ze vzájemně propojených komponent: „kusů“ softwaru s dobře definovanými rozhraními, které lze nasadit v různých kontextech. GATE implementuje hotová řešení pro tokenizaci, tagování, rozdělování textu na příkazy (splitter), extrahování pojmenovaných entit , strojové učení . Komponenty jsou rozděleny do tří kategorií podle funkce:
Podporovány jsou následující formáty dokumentů: prostý text, HTML, SGML, XML, RTF, e-mail, PDF (některé dokumenty), Microsoft Office (některé formáty), OpenOffice (některé formáty), UIMA CAS, CoNLL/IOB. Práce s formáty dokumentů v GATE má řadu specifických vlastností [7] . GATE má vestavěné různé nástroje pro práci s Unicode. Podporované jazyky: angličtina (výchozí), španělština, čínština, arabština, bulharština, francouzština, němčina, hindština, italština, cebuánština, rumunština, ruština.
Po spuštění programu obsahuje jeho hlavní okno čtyři položky hlavní nabídky: Aplikace, Jazykové prostředky, Zdroje zpracování, Úložiště dat.
Řadič spolu s přidruženými programy pro zpracování textu (Processing Resources). Definované a uložené procesy zpracování textu lze znovu použít na jeden dokument nebo textový korpus. To zajišťuje spolehlivé zpracování textu a šetří čas.
Obsahuje tři typy dat: dokumenty, korpusy a anotační grafy.
Programy pro zpracování textu. V GATE se prostředky používají k automatickému vytváření a správě anotací. Pomocí PR můžete přidat nebo změnit označení dokumentu. Nový PR se vytváří stejným způsobem jako LR. Při vytváření PR se nastavují parametry, které jsou dvojího typu: inicializační parametry a spouštěcí parametry. První musí být nastaven při vytváření prostředku, druhý těsně před jeho spuštěním z řadiče. Ovladače řídí provoz PR. Jsou zodpovědní za pořadí, ve kterém je PR aplikován, a za interakci PR s LR. Hlavní typy ovladačů:
Principy práce s Pipeline a Corpus Pipeline jsou podobné: vytvoří se nový kontrolér (pravým tlačítkem myši na Aplikace > Nový > název kontroleru), vyberou se PR ze seznamu vlevo a nainstalují se v pořadí zadaném uživatelem. Zadejte cílový dokument v případě Pipeline, cílový korpus v případě Corpus Pipeline, jsou definovány parametry pro PR. Po spuštění Run začne řadič postupně spouštět PR na vybraných dokumentech v pořadí zadaném uživatelem.
Konfigurace ovladače (PR + nastavení) lze uložit do Aplikace (Uložit stav aplikace), nejlépe pomocí přípony .gapp.
CREOLE resource packSada zdrojů integrovaných s GATE je známá jako CREOLE - Reusable Objects for Language Engineering. Zdroje jsou uloženy v repozitářích CREOLE, které obsahují soubory XML, archivní kódy Java a knihovny nezbytné pro zdroje. Použité zdroje jsou seskupeny do pluginů [8] , které jsou uloženy na konkrétní adrese (URL nebo file:/URL). Pluginy mohou být základní (načtené během instalace GATE) a vlastní, mohou být umístěny na místním disku nebo vzdáleném serveru. Když je soubor načten do GATE, vypadá jako soubor nastavení creole.xml. Zásuvné moduly CREOLE se spravují prostřednictvím rozhraní pomocí příkazu Soubor > Spravovat zásuvné moduly CREOLE > Přidat nový kreolský repozitář. GATE je reprezentován jako soubor nastavení (funkcí), kde uživatel připojuje CREOLE komponenty: uživatel zadá seznam adres, GATE z nich extrahuje odpovídající zdroje (PR). Po výběru zásuvného modulu se v poli vpravo zobrazí seznam jeho nastavení.
Úložiště dat. Potřebné pro uložení dokumentů/případů a procesů pro pozdější použití. Ze všech typů úložiště se často používá Serial DataStore. skladovací plechovka
Sekvenci procesů zpracování textu z aplikací lze spouštět z úložiště DataStore. Musíte otevřít DataStore, otevřít pouzdro a poté v Aplikace vybrat tento případ. Při spuštění aplikace na těle z DataStore se každý dokument načte, zpracuje, uloží a zavře. To znamená, že se zpracovává vždy pouze jeden dokument. Tím nedochází k přetížení paměti, ale proces je pomalejší, než kdyby byly všechny dokumenty zpracovávány současně.
Označování dokumentů podle jednotných pravidel umožňuje vyhledávat a extrahovat data z dokumentu, vytvářet ontologie .
V GATE se po otevření editoru dokumentu zobrazí záložky Sady anotací a Seznam anotací (nebo Anotace v závislosti na verzi Brány), kde v seznamu napravo můžete zaškrtnout typy anotací, které chcete zobrazit, nebo anotace vytvářet. . K dispozici je funkce Change Color. Když je vybrán kus textu, ke kterému má být přiřazena anotace, zobrazí se okno Editor anotací, které obsahuje následující pole a ovládací prvky:
Anotace jsou seskupeny do AnnotationSets. Jedná se o šikovnou funkci, která vám umožňuje uložit několik možností označení pro jeden dokument, například expertní a automatické. Expertní označení je obvykle uloženo v AnnotationSet s názvem Key. Automatické označení se obvykle zapisuje do prázdné sady AnnotationSet, která je standardně přítomna ve všech dokumentech. V dokumentech není žádný AnnotationSet Key, musíte jej vytvořit, zadat slovo Key do pole pod typy anotací a kliknout na New.
GATE má systém umělé inteligence nazvaný ANNIE (Nearly-New Information Extraction System), který zahrnuje sadu zdrojů, které poskytují tokenizaci (ANNIE English Tokenizer), POS-tagging (ANNIE POS-Tagger), rozdělené do vět (ANNIE Sentence Splitter) , extrakce pojmenovaných entit (ANNIE Gazetteer a ANNIE NE Transducer) a koreference analýza (ANNIE OrthoMatcher). Vývojáři: Hamish Cunningham, Valentin Tablan, Diana Maynard, Kalina Bontcheva, Marin Dimitrov a další. Vývojáři ANNIE používají JAPE [9] algoritmy konečných automatů a regulární výrazy .
Komponenty ANNIE jsou integrovány do aplikace, takže pro inicializaci stačí kliknout na odpovídající zelenou ikonu na nástrojové liště GATE a vybrat s výchozími hodnotami. Poté, co se všechny zdroje objeví v seznamu Processing Resources, poklepáním otevřete aplikaci ANNIE, která je v seznamu aplikací. Rozhraní aplikace ANNIE je stejné jako u ostatních aplikací. Na pravé straně je uspořádaný seznam zdrojů, které budou v dokumentu volány přesně v pořadí uvedeném v seznamu. Aplikace ANNIE patří do třídy Corpus Pipeline, to znamená, že musí běžet na korpusu textů. V důsledku provozu systému ANNIE je do výchozí sady AnnotationSet přidána řada anotací, včetně Tokenu (tokeny), Sentence (věty), Vyhledávání (položky ve slovníku), Osoba, Místo, Organizace. Pokud byly korpus a dokumenty v DataStore před spuštěním ANNIE, ANNIE načte dokumenty jeden po druhém, zpracuje je a vrátí je zpět.
Seznam komponentů:
GATE má vestavěné nástroje pro testování výsledků zpracování textu:
Parametry: Sada klíčů (název sady AnnotationSet s označením #1), Sada odpovědí (název sady AnnotationSet s označením #2), Typ (v jednu chvíli lze testovat pouze jeden typ), Funkce (atributy, které porovnáváme). Po spuštění porovnávání (Compare) AnnotationDiff vypíše dvojice anotací, přičemž typ dvojice označí barvou. Typy: Správně (úplná shoda), Chybějící (správná anotace nenalezena), Nepravá/Nepravdivá pozitivní (nalezena dodatečná anotace), Částečně správně (částečně překračující hranice anotace). Podle počtu párů různých typů se počítají standardní metriky Precision, Recall a F.
V požadovaném okně korpusu se otevře karta Corpus Quality Assurance. CQA bude shromažďovat data o sadách, anotacích a jejich atributech. Je nutné nastavit parametry, vybrat typy hodnocení (například F1.0-skóre přísné, mírné a průměrné). Spustit srovnání. Na záložce Statistika dokumentu můžete zobrazit statistiku dokumentů a také okamžitě otevřít vybraný dokument nebo pro něj zobrazit AnnotationDiff. Výsledky testů lze exportovat do HTML.
GATE Mímir je open source vyhledávač hostovaný na SourceForge, distribuovaný pod licencí GNU Lesser General Public License 3.0. GATE Mímir poskytuje podporu pro indexování a vyhledávání lingvistických a sémantických informací z aplikací s obrovskými databázemi lingvistických dat. GATE Mímir poskytuje možnost vyhledávat informace o textu, anotace, sémantické ontologie a sémantická metadata pomocí libovolných kombinací textu, strukturních informací a SPARQL. Vývojáři neposkytují hotový zabalený produkt, ale nabízejí stažení zdrojů a kompilaci vlastních souborů. K dispozici je uživatelská příručka GATE Mímir [10] , příklady použití [11] , pro nejnovější verze jsou k dispozici archivy celého stromu zdrojového kódu [12] .