Identifikace jazyka
Identifikace jazyka (angl. language identification ), v metodě zpracování přirozeného jazyka - definice jazyka . Problém identifikace jazyka je speciálním případem kategorizace textu a je řešen pomocí statistických metod .
Přehled
Pro identifikaci jazyka je implementována architektura PPRLM (paralelní rozpoznávání fonémů + jazykový model) s paralelním připojením fonetických rozpoznávačů trénovaných v několika jazycích. Fonetické rozpoznávání je založeno na skrytých Markovových modelech (HMM) pomocí Viterbiho algoritmu .
Pro rozhodnutí o příslušnosti řečové zprávy ke konkrétnímu cílovému jazyku je implementován přístup s klasifikátorem založeným na strojích podpůrných vektorů (SVM - support vector machines).
Princip fungování systému postaveného na bázi klasického PPRLM je následující:
- v systému je několik fonetických rozpoznávačů;
- každý vstupní zvukový soubor je rozpoznán fonetickými rozpoznávači;
- podle výsledné sekvence fonémů každého fonetického rozpoznávače se vypočítají míry blízkosti k n-gramovému modelu konkrétního cílového jazyka;
- jazyk s maximální mírou blízkosti n-gramového modelu je považován za vítěze .
V pokročilých systémech PPRLM je jazyková identifikace implementována jako otevřená úloha: je provedena kontrola „patří“ / „nepatří“ zpracovávaného souboru do cílového jazyka, rozhodnutí je učiněno automaticky s přihlédnutím k prahové hodnotě stanovené uživatel.
K základnímu algoritmu jsou přidány následující kroky:
- výsledná sekvence fonémů každého fonetického rozpoznávače je superponována s n-gramovým modelem toho či onoho „referenčního“ jazyka a jsou uvažovány míry blízkosti n-gramového modelu k posloupnosti fonémů;
- úplný soubor měření blízkosti n-gramových modelů k sekvencím fonémů je vstupním vektorem pro klasifikátor SVM ;
- na základě výsledku klasifikace se klasifikátor SVM rozhodne o příslušnosti k cílovému jazyku porovnáním se stanoveným prahem pro každý cílový jazyk zvlášť.
Zvukový soubor je namluven v cílovém jazyce, pokud je skóre dané klasifikátorem SVM vyšší než práh. V tomto případě lze zvukový soubor přiřadit k jednomu nebo více jazykům současně nebo nepřiřadit žádnému z nich.
Viz také
Literatura
- Joshua Goodman. Rozšířený komentář k jazykovým stromům a komprimaci . arXiv: cond-mat/0202383 [cond-mat.stat-mech]
- Benedetto, D., E. Caglioti a V. Loreto. Jazykové stromy a zipování . Physical Review Letters , 88:4 (2002), Teorie složitosti .
- Cavnar, William B. a John M. Trenkle. "Kategorizace textu na základě N-Gram". Proceedings of SDAIR-94, 3. Annual Symposium on Document Analysis and Information Retrieval (1994) [1] .
- Cilibrasi, Rudi a Paul M. B. Vitanyi. Shlukování kompresí . IEEE Transactions on Information Theory 51(4), duben 2005, 1523-1545.
- Dunning, T. (1994) "Statistická identifikace jazyka". Technická zpráva MCCS 94-273, New Mexico State University, 1994.
- Goodmane, Joshua. (2002) Rozšířený komentář k "Language Trees and Zipping" . Microsoft Research, 21. února 2002. (Toto je kritika komprese dat ve prospěch metody Naive Bayes.)
- Grafenstette, Gregory. (1995) Porovnání dvou jazykových identifikačních schémat. Sborník příspěvků z 3. mezinárodní konference o statistické analýze textových dat (JADT 1995).
- Poutsma, Arjen. (2001) Aplikace technik Monte Carlo na identifikaci jazyka. SmartHaven, Amsterdam. Prezentováno na CLIN 2001 .
- Ekonom. (2002) " Prvky stylu: Analýza komprimovaných dat vede k působivým výsledkům v lingvistice "
- Radim Řehůrek a Milan Kolkus. (2009) " Jazyková identifikace na webu: Rozšíření slovníkové metody (odkaz není k dispozici) " Počítačová lingvistika a inteligentní zpracování textu
Odkazy
Knihovny
Webové služby
- Language Identification Web Service : API pro detekci jazyka (JSON a XML), které detekuje více než 100 jazyků v textech, webových stránkách a dokumentech
- Language Detection API : API jednoduchého identifikačního jazyka
- dataTXT-LI : RESTful API pro identifikaci jazyka, součást rodiny sémantických API pampelišek dataTXT (extrakce pojmenovaných entit, podobnost textu atd.)
- AlchemyAPI : API pro identifikaci jazyka, dostupné jako SDK a prostřednictvím RESTfull API ( webová ukázka ).
- PetaMem Language Identification : poskytuje výběr mezi metodami ngram, nvect a smart.
- Otevřete Xerox LanguageIdentifier , dostupný ve webové podobě nebo prostřednictvím API.
- GlobalNLP : webový identifikační jazyk
- Jazykový detektor , online identifikace z textu nebo URL a API dostupné pro vývojáře.
- Co je to za jazyk? Online jazykový identifikátor : webový nástroj napsaný Henrikem Falckem.
- Identifikátor jazyka rozety : produkt společnosti Basis Technology.
- Identifikátor jazyka : produkt společnosti Sematext; odhaluje Java API a je k dispozici prostřednictvím REST/Webservice.
- G2LI (Global Information Infrastructure Laboratory's Language Identifier) .
- Rosoka Cloud od IMT Holdings poskytuje jazykové ID, extrakci entit a vztahů RESTfull webové služby dostupné prostřednictvím Amazon Web Services Marketplace.
- Semantria sentiment and text analytics API, které obsahuje detekci jazyka
- Loque.la Language Detection API : Identifikace jazyka webových stránek pomocí API, (json/XML)
- Stel KS Identifikace jazyka: API pro identifikaci jazyka (11 jazyků)