Identifikace jazyka

Identifikace jazyka (angl. language identification ), v metodě zpracování přirozeného jazyka - definice jazyka . Problém identifikace jazyka je speciálním případem kategorizace textu a je řešen pomocí statistických metod .

Přehled

Pro identifikaci jazyka je implementována architektura PPRLM (paralelní rozpoznávání fonémů + jazykový model) s paralelním připojením fonetických rozpoznávačů trénovaných v několika jazycích. Fonetické rozpoznávání je založeno na skrytých Markovových modelech (HMM) pomocí Viterbiho algoritmu .

Pro rozhodnutí o příslušnosti řečové zprávy ke konkrétnímu cílovému jazyku je implementován přístup s klasifikátorem založeným na strojích podpůrných vektorů (SVM - support vector machines).

Princip fungování systému postaveného na bázi klasického PPRLM je následující:

v systému je několik fonetických rozpoznávačů;
každý vstupní zvukový soubor je rozpoznán fonetickými rozpoznávači;
podle výsledné sekvence fonémů každého fonetického rozpoznávače se vypočítají míry blízkosti k n-gramovému modelu konkrétního cílového jazyka;
jazyk s maximální mírou blízkosti n-gramového modelu je považován za vítěze .

V pokročilých systémech PPRLM je jazyková identifikace implementována jako otevřená úloha: je provedena kontrola „patří“ / „nepatří“ zpracovávaného souboru do cílového jazyka, rozhodnutí je učiněno automaticky s přihlédnutím k prahové hodnotě stanovené uživatel.

K základnímu algoritmu jsou přidány následující kroky:

výsledná sekvence fonémů každého fonetického rozpoznávače je superponována s n-gramovým modelem toho či onoho „referenčního“ jazyka a jsou uvažovány míry blízkosti n-gramového modelu k posloupnosti fonémů;
úplný soubor měření blízkosti n-gramových modelů k sekvencím fonémů je vstupním vektorem pro klasifikátor SVM ;
na základě výsledku klasifikace se klasifikátor SVM rozhodne o příslušnosti k cílovému jazyku porovnáním se stanoveným prahem pro každý cílový jazyk zvlášť.

Zvukový soubor je namluven v cílovém jazyce, pokud je skóre dané klasifikátorem SVM vyšší než práh. V tomto případě lze zvukový soubor přiřadit k jednomu nebo více jazykům současně nebo nepřiřadit žádnému z nich.

Viz také

Literatura

Joshua Goodman. Rozšířený komentář k jazykovým stromům a komprimaci . arXiv: cond-mat/0202383 [cond-mat.stat-mech]
Benedetto, D., E. Caglioti a V. Loreto. Jazykové stromy a zipování . Physical Review Letters , 88:4 (2002), Teorie složitosti .
Cavnar, William B. a John M. Trenkle. "Kategorizace textu na základě N-Gram". Proceedings of SDAIR-94, 3. Annual Symposium on Document Analysis and Information Retrieval (1994) [1] .
Cilibrasi, Rudi a Paul M. B. Vitanyi. Shlukování kompresí . IEEE Transactions on Information Theory 51(4), duben 2005, 1523-1545.
Dunning, T. (1994) "Statistická identifikace jazyka". Technická zpráva MCCS 94-273, New Mexico State University, 1994.
Goodmane, Joshua. (2002) Rozšířený komentář k "Language Trees and Zipping" . Microsoft Research, 21. února 2002. (Toto je kritika komprese dat ve prospěch metody Naive Bayes.)
Grafenstette, Gregory. (1995) Porovnání dvou jazykových identifikačních schémat. Sborník příspěvků z 3. mezinárodní konference o statistické analýze textových dat (JADT 1995).
Poutsma, Arjen. (2001) Aplikace technik Monte Carlo na identifikaci jazyka. SmartHaven, Amsterdam. Prezentováno na CLIN 2001 .
Ekonom. (2002) " Prvky stylu: Analýza komprimovaných dat vede k působivým výsledkům v lingvistice "
Radim Řehůrek a Milan Kolkus. (2009) " Jazyková identifikace na webu: Rozšíření slovníkové metody (odkaz není k dispozici) " Počítačová lingvistika a inteligentní zpracování textu

Odkazy

Knihovny

LID - Jazyková identifikace v Pythonu : příklad algoritmu a kódu n-gramového nástroje LID v Pythonu a schématu od Damira Cavara.
víko Identifikátor jazyka : od Lingua-Systems; Knihovna C / C++ a rozšíření Perl ( online demo ).
lc4j, knihovna jazyka Java pro kategorizaci jazyků , od Marca Oliva.
Microsoft Extended Linguistic Services pro Windows 7 : včetně Microsoft Language Detection.
Windows 7 API Code Pack pro .NET : včetně spravovaných rozhraní pro výše uvedené.
NTextCat – bezplatné API pro identifikaci jazyka pro .NET (C#) : 280+ jazyků dostupných hned po vybalení. Rozpoznává jazyk a kódování ( UTF-8 , Windows-1252 , Big5 atd.) textu. Mono kompatibilní.
jsli je čistá knihovna pro identifikaci jazyka JavaScript.
Knihovna cldr -R pro kód pro detekci kompaktního jazyka Chromium-Author.
language-detection : open-source jazyková detekční knihovna pro Javu (forks: lang-guess a language-detector ).
cld2 : open-source knihovna pro detekci jazyků pro C++ od společnosti Google
GuessLanguage : open-source knihovna pro detekci jazyka pro javascript
GuessLanguage : open-source knihovna pro detekci jazyka pro python
Text LanguageDetect : detekce jazyka hrušky (aktuálně není udržováno)
datagram : open-source knihovna klasifikace JavaScriptu MIT . Automaticky klasifikujte a rozpoznávejte jazyky vstupních dat. Lze jej použít pro jakýkoli typ klasifikace na základě natrénovaných dat.

Webové služby

Language Identification Web Service : API pro detekci jazyka (JSON a XML), které detekuje více než 100 jazyků v textech, webových stránkách a dokumentech
Language Detection API : API jednoduchého identifikačního jazyka
dataTXT-LI : RESTful API pro identifikaci jazyka, součást rodiny sémantických API pampelišek dataTXT (extrakce pojmenovaných entit, podobnost textu atd.)
AlchemyAPI : API pro identifikaci jazyka, dostupné jako SDK a prostřednictvím RESTfull API ( webová ukázka ).
PetaMem Language Identification : poskytuje výběr mezi metodami ngram, nvect a smart.
Otevřete Xerox LanguageIdentifier , dostupný ve webové podobě nebo prostřednictvím API.
GlobalNLP : webový identifikační jazyk
Jazykový detektor , online identifikace z textu nebo URL a API dostupné pro vývojáře.
Co je to za jazyk? Online jazykový identifikátor : webový nástroj napsaný Henrikem Falckem.
Identifikátor jazyka rozety : produkt společnosti Basis Technology.
Identifikátor jazyka : produkt společnosti Sematext; odhaluje Java API a je k dispozici prostřednictvím REST/Webservice.
G2LI (Global Information Infrastructure Laboratory's Language Identifier) .
Rosoka Cloud od IMT Holdings poskytuje jazykové ID, extrakci entit a vztahů RESTfull webové služby dostupné prostřednictvím Amazon Web Services Marketplace.
Semantria sentiment and text analytics API, které obsahuje detekci jazyka
Loque.la Language Detection API : Identifikace jazyka webových stránek pomocí API, (json/XML)
Stel KS Identifikace jazyka: API pro identifikaci jazyka (11 jazyků)

zpracování přirozeného jazyka
Obecné definice	Korpus textů řečový korpus Zastavte slova pytel slov úplnost AI N-gram Bigramová šifra trigram
Analýza textu	Segmentace textu Částečné značení Analýza povrchu Složené textové zpracování Extrahování kolokací pramenící Lematizace Rozpoznávání pojmenované entity Koreferenční rozlišení Analýza sentimentu textu Extrakce konceptu rozebrat Řešení lexikální polysémie Výpis terminologie Extrakce informací Identifikace jazyka Definice případu
Odkazování	Vytahování vět Abstraktní generace Odkazování na více dokumentů Zjednodušení textu
Strojový překlad	Automatizovaný Hybridní Interlingual Na základě pravidel Na základě příkladů Slovník založený Na základě transformace neurální Statistický Synchronní
Identifikace a sběr dat	Rozpoznávání řeči syntéza řeči Optické rozpoznávání znaků Generování textu
Tematický model	Umístění Pachinko Latentní Dirichletovo umístění Latentní sémantická analýza
Peer review	Automatické hodnocení esejí Concordancer Prediktivní zadávání textu Kontrola gramatiky Kontrola pravopisu Syntax Guessing
Rozhraní přirozeného jazyka	virtuální asistentka Virtuální partner Systém otázek a odpovědí Hlasové rozhraní Interaktivní literatura