Identifikace jazyka

Identifikace jazyka (angl. language identification ), v metodě zpracování přirozeného jazyka  - definice jazyka . Problém identifikace jazyka je speciálním případem kategorizace textu a je řešen pomocí statistických metod .

Přehled

Pro identifikaci jazyka je implementována architektura PPRLM (paralelní rozpoznávání fonémů + jazykový model) s paralelním připojením fonetických rozpoznávačů trénovaných v několika jazycích. Fonetické rozpoznávání je založeno na skrytých Markovových modelech (HMM) pomocí Viterbiho algoritmu .

Pro rozhodnutí o příslušnosti řečové zprávy ke konkrétnímu cílovému jazyku je implementován přístup s klasifikátorem založeným na strojích podpůrných vektorů (SVM - support vector machines).

Princip fungování systému postaveného na bázi klasického PPRLM je následující:

  1. v systému je několik fonetických rozpoznávačů;
  2. každý vstupní zvukový soubor je rozpoznán fonetickými rozpoznávači;
  3. podle výsledné sekvence fonémů každého fonetického rozpoznávače se vypočítají míry blízkosti k n-gramovému modelu konkrétního cílového jazyka;
  4. jazyk s maximální mírou blízkosti n-gramového modelu je považován za vítěze .

V pokročilých systémech PPRLM je jazyková identifikace implementována jako otevřená úloha: je provedena kontrola „patří“ / „nepatří“ zpracovávaného souboru do cílového jazyka, rozhodnutí je učiněno automaticky s přihlédnutím k prahové hodnotě stanovené uživatel.

K základnímu algoritmu jsou přidány následující kroky:

  1. výsledná sekvence fonémů každého fonetického rozpoznávače je superponována s n-gramovým modelem toho či onoho „referenčního“ jazyka a jsou uvažovány míry blízkosti n-gramového modelu k posloupnosti fonémů;
  2. úplný soubor měření blízkosti n-gramových modelů k sekvencím fonémů je vstupním vektorem pro klasifikátor SVM ;
  3. na základě výsledku klasifikace se klasifikátor SVM rozhodne o příslušnosti k cílovému jazyku porovnáním se stanoveným prahem pro každý cílový jazyk zvlášť.

Zvukový soubor je namluven v cílovém jazyce, pokud je skóre dané klasifikátorem SVM vyšší než práh. V tomto případě lze zvukový soubor přiřadit k jednomu nebo více jazykům současně nebo nepřiřadit žádnému z nich.

Viz také

Literatura

Odkazy

Knihovny

Webové služby