Trigramy jsou speciálním případem n-gramů , kde n se rovná 3. Často se používají při zpracování přirozeného jazyka k provádění statistické analýzy textů a v kryptografii ke kontrole a využívání šifer a kódů.
Kontext je velmi důležitý, rozdíly v pořadí a procentech analýzy lze snadno odvodit z různých velikostí vzorků, různých autorů; nebo různé typy dokumentů: poezie, sci-fi, technologická dokumentace; a úrovně psaní: příběhy pro děti proti dospělým, vojenské rozkazy a recepty. [1] [2]
Typická kryptoanalytická frekvenční analýza ukazuje, že 16 nejběžnějších trigramů na úrovni znaků v angličtině je:
místo [2] | trigram | Frekvence [3] (různé zdroje) |
---|---|---|
jeden | a | 1,81 % |
2 | a | 0,73 % |
3 | tha | 0,33 % |
čtyři | ent | 0,42 % |
5 | Ing | 0,72 % |
6 | ion | 0,42 % |
7 | tio | 0,31 % |
osm | pro | 0,34 % |
9 | nde | |
deset | má | |
jedenáct | nce | |
12 | edt | |
13 | tis | |
čtrnáct | často | 0,22 % |
patnáct | č | 0,21 % |
16 | muži |
Protože šifrované telegrafní zprávy často vynechávají interpunkci a mezery, kryptografická frekvenční analýza takových zpráv zahrnuje trigramy, které překračují hranice slov. To způsobí, že trigramy jako "edt" se vyskytují často, ačkoli se nikdy nemusí vyskytovat v žádném ze slov těchto zpráv. [čtyři]
Věta „ Rychlá liška skáče přes líného hnědého psa “ má na úrovni slov následující trigramy:
rychlá červená rychlá červená liška skok červené lišky liška přeskočit přeskočit přes nad línými líná hnědá líný hnědý pesA trigram na úrovni slova „rychlá červená“ má následující trigramy na úrovni znaků (kde podtržítko „_“ znamená mezeru):
a on_ e_q _qu qui uic ick ck_ k_r _re Červenézpracování přirozeného jazyka | |
---|---|
Obecné definice | |
Analýza textu |
|
Odkazování |
|
Strojový překlad |
|
Identifikace a sběr dat | |
Tematický model | |
Peer review |
|
Rozhraní přirozeného jazyka |