Paralelní text ( bitext ) je text v jednom jazyce spolu s jeho překladem do jiného jazyka. "Parallel Text Alignment" je identifikace shodných vět v obou polovinách paralelního textu. Velké sbírky paralelních textů se nazývají „paralelní korpus“ (angl. parallel corpora ). Paralelní řazení korpusů na úrovni vět je nezbytným předpokladem pro různé aspekty lingvistického výzkumu. Během procesu překladu lze věty rozdělit, sloučit, odstranit, vložit nebo změnit pořadí. V důsledku toho se zarovnání často stává obtížným úkolem.
V oblasti překladatelského výzkumu je „bitext“ kombinovaný dokument sestávající ze zdrojové a cílové jazykové verze odpovídajícího textu. Bitexty jsou vytvářeny pomocí speciálních počítačových programů nazývaných „alignment tools“ ( alignment tool ) nebo „bitext tools“ ( bitext tool ), které umožňují automaticky zarovnat původní verzi textu a jeho překlad. Takové programy zpravidla přiřazují ke každé větě dva texty (originál a překlad). Sbírka bitextů se nazývá "bitextová databáze" nebo "dvojjazyčný korpus" a lze ji použít jako referenční a k nalezení správných kombinací.
Myšlenka bitextu patří Brianu Harrisovi, který poprvé napsal studii o tomto konceptu v roce 1988 a následně byla vyvinuta skupinou vědců z University of Montreal (Université de Montréal), nazvanou RALI ( Recherche appliquée en linguistique informatique nebo Aplikovaný výzkum v počítačové lingvistice – „Aplikovaný výzkum v počítačové lingvistice“). Skupinu tvořili programátoři a lingvisté studující přirozené zpracování textu. Významnými propagátory konceptu Bitext jsou Pierre Isabelle a Claude Bédard.
Myšlenka „bitextu“ má mnoho společného s konceptem překladové paměti . Hlavní rozdíl mezi nimi je v tom, že překladová paměť je databáze, ve které jsou textové segmenty (odpovídající věty) uspořádány tak, že nesouvisejí s původním kontextem, tj. původní posloupnost vět je ztracena. Bitext zachovává původní sekvenci vět. Standardním formátem pro výměnu databází překladové paměti mezi různými automatizovanými překladovými systémy je formát TMX (slovník XML vydaný společností LISA (Localization Industries Association). TMX umožňuje zachovat původní pořadí vět).
Bitexty jsou vytvářeny jako referenční nástroj pro konzultace odborných překladatelů, nikoli automatizované programy. Nezáleží jim proto na malých chybách zarovnání nebo nepřesnosti, které mohou vést k selhání překladové paměti.