Projekt Tatoeba | |
---|---|
URL | tatoeba.org |
Komerční | Ne |
Typ webu | Otevřete vícejazyčný online slovník frází |
Registrace | Vyžadováno pouze pro úpravy |
jazyky) | 19 jazyků rozhraní, včetně ruštiny ; obsah ve 130 jazycích (květen 2013) |
Majitel | Trang Ho |
Autor | Trang Ho |
Začátek práce | 2006 |
Aktuální stav | Skutečné [1] |
Mediální soubory na Wikimedia Commons |
Projekt Tatoeba (z japonského slova tatoeba ( Jap. 例えば, „například“) je web pro výměnu příkladů frází ve všech dostupných jazycích světa. Na rozdíl od online slovníků, které uchovávají překlady slov, je projekt zaměřen na pevné sémantické konstrukce - fráze, věty, přísloví atd., jejich nashromážděné protějšky v různých jazycích jsou mezi sebou ručně nebo automaticky porovnávány. Charakteristickým rysem projektu je jeho otevřenost a všeobecná dostupnost: Tatoeba je deklarována jako nekomerční projekt [2] , a kdo chce, bez ohledu na specializaci a jazykovou příslušnost, může provádět změny v databázi projektu (přidávat a v některých případech upravovat stávající fráze, opravovat chyby).
Díky těmto vlastnostem si projekt Tatoeba pomalu získává uznání jako jedinečné médium pro sebeřízené učení [3] . K prosinci 2010 projekt podporoval 81 jazyků a poskytoval 11 možností jazykového rozhraní; v listopadu 2011 to bylo 94 a 17; v lednu 2014—132 a 19.
Tvůrcem a vedoucím projektu je Chang Ho ( Trang Ho ), Francouzka vietnamského původu [4] . První příklady stránek jsou datovány 30. září 2007 [5] . Věta č. 1 je od uživatele sysko: je to čínská fráze "Uvidíme!" [6] .
Principem projektu je shromáždit a propojit překlady konkrétní fráze v daném jazyce. Systém analyzuje všechna přijatá data. Pokud je konstrukt A přeložen do jiného jazyka jako konstrukt B, a ten zase jako konstrukt C, pak se všechny tři zobrazí jako řetězec přímých nebo nepřímých překladů, které se ve výchozím nastavení zobrazí při hledání kteréhokoli z fragmentů. odpovídajících frází A, B a C (počet zobrazených jazyků může být omezen jednotlivými uživateli).
Nashromážděný materiál si může prohlížet každý, pouze registrovaní účastníci jej mohou přidávat a upravovat. Členové se zkušenostmi mohou získat status „důvěryhodný“ („důvěryhodný uživatel“). Poskytuje přístup ke značkám a také vám umožňuje propojit adekvátní překlady mezi sebou nebo „odříznout“ ty nedostatečné. Omezený okruh účastníků projektu má statut „strážců“ (správců korpusu), kteří mají administrativní pravomoci.
Na rozdíl od učebnic, online slovníků a fór není projekt Tatoeba zaměřen na konkrétní jazykové publikum nebo profesionální uživatelskou základnu. Každý, kdo má základní gramotnost, se může zaregistrovat a doplnit příklady frází ve svém rodném nebo cílovém jazyce [2] . Pro práci se uživatelům nabízí celá řada dostupných jazyků nebo možnost selektivně číst s uvedením původního jazyka a / nebo překladu. Zároveň se u vlastních překladů do Tatoeby doporučuje zaměřit se pouze na originál, protože související překlady mohou být nepřesné [2] . Diskuse o nuancích překladu je možná přímo zde v komentářích ke každému z návrhů.
Takto nashromážděný materiál lze bezplatně distribuovat pro všechny typy použití, včetně komerčního, při zaslání ke zdroji pod licencí CC-BY [7] . Na stránkách jsou odkazy na stažení celého korpusu materiálů [8] nebo jeho částí [9] . Jediným omezením obsahu je zákaz frází, které jsou chráněny autorským právem podle francouzského práva.
Každé frázi je při odeslání na platformu přiděleno pořadové číslo, ale některé příspěvky (strojový překlad, duplikáty, nedokončené fráze atd.) jsou následně smazány. Procento odstranění lze vypočítat porovnáním posledního sériového čísla (otevřete horní frázi v seznamu nedávných příspěvků na titulní stránce) s počítadlem frází na titulní stránce. Například 12. prosince. V roce 2011 to bylo 1295340 a 1241274.
Gramaticky správné fráze, které se neshodují s překlady, lze rozdělit (přestat se zobrazovat jako řetězec), ale ne odstranit. Jsou uloženy v databázi projektu jako výchozí body pro nové překlady. Historie úprav každé z frází, stejně jako spojení / odpojení mezi nimi, je připojena ke každé frázi a je viditelná všem uživatelům.
Od července 2019 stránka technicky podporuje 342 jazyků. [10] Původním zdrojem pro stránky byl anglicko-japonský Corpus of Language Example od Prof. Yasuhiro Tanaka . V prosinci 2010 obsahovala Tatoeba přes 648 000 vět; v dubnu 2012 toto číslo dosáhlo téměř 1,5 milionu, 12. ledna to bylo 2 037 379. Největší počet frází (v sestupném pořadí, únor 2013):
Kromě toho existuje přes tisíc vět v následujících jazycích: arabština , islandština , hindština , ujgurština , vietnamština , norština ( Bokmål ), běloruština , šanghajština a kantonská čínština.
Spolu s přirozenými jazyky se v projektu objevují umělé jazyky : Esperanto , Klingon , Interlingua , CycL , Tokipona .
Zpočátku k zavedení nového jazyka stačilo pouze kontaktovat administrátory a zadat do něj pět příkladů. Nezbytným požadavkem se následně stala certifikace zaváděného jazyka podle normy ISO 639-3 . Při žádosti o přidání nové jazykové sekce můžete nabídnout symbol vlajky, který ji bude na webu označovat; tento grafický znak nemusí představovat konkrétní stav z moderního nebo již existujícího [11] .
Kromě písemného přenosu vět sbírá platforma Tatoeba jejich výslovnost. (Účastníkům je proto zakázáno vkládat do závorek věty s variantami gramatických a lexikálních tvarů, které by vyžadovaly více možností čtení). Pro účast na doplňování audio sekce je nutné absolvovat akreditaci prokazující kvalitu nahraných ukázek. [1] Z tohoto důvodu se zvukové sekce Tatoeba dokončují poměrně pomalu.
Otevřenost a dostupnost v kombinaci s uživatelskou přívětivostí stránky vedly k trvalému nárůstu její popularity. (Graf aktivity webových stránek [12] zaznamenává počet nových jazykových příkladů od 30. září 2007). V prosinci 2010 byl počet denních návštěvníků cca. 1800 [13] , kteří přidali až jeden a půl až dva tisíce příkladů denně. Do roku 2013 se druhý údaj zvýšil na 2,5–3 tisíce.
Tatoeba propaguje otevřenost a svobodu internetu v projektu Mozilla Drumbeat , mezi několika stovkami dalších zúčastněných projektů.
Tatoeba přispívá do mnoha elektronických slovníků a překladatelů, jako je japonský elektronický slovník WWWJDIC [14] . Tatoeba spolupracuje s projektem Shtooka , bezplatnou sbírkou zvukových nahrávek slov, frází, přísloví atd. v různých jazycích [15] . Materiál platformy se používá v elektronických slovnících Glosbe [16] .
Na základě Tatoeba byla vyvinuta aplikace pro samostudium jazyků pomocí počítačových flash karet TaToTen [17] .
Korpusová lingvistika | |
---|---|
Anglické korpusy |
|
ruskojazyčné korpusy |
|
Korpusy v jiných jazycích |
|
Organizace |