Tatoeba

Projekt Tatoeba
URL tatoeba.org
Komerční Ne
Typ webu Otevřete vícejazyčný online slovník frází
Registrace Vyžadováno pouze pro úpravy
jazyky) 19 jazyků rozhraní, včetně ruštiny ; obsah ve 130 jazycích (květen 2013)
Majitel Trang Ho
Autor Trang Ho
Začátek práce 2006
Aktuální stav Skutečné [1]
 Mediální soubory na Wikimedia Commons

Projekt Tatoeba (z japonského slova tatoeba ( Jap. 例えば, „například“)  je web pro výměnu příkladů frází ve všech dostupných jazycích světa. Na rozdíl od online slovníků, které uchovávají překlady slov, je projekt zaměřen na pevné sémantické konstrukce - fráze, věty, přísloví atd., jejich nashromážděné protějšky v různých jazycích jsou mezi sebou ručně nebo automaticky porovnávány. Charakteristickým rysem projektu je jeho otevřenost a všeobecná dostupnost: Tatoeba je deklarována jako nekomerční projekt [2] , a kdo chce, bez ohledu na specializaci a jazykovou příslušnost, může provádět změny v databázi projektu (přidávat a v některých případech upravovat stávající fráze, opravovat chyby).

Díky těmto vlastnostem si projekt Tatoeba pomalu získává uznání jako jedinečné médium pro sebeřízené učení [3] . K prosinci 2010 projekt podporoval 81 jazyků a poskytoval 11 možností jazykového rozhraní; v listopadu 2011 to bylo 94 a 17; v lednu 2014—132 a 19.

Tvůrcem a vedoucím projektu je Chang Ho ( Trang Ho ), Francouzka vietnamského původu [4] . První příklady stránek jsou datovány 30. září 2007 [5] . Věta č. 1 je od uživatele sysko: je to čínská fráze "Uvidíme!" [6] .

Jak to funguje

Principem projektu je shromáždit a propojit překlady konkrétní fráze v daném jazyce. Systém analyzuje všechna přijatá data. Pokud je konstrukt A přeložen do jiného jazyka jako konstrukt B, a ten zase jako konstrukt C, pak se všechny tři zobrazí jako řetězec přímých nebo nepřímých překladů, které se ve výchozím nastavení zobrazí při hledání kteréhokoli z fragmentů. odpovídajících frází A, B a C (počet zobrazených jazyků může být omezen jednotlivými uživateli).

Nashromážděný materiál si může prohlížet každý, pouze registrovaní účastníci jej mohou přidávat a upravovat. Členové se zkušenostmi mohou získat status „důvěryhodný“ („důvěryhodný uživatel“). Poskytuje přístup ke značkám a také vám umožňuje propojit adekvátní překlady mezi sebou nebo „odříznout“ ty nedostatečné. Omezený okruh účastníků projektu má statut „strážců“ (správců korpusu), kteří mají administrativní pravomoci.

Na rozdíl od učebnic, online slovníků a fór není projekt Tatoeba zaměřen na konkrétní jazykové publikum nebo profesionální uživatelskou základnu. Každý, kdo má základní gramotnost, se může zaregistrovat a doplnit příklady frází ve svém rodném nebo cílovém jazyce [2] . Pro práci se uživatelům nabízí celá řada dostupných jazyků nebo možnost selektivně číst s uvedením původního jazyka a / nebo překladu. Zároveň se u vlastních překladů do Tatoeby doporučuje zaměřit se pouze na originál, protože související překlady mohou být nepřesné [2] . Diskuse o nuancích překladu je možná přímo zde v komentářích ke každému z návrhů.

Takto nashromážděný materiál lze bezplatně distribuovat pro všechny typy použití, včetně komerčního, při zaslání ke zdroji pod licencí CC-BY [7] . Na stránkách jsou odkazy na stažení celého korpusu materiálů [8] nebo jeho částí [9] . Jediným omezením obsahu je zákaz frází, které jsou chráněny autorským právem podle francouzského práva.

Každé frázi je při odeslání na platformu přiděleno pořadové číslo, ale některé příspěvky (strojový překlad, duplikáty, nedokončené fráze atd.) jsou následně smazány. Procento odstranění lze vypočítat porovnáním posledního sériového čísla (otevřete horní frázi v seznamu nedávných příspěvků na titulní stránce) s počítadlem frází na titulní stránce. Například 12. prosince. V roce 2011 to bylo 1295340 a 1241274.

Gramaticky správné fráze, které se neshodují s překlady, lze rozdělit (přestat se zobrazovat jako řetězec), ale ne odstranit. Jsou uloženy v databázi projektu jako výchozí body pro nové překlady. Historie úprav každé z frází, stejně jako spojení / odpojení mezi nimi, je připojena ke každé frázi a je viditelná všem uživatelům.

Podporované jazyky

Od července 2019 stránka technicky podporuje 342 jazyků. [10] Původním zdrojem pro stránky byl anglicko-japonský Corpus of Language Example od Prof. Yasuhiro Tanaka . V prosinci 2010 obsahovala Tatoeba přes 648 000 vět; v dubnu 2012 toto číslo dosáhlo téměř 1,5 milionu, 12. ledna to bylo 2 037 379. Největší počet frází (v sestupném pořadí, únor 2013):

Kromě toho existuje přes tisíc vět v následujících jazycích: arabština , islandština , hindština , ujgurština , vietnamština , norština ( Bokmål ), běloruština , šanghajština a kantonská čínština.

Spolu s přirozenými jazyky se v projektu objevují umělé jazyky : Esperanto , Klingon , Interlingua , CycL , Tokipona .

Zpočátku k zavedení nového jazyka stačilo pouze kontaktovat administrátory a zadat do něj pět příkladů. Nezbytným požadavkem se následně stala certifikace zaváděného jazyka podle normy ISO 639-3 . Při žádosti o přidání nové jazykové sekce můžete nabídnout symbol vlajky, který ji bude na webu označovat; tento grafický znak nemusí představovat konkrétní stav z moderního nebo již existujícího [11] .

Audio

Kromě písemného přenosu vět sbírá platforma Tatoeba jejich výslovnost. (Účastníkům je proto zakázáno vkládat do závorek věty s variantami gramatických a lexikálních tvarů, které by vyžadovaly více možností čtení). Pro účast na doplňování audio sekce je nutné absolvovat akreditaci prokazující kvalitu nahraných ukázek. [1] Z tohoto důvodu se zvukové sekce Tatoeba dokončují poměrně pomalu.

Činnost a formy spolupráce

Otevřenost a dostupnost v kombinaci s uživatelskou přívětivostí stránky vedly k trvalému nárůstu její popularity. (Graf aktivity webových stránek [12] zaznamenává počet nových jazykových příkladů od 30. září 2007). V prosinci 2010 byl počet denních návštěvníků cca. 1800 [13] , kteří přidali až jeden a půl až dva tisíce příkladů denně. Do roku 2013 se druhý údaj zvýšil na 2,5–3 tisíce.

Tatoeba propaguje otevřenost a svobodu internetu v projektu Mozilla Drumbeat , mezi několika stovkami dalších zúčastněných projektů.

Tatoeba přispívá do mnoha elektronických slovníků a překladatelů, jako je japonský elektronický slovník WWWJDIC [14] . Tatoeba spolupracuje s projektem Shtooka  , bezplatnou sbírkou zvukových nahrávek slov, frází, přísloví atd. v různých jazycích [15] . Materiál platformy se používá v elektronických slovnících Glosbe [16] .

Na základě Tatoeba byla vyvinuta aplikace pro samostudium jazyků pomocí počítačových flash karet TaToTen [17] .

Odkazy

Viz také

Poznámky

  1. tatoeba.org – Podrobnosti o provozu od Alexy . Alexa Internet , Inc. Archivováno z originálu 6. července 2012.
  2. 1 2 3 Trang. Jak být dobrým přispěvatelem v Tatoeba . Získáno 27. prosince 2019. Archivováno z originálu dne 3. září 2011.
  3. Tatoeba (Kde se učit) (downlink) . Bez učitele (1. listopadu 2010). Staženo 27. prosince 2019. Archivováno z originálu 14. července 2012. 
  4. TRANG - Tatoeba . tatoeba.org. Získáno 27. prosince 2019. Archivováno z originálu dne 18. září 2020.
  5. Časová osa aktivity – Tatoeba . tatoeba.org. Získáno 27. prosince 2019. Archivováno z originálu dne 27. prosince 2019.
  6. 我們試試看! - Příklad věty z mandarínské čínštiny - Tatoeba . tatoeba.org. Získáno 27. prosince 2019. Archivováno z originálu 6. ledna 2020.
  7. Pravidlo 8. Nepřidávejte věty z  obsahu chráněného autorským právem
  8. Stáhnout věty - Tatoeba . tatoeba.org. Získáno 27. prosince 2019. Archivováno z originálu dne 20. prosince 2019.
  9. Všechny veřejné seznamy (1 232) - Tatoeba . tatoeba.org. Získáno 27. prosince 2019. Archivováno z originálu dne 20. prosince 2019.
  10. Nabídky do neznáma - Tatoeba (nepřístupný odkaz) . tatoeba.org. Získáno 27. prosince 2019. Archivováno z originálu dne 20. června 2013. 
  11. FAQ . en.wiki.tatoeba.org. Získáno 27. prosince 2019. Archivováno z originálu dne 20. prosince 2019.
  12. Rozvrh aktivit: - Tatoeba . tatoeba.org. Staženo: 27. prosince 2019.
  13. Pokud by Tatoeba.org byla zemí, byla by větší než Niue s 1 809 denními návštěvníky!  (odkaz dolů)  (odkaz dolů od 13-05-2013 [3462 dní]  )
  14. WWWJDIC . users.monash.edu. Získáno 27. prosince 2019. Archivováno z originálu dne 27. prosince 2019.
  15. Stažení projektu Shtooka Archivováno 1. prosince 2010 na Wayback Machine 
  16. ↑ Online slovník s více než 1 000 jazyky a 40 000 000 překlady  . Glosbe. Získáno 27. prosince 2019. Archivováno z originálu dne 22. června 2020.
  17. tatoten - TaToTen (downlink) . tatoten.com. Získáno 27. prosince 2019. Archivováno z originálu dne 27. prosince 2019.