Leipzigská pravidla pro glosování jsou souborem pravidel glosování (pomorfemické notace ) navržených pro jednotné použití při uvádění jazykových příkladů v lingvistických dílech . Zahrnuje jak skutečná pravidla pro tvorbu meziřádkových glos , tak seznam doporučených zkratek (gramatické značky, "štítky") používaných k označení gramatických kategorií .
Leipzig Glossing Rules byla vyvinuta společně katedrou lingvistiky Institutu Maxe Plancka pro evoluční antropologii a katedrou lingvistiky na univerzitě v Lipsku v polovině 21. století. Byly vytvořeny na pozadí absence jakéhokoli jednotného systému ve vědecké lingvistické komunitě a jsou nástrojem, ke kterému se lingvista může uchýlit, když čelí potřebě glosovat text. Vzhledem k tomu, že v této době již byly vytvořeny některé soukromé dohody v lingvistice týkající se určitých aspektů glosování, hlavním úkolem těchto pravidel je jasně uvést nejpoužívanější konvence.
Později, na začátku roku 2010, Martin Haspelmat navrhl použití jediné šablony návrhu pro lingvistické práce, aby se překonaly rozdíly v požadavcích na design, které existují v různých časopisech a nakladatelstvích [1] . Pravidla, která vypracoval ( ang. The Generic Style Rules for Linguistics ), byla přijata zejména v lingvistickém nakladatelství Language Science Press , které se hlásí k ideologii otevřeného přístupu [2] .
Meziřádkové morfemické glosování slouží k předávání informací o významu a gramatických vlastnostech jednotlivých slov nebo jejich částí. V závislosti na úkolu, před kterým stojí autor, který se uchýlí k glosování, a na očekávané úrovni připravenosti čtenáře lze použít různé stupně detailů lesku. Tato pravidla umožňují různou míru flexibility při jejich použití a v některých případech nabízejí alternativy pro stejný úkol. Hlavním využitím pravidel, které navrhli autoři projektu, je vysvětlení příkladů uvedených ve vědeckých publikacích.
Vzhledem k tomu, že pravidla nabízejí pouze nástroje pro předávání informací o morfémech, nemusí být při označování textových korpusů dostačující (například když je nutné v textu označit prvky, které přesahují úroveň morfologie, jako jsou slova nebo fráze) .
Je třeba také poznamenat, že často může existovat více než jeden přístup k analýze morfologických struktur v jazyce. V tomto ohledu pravidla nenavrhují držet se jednoho nebo druhého přístupu, ale nabízejí pouze možné možnosti pro označení popsaných prvků. Plnohodnotný morfologický rozbor se navíc málokdy omezuje na pouhé glosování, takže nezapomínejte, že jeho použití nemůže nahradit rozbor morfologické stavby, ale slouží pouze k tomu, aby čtenáři kromě jeho literární překlad.
Při citování glosovaných textů z externích zdrojů je třeba mít na paměti, že glosy ve skutečnosti nejsou jazykovými daty, ale jsou metodou analýzy jazykových dat. V souladu s tím může autor při citování příkladu z dříve publikovaných prací změnit způsob glosování v souladu s vlastní terminologií, vlastním stylem nebo při použití jiných metod analýzy.
Standardem prezentace v moderních lingvistických dílech je uvést jazykový příklad ve třech „vrstevnách“ (řádcích):
V závislosti na úkolu autora může existovat více vrstev (například pravopis a transkripce samostatně nebo dva typy transkripce; idiomatický a doslovný překlad samostatně atd.). Vrstva lesku nemusí být uvedena pro široce známé jazyky (například hlavní západoevropské jazyky, slovanské jazyky ve slovanských dílech atd.).
Metajazyk pro překlad lexikálních významů (v glosujícím řádku) a překlad celé fráze je zpravidla metajazykem díla samotného. Gramatické značky (štítky) se obvykle uvádějí latinkou, protože jde o zkratky latinských (méně běžně anglických) slov.
Příklady jsou obvykle očíslovány. Pokud práce obsahuje příklady z více jazyků, je jazyk uveden před příkladem. Zároveň, na rozdíl od angličtiny, v ruském jazyce se název jazyka nepíše velkými písmeny (například jazyk Dirbal , ale ne jazyk Dirbal ).
Meziřádkové glosy pro každé jednotlivé slovo analyzovaného jazyka jsou zarovnány k levému okraji tohoto slova (obvykle pomocí tabulátorů ). Například:
(jeden) | indonéština | |||
Mereka | di | Jakarta | sekarang . | |
ony | v | Jakarta | Nyní | |
"Teď jsou v Jakartě." |
Explicitně rozlišené morfémy jsou jak v analyzovaném textu, tak v příslušných glosách od sebe odděleny pomlčkami. Počet pomlček v analyzovaném textu a v glosách se musí shodovat. Například:
(2) | Lezginského | |||||
Gila | abur-un | ferma | hamishaluǧ | guna | amuq'-da-č. | |
Nyní | oni-OBL-GEN | farma | vždy | za | pobyt-FUT-NEG | |
"Teď jejich farma nezůstane po celou dobu." |
Protože oddělovače ( pomlčky ) a svislé zarovnání dávají textu nepřirozený grafický vzhled, může autor volitelně přidat na začátek další řádek obsahující nezpracovaný text nebo se obrátit na pravidlo 4 (konkrétně 4C).
Hranice klitiky jsou označeny znakem "rovná se" jak ve výchozím textu, tak v glosách.
(3) | Západní Grónsko | |
palasi=lu | niuirtur=lu | |
kněz=a | store_owner=and | |
'kněz i majitel obchodu' |
Epentetické segmenty umístěné na hranicích morfému by měly být připojeny k předchozímu nebo následujícímu morfému. Výběr morfému, ke kterému je segment připojen, může být určen různými metodami, které je obtížné zobecnit, takže pravidla v této věci nenabízejí vodítko.
Pravidlo 2A (rozšířená verze)Jsou-li prvky morfologicky příbuzné, ale rozlišené na samostatné slovo na prozodickém nebo fonologickém základě, lze jako oddělovač použít kombinaci mezery a pomlčky (ale pouze ve výchozím jazyce, nikoli uvnitř glosy).
(čtyři) | Chinsky |
a-nii-laay | |
3SG-smích-FUT | |
'on/ona se bude smát' |
Morfémy vyjadřující gramatický význam jsou zprostředkovány především značkami odpovídajících gramatických kategorií ve formě zkratek psaných velkými písmeny (nejčastěji malá písmena ).
Samozřejmě v některých případech může být nutné odchýlit se od standardních zkratek, například pokud má určitá kategorie v určitém jazyce vysokou frekvenci, pak bude vhodnější použít kratší zkratku, například CPL ( místo COMPL) k označení komplexu , PF (místo PRF) k označení dokonalého atd. Pokud má kategorie v jazyce velmi nízkou frekvenci, pak může být optimální její označení vůbec nezkracovat.
V mnoha případech je přijatelné použití jak gramatických značek, tak slov zprostředkujícího jazyka. Lze tedy zvolit kteroukoli ze dvou možností pro glosování věty (5) v závislosti na účelu glosování.
(5) | ruština | ||||||
My | S | Marco | jít | sběrnice-ohm | v | Peredelkino. | |
1PL | COM | Marco | go-PST-PL | bus-INS | VŠECHNO | Peredelkino | |
my | S | Marco | go-PST-PL | bus-through | v | Peredelkino | |
"Marco a já jsme jeli do Peredelkina autobusem." |
Pokud jeden prvek zdrojového jazyka odpovídá několika prvkům zprostředkujícího jazyka (lexikální glosy nebo gramatické štítky), jsou tyto prvky odděleny tečkami. Například:
(6) | německy | |
unser-n | Vater-n | |
naše-DAT.PL | otec.PL-DAT.PL | |
"našim otcům" |
Určení pořadí prvků ve zprostředkujícím jazyce lze určit různými způsoby, které je obtížné zobecnit, takže pravidla v této záležitosti nenabízejí žádné vodítko.
Existují různé důvody, proč existuje vzájemná shoda mezi prvky zdrojového jazyka a prvky lesku. Oddělovací prvky tečkou se používají bez ohledu na tyto důvody. Pokud stále existuje potřeba identifikovat (oddělit) různé příčiny, pak by se mělo odkázat na pravidla 4A-4E.
Pravidlo 4A (vylepšené)Pokud prvek zdrojového jazyka nelze formálně ani sémanticky rozdělit na složky, ale v prostředním jazyce neexistuje ekvivalent vyjádřený jedním slovem, lze místo tečky použít podtržítko.
(7) | turečtina |
çık-mak | |
go_out-INF | |
'jít ven' |
Pokud prvek zdrojového jazyka nelze formálně rozdělit na jeho složky, ale vyjadřuje dva nebo více odlišných významů nebo gramatických charakteristik, lze použít středník. Například:
(osm) | francouzština | |
aux | chevaux | |
do;ART;PL | kůň;PL | |
'ke koním' |
Pokud lze prvek zdrojového jazyka formálně i sémanticky oddělit, ale autor nechce ukázat formální rozdělení (protože to není podstatné a/nebo pro zachování celistvosti textu), lze použít dvojtečku. Například:
(9) | Chetitština | |||
n=an | apedani | mehuni | essandu. | |
CONN=jeho | je:DAT;SG | čas:DAT;SG | mít: oni: budou | |
"V tuto chvíli to oslaví." |
Pokud je gramatický rys ve zdrojovém jazyce vyjádřen morfologickou změnou ( ablaut , churn , změna tónu atd.), použije se zpětné lomítko k oddělení odpovídajícího označení kategorie od zbytku glosy.
(deset) | Rwanda | |
mú-kòra | ||
SBJV\1PL-práce | ||
"abychom pracovali" | (srov . mù-kòrà indikativní ) |
Pokud jsou ve zdrojovém jazyce uvedeny přípony osobních čísel, které současně vyjadřují argumenty podobné agentovi a pacientovi tranzitivního slovesa, lze v glose použít symbol '>' k označení, že argument podobný agentovi je na vlevo od něj a argument podobný pacientovi je vpravo.
(jedenáct) | Chamintyung | |
nanggayan | guny-bi-yarluga? | |
SZO | 2DU>3SG-FUT-stab | |
"Koho chcete vy dva bodnout?" |
Indikátory osob a čísel nejsou odděleny tečkou, pokud jsou v sekvenčním pořadí. Například:
(12) | italština | |
a-iamo | ||
go-PRS.1PL | (nikoli: go-PRS.1.PL) | |
'my chodíme' |
V některých jazycích jsou velmi běžné ukazatele čísla a pohlaví, zejména v kombinaci s označením osoby. V takových případech někteří autoři dávají přednost použití malých zkratek, aniž by je oddělovali tečkou. Při použití této možnosti bude lesk vypadat jako na druhém řádku v příkladu (13).
(13) | Belhare | ||
rozená | a-khim-chi | n-yuNNa | |
DEM-LOC | 1SG.POSS-dům-PL | 3NSG-be.NPST | |
DEM-LOC | 1sPOSS-dům-PL | 3ns-be.NPST | |
"Tady jsou moje domy." |
Pokud glosa obsahuje prvek, který neodpovídá explicitnímu prvku zdrojového textu ( "null" morfém ), pak je uzavřen v hranatých závorkách. Alternativně je místo nevyjádřeného prvku do zdrojového textu přidán znak „Ø“, který je oddělen pomlčkou, jako každý explicitní prvek.
(čtrnáct) | latinský | ||
puer | nebo | puer-Ø | |
chlapec[NOM.SG] | chlapec-NOM.SG | ||
'chlapec' | 'chlapec' |
Inherentní, neexplicitní kategorie, jako je pohlaví v některých jazycích, mohou být zobrazeny, když jsou glosovány, ale s odpovídajícím prvkem uzavřeným v závorkách. Například:
(patnáct) | Gunzibsky | ||
ož-di-g | xxe | m-uq'e-r | |
chlapec-OBL-AD | dřevo (G4) | G4-ohyb-pret | |
"Kvůli chlapci se strom naklonil." | |||
(G4 = 4. pohlaví, AD = adessive , PRET = preterite ) |
Dvousložkové gramatické nebo lexikální položky, se kterými se zachází jako se samostatnými morfologickými jednotkami (např. dvousložkové kmeny jako na-xʔu̧ 'hear' v lakotštině ), lze vykreslit dvěma různými způsoby:
(i) Jednoduchým opakováním lesku:
(16) | Lakota |
na-wicha-wa-xʔu̧ | |
slyšet-3PL.UND-1SG.ACT-slyšet | |
"Slyším je." |
(ii) Jedna ze dvou částí může být přenášena se speciální značkou, např. ZASTAVIT
(17) | Lakota |
na-wicha-wa-xʔu | |
slyšet-3PL.UND-1SG.ACT-STEM | |
"Slyším je." |
Circumfixy , což jsou „dvousložkové afixy“, lze přenášet pomocí stejných pravidel, například:
(osmnáct) | německy | ||
ge-seh-en | nebo | ge-seh-en | |
ptcp-viz-ptcp | ptcp-viz-circ | ||
'viděno' | 'viděno' |
Obě infixy ve zdrojovém textu a jejich odpovídající prvky lesku jsou uzavřeny v lomených závorkách.
(19) | Tagalog | |
b<um>ili | (základ: bili ) | |
<ACTFOC> koupit | ||
'Koupit' |
(dvacet) | latinský | |
reli<n>qu-ere | (stonek: reliqu- ) | |
opustit<PRS>-INF | ||
'odejít' |
Pokud není obtížné určit, zda je vpisek levotočivý, jako v (19), nebo pravotočivý, jako v (20), určuje to polohu lesku označujícího vpisek vzhledem k označujícímu lesk. lexikální kmen. Pokud není infix výslovně levý nebo pravý, měl by být vypracován samostatný princip, podle kterého budou prvky v lesku seřazeny.
Reduplikace se předává stejným způsobem jako affix , ale znak vlnovky se používá k připojení opakujícího se prvku ke stonku , spíše než spojovník.
(21) | hebrejština |
yerak~rak-im | |
zelená~ATT-M.PL | |
'nazelenalý' |