Britský národní sbor

britský národní sbor
URL www.natcorp.ox.ac.uk
Typ webu Vědecká literatura
jazyky) Britská angličtina
Umístění serveru
Autor Oxford University Press , Longman , W. & R. Chambers
Začátek práce 1994

Britský národní korpus ( BNC ) je korpus 100 milionů slov psané a mluvené britské angličtiny ze široké škály zdrojů [1] [2] [3] . Korpus pokrývá britskou angličtinu konce 20. století, reprezentovanou širokou škálou žánrů , a má reprezentovat typickou mluvenou a psanou britskou angličtinu té doby.  

Historie

Na projektu vytvoření BNC spolupracovali tři vydavatelé ( Oxford University Press jako hlavní přispěvatel a Longman a W. & R. Chambers ), dvě univerzity ( Oxford a Lancaster ) a British Library [2] .

Vytváření BNC začalo v roce 1991 pod vedením konsorcia BNC a bylo dokončeno v roce 1994. Po roce 1994 nebyly přidány žádné nové příklady, ale BNC prošlo drobnými změnami před vydáním druhého (BNC World, 2001) a třetího (BNC XML Edition, 2007) vydání [4] .

Pozadí

Z pohledu počítačových lingvistů měl být BNC souborem moderního, v době kompilace, vyskytujícího se v reálném jazyce , ať už mluveném nebo psaném . Výsledkem je, že BNC byl zkompilován do počítačově přívětivé formy, aby bylo možné automatické vyhledávání a zpracování metodami korpusové lingvistiky . Jedním z rozdílů mezi BNC a existujícími korpusy té doby byla otevřenost dat pro využití nejen ve vědeckém výzkumu, ale i pro komerční a vzdělávací účely [3] .

Tvůrci omezili korpus pouze na britskou angličtinu , nezamýšleli zahrnout příklady použití světové angličtiny . Stalo se tak zčásti proto, že významnou část nákladů na projekt zaplatila britská vláda, která měla přirozeně zájem na podpoře dokumentace jazykové rozmanitosti své země [3] .

Vybudování korpusu bezprecedentní velikosti BNC vyžadovalo financování jak od komerčních, tak akademických institucí. Data BNC se následně stala dostupná pro komerční využití a vědecký výzkum [3] .

Popis

BNC je jednojazyčný korpus, protože obsahuje pouze vzorky britské angličtiny, i když někdy se v textech objevují slova a fráze z jiných jazyků. Jedná se o synchronní korpus, protože obsahuje příklady použití jazyka pouze jednoho časového období – konce 20. století. Z tohoto důvodu nemůže BNC sloužit jako zdroj dat o historii vývoje britské angličtiny [4] . Ti, kdo se zabývali sběrem písemných dat, si od počátku kladli za cíl vytvořit z BNC vyvážený korpus a následně vyhledávali a zařazovali data z různých zdrojů [3] .

Komponenty a obsah

Psaní korpusu

90 % korpusu tvoří příklady použití spisovného jazyka . Tyto příklady byly převzaty z regionálních a celostátních novin, vědeckých časopisů a periodik různých vědních oborů, beletrie a publicistiky , a to jak z publikovaných, tak nepublikovaných materiálů (jako jsou brožury, dopisy, studentské eseje, skripta, projevy), jakož i z mnoha dalších zdroje [5] .

Konverzační korpus

Zbývajících 10 % BNC materiálu jsou vzorce používání mluveného jazyka, které byly prezentovány a zaznamenány pomocí praktické transkripce .

Konverzační korpus se skládá ze dvou částí. Demografická část obsahuje přepis spontánních rozhovorů, které proběhly v reálných podmínkách za účasti dobrovolníků z různých věkových skupin, regionů a sociálních vrstev. Tyto rozhovory probíhaly v různých situacích, včetně obchodních nebo vládních schůzek a diskusí v rozhlasovém vysílání nebo po telefonu [5] . To bylo provedeno s ohledem na demografickou distribuci mluveného jazyka a lingvisticky významnou rozmanitost jazyka v důsledku kontextu [6] .

Druhá část hovorového korpusu obsahuje kontextově citlivé ukázky, jako jsou přepisy nahrávek připravených během mimořádných setkání nebo akcí.

Všechny originální nahrávky přepsané pro zahrnutí do BNC byly umístěny v British Library Sound Archive . Většina záznamů je k dispozici na webových stránkách Oxford University Phonetic Laboratory .

Označení

Balení BNC obsahuje dílčí značení . K tomu byl při tvorbě trupu použit systém značení CLAWS. Tento systém prošel řadou úprav, než se dočkal poslední - CLAWS4, který byl použit v pouzdře. Systém CLAWS1 byl založen na skrytém Markovově modelu a dokázal správně označit 96 % až 97 % jakéhokoli textu. Při přechodu z CLAWS1 na CLAWS2 odpadla nutnost ruční přípravy textu před zahájením procesu označování. CLAWS4 obsahuje vylepšení, jako je výkonnější lexikální jednoznačnost a variace pravopisu. Další práce na značkovacím systému se zaměřily na zvýšení úspěšnosti automatického značkování a snížení manuální práce s přípravou textů před zahájením značkování zavedením dalšího softwaru, který nahradí manuální práci [2] [7] .

Později byly přidány značky pro označení nejednoznačnosti určitých slov a výrazů. Současně, navzdory schopnosti CLAWS4 automaticky určovat typy řeči a významy slov, zůstala potřeba ručního značkování, protože jiné jazyky než angličtina nejsou v CLAWS4 podporovány [8] [9] .

Podkorpusy

Byly vydány dva subkorpusy (podmnožiny dat BNC) pod názvy BNC Baby a BNC Sampler. Oba tyto subkorpusy lze získat objednáním z webu BNC [10] .

BNC Baby je subkorpus BNC, který se skládá ze čtyř vzorových sad po jednom milionu slov. Slova v každé sadě odpovídají konkrétní žánrové kategorii. Jedna sada ukázek obsahuje přepisy konverzací, zatímco zbývající tři sady obsahují ukázky psaných textů z literatury faktu , beletrie a novin . Zároveň je v subkorpusu zachováno značení dostupné v BNC [11] . Poslední (třetí) edice byla vydána ve formátu XML [12] .

BNC Sampler je dílčí tělo skládající se ze dvou částí. První část obsahuje písemná data, druhá část obsahuje hovorovou řeč. Každá část obsahuje jeden milion slov. BNC Sampler byl původně používán ke zlepšení procesu označování BNC, což nakonec vedlo k publikaci BNC World. V průběhu projektu se BNC Sampler zdokonaloval s tím, jak rostly zkušenosti a znalosti značkování. V důsledku toho byl vytvořen BNC Sampler, který známe dnes [13] .

Technické informace

Korpus je označen podle doporučení konsorcia Text Encoding Initiative (TEI) a obsahuje úplné lingvistické anotace a kontextové informace [14] .

Přístup k funkcím

Pro použití těla CLAWS4 Partial Marking Tool je potřeba zakoupit licenci [15] . Případně můžete využít značkovací službu poskytovanou Lancaster University [16] .

Samotné BNC lze zakoupit s osobní i kolektivní licencí. Edice BNC je k dispozici ve formátu XML a je dodávána se softwarem vyhledávače Xaira . Balíček lze objednat prostřednictvím webu BNC [17] .

Pro XML edici BNC byl vyvinut korpusový manažer BNCweb, který je dostupný online. Jeho rozhraní se snadno používá a podporuje dotazování a analýzu korpusových materiálů [18] .

Problémy s povolením materiálu

BNC byl první korpus své velikosti dostupný širokému publiku. Možná to bylo způsobeno standardními formami dohod mezi držiteli autorských práv a Konsorciem na jedné straně a mezi uživateli korpusu a Konsorciem na straně druhé. Tvůrci korpusu usilovali o uzavření standardní licenční smlouvy s vlastníky práv duševního vlastnictví , jejímž jedním z ustanovení bylo zařazení materiálu do korpusu bez placení jakýchkoliv peněžních poplatků. Takovou dohodu napomohla originalita a jedinečnost případu [6] .

Ukázalo se však, že je obtížné zachovat anonymitu přispěvatelů, aniž by se zlehčoval význam jejich práce. Jakékoli neprůhledné narážky na identitu autora byly z korpusových materiálů odstraněny. Zároveň byla zvažována možnost nahrazení skutečných jmen jinými jmény z důvodu zachování anonymity, což však bylo považováno za nevhodné [6] .

Kromě toho byli autoři původně požádáni o povolení zahrnout pouze přepsané verze jejich projevu, ale nezahrnout projev samotný. I když by o takové povolení bylo možné požádat znovu, hledání původních autorů může zkomplikovat probíhající proces anonymizace. Zároveň se ukázaly faktory, které zhoršovaly neochotu držitelů autorských práv darovat své materiály do korpusu: plné texty byly z korpusu vyloučeny, což vedlo k nedostatečné motivaci nositelů autorských práv šířit informace prostřednictvím korpusu (zejména kvůli na její nekomerční bázi) [6] .

Nevýhody a omezení

Příliš obecné třídění textů

Od roku 2001 BNC stále postrádala klasifikaci psaných textů jinak než podle sfér (noviny, beletrie atd.) a klasifikaci mluvených textů jinak než podle kontextu a demografické nebo socioekonomické třídy účastníků rozhovoru. Například do korpusu byla zahrnuta obrovská škála ukázek fiktivních textů ( romány , povídky , básně atd.) , ale v hlavičkách vzorků a dokumentaci BNC chyběly informace o jejich podžánrech . Pro badatele tak byla znalost žánrové rozmanitosti prakticky k ničemu, neboť pro ně nebylo snadné získat díla požadovaného subžánru [19] .

V roce 2002, s vydáním nové verze korpusu - BNC World Edition, byl učiněn pokus vyřešit problém klasifikace. Kromě sfér pro mluvené a psané texty bylo identifikováno 70 tříd, které badatelům umožňovaly extrahovat z korpusu texty určitého žánru [20] .

I po těchto inovacích má však implementace klasifikace stále problémy, protože přiřazení žánru nebo subžánru k textu je komplikováno různými jemnostmi. Rozdělení do tříd pro mluvená data je méně zřejmé než pro psaná data, kvůli mnohem větší rozmanitosti témat zahrnutých v konverzacích. Problémy a nejasnosti jsou i s definicí subžánru libovolného žánru, neboť rozdělení na subžánry v korpusu bylo předem určeno pro účely standardizace [20] .

Chyby klasifikace a zavádějící názvy

Při tvorbě korpusu byly některé texty chybně kategorizovány, často kvůli zavádějícím nadpisům. Například mnoho textů se slovem „přednáška“ v názvu jsou ve skutečnosti diskuse ve třídě nebo vzdělávací semináře zahrnující malé skupiny lidí nebo populární přednášky zaměřené na širokou veřejnost (spíše než přednášky pro vysokoškoláky ) [ 19] . Jedním z důvodů nesprávné klasifikace je, že žánr a podžánr lze specifikovat pro většinu textů, ale ne pro všechny. Kromě toho může text v celé své délce odkazovat na různé podžánry, může spadat pod definici různých žánrů [20] .

Nedostatek mluveného materiálu

Poměr psaného a mluveného materiálu v BNC je 10:1 [6] . Je to proto, že náklady na shromáždění, přepis a digitalizaci milionu slov řeči v reálném světě jsou nejméně 10krát vyšší než náklady na přidání milionu slov z novin. Panuje však názor, že vzhledem k tomu, že ústní a písemný projev jsou stejně důležité, měly by být v korpusu uvedeny ve stejném poměru [6] .

BNC není příliš užitečné při studiu některých rysů mluveného jazyka, protože jsou v něm zahrnuty pouze praktické transkripce a paralingvistické rysy komunikace jsou naznačeny velmi povrchně [21] .

Omezené možnosti studia lexikálních vztahů

Vztahy mezi některými lexikálními jednotkami jsou příliš nejednoznačné na to, aby je bylo možné efektivně odhalit pomocí vyhledávacích dotazů. Jakýkoli pokus o vyhledání atributivních klauzulí poskytne uživateli chybná data a poskytne příklady použití tázacích zájmen a slova „to“. Kromě toho obecně není možné programově identifikovat vedlejší věty, ve kterých jsou vynechána zájmena (jako např. u „muže, kterého jsem viděl“). Ze stejného důvodu je obtížné určit použití některých sémantických a pragmatických kategorií (pochybnost, nesouhlas, uznání) [21] .

Omezený popis situací

Podle materiálů korpusu lze určit, zda projev pronáší muž nebo žena, nelze z nich však zjistit, zda pronášející oslovuje muže nebo ženu [21] .

Nevztahuje se na studium speciálních typů textů

BNC je velmi rozmanitý a smíšený korpus, takže není vhodný pro studium žádných velmi specifických typů nebo žánrů textů, protože takový typ nebo žánr je pravděpodobně extrémně omezený a texty tohoto typu není snadné najít. v korpusu. Například v BNC je velmi málo obchodních dopisů nebo zaznamenaných vládních jednání, takže pro prostudování jejich specifik je žádoucí shromáždit menší korpus sestávající pouze z textů tohoto typu [21] .

Pomocí BNC

Výuka angličtiny

Existují dva hlavní způsoby využití korpusu ve výuce jazyků: tvorba metodických materiálů a učení pomocí analýzy [21] .

Učební materiály

Vydavatelé a výzkumní pracovníci mohou vzorky z korpusu použít k vytvoření doporučení ke studiu jazyků, osnov a dalších výukových materiálů.

Například BNC použila skupina japonských výzkumníků jako nástroj při vývoji webového systému pro výuku angličtiny v určitých oblastech (obchod, medicína) [22] . Systém poskytl studentům přístup k nejčastěji používaným šablonám vět, aby se z těchto příkladů poučili. Zdrojem takových návrhů v systému byla BNC (návrhy byly doplněny odkazy na BNC, aby se prokázala reálnost aplikace).

Učení pomocí analýzy

Korpusovou analýzu lze přímo začlenit do metod výuky jazyků. V tomto případě mají studenti možnost samostatně klasifikovat lingvistická data korpusu a vytvořit si tak představu o vzorcích a schopnostech studovaného jazyka na základě této klasifikace. Údaje z korpusů, které jsou v této výukové metodě používány, jsou relativně malé, a proto mohou vést ke zobecnění představ o studovaném jazyce, což může mít jen málo společného se skutečným stavem věcí [21] .

Různé

BNC lze použít jako zdroj odkazů při vytváření a analýze textů, například při studiu použití jednotlivých slov v různých kontextech. Díky tomu se můžete seznámit s různými způsoby použití stejných slov [21] .

Kromě informací souvisejících s jazykem může BNC sloužit také jako zdroj encyklopedických dat, jako je britská kultura a stereotypy populární ve Spojeném království [21] .

Překladové slovníky

V Indii bylo v roce 2012 použito více než 12 000 slov a frází z BNC k vývoji 22 překladových slovníků z místních jazyků do angličtiny. Vývoj byl proveden jako součást hnutí za reformu vzdělávacího systému a zachování jazyků malých národů v Indii [23] .

Testování a hodnocení

BNC se díky své velikosti výborně hodí jako materiál pro testování softwaru [24] . Byl například použit při testování specifikací Markup Language of the Text Encoding Initiative (TEI). Kromě toho bylo 20 milionů slov z BNC použito k vyhodnocení systému přiřazení podkategorií v projektu analýzy významu slov Senseval [25] .

Vědecký výzkum

  • Kolokační důkazy z Britského národního korpusu [26]

Studie z roku 2000 od Hofmanna a Lehmanna, která se zabývala mechanismy, které umožňují lidem volně zacházet s jejich obrovskou sadou kolokací . Konkrétně byly studovány dva mechanismy, z nichž jeden umožňuje, aby kolokace byly vždy připraveny k použití, a druhý umožňuje lidem snadno gramaticky nebo syntakticky rozšiřovat kolokace, aby se přizpůsobili konkrétní situaci. Pro tyto účely byly z BNC extrahovány vzácné kombinace slov [26] .

  • Nevětné výroky: korpusová studie [27]

Studie Fernandeze a Ginzburga z roku 2002, která zkoumala dialogy plné výpovědí, které končily pouze intuitivně a nenesly žádnou informaci mimo kontext. V podstatě jde o typické krátké odpovědi na otázky. V průběhu studie byly fragmenty dat BNC použity k sestavení úplné a teoreticky spolehlivé klasifikace takových tvrzení [27] .

Zpracování přirozeného jazyka

BNC je široce používán v práci v oblasti morfologického zpracování (obor zpracování přirozeného jazyka ). Data z BNC se používají zejména k testování přesnosti, spolehlivosti a rychlosti nástrojů pro zpracování morfologických markerů v britské angličtině [28] . Data z BNC byla navíc použita k vytvoření rozsáhlého úložiště informací o morfologických markerech v angličtině [28] .

Rozpoznávání

Mezi počítačovými lingvisty a korpusovými lingvisty je obecně přijímáno, že BNC je vynikající úspěch, korpus obrovské velikosti. Díky obrovskému úsilí shromáždit a dále zpracovat velké množství dat se BNC stalo jedním z nejcennějších korpusů. BNC je považován za vzorový korpus, ze kterého se odvíjejí následné korpusy (např . americké , české a polské národní korpusy) [29] [30] .

BNC2014

V červenci 2014 oznámilo BNC nakladatelství Cambridge University Press a Centrum pro korpusový přístup k sociálním vědám na Lancasterské univerzitě, že probíhají práce na vytvoření nového britského národního korpusu [31] . První etapou společného projektu těchto dvou institucí bylo sestavení nového hovorového korpusu britské angličtiny od počátku do poloviny 2010 [32] .

Viz také

Poznámky

  1. Lou Burnard a kol., 1998 , XIII.
  2. 1 2 3 Geoffrey Leech a kol., 1994 , str. 47-63.
  3. 1 2 3 4 5 Geoffrey Leech, 1993 , str. 9-15.
  4. 1 2 Co je to BNC? Archivováno 7. dubna 2022 na Wayback Machine . Staženo 12. března 2012.
  5. 1 2 British National Corpus Archived 4 March 2016 at Wayback Machine . Staženo 12. března 2012.
  6. 1 2 3 4 5 6 Lou Burnard, 2002 .
  7. Geoffrey Leech 1994, 1994 , s. 622-628.
  8. Pijavice, Geoffrey; Smith, Nicholas Britský národní korpus (verze 2) s vylepšeným značkováním třídy Word . UCREL, Lancaster University, Spojené království (2000). Získáno 17. března 2012. Archivováno z originálu dne 5. dubna 2016.
  9. Pijavice, Geoffrey; Smith, Nicholas Automatické POS-tagging korpusu . UCREL, Lancaster University, Spojené království (2000). Získáno 17. března 2012. Archivováno z originálu dne 5. dubna 2016.
  10. Produkty BNC . Získáno 18. března 2012. Archivováno z originálu dne 24. března 2016.
  11. Burnard, Lou Referenční příručka pro BNC-baby (2003). Datum přístupu: 18. března 2012. Archivováno z originálu 4. března 2016.
  12. Nové vydání BNC Baby k dispozici . Získáno 19. března 2012. Archivováno z originálu dne 4. června 2016.
  13. BNC Sampler: XML edition (2008). Datum přístupu: 18. března 2012. Archivováno z originálu 4. března 2016.
  14. Burnard, Lou Uživatelská referenční příručka pro British National Corpus (1995). Datum přístupu: 18. března 2012. Archivováno z originálu 2. dubna 2016.
  15. Získání licence pro tagger CLAWS . UCREL, Lancaster University, UK. Získáno 17. března 2012. Archivováno z originálu 5. března 2016.
  16. Služba značkování CLAWS . UCREL, Lancaster University, UK. Získáno 17. března 2012. Archivováno z originálu dne 7. dubna 2016.
  17. Jak objednat . Získáno 17. března 2012. Archivováno z originálu dne 23. října 2015.
  18. Peter Lang, 2008 .
  19. 12 David Lee , 2001 .
  20. 1 2 3 Lee, David POZNÁMKY K DOPROVODU BNC WORLD EDITION (BIBLIOGRAFICKÝ) INDEX (odkaz není k dispozici) (2002). Získáno 17. března 2012. Archivováno z originálu dne 26. září 2012. 
  21. 1 2 3 4 5 6 7 8 Guy Aston, 1998 .
  22. Danny Minn a kol., 2005 .
  23. Dvojjazyčné slovníky na podporu indických mateřských jazyků  (14. března 2012). Archivováno z originálu 31. prosince 2010. Staženo 17. března 2012.
  24. Co mohu dělat s BNC? . Získáno 18. března 2012. Archivováno z originálu dne 13. března 2016.
  25. Korhonen, Anna ZDROJE HODNOCENÍ pro anglické Subcategorization Acquisition Systems (nepřístupný odkaz) (2002). Získáno 18. března 2012. Archivováno z originálu 13. prosince 2012. 
  26. 1 2 Sebastian Hoffmann & Hans-Martin Lehmann, 2000 .
  27. 1 2 Raquel Fernandez & Jonathan Ginzburg, 2002 .
  28. 12 Guido Minnen a kol., 2001 .
  29. František Čermák, 2003 .
  30. Richard Xiao, 2008 .
  31. Tony McEnery na Twitteru Archivováno 5. března 2016 na Wayback Machine . Staženo 17. března 2015.
  32. „Centrum pro korpusové přístupy ke společenským vědám“ Archivováno 15. září 2016 na Wayback Machine . Staženo 17. března 2015.

Literatura

  • Lou Burnard, Guy Aston. Příručka BNC: zkoumání Britského národního korpusu. - Edinburgh: Edinburgh University Press, 1998. - P. xiii. - ISBN 0-7486-1055-3 .
  • Petr Lang. Korpusová lingvistika s BNCweb: praktický průvodce. - Peter Lang Publishing Group, 2008. - ISBN 978-3-631-56315-1 .

Odkazy