Korpus Hamshahri ( persky پیکره همشهری ) je korpus textů v perštině založený na obsahu íránských novin Hamshahri , jedné z prvních online publikací v perštině . Původně sesbíral a sestavil Ehsan Darrudi z DBRG Group [1] , sídlící na Teheránské univerzitě . Později skupina vedená Ali Ahmadem [2] na základě tohoto korpusu vytvořila první databázi perských textů vhodných pro úlohy vyhledávání informací.
Korpus Hamshahri byl vytvořen naskenováním zpravodajských článků z novinového webu Hamshahri a následným zpracováním HTML stránek tak, aby vznikl standardní textový korpus vhodný pro standardní vyhledávání informací.
Tato verze obsahovala přes 160 000 článků pokrývajících následující kategorie: Politika, City News, Ekonomika, Zprávy, Úvodníky, Literatura, Věda, Společnost, Zahraniční zprávy, Sport atd. Velikosti dokumentů se pohybují od krátkých zpráv (méně než 1 KB) až po poměrně dlouhé články (asi 140 kB) s průměrem 1,8 kB.
Korpus je dostupný v několika formátech ke stažení [2] :
Tato verze byla spuštěna 20. října 2008, oproti předchozí verzi má několik nových funkcí:
Korpus je k dispozici ke stažení ve formátu XML .
Korpusová lingvistika | |
---|---|
Anglické korpusy |
|
ruskojazyčné korpusy |
|
Korpusy v jiných jazycích |
|
Organizace |