Sbor Hamshahri

Korpus Hamshahri ( persky پیکره همشهری ‎) je korpus textů v perštině založený na obsahu íránských novin Hamshahri , jedné z prvních online publikací v perštině . Původně sesbíral a sestavil Ehsan Darrudi z DBRG Group [1] , sídlící na Teheránské univerzitě . Později skupina vedená Ali Ahmadem [2] na základě tohoto korpusu vytvořila první databázi perských textů vhodných pro úlohy vyhledávání informací.

Korpus Hamshahri byl vytvořen naskenováním zpravodajských článků z novinového webu Hamshahri a následným zpracováním HTML stránek tak, aby vznikl standardní textový korpus vhodný pro standardní vyhledávání informací.

Verze 1.0

Tato verze obsahovala přes 160 000 článků pokrývajících následující kategorie: Politika, City News, Ekonomika, Zprávy, Úvodníky, Literatura, Věda, Společnost, Zahraniční zprávy, Sport atd. Velikosti dokumentů se pohybují od krátkých zpráv (méně než 1 KB) až po poměrně dlouhé články (asi 140 kB) s průměrem 1,8 kB.

Korpus je dostupný v několika formátech ke stažení [2] :

Verze 2.0

Tato verze byla spuštěna 20. října 2008, oproti předchozí verzi má několik nových funkcí:

Korpus je k dispozici ke stažení ve formátu XML .

Poznámky

  1. DBRG News Archived 15. května 2017 ve Wayback Machine Database Research Group
  2. 1 2 Hamshahri Archivováno 14. května 2017 ve Wayback Machine Database Research Group

Odkazy