Hamshahri Corpus - Hamshahri Corpus

The Hamshahri Corpus (Peršan: پیکره همشهری) Je značný Peršan korpus založeno na íránský noviny Hamšahrí, jeden z prvních online novin v perštině v Íránu. Původně jej shromáždil a sestavil Ehsan Darrudi ve společnosti DBRG Group[1] z Teheránská univerzita. Později tým vedený Ale Ahmadem[2] postavený na tomto korpusu a vytvořil první perskou textovou kolekci vhodnou pro úlohy vyhodnocení získávání informací.
Tento korpus byl vytvořen procházením online zpravodajských článků z webu Hamšahrí webové stránky a zpracování stránek HTML za účelem vytvoření standardu textový korpus pro moderní Získávání informací experimenty.
Verze 1.0
Sbírka obsahuje více než 160 000 článků pokrývajících následující tematické kategorie: politika, městské zprávy, ekonomika, zprávy, úvodníky, literatura, vědy, společnost, zahraniční zprávy, sport atd. Velikost dokumentů se liší od krátkých zpráv (do 1 kB ) na poměrně dlouhé články (např. 140 KB) s průměrnou velikostí 1,8 KB.
Korpus je ke stažení v několika formátech:[2]
- Označený text: 560 MB
- V tabulkách SQL Server 2000: 712 MB
Verze 2.0
Druhé vydání Hamshahri Corpus bylo vydáno 20. října 2008. Nabízí několik nových funkcí a vylepšení:
- Více novinek: 323 616 textových příběhů v 3206 souborech XML (jeden soubor pro každý den)
- Prodloužené časové rozpětí: od 22. června 1996 do 13. května 2007
- Větší velikost: 1,42 GB nekomprimované
- Standardní kontejner: Unicode XML
- Obsažené obrázky: obrázky byly extrahovány ze zpráv a uchovány (k dispozici v dodatečném balíčku), díky čemuž je vhodný pro úkoly vyhledávání obrázků.
- Kategorizované zprávy: novinové články byly kategorizovány poloautomaticky (vhodné pro úkoly kategorizace textu a klasifikace).
Korpus je k dispozici ke stažení ve formátu XML.
Viz také
Reference
- ^ Novinky DBRG Skupina pro výzkum databáze
- ^ A b Hamšahrí Skupina pro výzkum databáze