Canterburský korpus - Canterbury corpus
The Canterburský korpus je sbírka soubory určeno k použití jako měřítko pro testování bezztrátová komprese dat algoritmy. Byl vytvořen v roce 1997 na University of Canterbury, Nový Zéland a navržen tak, aby nahradil Calgary korpus. Soubory byly vybrány na základě jejich schopnosti poskytovat reprezentativní výsledky výkonu.[1]
Obsah
V nejčastěji používané formě se korpus skládá z 11 souborů, vybraných jako „průměrné“ dokumenty z 11 tříd dokumentů,[2] celkem 2 810 784 bajtů následujícím způsobem.
Velikost (bajty) | Název souboru | Popis |
---|---|---|
152,089 | Alice 29.txt | Anglický text |
125,179 | asyoulik.txt | Shakespeare |
24,603 | cp.html | HTML zdroj |
11,150 | pole.c | C zdroj |
3,721 | gramatika. lsp | LISP zdroj |
1,029,744 | kennedy.xls | excelovská tabulka |
426,754 | lcet10.txt | Technické psaní |
481,861 | plrabn12.txt | Poezie (ztracený ráj ) |
513,216 | ptt5 | CCITT testovací sada |
38,240 | součet | SPARC spustitelný |
4,227 | xargs.1 | GNU manuální stránka |
Viz také
Reference
- ^ Ian H. Witten; Alistair Moffat; Timothy C. Bell (1999). Správa gigabajtů: komprese a indexace dokumentů a obrázků. Morgan Kaufmann. str. 92. ISBN 9781558605701.
- ^ Salomon, David (2007). Komprese dat: Kompletní reference (Čtvrté vydání). Springer. str. 12. ISBN 9781846286032.
externí odkazy
![]() | Tento počítačová věda článek je a pahýl. Wikipedii můžete pomoci pomocí rozšiřovat to. |