Calgary korpus - Calgary corpus
![]() | tento článek potřebuje další citace pro ověření.Listopad 2012) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
The Calgary korpus je sbírka text a binární data soubory, běžně používané pro porovnání komprese dat algoritmy. Vytvořil Ian Witten, Tim Bell a John Cleary z University of Calgary v roce 1987 a běžně se používala v 90. letech. V roce 1997 byl nahrazen Canterburský korpus,[1] na základě obav o to, jak reprezentativní byl Calgary corpus,[2] ale Calgaryův korpus stále existuje pro srovnání a je stále užitečný pro svůj původně zamýšlený účel.
Obsah
V nejběžněji používané formě se korpus skládá ze 14 souborů, celkem 3 141 622 bajtů.
Velikost (bajty) | Název souboru | Popis |
---|---|---|
111,261 | BRYNDÁČEK | Text ASCII v systému UNIX "viz "formát - 725 bibliografických odkazů. |
768,771 | KNIHA 1 | neformátovaný text ASCII - Thomas Hardy: Daleko od šíleného davu. |
610,856 | KNIHA 2 | Text ASCII v systému UNIX "troff "formát - Witten: Principy počítačové řeči. |
102,400 | GEO | 32bitová čísla ve formátu s plovoucí desetinnou čárkou IBM - seismická data. |
377,109 | ZPRÁVY | ASCII text - USENET dávkový soubor na různá témata. |
21,504 | OBJ1 | VAX spustitelný program - kompilace PROGP. |
246,814 | OBJ2 | Spustitelný program Macintosh - „Systém podpory znalostí“. |
53,161 | PAPÍR 1 | UNIX „troff“ formát - Witten, Neal, Cleary: aritmetické kódování pro kompresi dat. |
82,199 | PAPÍR2 | UNIX „troff“ formát - Witten: Zabezpečení počítače. |
513,216 | OBR | 1728 x 2376 bitmapový obrázek (MSB first): text ve francouzštině a spojnicové diagramy. |
39,611 | PROGC | Zdrojový kód v C - UNIX komprimovat v4.0. |
71,646 | PROGL | Zdrojový kód v systému Lisp - systémový software. |
49,379 | PROGP | Zdrojový kód v Pascalu - program pro vyhodnocení PPM komprese. |
93,695 | TRANS | ASCII a řídicí znaky - přepis relace terminálu. |
Existuje také méně běžně používaná verze 18 souborů, která obsahuje 4 další textové soubory ve formátu UNIX „troff“, PAPER3 až PAPER6.
Srovnávací hodnoty
Calgary korpus byl běžně používaný měřítko pro kompresi dat v 90. letech. Výsledky byly nejčastěji uvedeny v bitech na bajt (bpb) pro každý soubor a poté shrnuty průměrováním. V poslední době bylo běžné přidávat pouze komprimované velikosti všech souborů. Tomu se říká a vážený průměr protože to odpovídá vážení kompresních poměrů podle původních velikostí souborů. Měřítko UCLC[3] Johan de Bock používá tuto metodu.
U některých datových kompresorů je možné zkomprimovat korpus menší kombinací vstupů do nekomprimovaného archivu (například dehet soubor) před kompresí kvůli vzájemné informace mezi textovými soubory. V ostatních případech je komprese horší, protože kompresor zpracovává nerovnoměrné statistiky špatně. Tato metoda byla použita jako měřítko v online knize Vysvětlení datové komprese Matt Mahoney.[4]
Níže uvedená tabulka ukazuje komprimované velikosti souboru 14 Calgary corpus pomocí obou metod pro některé populární kompresní programy. Možnosti, pokud jsou použity, vyberte nejlepší kompresi. Úplnější seznam najdete ve výše uvedených srovnávacích testech.
Kompresor | Možnosti | Jako 14 samostatných souborů | Jako soubor tar |
---|---|---|---|
Nekomprimovaný | 3,141,622 | 3,152,896 | |
komprimovat | 1,272,772 | 1,319,521 | |
Info-ZIP 2.32 | -9 | 1,020,781 | 1,023,042 |
gzip 1.3.5 | -9 | 1,017,624 | 1,022,810 |
bzip2 1.0.3 | -9 | 828,347 | 860,097 |
7-zip 9.12b | 848,687 | 824,573 | |
ppmd Jr1 | -m256 -o16 | 740,737 | 754,243 |
ppmonstr J | 675,485 | 669,497 | |
ZPAQ v7.15 | -metoda 5 | 659,709 | 659,853 |
Výzva pro kompresi
"Komprese Calgary corpus a SHA-1 crack výzva "[5] je soutěž, kterou zahájil Leonid A. Broukhis dne 21. května 1996 a jejímž cílem je komprimovat 14 souborovou verzi korpusu Calgary. Soutěž nabízí malou peněžní odměnu, která se časem měnila. V současné době je cena 1 USD za zlepšení o 111 bajtů oproti předchozímu výsledku.
Podle pravidel soutěže musí záznam obsahovat jak komprimovaná data, tak dekompresní program zabalený do jednoho z několika standardních archivačních formátů. Časové a paměťové limity, archivní formáty a dekompresní jazyky byly v průběhu času uvolněné. V současné době musí program běžet do 24 hodin na stroji s rychlostí 2000 MIPS pod Okna nebo Linux a používat méně než 800 MB paměti. An SHA-1 výzva byla později přidána. Umožňuje dekompresnímu programu vydávat soubory odlišné od korpusu Calgary, pokud mají hash na stejné hodnoty jako původní soubory. Tato část výzvy dosud nebyla splněna.
První obdržený příspěvek byl v září 1997 759 881 bajtů od Malcolma Taylora, autora RK a WinRK. Poslední položka byla 580 170 bajtů o Alexander Ratushnyak 2. července 2010. Záznam se skládá z komprimovaného souboru o velikosti 572 465 bajtů a dekompresního programu napsaného v C ++ a komprimovaného na 7700 bajtů jako PPMd var. Archivuji plus 5 bajtů pro název a velikost komprimovaného souboru. Historie je následující.
Velikost (bajty) | Měsíc rok | Autor |
---|---|---|
759,881 | 09/1997 | Malcolm Taylor |
692,154 | 08/2001 | Maxim Smirnov |
680,558 | 09/2001 | Maxim Smirnov |
653,720 | 11/2002 | Serge Voskoboynikov |
645,667 | 01/2004 | Matt Mahoney |
637,116 | 04/2004 | Alexander Ratushnyak |
608,980 | 12/2004 | Alexander Ratushnyak |
603,416 | 04/2005 | Przemysław Skibiński |
596,314 | 10/2005 | Alexander Ratushnyak |
593,620 | 12/2005 | Alexander Ratushnyak |
589,863 | 05/2006 | Alexander Ratushnyak |
580,170 | 07/2010 | Alexander Ratushnyak |
Viz také
Reference
- ^ Ian H. Witten; Alistair Moffat; Timothy C. Bell (1999). Správa gigabajtů: komprese a indexace dokumentů a obrázků. Morgan Kaufmann. p. 92.
- ^ Salomon, David (2007). Komprese dat: Kompletní reference (Čtvrté vydání). Springer. p. 12. ISBN 9781846286032.
- ^ http://uclc.info/calgary_corpus_compression_test.htm
- ^ http://mattmahoney.net/dc/dce.html#Section_214
- ^ http://mailcom.com/challenge/