Pole komprimované přípony - Compressed suffix array

v počítačová věda, a komprimované pole přípon[1][2][3] je komprimovaná datová struktura pro porovnávání vzorů. Pole komprimovaných přípon jsou obecnou třídou datová struktura které zlepšují na pole přípon.[1][2] Tyto datové struktury umožňují rychlé hledání libovolného tětiva s poměrně malým indexem.

Vzhledem k tomu, text T z n znaků z abecedy Σ, komprimované pole přípon podporuje hledání libovolných vzorů v T. Pro vstupní vzor P z m znaků, doba hledání je obvykle O (m) nebo O (m + protokol (n)). Použitý prostor je obvykle , kde je empirická entropie k-tého řádu textu T. Čas a prostor pro sestavení komprimované matice přípon jsou obvykle .

Původní instance instance komprimovaného pole přípony[1] vyřešil dlouhodobý otevřený problém tím, že ukázal, že rychlé porovnávání vzorů bylo možné pouze pomocí datové struktury v lineárním prostoru, konkrétně jednoho úměrného velikosti textu T, který trvá bity. Používá se konvenční pole přípon a strom přípon bitů, který je podstatně větší. Základem pro datovou strukturu je rekurzivní rozklad pomocí „funkce souseda“, která umožňuje, aby pole přípon bylo reprezentováno jednou z poloviny jeho délky. Konstrukce se opakuje několikrát, dokud výsledné pole přípony nevyužije lineární počet bitů. Následující práce ukázala, že skutečný úložný prostor souvisí s entropií nultého řádu a že index podporuje vlastní indexování.[4] Vázaný prostor byl dále vylepšen, aby se dosáhlo konečného cíle entropie vyššího řádu; komprese se získá rozdělením sousední funkce na kontexty vysokého řádu a komprimací každého oddílu pomocí a wavelet strom.[3] Využití prostoru je v praxi extrémně konkurenceschopné s jinými nejmodernějšími kompresory,[5] a také podporuje rychlé porovnávání vzorů.

Přístupy do paměti vytvořené komprimovanými poli přípon a jinými komprimovanými datovými strukturami pro porovnávání vzorů obvykle nejsou lokalizovány, a proto bylo obtížné tyto datové struktury efektivně navrhnout pro použití v externí paměť. Nedávný pokrok využívající geometrickou dualitu využívá výhod blokového přístupu poskytovaného disky k významnému urychlení času I / O[6] Kromě toho byl prokázán potenciálně praktický výkon vyhledávání pro komprimované pole přípon v externí paměti.[7]

Open Source implementace

Existuje několik open source implementací komprimovaných polí přípon (viz Externí odkazy níže). Bowtie a Bowtie2 jsou implementace pole komprimovaných přípon s otevřeným zdrojovým kódem číst zarovnání pro použití v bioinformatika. Knihovna Succinct Data Structure Library (SDSL) je knihovna obsahující celou řadu komprimovaných datových struktur včetně polí komprimovaných přípon. FEMTO je implementace komprimovaných polí přípon pro externí paměť. Kromě toho řada implementací, včetně originálu FM index implementace jsou k dispozici na webových stránkách Pizza & Chili (viz externí odkazy).

Viz také

Reference

  1. ^ A b C R. Grossi a J. S. Vitter, komprimovaná pole přípon a stromy přípon, s aplikacemi pro indexování textu a porovnávání řetězců, SIAM Journal on Computing, 35 (2), 2005, 378-407. Starší verze se objevila v Sborník 32. sympozia ACM o teorii práce s počítačem, Květen 2000, 397-406.
  2. ^ A b Paolo Ferragina a Giovanni Manzini (2000). "Oportunistické datové struktury s aplikacemi". Sborník 41. výročního sympozia o základech informatiky. s. 390.
  3. ^ A b R. Grossi, A. Gupta a J. S. Vitter, indexy komprimovaného textu s vysokou objednávkou, Sborník 14. ročníku sympozia SIAM / ACM o diskrétních algoritmech, Ledna 2003, 841-850.
  4. ^ K. Sadakane, komprimované textové databáze s efektivními algoritmy dotazů založenými na komprimovaných příponových polích, Proceedings of the International Symposium on Algorithms and Computation, Lecture Notes in Computer Science, sv. 1969, Springer, prosinec 2000, 410-421.
  5. ^ L. Foschini, R. Grossi, A. Gupta a J. S. Vitter, Indexing Equals Compression: Experimenty na příponových polích a stromechTransakce ACM na algoritmech, 2(4), 2006, 611-639.
  6. ^ W.-K. Hon, R. Shah, S. V. Thankachan a J. S. Vitter, O indexování textu komprimovaného entropií ve externí paměti, Sborník z konference o zpracování řetězců a vyhledávání informací, Srpen 2009.
  7. ^ M. P. Ferguson, FEMTO: rychlé vyhledávání rozsáhlých sbírek sekvencí, Sborník 23. výroční konference o kombinatorickém porovnávání vzorů, Červenec 2012

externí odkazy

Implementace: