Frakční kaskádování - Fractional cascading - Wikipedia

v počítačová věda, částečné kaskádování je technika k urychlení sekvence binární vyhledávání pro stejnou hodnotu v posloupnosti souvisejících datových struktur. První binární vyhledávání v sekvenci zabere logaritmické množství času, jak je u binárních vyhledávání standardní, ale následná vyhledávání v sekvenci jsou rychlejší. Původní verze dílčích kaskád, kterou ve dvou příspěvcích představil Chazelle a Guibas v roce 1986 (Chazelle & Guibas 1986a; Chazelle & Guibas 1986b ), spojil myšlenku kaskádového, pocházejícího z vyhledávání rozsahu datové struktury Lueker (1978) a Willard (1978), s myšlenkou částečného odběru vzorků, který vznikl v Chazelle (1983). Pozdější autoři představili složitější formy frakčních kaskád, které umožňují udržovat datovou strukturu při změně dat posloupností diskrétních událostí vložení a odstranění.

Příklad

Jako jednoduchý příklad částečného kaskádování zvažte následující problém. Dostáváme jako vstup sbírku k seřazené seznamy Li čísel, takže celková délka Σ |Li| všech seznamů je na musíme je zpracovat, abychom mohli provádět binární hledání hodnoty dotazu q v každém z k seznamy. Například s k = 4 a n = 17,

L1 = 24, 64, 65, 80, 93
L2 = 23, 25, 26
L3 = 13, 44, 62, 66
L4 = 11, 35, 46, 79, 81

Nejjednodušším řešením tohoto problému hledání je pouze uložit každý seznam samostatně. Pokud tak učiníme, požadavek na prostor je O (n), ale čas na provedení dotazu je O (k log (n/k)), protože v každém z nich musíme provést samostatné binární vyhledávání k seznamy. Nejhorší případ dotazování této struktury nastane, když každý z k seznamy má stejnou velikost n/k, takže každý z k binární vyhledávání zapojené do dotazu vyžaduje čas O (log (n/k)).

Druhé řešení umožňuje rychlejší dotazy na úkor většího prostoru: můžeme sloučit všechny k seznamy do jednoho velkého seznamu La přidružit se ke každé položce X z L seznam výsledků hledání X v každém z menších seznamů Li. Pokud popíšeme prvek tohoto sloučeného seznamu jako X[A,b,C,d] kde X je číselná hodnota a A, b, C, a d jsou pozice (první číslo má pozici 0) dalšího prvku alespoň stejně velké jako X v každém z původních vstupních seznamů (nebo pozici za koncem seznamu, pokud takový prvek neexistuje), pak bychom měli

L = 11[0,0,0,0], 13[0,0,0,1], 23[0,0,1,1], 24[0,1,1,1], 25[1,1,1,1], 26[1,2,1,1],
35[1,3,1,1], 44[1,3,1,2], 46[1,3,2,2], 62[1,3,2,3], 64[1,3,3,3], 65[2,3,3,3],
66[3,3,3,3], 79[3,3,4,3], 80[3,3,4,4], 81[4,3,4,4], 93[4,3,4,5]

Toto sloučené řešení umožňuje dotaz v čase O (log n + k): jednoduše vyhledejte q v L a poté nahlásit výsledky uložené u položky X nalezeno tímto hledáním. Například pokud q = 50, hledám q v L najde položku 62 [1,3,2,3], ze které vrátíme výsledky L1[1] = 64, L2[3] (hodnota příznaku označující toto q je za koncem roku L2), L3[2] = 62 a L4[3] = 79. Toto řešení však platí velký trest za složitost vesmíru: využívá prostor O (kn) jako každý z n položky v L musí uložit seznam k Výsledky vyhledávání.

Frakční kaskádování umožňuje vyřešit tentýž problém s hledáním s mezemi času a prostoru, které splňují to nejlepší z obou světů: čas dotazu O (log n + k) a mezera O (nFrakční kaskádové řešení spočívá v uložení nové posloupnosti seznamů Mi. Konečný seznam v tomto pořadí, Mk, je rovný Lk; každý dřívější seznam Mi vzniká sloučením Li s každou druhou položkou od Mi+1. S každou položkou X v tomto sloučeném seznamu ukládáme dvě čísla: pozici vyplývající z hledání X v Li a pozice vyplývající z hledání X v Mi+1. U výše uvedených údajů bychom získali následující seznamy:

M1 = 24[0, 1], 25[1, 1], 35[1, 3], 64[1, 5], 65[2, 5], 79[3, 5], 80[3, 6], 93[4, 6]
M2 = 23[0, 1], 25[1, 1], 26[2, 1], 35[3, 1], 62[3, 3], 79[3, 5]
M3 = 13[0, 1], 35[1, 1], 44[1, 2], 62[2, 3], 66[3, 3], 79[4, 3]
M4 = 11[0, 0], 35[1, 0], 46[2, 0], 79[3, 0], 81[4, 0]

Předpokládejme, že chceme provést dotaz v této struktuře, pro q = 50. Nejprve provedeme standardní binární vyhledávání q v M1, zjištění hodnoty 64[1,5]. „1“ v 64 [1,5] nám říká, že hledání q v L1 by se měl vrátit L1[1] = 64. „5“ v 64[1,5] nám říká, že přibližná poloha q v M2 je pozice 5. Přesněji řečeno, binární vyhledávání q v M2 by vrátil buď hodnotu 79 [3,5] na pozici 5, nebo hodnotu 62 [3,3] o jedno místo dříve. Porovnáním q na 62 a pozorujeme-li, že je menší, určíme, že je správný výsledek vyhledávání M2 je 62 [3,3]. První „3“ v 62 [3,3] nám říká, že hledání q v L2 by se měl vrátit L2[3], což je hodnota příznaku q je za koncem seznamu L2. Druhá „3“ v 62 [3,3] nám říká, že přibližná poloha q v M3 je pozice 3. Přesněji řečeno, binární vyhledávání q v M3 vrátí hodnotu 62 [2,3] na pozici 3 nebo hodnotu 44 [1,2] o jedno místo dříve. Srovnání q s menší hodnotou 44 nám ukazuje, že ve výsledku je správný výsledek vyhledávání M3 je 62 [2,3]. „2“ v 62 [2,3] nám říká, že hledání q v L3 by se měl vrátit L3[2] = 62 a „3“ v 62 [2,3] nám říká, že výsledek hledání q v M4 je buď M4[3] = 79 [3,0] nebo M4[2] = 46 [2,0]; srovnávání q s 46 ukazuje, že správný výsledek je 79 [3,0] a že výsledek hledání q v L4 je L4[3] = 79. Tak jsme našli q v každém z našich čtyř seznamů provedením binárního vyhledávání v jediném seznamu M1 následuje jedno srovnání v každém z následujících seznamů.

Obecněji pro jakoukoli datovou strukturu tohoto typu provedeme dotaz provedením binárního vyhledávání q v M1a určení z výsledné hodnoty polohy q v L1. Pak pro každého i > 1, použijeme známou polohu q v Mi najít jeho pozici v Mi+1. Hodnota spojená s pozicí q v Mi ukazuje na pozici v Mi+1 to je buď správný výsledek binárního vyhledávání q v Mi+1 nebo je jeden krok od správného výsledku, takže krok od i na i +1 vyžaduje pouze jedno srovnání. Celková doba pro dotaz je tedy O (log n + k).

V našem příkladu mají zlomkově kaskádové seznamy celkem 25 prvků, což je méně než dvojnásobek původního vstupu. Obecně velikost Mi v této datové struktuře je nanejvýš

jak lze snadno dokázat indukcí. Celková velikost datové struktury je proto maximálně

jak je vidět přeskupením příspěvků k celkové velikosti ze stejného vstupního seznamu Li spolu navzájem.

Obecný problém

Frakční kaskádování obecně začíná a katalogový graf, a řízený graf ve kterém každý vrchol je označen seřazeným seznamem. Dotaz v této datové struktuře se skládá z a cesta v grafu a hodnota dotazu q; datová struktura musí určovat polohu q v každém ze seřazených seznamů přidružených k vrcholům cesty. Pro jednoduchý příklad výše je katalogový graf sám o sobě cestou, pouze se čtyřmi uzly. Je možné, aby se pozdější vrcholy v cestě určovaly dynamicky jako součást dotazu v reakci na výsledky nalezené při hledání v dřívějších částech cesty.

Ke zpracování dotazů tohoto typu pro graf, ve kterém má každý vrchol nanejvýš d příchozí a maximálně d odchozí hrany pro nějakou konstantu d, seznamy spojené s každým vrcholem jsou rozšířeny o zlomek položek od každého odcházejícího souseda vrcholu; zlomek musí být zvolen tak, aby byl menší než 1 /d, takže celková částka, o kterou jsou všechny seznamy rozšířeny, zůstává ve vstupní velikosti lineární. Každá položka v každém rozšířeném seznamu s sebou ukládá pozici této položky v nezařazeném seznamu uloženém ve stejném vrcholu a v každém z odchozích sousedních seznamů. V jednoduchém příkladu výše d = 1, a každý seznam jsme rozšířili o 1/2 zlomku sousedních položek.

Dotaz v této datové struktuře se skládá ze standardního binárního vyhledávání v rozšířeném seznamu přidruženém k prvnímu vrcholu cesty dotazu, spolu s jednoduššími vyhledáváními v každém následném vrcholu cesty. Pokud 1 /r zlomek položek se používá k rozšíření seznamů z každé sousední položky, pak lze každý následný výsledek dotazu najít maximálně r kroky polohy uložené ve výsledku dotazu z předchozího vrcholu cesty, a proto je lze najít v konstantním čase, aniž byste museli provádět úplné binární vyhledávání.

Dynamické zlomkové kaskádování

v dynamické zlomkové kaskádování, seznam uložený v každém uzlu katalogového grafu se může dynamicky měnit posloupností aktualizací, ve kterých jsou vkládány a mazány položky seznamu. To způsobuje několik potíží pro datovou strukturu.

Nejprve, když je položka vložena nebo odstraněna v uzlu katalogového grafu, musí být umístěna do rozšířeného seznamu přidruženého k tomuto uzlu a může způsobit šíření změn do dalších uzlů katalogového grafu. Místo ukládání rozšířených seznamů v polích by měly být ukládány jako binární vyhledávací stromy, aby bylo možné tyto změny zpracovávat efektivně a přitom stále umožňovat binární vyhledávání rozšířených seznamů.

Zadruhé, vložení nebo odstranění může způsobit změnu podmnožiny seznamu přidruženého k uzlu, který je předán sousedním uzlům katalogového grafu. V dynamickém nastavení již není možné, aby byla tato podmnožina vybrána jako položky vůbec dpro některé pozice seznamu d, protože tato podskupina by se po každé aktualizaci příliš drasticky změnila. Spíše technika úzce související s B-stromy umožňuje výběr zlomku dat, u kterého je zaručeno, že bude menší než 1 /d, přičemž u vybraných položek je zaručeno, že budou v úplném seznamu rozmístěny konstantní počet pozic od sebe, a takové, že vložení nebo odstranění do rozšířeného seznamu přidruženého k uzlu způsobí, že se změny rozšíří do jiných uzlů pro zlomek operací, které jsou méně než 1 /d. Tímto způsobem distribuce dat mezi uzly splňuje vlastnosti potřebné k tomu, aby byl algoritmus dotazu rychlý, přičemž je zaručeno, že průměrný počet operací binárního vyhledávacího stromu na vložení nebo odstranění dat je konstantní.

Zatřetí, a nejkritičtěji, udržuje statická frakční kaskádová datová struktura pro každý prvek X rozšířeného seznamu v každém uzlu katalogového grafu, index výsledku, který by byl získán při hledání X mezi vstupními položkami z tohoto uzlu a mezi rozšířenými seznamy uloženými v sousedních uzlech. Tyto informace by však byly příliš nákladné na to, aby se udržovaly v dynamickém nastavení. Vkládání nebo mazání jedné hodnoty X může způsobit změnu indexů uložených v neomezeném počtu dalších hodnot. Místo toho dynamické verze zlomkových kaskád udržují několik datových struktur pro každý uzel:

  • Mapování položek v rozšířeném seznamu uzlu na malá celá čísla, takže pořadí pozic v rozšířeném seznamu je ekvivalentní s porovnávacím uspořádáním celých čísel a zpětná mapa z těchto celých čísel zpět na položky seznamu. Technika Dietz (1982) umožňuje efektivní udržování tohoto číslování.
  • Celočíselné vyhledávání datové struktury, například a van Emde Boas strom pro čísla spojená se vstupním seznamem uzlu. S touto strukturou a mapováním z položek na celá čísla lze efektivně najít pro každý prvek X z rozšířeného seznamu položka, která by byla nalezena při hledání X v seznamu vstupů.
  • Pro každý sousední uzel v katalogovém grafu podobná celočíselná vyhledávací datová struktura čísel spojených s podmnožinou dat šířených ze sousedního uzlu. S touto strukturou a mapováním z položek na celá čísla lze efektivně najít pro každý prvek X rozšířeného seznamu pozice ve stálém počtu kroků od umístění X v rozšířeném seznamu přidruženém k sousednímu uzlu.

Tyto datové struktury umožňují provádění dynamických zlomkových kaskád v době O (logn) za vložení nebo odstranění a sekvenci k binární vyhledávání sledující délkovou cestu k v katalogovém grafu provést v čase O (logn + k log logn).

Aplikace

Konvexní vrstvy množiny bodů, součást efektivní frakčně kaskádové datové struktury pro hlášení rozsahu v polovině roviny.

Typické aplikace částečného kaskádového zapojení zahrnují vyhledávání rozsahu datové struktury v výpočetní geometrie. Zvažte například problém polorovina hlášení rozsahu: tj. protínající pevnou sadu n body s dotazem polorovina a seznam všech bodů v křižovatce. Problémem je strukturovat body takovým způsobem, aby bylo možné na dotaz tohoto typu odpovědět efektivně z hlediska velikosti průniku h. Jednou strukturou, kterou lze pro tento účel použít, je konvexní vrstvy sady vstupních bodů, rodina vnořených konvexní polygony skládající se z konvexní obal množiny bodů a rekurzivně vytvořené konvexní vrstvy zbývajících bodů. V rámci jedné vrstvy lze body uvnitř poloroviny dotazu najít provedením binárního vyhledávání sklonu hraniční čáry poloroviny mezi seřazenou posloupností konvexních hran hran polygonů, což vede k vrcholu polygonu, který je uvnitř poloviny dotazu - letadlo a nejdále od jeho hranice, a pak postupné vyhledávání podél hran polygonu najít všechny ostatní vrcholy uvnitř poloroviny dotazu. Celý problém se zprávou o rozsahu poloviční roviny lze vyřešit opakováním tohoto vyhledávacího postupu počínaje od nejvzdálenější vrstvy a pokračováním směrem dovnitř až k dosažení vrstvy, která je disjunktní z poloprostoru dotazu. Frakční kaskádování zrychluje postupné binární vyhledávání mezi sekvencemi svahů hran polygonů v každé vrstvě, což vede k datové struktuře tohoto problému s prostorem O (n) a čas dotazu O (logn + h). Datová struktura může být vytvořena v čase O (n logn) algoritmem Chazelle (1985). Stejně jako v našem příkladu zahrnuje tato aplikace binární vyhledávání v lineární posloupnosti seznamů (vnořená posloupnost konvexních vrstev), takže katalogový graf je pouze cesta.

Další použití frakčního kaskádování v geometrických datových strukturách se týká umístění bodu v monotónním dělení, tj. rozdělení roviny na mnohoúhelníky tak, že jakákoli svislá čára protíná libovolný mnohoúhelník nejvýše ve dvou bodech. Tak jako Edelsbrunner, Guibas & Stolfi (1986) Ukázalo se, že tento problém lze vyřešit vyhledáním sekvence polygonálních cest, které se táhnou zleva doprava napříč dělení, a binárním hledáním nejnižší z těchto cest, která je nad bodem dotazu. Testování, zda je bod dotazu nad nebo pod jednou z cest, může být sám o sobě vyřešen jako problém binárního vyhledávání, hledání souřadnic x bodů mezi x souřadnicemi vrcholů cesty k určení, která hrana cesty může být nad nebo pod bod dotazu. Každý dotaz na umístění bodu lze tedy vyřešit jako vnější vrstvu binárního vyhledávání mezi cestami, jejichž každý krok sám provádí binární vyhledávání mezi x souřadnicemi vrcholů. Frakční kaskádování lze použít ke zrychlení času pro vnitřní binární vyhledávání a zkrácení celkového času na dotaz na O (logn) pomocí datové struktury s prostorem O (n). V této aplikaci je katalogový graf strom představující možné vyhledávací sekvence vnějšího binárního vyhledávání.

Kromě výpočetní geometrie Lakshman & Stiliadis (1998) a Buddhikot, Suri a Waldvogel (1999) rychle použít frakční kaskádování v návrhu datových struktur filtrování paketů v internetové směrovače. Gao a kol. (2004) použít frakční kaskádování jako model pro distribuci a načítání dat v systému Windows senzorové sítě.

Reference