Paralelní algoritmy pro minimální rozsah stromů - Parallel algorithms for minimum spanning trees

v teorie grafů A minimální kostra (MST) ${ displaystyle T}$ a graf ${ displaystyle G = (V, E)}$ s ${ displaystyle | V | = n}$ a ${ displaystyle | E | = m}$ je strom podgraf z ${ displaystyle G}$ který obsahuje všechny jeho vrcholy a má minimální váhu.

MST jsou užitečné a univerzální nástroje využívané v široké škále praktických a teoretických oborů. Například společnost, která chce dodávat více obchodů s určitým produktem z jednoho skladu, může použít MST pocházející ze skladu k výpočtu nejkratších cest do každého obchodního domu. V tomto případě jsou obchody a sklad reprezentovány jako vrcholy a silniční spojení mezi nimi - jako hrany. Každá hrana je označena délkou odpovídajícího silničního spojení.

Li ${ displaystyle G}$ je okrajově nevážený každý kostra má stejný počet hran a tím i stejnou váhu. V vážený na hraně v případě spanning tree, jehož součet hmotností hran je nejnižší ze všech spanning tree of ${ displaystyle G}$ , se nazývá a minimální kostra (MST). Není nutně jedinečný. Obecněji grafy, které nemusí být nutně připojeno mít minimální rozpětí lesy, které se skládají z a svaz MST pro každou z nich připojená součást.

Protože hledání MST je v teorii grafů rozšířeným problémem, existuje jich mnoho sekvenční algoritmy za jeho řešení. Mezi nimi jsou Prim, Kruskal a Borůvka algoritmy, z nichž každý využívá různé vlastnosti MST. Všechny fungují podobným způsobem - podmnožinou ${ displaystyle E}$ se iterativně pěstuje, dokud není objeven platný MST. Jelikož jsou však praktické problémy často poměrně velké (silniční sítě mají někdy miliardy hran), výkon je klíčovým faktorem. Jednou z možností, jak to zlepšit, je paralelizovat známý Algoritmy MST^[1].

Primův algoritmus

Tento algoritmus využívá cut-property MST. Níže je uvedena jednoduchá implementace pseudokódu na vysoké úrovni:

 ${ displaystyle T gets emptyset}$  ${ displaystyle S dostane {s }}$  kde  ${ displaystyle s}$  je náhodný vrchol v  ${ displaystyle V}$ opakovat  ${ displaystyle | V | -1}$  krát najít nejlehčí hranu  ${ displaystyle (u, v)}$  Svatý.  ${ displaystyle u v S}$  ale  ${ displaystyle v in (V setminus S)}$      ${ displaystyle S dostane S pohár {v }}$      ${ displaystyle T dostane T pohár {(u, v) }}$ vrátit se T

Každá hrana je pozorována přesně dvakrát - konkrétně při zkoumání každého z jejích koncových bodů. Každý vrchol je zkoumán přesně jednou na celkem ${ displaystyle O (n + m)}$ operace kromě výběru nejsvětlejší hrany při každé iteraci smyčky. Tento výběr se často provádí pomocí a prioritní fronta (PQ). Pro každou hranu nejvýše jeden pokles Klíčová operace (amortizovaný v ${ displaystyle O (1)}$ ) a každá iterace smyčky provede jednu operaci deleteMin ( ${ displaystyle O ( log n)}$ ). Tak pomocí Fibonacci se hromadí celková doba běhu Primova algoritmu je asymptoticky v ${ displaystyle O (m + n log n)}$ .

Je důležité si uvědomit, že smyčka je ve své podstatě sekvenční a nelze ji správně paralelizovat. To je případ, protože nejsvětlejší hrana s jedním koncovým bodem dovnitř ${ displaystyle S}$ a dál dovnitř ${ displaystyle V setminus S}$ se může změnit přidáním hran k ${ displaystyle T}$ . Nelze tedy provádět současně dva výběry nejsvětlejší hrany. Existují však určité pokusy paralelizace.

Jedním z možných nápadů je použít ${ displaystyle O (n)}$ procesory na podporu přístupu PQ ve Windows ${ displaystyle O (1)}$ na PRÁZDNÝ PRAM stroj^[2], čímž se sníží celková doba běhu na ${ displaystyle O (n + m)}$ .

Kruskalův algoritmus

Kruskalův MST algoritmus využívá vlastnost cyklu MST. Níže je uvedena reprezentace pseudokódu na vysoké úrovni.

 ${ displaystyle T gets}$  les s každým vrcholem ve vlastním podstromupro každého  ${ displaystyle (u, v) v E}$  ve vzestupném pořadí podle hmotnosti -li  ${ displaystyle u}$  a  ${ displaystyle v}$  v různých podstromech  ${ displaystyle T}$          ${ displaystyle T dostane T pohár {(u, v) }}$ vrátit se T

Podstromy ${ displaystyle T}$ jsou uloženy v najít odbor datové struktury, což je důvod, proč je v amortizaci možné zkontrolovat, zda jsou dva vrcholy ve stejném podstromu ${ displaystyle O ( alpha (m, n))}$ kde ${ displaystyle alpha (m, n)}$ je inverzní Ackermannova funkce. Celková doba běhu algoritmu je tedy v ${ displaystyle O (sort (n) + alpha (n))}$ . Tady ${ displaystyle alpha (n)}$ označuje jednohodnotovou inverzní Ackermannovu funkci, pro kterou jakýkoli realistický vstup získá celé číslo menší než pět.

Přístup 1: Paralelizace kroku třídění

Podobně jako Primův algoritmus existují v Kruskalově přístupu komponenty, které nelze v jeho klasické variantě paralelizovat. Například určení, zda jsou dva vrcholy ve stejném podstromu, je obtížné paralelizovat, protože dvě operace sjednocení se mohou pokusit připojit ke stejným podstromům najednou. Opravdu jediná příležitost k paralelizaci spočívá v kroku třídění. Tak jako třídění je lineární v optimálním případě na ${ displaystyle O ( log n)}$ procesorů lze celkovou dobu běhu snížit na ${ displaystyle O (m alpha (n))}$ .

Přístup 2: Filtr-Kruskal

Dalším přístupem by bylo upravit původní algoritmus růstem ${ displaystyle T}$ agresivnější. Tuto myšlenku představili Osipov et al.^[3]^[4]. Základní myšlenkou společnosti Filter-Kruskal je rozdělení hran podobným způsobem quicksort a odfiltrovat hrany, které spojují vrcholy, které patří do stejného stromu, aby se snížily náklady na třídění. Níže je uvedena reprezentace pseudokódu na vysoké úrovni.

filtrKruskal ( ${ displaystyle G}$ ):-li  ${ displaystyle m <}$  KruskalThreshold: vrátit se kruskal ( ${ displaystyle G}$ ) pivot = chooseRandom ( ${ displaystyle E}$ ) ${ displaystyle (E _ { leq}}$ ,  ${ displaystyle E _ {>}) dostane}$ rozdělit( ${ displaystyle E}$ , pivot) ${ displaystyle A gets}$  filtrKruskal ( ${ displaystyle E _ { leq}}$ ) ${ displaystyle E _ {>} dostane}$  filtr( ${ displaystyle E _ {>}}$ ) ${ displaystyle A dostane A}$   ${ displaystyle cup}$  filtrKruskal ( ${ displaystyle E _ {>}}$ )vrátit se  ${ displaystyle A}$ rozdělit( ${ displaystyle E}$ , pivot): ${ displaystyle E _ { leq} dostane emptyset}$   ${ displaystyle E _ {>} dostane emptyset}$ pro každého  ${ displaystyle (u, v) v E}$ :    -li hmotnost( ${ displaystyle u, v}$ )  ${ displaystyle leq}$  pivot:  ${ displaystyle E _ { leq} dostane E _ { leq} pohár {(u, v)}}$      jiný         ${ displaystyle E _ {>} dostane E _ {>} pohár {(u, v)}}$ vrátit se ( ${ displaystyle E _ { leq}}$ ,  ${ displaystyle E _ {>}}$ )filtr( ${ displaystyle E}$ ): ${ displaystyle E_ {filtrováno} dostane emptyset}$ pro každého  ${ displaystyle (u, v) v E}$ :    -li vyhledávací sada (u)  ${ displaystyle neq}$  find-set (v):  ${ displaystyle E_ {filtrováno} dostane E_ {filtrováno} pohár {(u, v)}}$ vrátit se  ${ displaystyle E_ {filtrováno}}$

Filtr-Kruskal je vhodnější pro paralelizaci, protože třídění, dělení a filtrování mají intuitivně snadné paralelizace, kde jsou hrany jednoduše rozděleny mezi jádra.

Borůvkův algoritmus

Hlavní myšlenkou Borůvkova algoritmu je kontrakce hran. Okraj ${ displaystyle {u, v }}$ je smluvně nejprve odstraněn ${ displaystyle v}$ z grafu a poté přesměrovat každou hranu ${ displaystyle {w, v } v E}$ na ${ displaystyle {w, u }}$ . Tyto nové hrany si zachovávají své staré hmotnosti hran. Pokud cílem není jen určit váhu MST, ale také které hrany obsahuje, je třeba poznamenat, mezi kterými dvojicemi vrcholů byla hrana kontrahována. Níže je uvedena reprezentace pseudokódu na vysoké úrovni.

 ${ displaystyle T gets emptyset}$ zatímco  ${ displaystyle | V |> 0}$      ${ displaystyle S dostane prázdnou}$      pro  ${ displaystyle v ve V}$          ${ displaystyle S dostane S}$   ${ displaystyle cup}$  nejlehčí  ${ displaystyle {u, v } v E}$     pro  ${ displaystyle {u, v } v S}$         smlouva  ${ displaystyle {u, v }}$      ${ displaystyle T dostane T cup S}$ vrátit se T

Je možné, že kontrakce vedou k několika hranám mezi dvojicí vrcholů. Intuitivní způsob výběru nejlehčího z nich není možný ${ displaystyle O (m)}$ . Pokud jsou však všechny kontrakce, které sdílejí vrchol, prováděny paralelně, je to možné. Rekurze se zastaví, když zbývá jen jeden vrchol, což znamená, že algoritmus potřebuje nanejvýš ${ displaystyle log n}$ iterace, což vede k celkovému běhu v ${ displaystyle O (m log n)}$ .

Paralelizace

Jedna možná paralelizace tohoto algoritmu^[5]^[6]^[7] výnosy a polylogaritmický časová složitost, tj. ${ Displaystyle T (m, n, p) cdot p in O (m log n)}$ a existuje konstanta ${ displaystyle c}$ aby ${ displaystyle T (m, n, p) v O ( log ^ {c} m)}$ . Tady ${ displaystyle T (m, n, p)}$ označuje runtime pro graf s ${ displaystyle m}$ hrany, ${ displaystyle n}$ vrcholy na stroji s ${ displaystyle p}$ procesory. Základní myšlenka je následující:

zatímco  ${ displaystyle | V |> 1}$     najít nejlehčí dopadající hrany //  ${ displaystyle O ({ frac {m} {p}} + log n + log p)}$     přiřadit odpovídající podgraf každému vrcholu //  ${ displaystyle O ({ frac {n} {p}} + log n)}$     uzavřít smlouvu na každý podgraf //  ${ displaystyle O ({ frac {m} {p}} + log n)}$

MST se pak skládá ze všech nalezených nejlehčích hran.

Tato paralelizace využívá reprezentaci grafu pole sousednosti pro ${ displaystyle G = (V, E)}$ . Skládá se ze tří polí - ${ displaystyle Gamma}$ délky ${ displaystyle n + 1}$ pro vrcholy, ${ displaystyle gamma}$ délky ${ displaystyle m}$ pro koncové body každého z ${ displaystyle m}$ hrany a ${ displaystyle c}$ délky ${ displaystyle m}$ pro hmotnosti okrajů. Nyní pro vrchol ${ displaystyle i}$ druhý konec každé hrany dopadající na ${ displaystyle i}$ lze nalézt v položkách mezi ${ displaystyle gamma [ Gamma [i-1]]}$ a ${ displaystyle gama [ gama [i]]}$ . Hmotnost ${ displaystyle i}$ -th edge in ${ displaystyle Gamma}$ najdete v ${ displaystyle c [i]}$ . Pak ${ displaystyle i}$ -th edge in ${ displaystyle gamma}$ je mezi vrcholy ${ displaystyle u}$ a ${ displaystyle v}$ kdyby a jen kdyby ${ displaystyle Gamma [u] leq i < Gamma [u + 1]}$ a ${ displaystyle gamma [i] = v}$ .

Nalezení nejlehčí dopadající hrany

Nejprve jsou hrany rozloženy mezi každou z ${ displaystyle p}$ procesory. The ${ displaystyle i}$ -tý procesor přijímá hrany uložené mezi nimi ${ displaystyle gamma [{ frac {im} {p}}]}$ a ${ displaystyle gamma [{ frac {(i + 1) m} {p}} - 1]}$ . Kromě toho musí každý procesor vědět, ke kterému vrcholu tyto hrany patří (od ${ displaystyle gamma}$ ukládá pouze jeden z koncových bodů hrany) a ukládá to do pole ${ displaystyle pred}$ . Získání těchto informací je možné v ${ displaystyle O ( log n)}$ použitím ${ displaystyle p}$ binární vyhledávání nebo v ${ displaystyle O ({ frac {n} {p}} + p)}$ pomocí lineárního vyhledávání. V praxi je druhý přístup někdy rychlejší, i když je asymptoticky horší.

Nyní každý procesor určuje nejsvětlejší hranu dopadající na každý ze svých vrcholů.

 ${ displaystyle v gets}$  nalézt( ${ displaystyle { frac {im} {p}}}$ ,  ${ displaystyle Gamma}$ )pro  ${ displaystyle e gets { frac {im} {p}}; e <{ frac {(i + 1) m} {p}} - 1; e ++}$     -li  ${ displaystyle Gamma [v + 1] = e}$          ${ displaystyle v ++}$     -li ${ displaystyle c [e]$          ${ displaystyle pred [v] dostane e}$

Zde nastává problém, některé vrcholy zpracovává více než jeden procesor. Možným řešením je, že každý procesor má svůj vlastní ${ displaystyle předchozí}$ pole, které je později kombinováno s poli ostatních pomocí redukce. Každý procesor má maximálně dva vrcholy, které zpracovávají také jiné procesory a každá redukce je v ${ displaystyle O ( log p)}$ . Celková doba běhu tohoto kroku je tedy v ${ displaystyle O ({ frac {m} {p}} + log n + log p)}$ .

Přiřazení podgrafů vrcholům

Sledujte graf, který se skládá pouze z hran shromážděných v předchozím kroku. Tyto hrany jsou směrovány pryč od vrcholu, ke kterému jsou nejlehčí dopadající hranou. Výsledný graf se rozloží na několik slabě připojených komponent. Cílem tohoto kroku je přiřadit každému vrcholu složku, jejíž je součástí. Všimněte si, že každý vrchol má přesně jednu odchozí hranu, a proto je každá složka pseudotree - strom s jednou další hranou, která běží paralelně s nejsvětlejší hranou v komponentě, ale v opačném směru. Následující kód mutuje tento další okraj do smyčky:

paralelně pro All  ${ displaystyle v ve V}$       ${ displaystyle w dostane před [v]}$     -li  ${ displaystyle pred [w] = v land v$           ${ displaystyle pred [v] dostane v}$

Nyní každý slabě připojen komponenta je směrovaný strom, kde má kořen a smyčka. Tento kořen je vybrán jako zástupce každé komponenty. Následující kód používá zdvojení k přiřazení každého vrcholu jeho zástupce:

zatímco  ${ displaystyle existuje v ve V: pred [v] neq pred [pred [v]]}$     pro všechny  ${ displaystyle v ve V}$           ${ displaystyle pred [v] dostane pred [pred [v]]}$

Nyní je každý podgraf a hvězda. U některých pokročilých technik tento krok potřebuje ${ displaystyle O ({ frac {n} {p}} + log n)}$ čas.

Uzavírání podgrafů

V tomto kroku je každý podgraf kontrahován do jediného vrcholu.

 ${ displaystyle k gets}$  počet podgrafů ${ displaystyle V ' dostane {0, tečky, k-1 }}$ najít bijektivní funkci  ${ displaystyle f:}$  hvězdný kořen  ${ displaystyle rightarrow {0, tečky, k-1 }}$   ${ displaystyle E ' dostane {(f (pred [v]), f (pred [w]), c, e_ {starý}) :( v, w) v E zemi před [v] neq před [w] }}$

Nalezení bijektivní funkce je možné v ${ displaystyle O ({ frac {n} {p}} + log p)}$ pomocí prefixového součtu. Protože nyní máme novou sadu vrcholů a hran, musí být pole sousedství přestavěno, což lze provést pomocí Integersort na ${ displaystyle E '}$ v ${ displaystyle O ({ frac {m} {p}} + log p)}$ čas.

Složitost

Každá iterace nyní potřebuje ${ displaystyle O ({ frac {m} {p}} + log n)}$ času a stejně jako v postupném případě existují ${ displaystyle log n}$ interations, což má za následek celkovou dobu běhu ${ displaystyle O ( log n ({ frac {m} {p}} + log n))}$ . Li ${ displaystyle m in Omega (p log ^ {2} p)}$ účinnost algoritmu je v ${ displaystyle Theta (1)}$ a je relativně efektivní. Li ${ displaystyle m v O (n)}$ pak je naprosto efektivní.

Další algoritmy

Existuje několik dalších paralelních algoritmů, které řeší problém hledání MST. S lineárním počtem procesorů je to možné dosáhnout v ${ displaystyle O ( log n)}$ .^[8]^[9]. Bader und Cong představili algoritmus MST, který byl pětkrát rychlejší na osmi jádrech než optimální sekvenční algoritmus^[10].

Další výzvou je model externí paměti - existuje navrhovaný algoritmus podle Dementiev et al. o kterém se tvrdí, že je pouze dvakrát až pětkrát pomalejší než algoritmus, který využívá pouze vnitřní paměť^[11]

Reference

^ Brusky; Dietzfelbinger; Martin; Mehlhorn; Kurt; Peter (10.06.2014). Algorithmen und Datenstrukturen Die Grundwerkzeuge. Springer Vieweg. ISBN 978-3-642-05472-3.
^ Brodal, Gerth Stølting; Träff, Jesper Larsson; Zaroliagis, Christos D. (1998), „Parallel Priority Queue with Constant Time Operations“, Journal of Parallel and Distributed Computing, 49 (1): 4–21, CiteSeerX 10.1.1.48.3272, doi:10.1006 / jpdc.1998.1425
^ Osipov, Vitaly; Sanders, Peter; Singler, Johannes (2009), „Algoritmus filtru-kruskal minimální kostry“, Sborník z jedenáctého semináře o algoritmickém inženýrství a experimentech (ALENEX). Společnost pro průmyslovou a aplikovanou matematiku: 52–61, CiteSeerX 10.1.1.218.2574
^ Sanders, Peter. „Algorithm Engineering script“ (PDF). Domovská stránka KIT Algorithm Engineering KIT. Citováno 25. února 2019.
^ Sanders, Peter. „Skript paralelních algoritmů“ (PDF). Domovská stránka KIT Parallel Algorithms. Citováno 25. února 2019.
^ Zadeh, Reza. „Distribuované algoritmy a optimalizace“ (PDF). Distribuované algoritmy a optimalizace Domovská stránka Stanfordské univerzity. Citováno 25. února 2019.
^ Chun, slunce; Condon, Anne (1996). Msgstr "Paralelní implementace Bouvkovy algoritmu minimální kostry". Sborník mezinárodní konference o paralelním zpracování: 302–308. doi:10.1109 / IPPS.1996.508073. ISBN 0-8186-7255-2.
^ Chong, Ka Wong; Han, Yijie; Lam, Tak Wah (2001), „Souběžná vlákna a algoritmus optimálního paralelního minimálního rozsahu stromů“, Časopis Asociace pro výpočetní techniku, 48 (2): 297–323, CiteSeerX 10.1.1.32.1554, doi:10.1145/375827.375847, PAN 1868718
^ Pettie, Seth; Ramachandran, Vijaya (2002), „Optimalizovaný paralelní algoritmus pro práci s časovou prací pro nalezení minimálního lesního porostu“ (PDF), SIAM Journal on Computing, 31 (6): 1879–1895, doi:10.1137 / S0097539700371065, PAN 1954882
^ Bader, David A.; Cong, Guojing (2006), „Rychlé algoritmy sdílené paměti pro výpočet minimálního lesu řídkých grafů“, Journal of Parallel and Distributed Computing, 66 (11): 1366–1378, doi:10.1016 / j.jpdc.2006.06.001
^ Dementiev, Roman; Sanders, Peter; Schultes, Dominik; Sibeyn, Jop F. (2004), „Inženýrství algoritmu minimálního rozsahu stromu externí paměti“, Proc. IFIP 18. světový počítačový kongres, TC1 3. mezinárodní konference o teoretické informatice (TCS2004) (PDF), str. 195–208.

[1] Brusky; Dietzfelbinger; Martin; Mehlhorn; Kurt; Peter (10.06.2014). Algorithmen und Datenstrukturen Die Grundwerkzeuge. Springer Vieweg. ISBN 978-3-642-05472-3.

[2] Brodal, Gerth Stølting; Träff, Jesper Larsson; Zaroliagis, Christos D. (1998), „Parallel Priority Queue with Constant Time Operations“, Journal of Parallel and Distributed Computing, 49 (1): 4–21, CiteSeerX 10.1.1.48.3272, doi:10.1006 / jpdc.1998.1425

[3] Osipov, Vitaly; Sanders, Peter; Singler, Johannes (2009), „Algoritmus filtru-kruskal minimální kostry“, Sborník z jedenáctého semináře o algoritmickém inženýrství a experimentech (ALENEX). Společnost pro průmyslovou a aplikovanou matematiku: 52–61, CiteSeerX 10.1.1.218.2574

[4] Sanders, Peter. „Algorithm Engineering script“ (PDF). Domovská stránka KIT Algorithm Engineering KIT. Citováno 25. února 2019.

[5] Sanders, Peter. „Skript paralelních algoritmů“ (PDF). Domovská stránka KIT Parallel Algorithms. Citováno 25. února 2019.

[6] Zadeh, Reza. „Distribuované algoritmy a optimalizace“ (PDF). Distribuované algoritmy a optimalizace Domovská stránka Stanfordské univerzity. Citováno 25. února 2019.

[7] Chun, slunce; Condon, Anne (1996). Msgstr "Paralelní implementace Bouvkovy algoritmu minimální kostry". Sborník mezinárodní konference o paralelním zpracování: 302–308. doi:10.1109 / IPPS.1996.508073. ISBN 0-8186-7255-2.

[8] Chong, Ka Wong; Han, Yijie; Lam, Tak Wah (2001), „Souběžná vlákna a algoritmus optimálního paralelního minimálního rozsahu stromů“, Časopis Asociace pro výpočetní techniku, 48 (2): 297–323, CiteSeerX 10.1.1.32.1554, doi:10.1145/375827.375847, PAN 1868718

[9] Pettie, Seth; Ramachandran, Vijaya (2002), „Optimalizovaný paralelní algoritmus pro práci s časovou prací pro nalezení minimálního lesního porostu“ (PDF), SIAM Journal on Computing, 31 (6): 1879–1895, doi:10.1137 / S0097539700371065, PAN 1954882

[10] Bader, David A.; Cong, Guojing (2006), „Rychlé algoritmy sdílené paměti pro výpočet minimálního lesu řídkých grafů“, Journal of Parallel and Distributed Computing, 66 (11): 1366–1378, doi:10.1016 / j.jpdc.2006.06.001

[11] Dementiev, Roman; Sanders, Peter; Schultes, Dominik; Sibeyn, Jop F. (2004), „Inženýrství algoritmu minimálního rozsahu stromu externí paměti“, Proc. IFIP 18. světový počítačový kongres, TC1 3. mezinárodní konference o teoretické informatice (TCS2004) (PDF), str. 195–208.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]