Kolektivní provoz - Collective operation

Kolektivní operace jsou stavební kameny pro vzory interakce, které se často používají v SPMD algoritmy v paralelní programování kontext. Z tohoto důvodu existuje zájem o efektivní realizaci těchto operací.

Realizaci kolektivních operací zajišťuje Rozhraní pro předávání zpráv^[1] (MPI).

Definice

Ve všech asymptotických runtime funkcích označujeme latenci ${displaystyle alpha}$ , komunikační náklady na slovo ${displaystyle eta}$ , počet procesorových jednotek ${displaystyle p}$ a velikost vstupu na uzel ${displaystyle n}$ . V případech, kdy máme počáteční zprávy na více než jednom uzlu, předpokládáme, že všechny místní zprávy mají stejnou velikost. K oslovení jednotlivých zpracovatelských jednotek používáme ${displaystyle p_ {i} in {p_ {0}, p_ {1}, dots, p_ {p-1}}}$ .

Pokud nemáme rovnoměrné rozdělení, tj. Uzel ${displaystyle p_ {i}}$ má zprávu velikosti ${displaystyle n_ {i}}$ , nastavíme horní mez pro dobu běhu ${displaystyle n = max (n_ {0}, n_ {1}, tečky, n_ {p-1})}$ .

A model distribuované paměti předpokládá se. Koncepty jsou podobné pro model sdílené paměti. Systémy sdílené paměti však mohou poskytovat hardwarovou podporu pro některé operace, jako je vysílání (§ Vysílání ) například, který umožňuje pohodlné souběžné čtení.^[2] Tak mohou být k dispozici nové možnosti algoritmu.

Přenos ^[3]

Informační tok Broadcast operace prováděné na třech uzlech.

Vysílací vzor se používá k distribuci dat z jedné procesorové jednotky do všech procesorových jednotek, což je často potřeba SPMD paralelní programy pro výdej vstupních nebo globálních hodnot. Broadcast lze interpretovat jako inverzní verzi redukčního vzoru (§ Zmenšit ). Zpočátku pouze root ${displaystyle r}$ s ${displaystyle id}$ ${displaystyle 0}$ ukládá zprávu ${displaystyle m}$ . Během vysílání ${displaystyle m}$ se odešle zbývajícím procesorovým jednotkám, takže nakonec ${displaystyle m}$ je k dispozici všem procesorovým jednotkám.

Vzhledem k tomu, implementace pomocí sekvenční pro smyčky s ${displaystyle p-1}$ iterace se stávají úzkým místem, přístupy rozděl a panuj jsou běžné. Jednou z možností je použít binomickou stromovou strukturu s požadavkem, že ${displaystyle p}$ musí to být síla dvou. Když je za odeslání odpovědná zpracovatelská jednotka ${displaystyle m}$ do zpracovatelských jednotek ${displaystyle i..j}$ , pošle ${displaystyle m}$ do zpracovatelské jednotky ${displaystyle leftlceil (i + j) / 2ightceil}$ a deleguje odpovědnost za zpracovatelské jednotky ${displaystyle leftlceil (i + j) / 2ightceil ..leftlceil (i + j) -1ightceil}$ jeho vlastní odpovědnost je omezena na ${displaystyle i..leftlceil (i + j) / 2ightceil -1}$ .

Binomické stromy mají problém s dlouhými zprávami ${displaystyle m}$ . Přijímající jednotka ${displaystyle m}$ může zprávu šířit na jiné jednotky až poté, co obdrží celou zprávu. Mezitím není komunikační síť využívána. Proto potrubí dál binární stromy se používá, kde ${displaystyle m}$ je rozdělena do řady ${displaystyle k}$ balíčky velikosti ${displaystyle leftlceil n / kightceil}$ . Pakety jsou poté vysílány jeden po druhém, takže data jsou rychle distribuována v komunikační síti.

Pipeline vysílání na vyvážené binární strom je možné v ${displaystyle {mathcal {O}} (alfa log p + eta n)}$ .

Snížit ^[4]

K dispozici jsou tři čtverce vertikálně zarovnané vlevo a tři čtverce vertikálně zarovnané vpravo. Kruh s písmenem f uvnitř je umístěn mezi dvěma sloupci. Tři plné čáry spojují kruh s levými třemi čtverci. Jedna plná čára spojuje kruh a pravý horní čtverec. Písmena a, b a c jsou psána levými čtverci od nejvyšší po nejnižší. Písmeno alfa je napsáno v pravém horním rohu.

Informační tok operace Snížit provedenou na třech uzlech. f je asociativní operátor a α je výsledkem redukce.

Vzor zmenšení se používá ke shromažďování dat nebo částečných výsledků z různých jednotek zpracování a ke kombinování je do globálního výsledku vybraným operátorem. Snížení lze vnímat jako inverzní verzi vysílání (§ Vysílání ). Dáno ${displaystyle p}$ jednotky zpracování, zpráva ${displaystyle m_ {i}}$ je na procesorové jednotce ${displaystyle p_ {i}}$ zpočátku. Všechno ${displaystyle m_ {i}}$ jsou agregovány podle ${zobrazovací doba}$ a výsledek se nakonec uloží ${displaystyle p_ {0}}$ . Operátor redukce ${zobrazovací doba}$ musí být alespoň asociativní. Některé algoritmy vyžadují komutativní operátor s neutrálním prvkem. Provozovatelé mají rádi ${displaystyle sum}$ , ${min. styl zobrazení}$ , ${displaystyle max}$ jsou běžné.

Vzhledem k tomu, že redukci lze interpretovat jako inverzní vysílání, platí stejné podmínky implementace (§ Vysílání ). Pro potrubí na binární stromy zpráva musí být reprezentovatelná jako vektor menšího objektu pro redukci po komponentách.

Potrubní redukce na vyvážené binární strom je možné v ${displaystyle {mathcal {O}} (alfa log p + eta n)}$ .

Vše zmenšit ^[5]

Informační tok operace All-Reduce prováděné na třech uzlech. f je asociativní operátor a α je výsledkem redukce.

Vzor všeho zmenšení se použije, pokud je výsledkem operace zmenšení (§ Zmenšit ) musí být distribuovány do všech zpracovatelských jednotek. Dáno ${displaystyle p}$ jednotky zpracování, zpráva ${displaystyle m_ {i}}$ je na procesorové jednotce ${displaystyle p_ {i}}$ zpočátku. Všechno ${displaystyle m_ {i}}$ jsou agregovány operátorem ${zobrazovací doba}$ a výsledek je nakonec uložen na všech ${displaystyle p_ {i}}$ . Analogicky k redukční operaci, operátor ${zobrazovací doba}$ musí být alespoň asociativní.

All-redukovat lze interpretovat jako operaci redukce s následným vysíláním (§ Vysílání ). U dlouhých zpráv je vhodná odpovídající implementace, zatímco u krátkých zpráv lze latenci snížit pomocí a hyperkrychle (Hypercube (komunikační vzor) § All-Gather / All-Reduce ) topologie, pokud ${displaystyle p}$ je síla dvou.

All-redukovat je možné v ${displaystyle {mathcal {O}} (alfa log p + eta n)}$ , protože redukce a vysílání jsou možné v ${displaystyle {mathcal {O}} (alfa log p + eta n)}$ s vyváženým potrubím binární stromy.

Prefix-Sum / Scan ^[6]

Informační tok operace Prefix-Sum / Scan prováděný na třech uzlech. Operátor + může být jakýkoli asociativní operátor.

Operace součtu prefixů nebo skenování se používá ke shromažďování dat nebo částečných výsledků z různých jednotek zpracování a k výpočtu mezivýsledků operátorem, které jsou uloženy na těchto jednotkách zpracování. Lze to považovat za zobecnění operace zmenšení (§ Zmenšit ). Dáno ${displaystyle p}$ jednotky zpracování, zpráva ${displaystyle m_ {i}}$ je na procesorové jednotce ${displaystyle p_ {i}}$ . Operátor ${zobrazovací doba}$ musí být alespoň asociativní, zatímco některé algoritmy vyžadují také komutativní operátor a neutrální prvek. Běžní operátoři jsou ${displaystyle sum}$ , ${min. styl zobrazení}$ a ${displaystyle max}$ . Nakonec zpracovatelská jednotka ${displaystyle p_ {i}}$ ukládá součet prefixů ${displaystyle otimes _ {i '<= i}}$ ${displaystyle m_ {i '}}$ . V případě tzv. Exkluzivního prefixového součtu zpracovatelská jednotka ${displaystyle p_ {i}}$ ukládá součet prefixů ${displaystyle otimes _ {i '$ ${displaystyle m_ {i '}}$ . Některé algoritmy vyžadují kromě součtů předpon uložit i celkovou částku na každou jednotku zpracování.

U krátkých zpráv toho lze dosáhnout pomocí hypercube topologie if ${displaystyle p}$ je síla dvou. U dlouhých zpráv se zobrazí hyperkrychle (Hypercube (komunikační vzor) § Součet předpon, Součet prefixů § Distribuovaná paměť: Algoritmus Hypercube ) topologie není vhodná, protože všechny procesní jednotky jsou aktivní v každém kroku, a proto nelze použít pipeline. A binární strom topologie je vhodnější pro libovolné ${displaystyle p}$ a dlouhé zprávy (Součet prefixů § Velké velikosti zpráv: Pipeline binární strom ).

Součet předpon na binárním stromu lze implementovat s fází nahoru a dolů. Ve vzestupné fázi se provádí redukce, zatímco sestupná fáze je obdobou vysílání, kde se součty předpon vypočítávají zasláním různých dat levému a pravému dítěti. S tímto přístupem je možné pipeline, protože operace se rovnají redukci (§ Zmenšit ) a vysílání (§ Vysílání ).

Součet předpony pipeline na binárním stromu je možný v ${displaystyle {mathcal {O}} (alfa log p + eta n)}$ .

Bariéra ^[7]

Bariéra jako kolektivní operace je zevšeobecněním pojmu a bariéra, které lze použít v distribuovaných výpočtech. Když procesorová jednotka volá bariéru, čeká, až všechny ostatní procesorové jednotky zavolají také bariéru. Bariéra se tak používá k dosažení globální synchronizace v distribuovaných výpočtech.

Jedním ze způsobů implementace bariéry je volání all-redukovat (§ Vše zmenšit ) s prázdným / fiktivním operandem. Víme, že runtime All-redukovat je ${displaystyle {mathcal {O}} (alfa log p + eta n)}$ . Použití fiktivního operandu zmenšuje velikost ${displaystyle n}$ na konstantní faktor a vede k době běhu ${displaystyle {mathcal {O}} (alfa log p)}$ .

Shromáždit ^[8]

K dispozici jsou tři čtverce vertikálně zarovnané vlevo a tři obdélníky vertikálně zarovnané vpravo. Tečkovaná čára spojuje levý horní čtverec s pravým pravoúhlým obdélníkem. Dvě plné čáry spojují střední a dolní levé čtverce s pravým pravoúhlým obdélníkem. Písmena a, b a c jsou psána levými čtverci od nejvyšší po nejnižší. Písmena a, bac jsou psána v pravém horním obdélníku v řadě.

Informační tok operace Shromáždění prováděný na třech uzlech.

Shromážděný komunikační vzor se používá k ukládání dat ze všech procesorových jednotek na jedné procesorové jednotce. Dáno ${displaystyle p}$ jednotky zpracování, zpráva ${displaystyle m_ {i}}$ na procesorové jednotce ${displaystyle p_ {i}}$ . Pro pevnou procesorovou jednotku ${displaystyle p_ {j}}$ , chceme uložit zprávu ${displaystyle m_ {1} cdot m_ {2} cdot ldots cdot m_ {p}}$ na ${displaystyle p_ {j}}$ . Shromáždění lze považovat za redukční operaci (§ Zmenšit ), který používá operátor zřetězení. To funguje kvůli skutečnosti, že zřetězení je asociativní. Použitím stejného algoritmu redukce binomického stromu získáme runtime ${displaystyle {mathcal {O}} (alfa log p + eta pn)}$ . Vidíme, že asymptotický běh je podobný asymptotickému běhu redukce ${displaystyle {mathcal {O}} (alfa log p + eta n)}$ , ale s přidáním faktoru p k termínu ${displaystyle eta n}$ . Tento další faktor je způsoben zvětšením velikosti zprávy v každém kroku, jak se zprávy zřetězují. Porovnejte to a zmenšete, kde je velikost zprávy pro operátory jako konstanta ${min. styl zobrazení}$ .

Shromážděte se ^[8]

K dispozici jsou tři čtverce vertikálně zarovnané vlevo a tři obdélníky vertikálně zarovnané vpravo. Tři tečkované čáry spojují levý horní čtverec s pravým pravým obdélníkem, střední levý čtverec se středním pravým obdélníkem a levý dolní čtverec s pravým dolním obdélníkem. Dvě plné čáry spojují střední a dolní levé čtverce s pravým pravoúhlým obdélníkem. Dvě plné čáry spojují horní a dolní levé čtverce se středním pravým obdélníkem. Dvě plné čáry spojují horní a střední levé čtverce s pravým dolním obdélníkem. Písmena a, b a c jsou psána levými čtverci od nejvyšší po nejnižší. Písmena a, bac jsou psána v pravých obdélnících v řadě.

Informační tok operace All-Gather prováděné na třech uzlech.

Komunikační vzor all-collect se používá ke shromažďování dat ze všech zpracovatelských jednotek ak ukládání shromážděných dat na všechny zpracovatelské jednotky. Dáno ${displaystyle p}$ procesní jednotky ${displaystyle p_ {i}}$ , zpráva ${displaystyle m_ {i}}$ původně uloženo ${displaystyle p_ {i}}$ , chceme uložit zprávu ${displaystyle m_ {1} cdot m_ {2} cdot ldots cdot m_ {p}}$ na každém ${displaystyle p_ {j}}$ .

Lze na to myslet několika způsoby. První je jako operace all-redukovat (§ Vše zmenšit ) se zřetězením jako operátor, stejně jako shromáždění může být reprezentováno redukcí. Druhým je operace shromažďování, po které následuje vysílání nové zprávy o velikosti ${displaystyle pn}$ . Díky tomu vidíme, že se všichni shromáždili ${displaystyle {mathcal {O}} (alfa log p + eta pn)}$ je možné.

Rozptyl ^[9]

K dispozici jsou tři obdélníky vertikálně zarovnané vlevo a tři čtverce vertikálně zarovnané vpravo. Tečkovaná čára spojuje levý horní obdélník s pravým horním čtvercem. Dvě plné čáry spojují levý horní obdélník se středními a nízkými pravými čtverci. Písmena c, b a jsou psána v levém horním obdélníku v řadě. Písmena a, bac jsou psána pravými čtverci od nejvyšší po nejnižší.

Informační tok operace Scatter prováděné na třech uzlech.

Rozptylový komunikační vzor se používá k distribuci dat z jedné procesorové jednotky do všech procesorových jednotek. Liší se od vysílání v tom, že neposílá stejnou zprávu všem zpracovatelským jednotkám. Místo toho rozděluje zprávu a doručuje jednu její část do každé zpracovatelské jednotky.

Dáno ${displaystyle p}$ procesní jednotky ${displaystyle p_ {i}}$ , pevná procesorová jednotka ${displaystyle p_ {j}}$ který drží zprávu ${displaystyle m = m_ {1} cdot m_ {2} cdot ldots cdot m_ {p}}$ . Chceme zprávu přenést ${displaystyle m_ {i}}$ na ${displaystyle p_ {i}}$ . Stejné implementační obavy jako pro shromáždění (§ Shromážděte se ) aplikovat. To vede k optimální době běhu v ${displaystyle {mathcal {O}} (alfa log p + eta pn)}$ .

Všichni na všechny ^[10]

All-to-all je nejobecnější komunikační vzor. Pro ${displaystyle 0leq i$ , zpráva ${displaystyle m_ {i, j}}$ je zpráva, která je původně uložena v uzlu ${displaystyle i}$ a musí být doručen do uzlu ${displaystyle j}$ . Můžeme vyjádřit všechna komunikační primitiva, která nepoužívají operátory, všichni. Například vysílání zprávy ${displaystyle m}$ z uzlu ${displaystyle p_ {k}}$ je emulován nastavením ${displaystyle m_ {i, j} = m}$ pro ${displaystyle i = k}$ a nastavení ${displaystyle m_ {l, j}}$ prázdné pro ${displaystyle leq k}$ .

Za předpokladu, že máme plně připojenou síť, je k dispozici nejlepší možná doba běhu pro všechny ${displaystyle {mathcal {O}} (p (alfa + eta n))}$ . Toho je dosaženo prostřednictvím ${displaystyle p}$ kola přímé výměny zpráv. Pro ${displaystyle p}$ síla 2, v komunikačním kole ${displaystyle k}$ , uzel ${displaystyle p_ {i}}$ vyměňuje zprávy s uzlem ${displaystyle p_ {j}, j = ioplus k}$ .

Pokud je velikost zprávy malá a v komunikaci dominuje latence, lze k distribuci zpráv v čase použít algoritmus hyperkrychle ${displaystyle {mathcal {O}} (log p (alfa + eta pn))}$ .

K dispozici jsou tři obdélníky vertikálně zarovnané vlevo a tři obdélníky vertikálně zarovnané vpravo. Obdélníky jsou třikrát vyšší jako široké. Výrazy a1, a2 a a3 jsou psány v levém horním obdélníku pod sebou. Výrazy b1, b2 a b3 jsou psány v levém středním obdélníku jeden pod druhým. Výrazy c1, c2 a c3 jsou psány v levém dolním obdélníku pod sebou. Výrazy a1, b1 a c1 jsou psány v pravém horním obdélníku pod sebou. Výrazy a2, b2 a c2 jsou psány v pravém středním obdélníku pod sebou. Výrazy a3, b3 a c3 jsou psány v pravém dolním obdélníku pod sebou. Tečkovaná čára spojuje a1 z levého horního obdélníku a a1 z pravého horního obdélníku. Tečkovaná čára spojuje b2 ze středního levého obdélníku a b2 ze středního pravého obdélníku. Tečkovaná čára spojuje c3 z levého dolního obdélníku a c3 z pravého dolního obdélníku. Plné čáry spojují další odpovídající výrazy mezi levým a pravým obdélníkem.

Informační tok operace typu „vše v jednom“ prováděné na třech uzlech. Písmena označují uzly a čísla označují informační položky.

Runtime Overview ^[11]

Tato tabulka poskytuje přehled nejznámějších asymptotických runtime, za předpokladu, že máme svobodnou volbu topologie sítě.

Ukázkové topologie, které chceme pro optimální běh, jsou binární strom, binomický strom, hyperkrychle.

V praxi se musíme přizpůsobit dostupným fyzickým topologiím, např. vážka, tlustý strom, síťová síť (odkazuje také na jiné topologie).

Více informací pod Topologie sítě.

Pro každou operaci může optimální algoritmus záviset na velikostech vstupu ${displaystyle n}$ . Například vysílání pro krátké zprávy je nejlépe implementováno pomocí binomického stromu, zatímco pro dlouhé zprávy je optimální zřetězená komunikace na vyváženém binárním stromu.

Složitost uvedená v tabulce závisí na latenci ${displaystyle alpha}$ a náklady na komunikaci za slovo ${displaystyle eta}$ kromě počtu procesorových jednotek ${displaystyle p}$ a velikost vstupní zprávy na uzel ${displaystyle n}$ . The # odesílatelů a # přijímače sloupce představují počet odesílatelů a příjemců, kteří jsou do operace zapojeni. The # zprávy sloupec uvádí počet vstupních zpráv a Výpočty? sloupec označuje, zda se u zpráv provádějí nějaké výpočty nebo zda jsou zprávy doručeny pouze bez zpracování. Složitost dává asymptotickou běhovou složitost optimální implementace při svobodné volbě topologie.


název	# odesílatelů	# přijímače	# zprávy	Výpočty?	Složitost
Přenos	${displaystyle 1}$	${displaystyle p}$	${displaystyle 1}$	Ne	${displaystyle {mathcal {O}} (alfa log p + eta n)}$
Snížit	${displaystyle p}$	${displaystyle 1}$	${displaystyle p}$	Ano	${displaystyle {mathcal {O}} (alfa log p + eta n)}$
Vše-snížit	${displaystyle p}$	${displaystyle p}$	${displaystyle p}$	Ano	${displaystyle {mathcal {O}} (alfa log p + eta n)}$
Součet prefixů	${displaystyle p}$	${displaystyle p}$	${displaystyle p}$	Ano	${displaystyle {mathcal {O}} (alfa log p + eta n)}$
Bariéra	${displaystyle p}$	${displaystyle p}$	${displaystyle 0}$	Ne	${displaystyle {mathcal {O}} (alfa log p)}$
Shromáždit	${displaystyle p}$	${displaystyle 1}$	${displaystyle p}$	Ne	${displaystyle {mathcal {O}} (alfa log p + eta pn)}$
Shromážděte se	${displaystyle p}$	${displaystyle p}$	${displaystyle p}$	Ne	${displaystyle {mathcal {O}} (alfa log p + eta pn)}$
Rozptyl	${displaystyle 1}$	${displaystyle p}$	${displaystyle p}$	Ne	${displaystyle {mathcal {O}} (alfa log p + eta pn)}$
Všichni na všechny	${displaystyle p}$	${displaystyle p}$	${displaystyle p ^ {2}}$	Ne	${displaystyle {mathcal {O}} (log p (alfa + eta pn))}$ nebo ${displaystyle {mathcal {O}} (p (alfa + eta n))}$

Poznámky

^ Kolektivní operace mezi komunikátory. Standard rozhraní pro předávání zpráv (MPI), kapitola 7.3.1. Divize matematiky a informatiky, Argonne National Laboratory.
^ Sanders, Mehlhorn, Dietzfelbinger, Dementiev 2019, s. 395
^ Sanders, Mehlhorn, Dietzfelbinger, Dementiev 2019, str. 396-401
^ Sanders, Mehlhorn, Dietzfelbinger, Dementiev 2019, str. 402-403
^ Sanders, Mehlhorn, Dietzfelbinger, Dementiev 2019, str. 403-404
^ Sanders, Mehlhorn, Dietzfelbinger, Dementiev 2019, str. 404-406
^ Sanders, Mehlhorn, Dietzfelbinger, Dementiev 2019, s. 408
^ ^A ^b Sanders, Mehlhorn, Dietzfelbinger, Dementiev 2019, str. 412-413
^ Sanders, Mehlhorn, Dietzfelbinger, Dementiev 2019, s. 413
^ Sanders, Mehlhorn, Dietzfelbinger, Dementiev 2019, str. 413-418
^ Sanders, Mehlhorn, Dietzfelbinger, Dementiev 2019, s. 394

Reference

Sanders, Peter; Mehlhorn, Kurt; Dietzfelbinger, Martin; Dementiev, Roman (2019). Sekvenční a paralelní algoritmy a datové struktury - základní sada nástrojů. Springer Nature Switzerland AG. ISBN 978-3-030-25208-3.

[1] Kolektivní operace mezi komunikátory. Standard rozhraní pro předávání zpráv (MPI), kapitola 7.3.1. Divize matematiky a informatiky, Argonne National Laboratory.

[:1-2] Sanders, Mehlhorn, Dietzfelbinger, Dementiev 2019, s. 395

[:2-3] Sanders, Mehlhorn, Dietzfelbinger, Dementiev 2019, str. 396-401

[:3-4] Sanders, Mehlhorn, Dietzfelbinger, Dementiev 2019, str. 402-403

[:4-5] Sanders, Mehlhorn, Dietzfelbinger, Dementiev 2019, str. 403-404

[:5-6] Sanders, Mehlhorn, Dietzfelbinger, Dementiev 2019, str. 404-406

[:6-7] Sanders, Mehlhorn, Dietzfelbinger, Dementiev 2019, s. 408

[:7-8] A ^b Sanders, Mehlhorn, Dietzfelbinger, Dementiev 2019, str. 412-413

[:8-9] Sanders, Mehlhorn, Dietzfelbinger, Dementiev 2019, s. 413

[:9-10] Sanders, Mehlhorn, Dietzfelbinger, Dementiev 2019, str. 413-418

[:10-11] Sanders, Mehlhorn, Dietzfelbinger, Dementiev 2019, s. 394

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

Kolektivní provoz - Collective operation

Definice

Přenos [3]

Snížit [4]

Vše zmenšit [5]

Prefix-Sum / Scan [6]

Bariéra [7]

Shromáždit [8]

Shromážděte se [8]

Rozptyl [9]

Všichni na všechny [10]

Runtime Overview [11]