Optimalizace hnízda smyčky - Loop nest optimization

v počítačová věda a zejména v překladač design, optimalizace smyčkového hnízda (LNO) je optimalizační technika, která aplikuje sadu smyčkové transformace za účelem lokalita optimalizace nebo paralelizace nebo jiné snížení režie smyčky hnízd smyčky. Jedno klasické použití je snížit latenci přístupu do paměti nebo šířku pásma mezipaměti nezbytnou kvůli opětovnému použití mezipaměti pro některé běžné lineární algebra algoritmy.

Technika použitá k výrobě této optimalizace se nazývá smyčkové obklady,[1] také známý jako blokování smyčky[2] nebo svléknout důl a vyměnit.

Přehled

Smyčka obkládá oddíly iterační prostor smyčky na menší bloky nebo bloky, aby se zajistilo, že data použitá ve smyčce zůstanou v mezipaměti dokud není znovu použit. Rozdělení iteračního prostoru smyčky vede k rozdělení velkého pole na menší bloky, čímž se přizpůsobí přístupové prvky pole do velikosti mezipaměti, čímž se zvýší opětovné použití mezipaměti a eliminují požadavky na velikost mezipaměti.

Obyčejná smyčka

pro (i=0; i<N; ++i) {  ...}

lze zablokovat blokem velikosti B nahrazením

pro (j=0; j<N; j+=B) {  pro (i=j; i<min(N, j+B); ++i) {    ....  }}

kde min () je funkce vracející minimum jejích argumentů.

Příklad: násobení matice-vektor

Následuje příklad násobení maticových vektorů. Existují tři pole, každé se 100 prvky. Kód nerozděluje pole na menší velikosti.

  int i, j, A[100][100], b[100], C[100];  int n = 100;  pro (i = 0; i < n; i++) {    C[i] = 0;    pro (j = 0; j < n; j++) {      C[i] = C[i] + A[i][j] * b[j];    }  }

Poté, co použijeme obklady smyčky pomocí bloků 2 * 2, náš kód vypadá takto:

  int i, j, X, y, A[100][100], b[100], C[100];  int n = 100;  pro (i = 0; i < n; i += 2) {    C[i] = 0;    C[i + 1] = 0;    pro (j = 0; j < n; j += 2) {      pro (X = i; X < min(i + 2, n); X++) {        pro (y = j; y < min(j + 2, n); y++) {          C[X] = C[X] + A[X][y] * b[y];        }      }    }  }

Původní iterační prostor smyčky je n podle n. Přístupný blok pole a [i, j] je také n podle n. Když n je příliš velký a velikost mezipaměti stroje je příliš malá, přístupné prvky pole v jedné iteraci smyčky (například i = 1, j = 1 až n) může překračovat řádky mezipaměti a způsobit tak mezipaměť.

Velikost obkladu

Není vždy snadné se rozhodnout, jaká hodnota velikosti obkladu je pro jednu smyčku optimální, protože vyžaduje přesný odhad přístupových oblastí pole ve smyčce a velikost mezipaměti cílového počítače. Pořadí hnízd smyčky (výměna smyčky ) také hraje důležitou roli při dosahování lepšího výkonu mezipaměti. Explicitní blokování vyžaduje výběr velikosti dlaždice na základě těchto faktorů. Naproti tomu mezipaměťové algoritmy jsou navrženy tak, aby efektivně využívaly mezipaměť bez výslovného blokování.

Příklad: násobení matic

Mnoho velkých matematických operací na počítačích nakonec tráví většinu svého času prací násobení matic. Operace je:

C = A × B

kde A, B a C jsou pole N × N. Dolní indexy, pro následující popis, jsou ve formě C [řádek] [sloupec].

Základní smyčka je:

int i, j, k;pro (i = 0; i < N; ++i){    pro (j = 0; j < N; ++j)    {        C[i][j] = 0;        pro (k = 0; k < N; ++k)            C[i][j] += A[i][k] * B[k][j];    }}

Je třeba vyřešit tři problémy:

  • Doplnění s plovoucí desetinnou čárkou trvá určitý počet cyklů. Aby bylo možné udržet zmije s vícenásobnou latencí cyklu zaneprázdněn, kód musí aktualizovat více akumulátory paralelně.
  • Stroje mohou obvykle provádět pouze jednu operaci paměti na znásobit-přidat, takže načtené hodnoty musí být znovu použity alespoň dvakrát.
  • Typické paměťové systémy PC mohou vydržet pouze jedno 8bajtové dvojslovo na 10–30 násobení s dvojnásobnou přesností – přidání, takže hodnoty načtené do mezipaměti je nutné opakovaně použít.

Původní smyčka vypočítá výsledek pro jeden záznam v matici výsledků najednou. Vypočítáním malého bloku záznamů současně následující smyčka znovu použije každou načtenou hodnotu dvakrát, takže vnitřní smyčka má čtyři zátěže a čtyři násobení – přidání, čímž se vyřeší problém # 2. Tím, že přenášíte čtyři akumulátory současně, může tento kód téměř po celou dobu udržovat jedno sčítací zařízení s plovoucí desetinnou čárkou a latencí 4 (problém # 1). Kód však neřeší třetí problém. (Nezaměňuje se ani na vyčištění, pokud je N liché. Tyto podrobnosti budou v následující diskusi vynechány.)

pro (i = 0; i < N; i += 2){    pro (j = 0; j < N; j += 2)    {        acc00 = acc01 = acc10 = acc11 = 0;        pro (k = 0; k < N; k++)        {            acc00 += B[k][j + 0] * A[i + 0][k];            acc01 += B[k][j + 1] * A[i + 0][k];            acc10 += B[k][j + 0] * A[i + 1][k];            acc11 += B[k][j + 1] * A[i + 1][k];        }        C[i + 0][j + 0] = acc00;        C[i + 0][j + 1] = acc01;        C[i + 1][j + 0] = acc10;        C[i + 1][j + 1] = acc11;    }}

Tento kód má jak i a j iterace blokované faktorem dva a obě výsledné dvě iterační vnitřní smyčky byly zcela rozvinuty.

Tento kód by fungoval docela přijatelně na Cray Y-MP (postaveném na začátku 80. let), který vydrží 0,8 násobení – přidání na paměťovou operaci do hlavní paměti. Stroj jako 2,8 GHz Pentium 4, postavený v roce 2003, má o něco menší šířku pásma paměti a mnohem lepší plovoucí desetinnou čárku, takže vydrží 16,5 násobení – přidání na operaci paměti. Výsledkem bude, že výše uvedený kód poběží pomaleji na 2,8 GHz Pentium 4 než na 166 MHz Y-MP!

Stroj s delší čekací dobou s plovoucí desetinnou čárkou nebo s více sčítači by vyžadoval více akumulátorů pro paralelní běh. Je snadné změnit smyčku výše a vypočítat blok 3x3 místo bloku 2x2, ale výsledný kód není vždy rychlejší. Smyčka vyžaduje, aby registry uchovávaly akumulátory i načtené a znovu použité hodnoty A a B. Blok 2x2 vyžaduje 7 registrů. Blok 3x3 vyžaduje 13, což nebude fungovat na stroji s pouze 8 registry s plovoucí desetinnou čárkou v JE. Pokud CPU nemá dostatek registrů, kompilátor naplánuje další načtení a uložení, aby se registry rozlily do slotů zásobníku, což způsobí, že smyčka bude fungovat pomaleji než menší blokovaná smyčka.

Násobení matice je jako mnoho jiných kódů v tom, že může být omezeno šířkou pásma paměti a že více registrů může pomoci kompilátoru a programátoru snížit potřebu šířky pásma paměti. Tento registrační tlak je důvod, proč prodejci RISC CPU, kteří zamýšleli stavět stroje více paralelně než pro obecné účely x86 a 68000 CPU, adoptovaný 32-entry floating-point registrovat soubory.

Výše uvedený kód mezipaměť příliš nepoužívá. Během výpočtu vodorovného pruhu výsledků C se načte jeden vodorovný proužek A a načte se celá matice B. Pro celý výpočet je C uloženo jednou (to je dobré), A je načteno do mezipaměti jednou (za předpokladu, že se pruh A vejde do mezipaměti s pruhem B), ale B je načteno N / ib krát, kde ib je velikost proužku v matici C, celkem N3/ ib dvojslovo se načte z hlavní paměti. V kódu výše, ib je 2.

Dalším krokem ke snížení provozu paměti je, aby byl ib co největší. Musí být větší než „zůstatek“ číslo nahlášené streamy. V případě konkrétního systému Pentium 4 2,8 GHz použitého v tomto příkladu je číslo zůstatku 16,5. Druhý výše uvedený příklad kódu nelze přímo rozšířit, protože by to vyžadovalo mnohem více registrů akumulátorů. Místo toho smyčka je blokováno přes i. (Technicky je to vlastně podruhé, kdy je i blokováno, protože poprvé to bylo faktorem 2.)

pro (ii = 0; ii < N; ii += ib){    pro (j = 0; j < N; j += 2)    {        pro (i = ii; i < ii + ib; i += 2)        {            acc00 = acc01 = acc10 = acc11 = 0;            pro (k = 0; k < N; k++)            {                acc00 += B[k][j + 0] * A[i + 0][k];                acc01 += B[k][j + 1] * A[i + 0][k];                acc10 += B[k][j + 0] * A[i + 1][k];                acc11 += B[k][j + 1] * A[i + 1][k];            }            C[i + 0][j + 0] = acc00;            C[i + 0][j + 1] = acc01;            C[i + 1][j + 0] = acc10;            C[i + 1][j + 1] = acc11;        }    }}

S tímto kódem můžeme nastavit ib na cokoli, co se nám líbí, a počet zátěží matice B se o tento faktor sníží. Tato svoboda má cenu: v mezipaměti nyní uchováváme N × ib řezy matice A. Dokud to bude vyhovovat, nebude tento kód paměťovým systémem omezen.

Jaká velikostní matice se tedy hodí? Náš ukázkový systém, 2,8 GHz Pentium 4, má primární datovou mezipaměť 16 kB. S ib = 20 bude řez matice A v tomto kódu větší než primární mezipaměť, když N> 100. U problémů větších než to budeme potřebovat další trik.

Tento trik zmenšuje velikost pruhu matice B blokováním smyčky k, takže pruh má velikost ib × kb. Blokování smyčky k znamená, že pole C bude načteno a uloženo N / kb krát, tedy celkem přenosy paměti. B je stále přenášen N / ib krát, pro převody. Pokud

2 * N / kb + N / ib

paměťový systém stroje bude držet krok s jednotkou s plovoucí desetinnou čárkou a kód poběží na maximální výkon. Mezipaměť 16 kB Pentium4 není dost velká: mohli bychom zvolit ib = 24 a kb = 64, tedy použít 12 kB mezipaměti - nechceme ji úplně vyplnit, protože pole C a B musí mít nějaký prostor protékat. Tato čísla se pohybují do 20% maximální rychlosti plovoucí desetinné čárky procesoru.

Tady je kód se smyčkou k blokováno.

pro (ii = 0; ii < N; ii += ib){    pro (kk = 0; kk < N; kk += kb)    {        pro (j=0; j < N; j += 2)        {            pro (i = ii; i < ii + ib; i += 2)            {                -li (kk == 0)                    acc00 = acc01 = acc10 = acc11 = 0;                jiný                {                    acc00 = C[i + 0][j + 0];                    acc01 = C[i + 0][j + 1];                    acc10 = C[i + 1][j + 0];                    acc11 = C[i + 1][j + 1];                }                pro (k = kk; k < kk + kb; k++)                {                    acc00 += B[k][j + 0] * A[i + 0][k];	                acc01 += B[k][j + 1] * A[i + 0][k];	                acc10 += B[k][j + 0] * A[i + 1][k];	                acc11 += B[k][j + 1] * A[i + 1][k];                }                C[i + 0][j + 0] = acc00;                C[i + 0][j + 1] = acc01;                C[i + 1][j + 0] = acc10;                C[i + 1][j + 1] = acc11;            }        }    }}

Výše uvedené příklady kódu neukazují podrobnosti řešení hodnot N, které nejsou násobky blokačních faktorů. Kompilátory, které optimalizují smyčkové vnoření, vyzařují kód k vyčištění okrajů výpočtu. Například většina překladačů LNO by pravděpodobně rozdělit kk == 0 iterace od zbytku kk iterace, odebrat příkaz if z i smyčka. Toto je jedna z hodnot takového kompilátoru: i když je jednoduché kódovat jednoduché případy této optimalizace, zachování všech podrobností správných, protože kód je replikován a transformován, je proces náchylný k chybám.

Výše uvedená smyčka dosáhne pouze 80% špičkových propadů v ukázkovém systému, když je blokována pro velikost mezipaměti 16 kB L1. Bude to horší v systémech s ještě více nevyváženými paměťovými systémy. Naštěstí má Pentium 4 256 kB (nebo více, v závislosti na modelu) mezipaměť úrovně 2 s vysokou šířkou pásma a mezipaměť úrovně 1. Máme před sebou výběr:

  • Můžeme upravit velikosti bloků pro mezipaměť úrovně 2. To zdůrazní schopnost procesoru udržet mnoho instrukcí za letu současně a existuje velká šance, že nebude schopen dosáhnout plné šířky pásma z mezipaměti úrovně 2.
  • Smyčky můžeme znovu zablokovat, opět pro velikosti mezipaměti úrovně 2. S celkem třemi úrovněmi blokování (pro soubor registru, pro mezipaměť L1 a mezipaměť L2) kód minimalizuje požadovanou šířku pásma na každé úrovni hierarchie paměti. Bohužel, další úrovně blokování způsobí ještě více režijních nákladů na smyčku, což u některých velikostí problémů na některém hardwaru může být časově náročnější než jakékoli nedostatky ve schopnosti hardwaru streamovat data z mezipaměti L2.

Spíše než specificky naladit jednu konkrétní velikost mezipaměti, jako v prvním příkladu, a algoritmus bez paměti cache je navržen tak, aby využíval výhody jakékoli dostupné mezipaměti bez ohledu na její velikost. To automaticky využívá dvě nebo více úrovní hierarchie paměti, pokud jsou k dispozici. Algoritmy zapomínající na mezipaměť pro násobení matic jsou známy.

Viz také

Reference

  1. ^ Steven Muchnick; Muchnick and Associates (15. srpna 1997). Pokročilá implementace návrhu kompilátoru. Morgan Kaufmann. ISBN  978-1-55860-320-2. obklady.
  2. ^ João M.P. Cardoso; Pedro C. Diniz (2. dubna 2011). Techniky kompilace pro rekonfigurovatelné architektury. Springer Science & Business Media. ISBN  978-0-387-09671-1.

Další čtení

  1. Wolfe, M. Více iteračních vesmírných obkladů. Supercomputing'89, strany 655–664, 1989.
  2. Wolf, M. E. a Lam, M. Algoritmus optimalizace datové lokality. PLDI '91, strany 30–44, 1991.
  3. Irigoin, F. a Triolet, R. Rozdělení Supernode. POPL '88, strany 319–329, 1988.
  4. Xue, J. Loop Tiling for Parallelism. Kluwer Academic Publishers. 2000.
  5. M. S. Lam, E. E. Rothberg a M. E. Wolf. Výkon mezipaměti a optimalizace blokovaných algoritmů. Ve sborníku ze 4. mezinárodní konference o architektonické podpoře programovacích jazyků a operačních systémů, strany 63–74, duben 1991.

externí odkazy