Implementace buněčného mikroprocesoru - Cell microprocessor implementations
![]() | tento článek poskytuje nedostatečný kontext pro ty, kteří danému tématu nejsou obeznámeni.Leden 2020) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
První reklama Mikroprocesor buňky, Cell BE, byl navržen pro Sony PlayStation 3. IBM navrhla PowerXCell 8i pro použití v Roadrunner superpočítač.[1]
Implementace
První vydání buňky na 90 nm CMOS
IBM v tomto procesu zveřejnila informace týkající se dvou různých verzí buňky, která byla označena jako první ukázka technického řešení DD1a označená vylepšená verze DD2 určené k výrobě.
Označení | Die oblast | Nejprve zveřejněno | Zvýšení |
---|---|---|---|
DD1 | 221 mm2 | ISSCC 2005 | |
DD2 | 235 mm2 | Cool Chips duben 2005 | Vylepšené jádro OOP |
Hlavním vylepšením v DD2 bylo malé prodloužení matrice pro uložení většího jádra PPE, o kterém se uvádí, že „obsahuje více zdrojů pro provádění SIMD / vektorů“[1]Některé předběžné informace vydané společností IBM odkazují na variantu DD1. Výsledkem je, že některé rané žurnalistické účty schopností buňky se nyní liší od produkčního hardwaru.
Buňkový půdorys
Powerpointový materiál doprovázející prezentaci STI od Dr. Petera Hofstee] obsahuje fotografii přetaženého nástroje DD2 Cell s hranicemi funkčních jednotek, které jsou také titulkem, což odhaluje rozdělení křemíkové oblasti podle funkční jednotky takto:
Jednotka funkce buňky | Plocha (%) | Popis |
---|---|---|
Rozhraní XDR | 5.7 | Rozhraní do systémové paměti Rambus |
řadič paměti | 4.4 | Spravuje externí paměť a mezipaměť L2 |
512 KiB L2 cache | 10.3 | Vyrovnávací paměť pro OOP |
OOP jádro | 11.1 | Procesor PowerPC |
test | 2.0 | Nespecifikovaná „testovací a dekódovací logika“ |
EIB | 3.1 | Procesory propojující sběrnice prvků |
SPE (každá) × 8 | 6.2 | Synergický prvek pro společné zpracování |
Řadič I / O | 6.6 | Externí I / O logika |
Rambus FlexIO | 5.7 | Externí signalizace pro I / O piny |
SPE půdorys
Další podrobnosti týkající se interní implementace SPE zveřejnili inženýři IBM, včetně Peter Hofstee, Hlavní architekt IBM pro prvek synergického zpracování, ve vědecké publikaci IEEE.[2]
Tento dokument obsahuje fotografii SPE 2,54 × 5,81 mm, implementovanou v 90 nm SOI. V této technologii obsahuje SPE 21 milionů tranzistorů, z nichž 14 milionů je obsaženo v polích (termín pravděpodobně označuje registrační soubory a místní úložiště) a 7 milionů tranzistorů je logických. Tato fotografie je přetažena hranicemi funkčních jednotek, které jsou také titulkem, což odhaluje rozdělení oblasti křemíku podle funkční jednotky následovně:
Funkční jednotka SPU | Plocha (%) | Popis | Trubka |
---|---|---|---|
jediná přesnost | 10.0 | jedna přesná jednotka provádění FP | dokonce |
dvojnásobná přesnost | 4.4 | výkonná jednotka s dvojitou přesností FP | dokonce |
jednoduché pevné | 3.25 | jednotka s pevným bodem | dokonce |
kontrola vydání | 2.5 | krmí prováděcí jednotky | |
vpřed makro | 3.75 | krmí prováděcí jednotky | |
GPR | 6.25 | univerzální registrační soubor | |
obměňovat | 3.25 | permutační exekuční jednotka | zvláštní |
větev | 2.5 | pobočková exekuční jednotka | zvláštní |
kanál | 6.75 | kanálové rozhraní (tři samostatné bloky) | zvláštní |
LS0 – LS3 | 30.0 | čtyři 64 KiB bloky místního obchodu | zvláštní |
MMU | 4.75 | jednotka správy paměti | |
DMA | 7.5 | jednotka přímého přístupu do paměti | |
BIU | 9.0 | jednotka rozhraní sběrnice | |
RTB | 2.5 | integrovaný testovací blok pole (ABIST) | |
ATO | 1.6 | atomová jednotka pro atomové aktualizace DMA | |
HB | 0.5 | obskurní |
Pochopení odesílacích kanálů je důležité k napsání efektivního kódu. V architektuře SPU lze odeslat (spustit) dvě instrukce v každém hodinovém cyklu pomocí určených expedičních kanálů dokonce a zvláštní. Dvě trubky poskytují různé prováděcí jednotky, jak je uvedeno v tabulce výše. Jak to IBM rozdělilo, většina aritmetických instrukcí se provádí na dokonce potrubí, zatímco většina paměťových instrukcí se spouští na zvláštní trubka. Jednotka permutace je úzce spojena s paměťovými instrukcemi, protože slouží k zabalení a vybalení datových struktur umístěných v paměti do formátu SIMD s více operandy, který SPU počítá nejefektivněji.
Na rozdíl od jiných návrhů procesorů poskytujících odlišné prováděcí kanály může každá instrukce SPU odeslat pouze v jednom určeném kanálu. V konkurenčních vzorech může být navrženo více než jedno potrubí, které zvládne extrémně běžné pokyny, jako je přidat, což umožňuje současné provádění více dvou nebo více těchto pokynů, což může sloužit ke zvýšení efektivity nevyvážených pracovních toků. V souladu s extrémně spartánskou filozofií designu není pro SPU několikanásobně zajištěno provádění jednotek.
Porozumění omezením restriktivního návrhu dvou kanálů je jedním z klíčových konceptů, které musí programátor pochopit, aby mohl napsat efektivní SPU kód na nejnižší úrovni abstrakce. U programátorů pracujících na vyšších úrovních abstrakce dobrý kompilátor automaticky vyváží souběžnost potrubí, kde je to možné.
Síla a výkon SPE
Jak bylo testováno společností IBM při náročném zatížení transformací a osvětlením [průměrné IPC 1,4], je výkonnostní profil této implementace pro jeden procesor SPU kvalifikován takto:
Napětí (V) | Frekvence (GHz) | Výkon (W) | Die temp. (° C) |
---|---|---|---|
0.9 | 2.0 | 1 | 25 |
0.9 | 3.0 | 2 | 27 |
1.0 | 3.8 | 3 | 31 |
1.1 | 4.0 | 4 | 38 |
1.2 | 4.4 | 7 | 47 |
1.3 | 5.0 | 11 | 63 |
Položka pro provoz 2,0 GHz při 0,9 V představuje konfiguraci s nízkou spotřebou. Další položky ukazují špičkovou stabilní pracovní frekvenci dosaženou při každém přírůstku napětí. Obecně platí, že v obvodech CMOS stoupá ztrátový výkon v hrubém vztahu k V.2F, druhá mocnina napětí krát provozní frekvence.
Ačkoli měření výkonu poskytovaná autory IBM postrádají přesnost, vyjadřují dobrý pocit z celkového trendu. Tato čísla ukazují, že součást je schopna běžet nad 5 GHz za podmínek zkušební laboratoře - i když při teplotě matrice příliš vysoké pro standardní komerční konfigurace. První komerčně dostupné procesory Cell byly společností IBM hodnoceny na 3,2 GHz, což je provozní rychlost, kde tento graf naznačuje teplotu matrice SPU v pohodlné blízkosti 30 stupňů.
Všimněte si, že jeden SPU představuje 6% oblasti matrice procesoru buňky. Údaje o výkonu uvedené v tabulce výše představují jen malou část celkového rozpočtu na energii.
IBM veřejně oznámila svůj záměr implementovat Cell na budoucí technologii pod uzlem 90 nm za účelem zlepšení spotřeby energie. Snížená spotřeba energie by mohla potenciálně umožnit zvýšení stávajícího designu na 5 GHz nebo vyšší, aniž by došlo k překročení tepelných omezení stávajících produktů.
Buňka při 65 nm
První zmenšení buňky bylo v 65 nm uzlu. Redukce na 65 nm snížila stávajících 230 mm2 matrice založená na procesu 90 nm na polovinu své současné velikosti, asi 120 mm2, což také výrazně snižuje výrobní náklady IBM.
Dne 12. března 2007 společnost IBM oznámila, že ve výrobě East Fishkill začala vyrábět 65 nm buňky. Tam vyrobené čipy jsou zjevně pouze pro vlastní buňku IBM čepel servery, které jako první získaly 65 nm buňky. Společnost Sony představila v listopadu 2007 třetí generaci PS3, model s kapacitou 40 GB, který nebyl kompatibilní s PS2 potvrzeno použít 65 nm buňku. Díky zmenšenému článku byla snížena spotřeba energie z 200 W do 135 W.
Zpočátku se vědělo jen to, že 65 nm-buňky taktují až na 6 GHz a běží na 1,3 Napětí jádra V, as prokázáno na ISSCC 2007. To by čipu poskytlo teoretický špičkový výkon 384 GFLOPS s přesností na čtvrtinu FP8 (48 GFLOPs v duální přesnosti FP64), což je významné zlepšení oproti 204.8 Vrchol GFLOPS (25.6 GFLOPs FP64 dual precision), který by 90 nm 3,2 GHz Cell mohl poskytnout s 8 aktivními SPU. IBM dále oznámila, že implementovala nové funkce pro úsporu energie a duální napájení pro pole SRAM. Tato verze ještě nebyla dlouho zmiňovanou „Cell +“ s vylepšeným výkonem s plovoucí desetinnou čárkou Double Precision, která poprvé spatřila světlo světa v polovině roku 2008 Roadrunner superpočítač ve formě QS22 Čepele PowerXCell. Ačkoli IBM hovořila a dokonce dříve ukazovala vyšší taktované buňky, rychlost hodin zůstala konstantní na 3,2 GHz, a to i pro Roadrunner „Cell +“ s povolenou dvojitou přesností. Udržováním konstantní rychlosti hodin se IBM místo toho rozhodla snížit spotřebu energie. Klastry PowerXCell dokonce i nejlepší IBM Modrý gen klastry (371 MFLOPS / watt), které jsou již mnohem energeticky účinnější než klastry složené z konvenčních procesorů (265 MFLOPS / watt a nižší).
Budoucí vydání v CMOS
Vyhlídky na 45 nm
Na ISSCC 2008, IBM oznámil Buňka v uzlu 45 nm. IBM uvedla, že by při stejné hodinové rychlosti vyžadovala o 40 procent méně energie než její předchůdce 65 nm a oblast matrice by se zmenšila o 34 procent. 45 nm buňka vyžaduje méně chlazení a umožňuje levnější výrobu, a to i díky použití mnohem menšího chladiče. Hromadná výroba byla původně zahájena na začátku roku 2008, ale byla přesunuta do počátkem roku 2009.
Vyhlídky nad 45 nm
Sony, IBM a Toshiba oznámil zahájit práci na buňce o velikosti pouhých 32 nm v lednu 2006, ale jelikož se proces zmenšování v továrnách obvykle odehrává v globálním měřítku, a nikoli v individuálním měřítku, šlo pouze o veřejný závazek přivést Cell na 32 nm.
Reference
- ^ Kevin J. Barker, Kei Davis, Adolfy Hoisie, Darren J. Kerbyson, Mike Lang, Scott Pakin, Jose C. Sancho.„Vstup do éry Petaflop: architektura a výkon Roadrunneru“.