Rozhraní procesoru Coherent Accelerator - Coherent Accelerator Processor Interface
Rok vytvoření | 2014 |
---|---|
Vytvořil | |
Nahrazuje | |
webová stránka | opencapi |
Rozhraní procesoru Coherent Accelerator (CAPI), je vysokorychlostní standard rozšiřující sběrnice procesoru, původně navržený tak, aby byl navrstven na PCI Express, pro přímé připojení CPU externím akcelerátorům jako GPU, ASIC, FPGA nebo rychlé skladování.[1][2] Nabízí nízkou latenci, vysokou rychlost a přímé připojení k paměti mezi různými zařízeními architektury instrukční sady.
Více podrobností a dokumentace o CAPI najdete na Konsorcium OpenCAPI webové stránky a IBM Portal pro OpenPOWER.
Dějiny
Škálování výkonu tradičně spojené s Mooreův zákon - sahá až do roku 1965 - se začal zužovat kolem roku 2004 jako oba Intel Prescott architektura a IBM Mobilní procesor tlačil směrem k pracovní frekvenci 4 GHz. Zde oba projekty narazily na stěnu tepelného měřítka, přičemž problémy s extrakcí tepla spojené s dalším zvyšováním provozní frekvence převážně převažovaly nad zisky z kratších dob cyklu.
Během desetiletí, které následovalo, několik komerčních produktů CPU překročilo 4 GHz, přičemž většina vylepšení výkonu nyní pochází z postupně vylepšených mikroarchitektur, lepší integrace systémů a vyšší výpočetní hustoty - to do značné míry v podobě zabalení většího počtu nezávislých jader na stejná kostka, často u výdaje maximální provozní frekvence (24jádrový procesor Intel Xeon E7-8890 z června 2016 má základní pracovní frekvenci pouhých 2,2 GHz, aby fungoval v rámci omezení spotřeby energie a chlazení s jednou zásuvkou 165 W).
Tam, kde byly realizovány velké výkonnostní zisky, to bylo často spojováno se stále specializovanějšími výpočetními jednotkami, jako jsou jednotky GPU přidané do matrice procesoru nebo externí akcelerátory založené na GPU nebo FPGA. V mnoha aplikacích se akcelerátory potýkají s omezeními výkonu propojení (šířka pásma a latence) nebo s omezeními kvůli architektuře propojení (například s chybějící koherencí paměti). Zejména v datovém centru se zlepšení propojení stalo prvořadým při přechodu k heterogenní architektuře, ve které se hardware stále více přizpůsobuje konkrétním výpočetním úlohám.
CAPI byl vyvinut s cílem umožnit počítačům snadnější a efektivnější připojení specializovaných akcelerátorů. Paměť náročné a výpočetní náročné práce jako násobení matic hluboko neuronové sítě lze vyložit na platformy podporované CAPI.[3] Byl navržen společností IBM pro použití ve svém SÍLA8 založené systémy, které přišly na trh v roce 2014. IBM a několik dalších společností současně založilo OpenPOWER Foundation vybudovat kolem sebe ekosystém NAPÁJENÍ založené na technologiích, včetně CAPI. V říjnu 2016 založilo několik partnerů OpenPOWER Konsorcium OpenCAPI společně s designérem GPU a CPU AMD a návrháři systémů Dell EMC a Hewlett Packard Enterprise šířit technologii nad rámec OpenPOWER a IBM.[4]
Implementace
CAPI
CAPI je implementováno jako funkční jednotka uvnitř CPU, nazývaná Proxy Coherent Accelerator Processor Proxy (CAPP) s odpovídající jednotkou na akcelerátoru s názvem Power Service Layer (PSL). Jednotky CAPP a PSL fungují jako adresář mezipaměti, takže připojené zařízení a CPU mohou sdílet stejný koherentní paměťový prostor a z akcelerátoru se stává Accelerator Function Unit (AFU), rovnocenný s jinými funkčními jednotkami integrovanými v CPU.[5][6]
Protože CPU a AFU sdílejí stejný paměťový prostor, lze dosáhnout nízké latence a vysokých rychlostí, protože CPU nemusí provádět překlady paměti a přesouvání paměti mezi hlavní pamětí CPU a paměťovými prostory akcelerátoru. Aplikace může využívat akcelerátor bez konkrétních ovladačů zařízení, protože vše je povoleno obecným rozšířením jádra CAPI v hostitelském operačním systému. CPU a PSL mohou číst a zapisovat přímo do svých pamětí a registrů, jak to vyžaduje aplikace.
CAPI
CAPI je vrstvený na PCIe Gen 3, využívající 16 linek PCIe, a je další funkcí pro sloty PCIe v systémech podporujících CAPI. Na těchto strojích jsou obvykle označeny sloty PCIe s povoleným CAPI. Jelikož na procesor POWER8 je pouze jeden CAPP, počet možných jednotek CAPI je určen počtem procesorů POWER8, bez ohledu na to, kolik slotů PCIe existuje. V některých systémech POWER8 využívá IBM dvoučipové moduly, čímž zdvojnásobuje kapacitu CAPI na patici procesoru.
Tradiční transakce mezi zařízením PCIe a CPU mohou trvat přibližně 20 000 operací, zatímco zařízení připojené k CAPI bude používat pouze přibližně 500, což výrazně sníží latenci a efektivně zvýší šířku pásma kvůli snížené režii operací.[6]
Celková šířka pásma portu CAPI je určena základní technologií PCIe 3.0 x16, která dosahuje obousměrné rychlosti asi 16 GB / s.[7]
CAPI 2
CAPI-2 je postupný vývoj technologie představené procesorem IBM POWER9.[7] Běží na vrcholu PCIe Gen 4, který efektivně zdvojnásobuje výkon na 32 GB / s. Také zavádí některé nové funkce, jako je podpora DMA a Atomics z akcelerátoru.
OpenCAPI
Technologie za OpenCAPI se řídí Konsorcium OpenCAPI, založená v říjnu 2016 AMD, Google, IBM, Mellanox a Mikron společně s partnery Nvidia, Hewlett Packard Enterprise, Dell EMC a Xilinx.[8]
OpenCAPI 3
OpenCAPI, dříve Nový CAPI nebo CAPI 3.0, není vrstvený na PCIe, a proto nebude používat sloty PCIe. V procesoru IBM SÍLA9 bude používat Bluelink 25G I / O zařízení, se kterým sdílí NVLink 2.0, vrcholící rychlostí 50 GB / s.[9] OpenCAPI nepotřebuje jednotku PSL (požadovanou pro CAPI 1 a 2) v akcelerátoru, protože není navrstvena na PCIe, ale používá vlastní transakční protokol.[10]
OpenCAPI 4
Plánováno pro budoucí čip po všeobecné dostupnosti POWER9.[11]
Sériově připojená paměť
Technologie mikročipů Paměť SMC 1000 OpenCapi je popsána jako „další postup na trhu s využitím sériově připojené paměti“.[12]
Viz také
Reference
- ^ Agam Shah (17. prosince 2014). „Nový Power8 od IBM zdvojnásobuje výkon čipu Watson“. PC svět. Citováno 17. prosince 2014.
- ^ „Procesor IBM Power8 podrobně - funkce 22nm design s 12 jádry, 96 MB mezipaměti eDRAM L3 a rychlostí 4 GHz“. WCCFtech. Citováno 17. prosince 2014.
- ^ Md Syadus Sefat, Semih Aslan, Jeffrey W Kellington, Apan Qasem (03.10.2019). „Zrychlení hotspotů v hlubokých neuronových sítích na FPGA založeném na CAPI“. IEEE.CS1 maint: více jmen: seznam autorů (odkaz)
- ^ Odhalení OpenCAPI: AMD, IBM, Google, Xilinx, Micron a Mellanox se spojily v éře heterogenní výpočetní techniky
- ^ Rozhraní procesoru Coherent Accelerator (CAPI) pro systémy POWER8 - bílá kniha
- ^ A b Překonfigurovatelné akcelerátory pro velká data a cloud - RAW 2016
- ^ A b Otevření sběrnice serveru pro koherentní zrychlení
- ^ Tech Leaders Unite to Enable New Cloud Datacenter Server Designs for Big Data, Machine Learning, Analytics, and other Emerging Workloads
- ^ Big Blue se zaměřuje na oblohu silou 9
- ^ OpenCAPI přebírá PCIe a slibuje 10x vylepšení
- ^ Stuecheli, Jeff (26. ledna 2017). „Webinar POWER9“ (Záznam videa / diapozitivy). Virtuální skupina uživatelů AIX. - Snímky (PDF) - Stránka AIX VUG má odkazy na snímky a video
- ^ Patrick Kennedy (5. srpna 2019), Microchip SMC 1000 pro budoucnost sériově připojené paměti, Servethehome