Přímý přístup do paměti - Direct memory access

Přímý přístup do paměti (DMA) je vlastnost počítačových systémů, která umožňuje určitým hardwarovým subsystémům přístup k hlavnímu systému Paměť (paměť s náhodným přístupem ) nezávisle na centrální procesorová jednotka (PROCESOR).

Bez DMA, když CPU používá naprogramovaný vstup / výstup, je obvykle plně obsazeno po celou dobu operace čtení nebo zápisu, a proto není k dispozici pro provádění dalších prací. U DMA CPU nejprve zahájí přenos, poté provádí další operace, zatímco probíhá přenos, a nakonec obdrží přerušit po dokončení operace z řadiče DMA (DMAC). Tato funkce je užitečná kdykoli, když CPU nemůže držet krok s rychlostí přenosu dat, nebo když CPU potřebuje provést práci při čekání na relativně pomalý I / O datový přenos. Mnoho hardwarových systémů používá DMA, včetně disková jednotka řadiče, grafické karty, síťové karty a zvukové karty. DMA se také používá pro přenos dat uvnitř čipu v vícejádrové procesory. Počítače, které mají kanály DMA, mohou přenášet data do a ze zařízení s mnohem menší režií CPU než počítače bez kanálů DMA. Podobně, a zpracovatelský prvek uvnitř vícejádrového procesoru může přenášet data do a z místní paměti, aniž by zabírala čas procesoru, což umožňuje paralelní výpočet a přenos dat.

DMA lze také použít pro kopírování nebo přesun dat v paměti „z paměti do paměti“. DMA může uvolnit drahé operace s pamětí, jako jsou velké kopie nebo rozptýlit se operace, od CPU po vyhrazený DMA engine. Příkladem implementace je Technologie I / O Acceleration. DMA je předmětem zájmu síť na čipu a výpočet v paměti architektury.

Zásady

Třetí strana

Standardní DMA, nazývaný také DMA jiného výrobce, používá řadič DMA. Může generovat řadič DMA adresy paměti a zahájit cykly čtení nebo zápisu do paměti. Obsahuje několik hardwarové registry které může CPU zapisovat a číst. Patří mezi ně registr adres paměti, registr počtu bytů a jeden nebo více řídicích registrů. V závislosti na tom, jaké funkce řadič DMA poskytuje, mohou tyto řídicí registry specifikovat nějakou kombinaci zdroje, cíle, směru přenosu (čtení ze I / O zařízení nebo zápis do I / O zařízení), velikost přenosová jednotka a / nebo počet bajtů k přenosu v jedné dávce.[1]

Chcete-li provést vstup, výstup nebo operaci paměti do paměti, hostitelský procesor inicializuje řadič DMA s počtem počtu slova k přenosu a adresu paměti, kterou chcete použít. CPU poté přikáže perifernímu zařízení zahájit datový přenos. Řadič DMA poté poskytuje adresy a ovládací linky pro čtení / zápis do systémové paměti. Pokaždé, když je bajt dat připraven k přenosu mezi periferním zařízením a pamětí, řadič DMA zvýší svůj interní registr adres, dokud nebude přenesen celý blok dat.

Mastering autobusu

V mastering autobusu Systém, známý také jako systém DMA první strany, může být CPU i periferním zařízením uděleno ovládání paměťové sběrnice. Tam, kde se periferní zařízení může stát hlavní sběrnicí, může přímo zapisovat do systémové paměti bez zapojení CPU a podle potřeby poskytovat adresu paměti a řídicí signály. Musí být provedena určitá opatření, aby se procesor dostal do stavu pozastavení, aby nedocházelo ke kolizi sběrnice.

Provozní režimy

Burst režim

v Burst režim, je přenesen celý blok dat v jedné souvislé sekvenci. Jakmile je řadiči DMA udělen přístup k systémové sběrnici CPU, přenáší všechny bajty dat v datovém bloku před uvolněním kontroly systémových sběrnic zpět do CPU, ale činí CPU neaktivní po relativně dlouhou dobu. Tento režim se také nazývá „Block Transfer Mode“.

Režim krádeže cyklu

The režim krádeže cyklu se používá v systémech, ve kterých by CPU nemělo být deaktivováno po dobu potřebnou pro režimy hromadného přenosu. V režimu krádeže cyklu získá řadič DMA přístup k systémové sběrnici stejným způsobem jako v režimu série, pomocí BR (Žádost o autobus ) a BG (Bus Grant ) signály, což jsou dva signály ovládající rozhraní mezi CPU a DMA řadičem. V režimu krádeže cyklu je však po jednom bajtu přenosu dat řízení systémové sběrnice zrušeno na CPU přes BG. Poté je nepřetržitě znovu požadováno prostřednictvím BR, přičemž se na jeden požadavek přenáší jeden bajt dat, dokud nebude přenesen celý blok dat. Neustálým získáváním a uvolňováním řízení systémové sběrnice řadič DMA v podstatě prokládá instrukce a datové přenosy. CPU zpracuje instrukci, pak DMA řadič přenese jednu datovou hodnotu atd. Na jedné straně se datový blok nepřenáší tak rychle v režimu krádeže cyklu jako v režimu série, ale na druhé straně CPU není nečinný tak dlouho, jako v režimu série. Režim krádeže cyklu je užitečný pro řadiče, které sledují data v reálném čase.

Transparentní režim

Transparentní režim trvá nejvíce času na přenos bloku dat, ale je to také nejúčinnější režim z hlediska celkového výkonu systému. V transparentním režimu řadič DMA přenáší data pouze tehdy, když procesor provádí operace, které nepoužívají systémové sběrnice. Primární výhodou transparentního režimu je, že CPU nikdy nepřestane vykonávat své programy a přenos DMA je časově zdarma, zatímco nevýhodou je, že hardware musí určit, kdy CPU nepoužívá systémové sběrnice, což může být složité . Tomu se také říká „Skrytý režim přenosu dat DMA“.

Soudržnost mezipaměti

Nesoulad mezipaměti kvůli DMA

DMA může vést k soudržnost mezipaměti problémy. Představte si CPU vybavené mezipamětí a externí pamětí, ke kterému lze přistupovat přímo ze zařízení pomocí DMA. Když CPU přistupuje k umístění X v paměti, aktuální hodnota se uloží do mezipaměti. Následné operace na X aktualizují kopii X v mezipaměti, ale ne verzi X pro externí paměť, za předpokladu, že mezipaměť pro zpětný zápis. Pokud mezipaměť není vyprázdněna do paměti před dalším pokusem zařízení o přístup k X, zařízení obdrží zastaralou hodnotu X.

Podobně, pokud kopie X v mezipaměti není zneplatněna, když zařízení zapíše novou hodnotu do paměti, CPU bude pracovat na zastaralé hodnotě X.

Tento problém lze při návrhu systému řešit jedním ze dvou způsobů: Cache-koherentní systémy implementují metodu v hardwaru s názvem autobus snooping, přičemž externí zápisy jsou signalizovány do řadiče mezipaměti, který poté provede a zneplatnění mezipaměti pro zápisy DMA nebo vyprázdnění mezipaměti pro čtení DMA. Nekoherentní systémy to nechávají na software, kde OS musí zajistit, aby byly řádky mezipaměti vyprázdněny před zahájením odchozího přenosu DMA a zneplatněny před přístupem k rozsahu paměti ovlivněnému příchozím přenosem DMA. Operační systém se musí ujistit, že mezitím do rozsahu paměti nepřistoupí žádná běžící vlákna. Druhý přístup zavádí určitou režii operace DMA, protože většina hardwaru vyžaduje smyčku k zneplatnění každého řádku mezipaměti samostatně.

Hybridy také existují, kde je sekundární mezipaměť L2 koherentní, zatímco mezipaměť L1 (obvykle na CPU) je spravována softwarem.

Příklady

JE

V originále IBM PC (a následné kroky PC / XT ), byl jen jeden Intel 8237 Řadič DMA schopný poskytovat čtyři kanály DMA (číslované 0–3). Tyto kanály DMA prováděly 8bitové přenosy (protože 8237 bylo 8bitové zařízení, ideálně přizpůsobené počítači i8088 CPU / bus architektura), mohl oslovit pouze první (i8086 / 8088 standard) megabajt RAM a byly omezeny na řešení jediného 64kB segmenty v tomto prostoru (ačkoli zdrojový a cílový kanál by mohly oslovit různé segmenty). Řadič lze navíc použít pouze pro přenosy do, z / mezi I / O zařízení rozšiřující sběrnice, protože 8237 mohl provádět pouze přenosy paměti do paměti pomocí kanálů 0 a 1, z nichž kanál 0 v PC (& XT ) byl věnován dynamická paměť Obnovit. To zabrání tomu, aby byl používán jako univerzální “Blitter ", a následně blokovat pohyby paměti v PC, omezené obecnou rychlostí PIO CPU, byly velmi pomalé.

S IBM PC / AT, vylepšený AT Bus (známější retronymed jako JE, nebo „Industry Standard Architecture“) přidal druhý řadič 8237 DMA, aby poskytl další tři, a jak zdůrazňují střety zdrojů s další rozšiřitelností XT oproti původnímu PC, velmi potřebné kanály (5–7; kanál 4 se používá jako kaskáda k první 8237). Registr stránek byl také znovu zapojen, aby adresoval plný adresní prostor 16 MB paměti procesoru 80286. Tento druhý řadič byl také integrován způsobem schopným provádět 16bitové přenosy, když se jako zdroj dat a / nebo cíl použije I / O zařízení (protože ve skutečnosti zpracovává pouze data sama pro přenosy z paměti do paměti, jinak jednoduše ovládání tok dat mezi ostatními částmi 16bitového systému, čímž se jeho vlastní šířka datové sběrnice stává relativně nepodstatnou), čímž se zdvojnásobí datová propustnost při použití horních tří kanálů. Kvůli kompatibilitě byly dolní čtyři kanály DMA stále omezeny pouze na 8bitové přenosy a zatímco přenosy z paměti do paměti byly nyní technicky možné kvůli uvolnění kanálu 0 z nutnosti zpracovávat aktualizaci DRAM, z praktického hlediska měly omezenou hodnotu kvůli následné nízké propustnosti řadiče ve srovnání s tím, čeho by nyní CPU mohlo dosáhnout (tj. 16bitový, optimalizovanější 80286 běží na minimálně 6 MHz, oproti 8bitovému řadiči uzamčenému na 4,77 MHz). V obou případech 64 kB hranice segmentu problém přetrvával, přičemž jednotlivé převody nebyly schopny překonávat segmenty (místo toho se „zalomily“ na začátek stejného segmentu) ani v 16bitovém režimu, i když to byl v praxi spíše problém složitosti programování než výkonu, protože přetrvávající potřeba DRAM Obnovení (jakkoli zpracováno) k monopolizaci autobusu přibližně každých 15μs zabráněno použití velkých (a rychlých, ale nepřerušitelných) přenosů bloků.

Vzhledem k jejich zaostávajícímu výkonu (1.6MB / s maximální schopnost přenosu 8 bitů na 5 MHz,[2] ale ne více než 0,9 MB / s v PC / XT a 1,6 MB / s pro 16bitové přenosy v AT kvůli režii sběrnice ISA a jinému rušení, jako jsou přerušení obnovy paměti[3]) a nedostupnost jakýchkoli rychlostních stupňů, které by umožňovaly instalaci přímých náhrad fungujících při rychlostech vyšších, než jsou standardní hodiny 4,77 MHz původního počítače, jsou tato zařízení od konce 80. let fakticky zastaralá. Zejména příchod 80386 procesor v roce 1985 a jeho kapacita pro 32bitové přenosy (i když velké zlepšení v efektivitě výpočtu adres a blokové paměti se pohybuje v procesorech Intel po 80186 znamenalo, že PIO se přenáší i 16bitovou sběrnicí 286 a 386SX 8237), stejně jako vývoj dalšího vývoje (EISA ) nebo náhrady za (MCA, VLB a PCI ) sběrnice „ISA“ s vlastními mnohem výkonnějšími subsystémy DMA (až do maxima 33 MB / s pro EISA, 40 MB / s MCA, obvykle 133 MB / s VLB / PCI) způsobila, že původní řadiče DMA vypadají více výkonného mlýnského kamene než posilovače. Byly podporovány v rozsahu, v jakém jsou vyžadovány k podpoře integrovaného staršího hardwaru PC na pozdějších počítačích. Kusy staršího hardwaru, které nadále používaly ISA DMA poté, co se 32bitové rozšiřující sběrnice staly běžnými, byly Sound Blaster karty, které potřebovaly zachovat plnou kompatibilitu hardwaru se standardem Sound Blaster; a Super I / O zařízení na základních deskách, která často integrovala vestavěný disketa kontrolor, an IrDA infračervený ovladač, když je vybrán režim FIR (rychlý infračervený), a IEEE 1284 řadič paralelního portu, když je vybrán režim ECP. V případech, kdy byly stále použity původní 8237s nebo přímé kompatibilní, může být přenos do nebo z těchto zařízení stále omezen na prvních 16 MB hlavní RAM bez ohledu na skutečný adresní prostor systému nebo množství nainstalované paměti.

Každý kanál DMA má 16bitový registr adres a s ním spojený 16bitový registr počtu. Pro zahájení přenosu dat nastaví ovladač zařízení adresu kanálu DMA a registry počtu spolu se směrem přenosu dat, čtení nebo zápisu. Poté instruuje hardware DMA, aby zahájil přenos. Po dokončení přenosu zařízení přerušení CPU.

Scatter-collect nebo vektorový I / O DMA umožňuje přenos dat do az více paměťových oblastí v jedné transakci DMA. Je to ekvivalentní zřetězení několika jednoduchých požadavků DMA. Motivací je vyložit více vstup výstup úlohy přerušení a kopírování dat z CPU.

DRQ znamená Žádost o údaje; DACK pro Potvrzení údajů. Tyto symboly, viditelné na hardwaru schémata počítačových systémů s funkcí DMA představují elektronické signalizační linky mezi CPU a řadičem DMA. Každý kanál DMA má jednu linku požadavku a jednu potvrzovací linku. Zařízení, které používá DMA, musí být nakonfigurováno tak, aby používalo obě linky přiřazeného kanálu DMA.

16bitové ISA povolené mastering sběrnice.[4]

Standardní přiřazení ISA DMA:

  1. DOUŠEK Obnovit (zastaralé),
  2. Uživatelský hardware, obvykle 8bitová zvuková karta DMA
  3. Disketa ovladač,
  4. Pevný disk (zastaral PIO režimy a nahrazeno UDMA režimy), paralelní port (port schopný ECP), některé klony SoundBlaster jako OPTi 928.
  5. Kaskádový řadič PC / XT DMA,
  6. Pevný disk (PS / 2 pouze), uživatelský hardware pro všechny ostatní, obvykle 16bitová DMA zvuková karta
  7. Uživatelský hardware.
  8. Uživatelský hardware.

PCI

A PCI architektura na rozdíl od ISA nemá žádný centrální řadič DMA. Místo toho může jakákoli komponenta PCI požadovat řízení sběrnice ("stát se" pán autobusu ") a požadavek na čtení a zápis do systémové paměti. Přesněji řečeno, komponenta PCI požaduje vlastnictví sběrnice z řadiče sběrnice PCI, což rozsuzovat pokud několik zařízení požaduje vlastnictví sběrnice současně, protože může existovat pouze jeden master sběrnice současně. Když je komponentě uděleno vlastnictví, bude vydávat běžné příkazy pro čtení a zápis na sběrnici PCI, které budou nárokovány řadičem sběrnice a budou předány do řadiče paměti pomocí schématu, které je specifické pro každou čipovou sadu.

Jako příklad lze uvést na AMD Zásuvka AM2 PC na bázi Southbridge předá transakce do řadič paměti (který je integrován do procesoru CPU) pomocí HyperTransport, což je zase převede na DDR2 operace a odesílat je na paměťovou sběrnici DDR2. Výsledkem je, že do přenosu PCI DMA je zahrnuto mnoho kroků; to však představuje malý problém, protože samotné zařízení PCI nebo sběrnice PCI jsou o řád pomalejší než ostatní komponenty (viz seznam šířek pásma zařízení ).

Moderní procesor x86 může využívat více než 4 GB paměti s využitím Rozšíření fyzické adresy (PAE), 36bitový režim adresování nebo nativní 64bitový režim x86-64 CPU. V takovém případě zařízení využívající DMA s 32bitovou adresovou sběrnicí není schopno adresovat paměť nad řádkem 4 GB. Nové Zdvojnásobení cyklu adres (DAC) mechanismus, pokud je implementován jak na sběrnici PCI, tak na samotném zařízení,[5] umožňuje 64bitové adresování DMA. V opačném případě by operační systém musel problém vyřešit pomocí nákladného použití dvojité nárazníky (Nomenklatura DOS / Windows) známá také jako nárazové nárazníky (FreeBSD / Linux), nebo by mohl použít IOMMU poskytovat služby překladu adres, pokud je přítomen.

I / OAT

Jako příklad DMA enginu zabudovaného do univerzálního CPU, novější Intel Xeon Čipové sady obsahují tzv. DMA engine Technologie I / O Acceleration (I / OAT), který může uvolnit kopírování paměti z hlavního CPU a uvolnit jej pro další práci.[6] V roce 2006 společnost Intel Linuxové jádro vývojář Andrew Grover provedl měřítka pomocí I / OAT k odlehčení kopií síťového provozu a nenašel více než 10% zlepšení využití CPU s přijímáním pracovních zátěží.[7]

DDIO

V Intel byla zavedena další vylepšení mechanismu DMA zaměřená na výkon Xeon E5 procesory s jejich Přímá data I / O (DDIO), která umožňuje „oknům“ DMA pobývat uvnitř Mezipaměti CPU místo systémové RAM. Výsledkem je, že mezipaměti CPU se používají jako primární zdroj a cíl pro I / O, což umožňuje řadiče síťového rozhraní (NIC) do DMA přímo do mezipaměti poslední úrovně místních procesorů a vyhněte se nákladnému načítání I / O dat ze systémové paměti RAM. Výsledkem je, že DDIO snižuje celkovou latenci zpracování I / O, umožňuje, aby se zpracování I / O provádělo zcela v mezipaměti, brání tomu, aby se z dostupné šířky pásma / latence RAM stala překážka výkonu, a může snížit spotřebu energie povolením RAM zůstane déle ve stavu nízké spotřeby.[8][9][10][11]

AHB

v systémy na čipu a vestavěné systémy, typická infrastruktura systémové sběrnice je komplexní sběrnice na čipu, jako je Vysoce výkonná sběrnice AMBA. AMBA definuje dva druhy AHB komponent: master a slave. Rozhraní slave je podobné naprogramovaným I / O, pomocí kterých software (běžící na integrovaném CPU, např. PAŽE ) může zapisovat / číst I / O registry nebo (méně často) bloky lokální paměti uvnitř zařízení. Hlavní rozhraní může zařízení používat k provádění transakcí DMA do / ze systémové paměti bez silného načítání CPU.

Zařízení s velkou šířkou pásma, jako jsou síťové řadiče, které potřebují přenést obrovské množství dat do / ze systémové paměti, proto budou mít dva adaptéry rozhraní k AHB: hlavní a podřízené rozhraní. Je to proto, že on-chip autobusy jako AHB nepodporují tri-konstatování sběrnice nebo střídání směru jakékoli linky na sběrnici. Stejně jako PCI není vyžadován žádný centrální řadič DMA, protože DMA je sběrnice, ale rozhodce je vyžadováno v případě více masterů přítomných v systému.

Interně je v zařízení obvykle přítomen vícekanálový modul DMA, který provádí více souběžně rozptýlit se operace naprogramované softwarem.

Buňka

Jako příklad použití DMA v a multiprocesorový systém na čipu, IBM / Sony / Toshiba Mobilní procesor obsahuje DMA engine pro každý ze svých 9 procesorových prvků, včetně jednoho Power procesorového prvku (PPE) a osmi synergických procesorových prvků (SPE). Vzhledem k tomu, že instrukce pro načítání / ukládání SPE mohou číst / zapisovat pouze svou vlastní lokální paměť, SPE zcela závisí na DMA pro přenos dat do az hlavní paměti a lokálních pamětí jiných SPE. DMA tedy funguje jako primární prostředek přenosu dat mezi jádry uvnitř procesor (na rozdíl od architektur CMP koherentních CMP, jako je například Intel zrušen univerzální GPU, Larrabee ).

DMA v buňce je plně koherentní mezipaměť (Všimněte si však, že místní úložiště SPE provozované DMA nepůsobí jako globálně koherentní mezipaměť v standardní smysl ). Při čtení („get“) i zápisu („put“) může příkaz DMA přenést buď oblast jednoho bloku o velikosti až 16 KB, nebo seznam 2 až 2048 takových bloků. Příkaz DMA se vydává zadáním dvojice místní adresy a vzdálené adresy: například když program SPE vydá příkaz put DMA, určí adresu své vlastní lokální paměti jako zdroj a adresu virtuální paměti (ukazuje na buď hlavní paměť nebo lokální paměť jiného SPE) jako cíl spolu s velikostí bloku. Podle experimentu dosahuje efektivní špičkový výkon DMA v buňce (3 GHz, při jednotném provozu) 200 GB za sekundu.[12]

Potrubí

Procesory s paměť zápisníku a DMA (např procesory digitálního signálu a Buňka procesor) může těžit ze softwarového překrývání operací paměti DMA se zpracováním prostřednictvím dvojité ukládání do vyrovnávací paměti nebo multibuffering. Například paměť na čipu je rozdělena do dvou vyrovnávacích pamětí; procesor může pracovat na datech v jednom, zatímco DMA engine načítá a ukládá data do druhého. To umožňuje systému se vyhnout latence paměti a využívat hromadné převody, na úkor potřeby předvídatelného vzor přístupu do paměti.[Citace je zapotřebí ]

Viz také

Poznámky

  1. ^ Osborne, Adam (1980). Úvod do mikropočítačů: Svazek 1: Základní pojmy (2. vyd.). Osborne McGraw Hill. str.5–64 až 5–93. ISBN  0931988349.
  2. ^ „Datový list Intel 8237 & 8237-2“ (PDF). Podřízený web JKbox RC702. Citováno 20. dubna 2019.
  3. ^ „Základy DMA na různých platformách PC, National Instruments, strany 6 a 7“. Universidad Nacional de la Plata, Argentina. Citováno 20. dubna 2019.
  4. ^ Intel Corp. (2003-04-25), „Kapitola 12: Sběrnice ISA“ (PDF), PC architektura pro techniky: úroveň 1, vyvoláno 2015-01-27
  5. ^ „Rozšíření fyzické adresy - paměť PAE a Windows“. Microsoft Windows Hardware Development Central. 2005. Citováno 2008-04-07.
  6. ^ Corbet, Jonathan (8. prosince 2005). "Paměťové kopie v hardwaru". LWN.net.
  7. ^ Grover, Andrew (06.06.2006). „I / OAT na LinuxNet wiki“. Přehled I / OAT v systému Linux s odkazy na několik srovnávacích testů. Citováno 2006-12-12.
  8. ^ „Intel Data Direct I / O (Intel DDIO): Frequently Asked Questions“ (PDF). Intel. Březen 2012. Citováno 2015-10-11.
  9. ^ Rashid Khan (2015-09-29). „Posouvání mezí síťového propojení jádra“. redhat.com. Citováno 2015-10-11.
  10. ^ „Dosažení nejnižších latencí při nejvyšších rychlostech zpráv s procesorem Intel Xeon E5-2600 a serverovým adaptérem Solarflare SFN6122F 10 GbE“ (PDF). solarflare.com. 2012-06-07. Citováno 2015-10-11.
  11. ^ Alexander Duyck (2015-08-19). „Posouvání mezí síťového propojení jádra“ (PDF). linuxfoundation.org. p. 5. Citováno 2015-10-11.
  12. ^ Kistler, Michael (květen 2006). „Síťová multiprocesorová komunikační síť“. Rozsáhlé měřítka výkonu DMA v Cell Broadband Engine.

Reference

externí odkazy