Ampér (mikroarchitektura) - Ampere (microarchitecture)

Nvidia Ampere
Proces výroby	TSMC 7 nm (Profesionální); Samsung 8 nm (Spotřebitel);
Dějiny
Předchůdce	Turing (spotřebitel); Volta (profesionální);
Nástupce	Násypka

Ampér je kódové označení pro a grafická jednotka (GPU) mikroarchitektura vyvinutá společností Nvidia jako nástupce obou Volta a Turing architektury, oficiálně oznámeno 14. května 2020. Je pojmenováno podle francouzského matematika a fyzika André-Marie Ampère.^[1]^[2] Nvidia oznámila novou generaci Řada GeForce 30 spotřebitelské GPU na speciální akci GeForce 1. září 2020.^[3]^[4] Nvidia oznámila A100 80GB GPU na SC20 16. listopadu 2020.^[5]

Detaily

Architektonická vylepšení architektury Ampere zahrnují následující:

CUDA Compute Capability 8.0 pro A100 a 8.6 pro řada GeForce 30^[6]
TSMC je 7 nm FinFET proces pro A100
Vlastní verze Samsung je 8 nm proces (8N) pro řadu GeForce 30^[7]
Tenzorová jádra třetí generace s podporou FP16, bfloat16, TensorFloat-32 (TF32) a FP64 a zrychlení sparsity^[8]
Jádra pro sledování paprsků druhé generace; souběžné sledování paprsků, stínování a výpočet pro řadu GeForce 30
Paměť s velkou šířkou pásma 2 (HBM2) na A100 40 GB a A100 80 GB
GDDR6X paměť pro GeForce RTX 3090 a 3080
Dvojitá jádra FP32 na SM na GPU GA10x
NVLink 3.0 s propustností 50 Gbit / s na pár^[8]
PCI Express 4.0 s podporou SR-IOV (SR-IOV je vyhrazeno pouze pro A100)
Funkce virtualizace více instancí GPU (MIG) a rozdělení oddílů GPU v A100 podporující až sedm instancí
PureVideo sada funkcí K hardwarové video dekódování s AV1 hardwarové dekódování^[9] pro řadu GeForce 30 a sadu funkcí J pro A100
5 NVDEC pro A100
Přidává nové hardwarové 5jádrové jádro JPEG dekódovat (NVJPG) s YUV420, YUV422, YUV444, YUV400, RGBA. Nemělo by být zaměňováno s Nvidia NVJPEG (GPU akcelerováno knihovna pro kódování / dekódování JPEG)

Bramborové hranolky

GA100
GA102
GA104

Porovnání výpočetní kapacity: GP100 vs GV100 vs GA100^[10]

Funkce GPU	NVIDIA Tesla P100	NVIDIA Tesla V100	NVIDIA A100
Kódové označení GPU	GP100	GV100	GA100
Architektura GPU	NVIDIA Pascal	NVIDIA Volta	Ampér NVIDIA
Výpočetní schopnost	6.0	7.0	8.0
Vlákna / osnovy	32	32	32
Max Warps / SM	64	64	64
Max. Počet vláken / SM	2048	2048	2048
Max. Počet závitových bloků / SM	32	32	32
Max. 32bitové registry / SM	65536	65536	65536
Max. Počet registrací / blokování	65536	65536	65536
Max. Počet registrů / vláken	255	255	255
Maximální velikost bloku závitu	1024	1024	1024
FP32 jádra / SM	64	64	64
Poměr registrů SM k jádrům FP32	1024	1024	1024
Velikost sdílené paměti / SM	64 kB	Konfigurovatelný až do 96 kB	Konfigurovatelný až do 164 KB

Porovnání matice přesné přesnosti^[11]^[12]

	FP16	FP32	FP64	INT1 (binární)	INT4	INT8	TF32	bfloat16 (BF16)	FP16	FP32	FP64	INT1 (binární)	INT4	INT8	TF32	bfloat16 (BF16)
	Podporované základní přesnosti CUDA								Podporované přesnosti jádra tenzoru
NVIDIA Tesla P4	Ne	Ano	Ano	Ne	Ne	Ano	Ne	Ne	Ne	Ne	Ne	Ne	Ne	Ne	Ne	Ne
NVIDIA P100	Ano	Ano	Ano	Ne	Ne	Ne	Ne	Ne	Ne	Ne	Ne	Ne	Ne	Ne	Ne	Ne
NVIDIA Volta	Ano	Ano	Ano	Ne	Ne	Ano	Ne	Ne	Ano	Ne	Ne	Ne	Ne	Ne	Ne	Ne
NVIDIA Turing	Ano	Ano	Ano	Ne	Ne	Ano	Ne	Ne	Ano	Ne	Ne	Ano	Ano	Ano	Ne	Ne
NVIDIA A100	Ano	Ano	Ano	Ne	Ne	Ano	Ne	Ano	Ano	Ne	Ano	Ano	Ano	Ano	Ano	Ano

Porovnání výkonu dekódování

Souběžné proudy	Dekódování H.264 (1080p30)	Dekódování H.265 (HEVC) (1080p30)	Dekódování VP9 (1080p30)
V100	16	22	22
A100	75	157	108

Akcelerátor A100 a DGX A100

Dne 14. května 2020 byl vyhlášen a vydán akcelerátor A100 založený na ampérech.^[8] Model A100 je vybaven výkonem 19,5 teraflops výkonu FP32, 6912 jádry CUDA, 40 GB grafické paměti a šířkou pásma grafické paměti 1,6 TB / s.^[13] Akcelerátor A100 byl zpočátku k dispozici pouze ve 3. generaci DGX serveru, včetně 8 A100.^[8] Součástí DGX A100 je také 15 TB PCIe gen 4 NVMe úložný prostor,^[13] dva 64jádrové AMD Řím 7742 CPU, 1 TB RAM a Mellanox - propojené HDR InfiniBand. Počáteční cena za DGX A100 byla 199 000 $.^[8]

Porovnání akcelerátorů použitých v DGX:^[8]^[14]

Plynový pedál
A100 80 GB
A100
V100
P100

Architektura	FP32 CUDA jádra	FP64 jádra (kromě tenzoru)	INT32 jádra	Zvyšte hodiny	Paměťové hodiny	Šířka paměťové sběrnice	Šířka pásma paměti	VRAM	Single Precision	Double Precision (FP64)	INT8 (bez tenzoru)	INT8 Tenzor	INT32	FP16	Tenzor FP16	bfloat16 Tensor	TensorFloat-32 (TF32) Tenzor	Tenzor FP64	Propojit	GPU	Velikost mezipaměti L1	Velikost mezipaměti L2	Velikost matrice GPU	Počet tranzistorů	TDP	Výrobní proces
Ampér	6912	3456	6912	1410 MHz	3,2 Gbit / s HBM2	5120 bitů	2039 GB / s	80 GB	19,5 TFLOP	9,7 TFLOP	N / A	624 TOP	19,5 NEJLEPŠÍCH	78 TFLOP	312 TFLOP	312 TFLOP	156 TFLOP	19,5 TFLOP	600 GB / s	GA100	20736 kB (192 kB × 108)	40960 kB	826mm2	54,2B	400 W.	TSMC 7 nm N7
Ampér	6912	3456	6912	1410 MHz	2,4 Gbit / s HBM2	5120 bitů	1555 GB / s	40 GB	19,5 TFLOP	9,7 TFLOP	N / A	624 TOP	19,5 NEJLEPŠÍCH	78 TFLOP	312 TFLOP	312 TFLOP	156 TFLOP	19,5 TFLOP	600 GB / s	GA100	20736 kB (192 kB × 108)	40960 kB	826mm2	54,2B	400 W.	TSMC 7 nm N7
Volta	5120	2560	5120	1530 MHz	1,75 Gbit / s HBM2	4096 bitů	900 GB / s	16 GB / 32 GB	15,7 TFLOP	7,8 TFLOP	62 TOP	N / A	15,7 NEJLEPŠÍCH	31.4 TFLOPy	125 TFLOPů	N / A	N / A	N / A	300 GB / s	GV100	10240 kB (128 kB × 80)	6144 KB	815mm2	21.1B	300 W / 350 W	TSMC 12 nm FFN
Pascal	3584	1792	N / A	1480 MHz	1,4 Gbit / s HBM2	4096 bitů	720 GB / s	16 GB	10,6 TFLOP	5.3 TFLOPy	N / A	N / A	N / A	21.2 TFLOPy	N / A	N / A	N / A	N / A	160 GB / s	GP100	1344 kB (24 kB × 56)	4096 KB	610 mm2	15,3B	300 W.	TSMC 16 nm FinFET +

Produkty používající ampér

Řada GeForce 30
- GeForce RTX 3060 Ti (GA104)
- GeForce RTX 3070 (GA104)
- GeForce RTX 3080 (GA102)
- GeForce RTX 3090 (GA102)
Nvidia Quadro
- RTX A6000 (GA102)
GPU datového centra Nvidia
- Nvidia A40 (GA102)
- Nvidia A100 (GA100)
- Nvidia A100 80 GB (GA100)

Reference

^ Redakce, NVIDIA. „Nový grafický procesor NVIDIA Ampere Data Center v plné produkci“. Newsroom NVIDIA Newsroom.
^ „Architektura NVIDIA Ampere do hloubky“. Blog vývojářů NVIDIA. 14. května 2020.
^ Redakce, NVIDIA. „NVIDIA přináší vůbec největší generační skok s GPU řady GeForce RTX 30“. Newsroom NVIDIA Newsroom.
^ „NVIDIA GeForce Ultimate Countdown“. NVIDIA.
^ https://nvidianews.nvidia.com/news/nvidia-doubles-down-announces-a100-80gb-gpu-supercharging-worlds-most-powerful-gpu-for-ai-supercomputing
^ „I.7. Compute Capability 8.x“. docs.nvidia.com. Citováno 23. září 2020.
^ B., Dominik. „Stará 8nm technologie společnosti Samsung v srdci monstrózních karet NVIDIA Ampere“. SamMobile. Citováno 19. září 2020.
^ ^A ^b ^C ^d ^E ^F Smith, Ryan (14. května 2020). „NVIDIA Ampere Unleashed: NVIDIA ohlašuje novou architekturu GPU, GPU A100 a akcelerátor“. AnandTech.
^ „GPU řady GeForce RTX 30: ohlašuje novou éru video obsahu s dekódováním AV1“. NVIDIA.
^ „NVIDIA A100 Tensor Core GPU Architecture“ (PDF). www.nvidia.com. Citováno 18. září 2020.
^ „NVIDIA Tensor Cores: Všestrannost pro HPC a AI“. NVIDIA.
^ "Abstraktní". docs.nvidia.com.
^ ^A ^b Tom Warren; James Vincent (14. května 2020). „První grafická karta Ampere od společnosti Nvidia je navržena pro datová centra a AI, nikoli pro váš počítač“. The Verge.
^ „Testováno NVIDIA Tesla V100: téměř neuvěřitelný výkon GPU“. TweakTown. 17. září 2017.

externí odkazy

[1] Redakce, NVIDIA. „Nový grafický procesor NVIDIA Ampere Data Center v plné produkci“. Newsroom NVIDIA Newsroom.

[2] „Architektura NVIDIA Ampere do hloubky“. Blog vývojářů NVIDIA. 14. května 2020.

[3] Redakce, NVIDIA. „NVIDIA přináší vůbec největší generační skok s GPU řady GeForce RTX 30“. Newsroom NVIDIA Newsroom.

[4] „NVIDIA GeForce Ultimate Countdown“. NVIDIA.

[5] ttps://nvidianews.nvidia.com/news/nvidia-doubles-down-announces-a100-80gb-gpu-supercharging-worlds-most-powerful-gpu-for-ai-supercomputing

[6] „I.7. Compute Capability 8.x“. docs.nvidia.com. Citováno 23. září 2020.

[7] B., Dominik. „Stará 8nm technologie společnosti Samsung v srdci monstrózních karet NVIDIA Ampere“. SamMobile. Citováno 19. září 2020.

[anand-A100-8] A ^b ^C ^d ^E ^F Smith, Ryan (14. května 2020). „NVIDIA Ampere Unleashed: NVIDIA ohlašuje novou architekturu GPU, GPU A100 a akcelerátor“. AnandTech.

[9] „GPU řady GeForce RTX 30: ohlašuje novou éru video obsahu s dekódováním AV1“. NVIDIA.

[10] „NVIDIA A100 Tensor Core GPU Architecture“ (PDF). www.nvidia.com. Citováno 18. září 2020.

[11] „NVIDIA Tensor Cores: Všestrannost pro HPC a AI“. NVIDIA.

[12] "Abstraktní". docs.nvidia.com.

[verge-A100-13] A ^b Tom Warren; James Vincent (14. května 2020). „První grafická karta Ampere od společnosti Nvidia je navržena pro datová centra a AI, nikoli pro váš počítač“. The Verge.

[14] „Testováno NVIDIA Tesla V100: téměř neuvěřitelný výkon GPU“. TweakTown. 17. září 2017.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

Dějiny
Proces výroby	TSMC 7 nm (Profesionální) Samsung 8 nm (Spotřebitel)
Předchůdce	Turing (spotřebitel) Volta (profesionální)
Nástupce	Násypka