Ampér (mikroarchitektura) - Ampere (microarchitecture)
Proces výroby | |
---|---|
Dějiny | |
Předchůdce | |
Nástupce | Násypka |
Ampér je kódové označení pro a grafická jednotka (GPU) mikroarchitektura vyvinutá společností Nvidia jako nástupce obou Volta a Turing architektury, oficiálně oznámeno 14. května 2020. Je pojmenováno podle francouzského matematika a fyzika André-Marie Ampère.[1][2] Nvidia oznámila novou generaci Řada GeForce 30 spotřebitelské GPU na speciální akci GeForce 1. září 2020.[3][4] Nvidia oznámila A100 80GB GPU na SC20 16. listopadu 2020.[5]
Detaily
Architektonická vylepšení architektury Ampere zahrnují následující:
- CUDA Compute Capability 8.0 pro A100 a 8.6 pro řada GeForce 30[6]
- TSMC je 7 nm FinFET proces pro A100
- Vlastní verze Samsung je 8 nm proces (8N) pro řadu GeForce 30[7]
- Tenzorová jádra třetí generace s podporou FP16, bfloat16, TensorFloat-32 (TF32) a FP64 a zrychlení sparsity[8]
- Jádra pro sledování paprsků druhé generace; souběžné sledování paprsků, stínování a výpočet pro řadu GeForce 30
- Paměť s velkou šířkou pásma 2 (HBM2) na A100 40 GB a A100 80 GB
- GDDR6X paměť pro GeForce RTX 3090 a 3080
- Dvojitá jádra FP32 na SM na GPU GA10x
- NVLink 3.0 s propustností 50 Gbit / s na pár[8]
- PCI Express 4.0 s podporou SR-IOV (SR-IOV je vyhrazeno pouze pro A100)
- Funkce virtualizace více instancí GPU (MIG) a rozdělení oddílů GPU v A100 podporující až sedm instancí
- PureVideo sada funkcí K hardwarové video dekódování s AV1 hardwarové dekódování[9] pro řadu GeForce 30 a sadu funkcí J pro A100
- 5 NVDEC pro A100
- Přidává nové hardwarové 5jádrové jádro JPEG dekódovat (NVJPG) s YUV420, YUV422, YUV444, YUV400, RGBA. Nemělo by být zaměňováno s Nvidia NVJPEG (GPU akcelerováno knihovna pro kódování / dekódování JPEG)
Bramborové hranolky
- GA100
- GA102
- GA104
Porovnání výpočetní kapacity: GP100 vs GV100 vs GA100[10]
Funkce GPU | NVIDIA Tesla P100 | NVIDIA Tesla V100 | NVIDIA A100 |
---|---|---|---|
Kódové označení GPU | GP100 | GV100 | GA100 |
Architektura GPU | NVIDIA Pascal | NVIDIA Volta | Ampér NVIDIA |
Výpočetní schopnost | 6.0 | 7.0 | 8.0 |
Vlákna / osnovy | 32 | 32 | 32 |
Max Warps / SM | 64 | 64 | 64 |
Max. Počet vláken / SM | 2048 | 2048 | 2048 |
Max. Počet závitových bloků / SM | 32 | 32 | 32 |
Max. 32bitové registry / SM | 65536 | 65536 | 65536 |
Max. Počet registrací / blokování | 65536 | 65536 | 65536 |
Max. Počet registrů / vláken | 255 | 255 | 255 |
Maximální velikost bloku závitu | 1024 | 1024 | 1024 |
FP32 jádra / SM | 64 | 64 | 64 |
Poměr registrů SM k jádrům FP32 | 1024 | 1024 | 1024 |
Velikost sdílené paměti / SM | 64 kB | Konfigurovatelný až do 96 kB | Konfigurovatelný až do 164 KB |
Porovnání matice přesné přesnosti[11][12]
Podporované základní přesnosti CUDA | Podporované přesnosti jádra tenzoru | |||||||||||||||
FP16 | FP32 | FP64 | INT1 (binární) | INT4 | INT8 | TF32 | bfloat16 (BF16) | FP16 | FP32 | FP64 | INT1 (binární) | INT4 | INT8 | TF32 | bfloat16 (BF16) | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
NVIDIA Tesla P4 | Ne | Ano | Ano | Ne | Ne | Ano | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne |
NVIDIA P100 | Ano | Ano | Ano | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne | Ne |
NVIDIA Volta | Ano | Ano | Ano | Ne | Ne | Ano | Ne | Ne | Ano | Ne | Ne | Ne | Ne | Ne | Ne | Ne |
NVIDIA Turing | Ano | Ano | Ano | Ne | Ne | Ano | Ne | Ne | Ano | Ne | Ne | Ano | Ano | Ano | Ne | Ne |
NVIDIA A100 | Ano | Ano | Ano | Ne | Ne | Ano | Ne | Ano | Ano | Ne | Ano | Ano | Ano | Ano | Ano | Ano |
Porovnání výkonu dekódování
Souběžné proudy | Dekódování H.264 (1080p30) | Dekódování H.265 (HEVC) (1080p30) | Dekódování VP9 (1080p30) |
---|---|---|---|
V100 | 16 | 22 | 22 |
A100 | 75 | 157 | 108 |
Akcelerátor A100 a DGX A100
Dne 14. května 2020 byl vyhlášen a vydán akcelerátor A100 založený na ampérech.[8] Model A100 je vybaven výkonem 19,5 teraflops výkonu FP32, 6912 jádry CUDA, 40 GB grafické paměti a šířkou pásma grafické paměti 1,6 TB / s.[13] Akcelerátor A100 byl zpočátku k dispozici pouze ve 3. generaci DGX serveru, včetně 8 A100.[8] Součástí DGX A100 je také 15 TB PCIe gen 4 NVMe úložný prostor,[13] dva 64jádrové AMD Řím 7742 CPU, 1 TB RAM a Mellanox - propojené HDR InfiniBand. Počáteční cena za DGX A100 byla 199 000 $.[8]
Porovnání akcelerátorů použitých v DGX:[8][14]
Plynový pedál |
---|
A100 80 GB |
A100 |
V100 |
P100 |
Architektura | FP32 CUDA jádra | FP64 jádra (kromě tenzoru) | INT32 jádra | Zvyšte hodiny | Paměťové hodiny | Šířka paměťové sběrnice | Šířka pásma paměti | VRAM | Single Precision | Double Precision (FP64) | INT8 (bez tenzoru) | INT8 Tenzor | INT32 | FP16 | Tenzor FP16 | bfloat16 Tensor | TensorFloat-32 (TF32) Tenzor | Tenzor FP64 | Propojit | GPU | Velikost mezipaměti L1 | Velikost mezipaměti L2 | Velikost matrice GPU | Počet tranzistorů | TDP | Výrobní proces |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Ampér | 6912 | 3456 | 6912 | 1410 MHz | 3,2 Gbit / s HBM2 | 5120 bitů | 2039 GB / s | 80 GB | 19,5 TFLOP | 9,7 TFLOP | N / A | 624 TOP | 19,5 NEJLEPŠÍCH | 78 TFLOP | 312 TFLOP | 312 TFLOP | 156 TFLOP | 19,5 TFLOP | 600 GB / s | GA100 | 20736 kB (192 kB × 108) | 40960 kB | 826mm2 | 54,2B | 400 W. | TSMC 7 nm N7 |
Ampér | 6912 | 3456 | 6912 | 1410 MHz | 2,4 Gbit / s HBM2 | 5120 bitů | 1555 GB / s | 40 GB | 19,5 TFLOP | 9,7 TFLOP | N / A | 624 TOP | 19,5 NEJLEPŠÍCH | 78 TFLOP | 312 TFLOP | 312 TFLOP | 156 TFLOP | 19,5 TFLOP | 600 GB / s | GA100 | 20736 kB (192 kB × 108) | 40960 kB | 826mm2 | 54,2B | 400 W. | TSMC 7 nm N7 |
Volta | 5120 | 2560 | 5120 | 1530 MHz | 1,75 Gbit / s HBM2 | 4096 bitů | 900 GB / s | 16 GB / 32 GB | 15,7 TFLOP | 7,8 TFLOP | 62 TOP | N / A | 15,7 NEJLEPŠÍCH | 31.4 TFLOPy | 125 TFLOPů | N / A | N / A | N / A | 300 GB / s | GV100 | 10240 kB (128 kB × 80) | 6144 KB | 815mm2 | 21.1B | 300 W / 350 W | TSMC 12 nm FFN |
Pascal | 3584 | 1792 | N / A | 1480 MHz | 1,4 Gbit / s HBM2 | 4096 bitů | 720 GB / s | 16 GB | 10,6 TFLOP | 5.3 TFLOPy | N / A | N / A | N / A | 21.2 TFLOPy | N / A | N / A | N / A | N / A | 160 GB / s | GP100 | 1344 kB (24 kB × 56) | 4096 KB | 610 mm2 | 15,3B | 300 W. | TSMC 16 nm FinFET + |
Produkty používající ampér
- Řada GeForce 30
- GeForce RTX 3060 Ti (GA104)
- GeForce RTX 3070 (GA104)
- GeForce RTX 3080 (GA102)
- GeForce RTX 3090 (GA102)
- Nvidia Quadro
- RTX A6000 (GA102)
- GPU datového centra Nvidia
- Nvidia A40 (GA102)
- Nvidia A100 (GA100)
- Nvidia A100 80 GB (GA100)
Reference
- ^ Redakce, NVIDIA. „Nový grafický procesor NVIDIA Ampere Data Center v plné produkci“. Newsroom NVIDIA Newsroom.
- ^ „Architektura NVIDIA Ampere do hloubky“. Blog vývojářů NVIDIA. 14. května 2020.
- ^ Redakce, NVIDIA. „NVIDIA přináší vůbec největší generační skok s GPU řady GeForce RTX 30“. Newsroom NVIDIA Newsroom.
- ^ „NVIDIA GeForce Ultimate Countdown“. NVIDIA.
- ^ https://nvidianews.nvidia.com/news/nvidia-doubles-down-announces-a100-80gb-gpu-supercharging-worlds-most-powerful-gpu-for-ai-supercomputing
- ^ „I.7. Compute Capability 8.x“. docs.nvidia.com. Citováno 23. září 2020.
- ^ B., Dominik. „Stará 8nm technologie společnosti Samsung v srdci monstrózních karet NVIDIA Ampere“. SamMobile. Citováno 19. září 2020.
- ^ A b C d E F Smith, Ryan (14. května 2020). „NVIDIA Ampere Unleashed: NVIDIA ohlašuje novou architekturu GPU, GPU A100 a akcelerátor“. AnandTech.
- ^ „GPU řady GeForce RTX 30: ohlašuje novou éru video obsahu s dekódováním AV1“. NVIDIA.
- ^ „NVIDIA A100 Tensor Core GPU Architecture“ (PDF). www.nvidia.com. Citováno 18. září 2020.
- ^ „NVIDIA Tensor Cores: Všestrannost pro HPC a AI“. NVIDIA.
- ^ "Abstraktní". docs.nvidia.com.
- ^ A b Tom Warren; James Vincent (14. května 2020). „První grafická karta Ampere od společnosti Nvidia je navržena pro datová centra a AI, nikoli pro váš počítač“. The Verge.
- ^ „Testováno NVIDIA Tesla V100: téměř neuvěřitelný výkon GPU“. TweakTown. 17. září 2017.