Nvidia DGX
Nvidia DGX és una línia de servidors i estacions de treball produïts per Nvidia especialitzats a utilitzar GPGPU per accelerar aplicacions d'aprenentatge profund.[1] El disseny típic d'un sistema DGX es basa en un xassís de muntatge en bastidor amb una placa base que transporta CPU de servidor x86 d'alt rendiment (normalment Intel Xeons, amb l'excepció DGX A100 i DGX Station A100, que utilitzen CPU AMD EPYC).[2] El component principal d'un sistema DGX és un conjunt de 4 a 16 mòduls de GPU Nvidia Tesla en una placa del sistema independent. Els sistemes DGX tenen grans dissipadors de calor i ventiladors potents per refredar adequadament milers de watts de sortida tèrmica. Els mòduls de GPU normalment s'integren al sistema mitjançant una versió del sòcol SXM.
Comparativa dins la família DGX: [3][4][5][6][7]
Accelerador | Aquhitectura | Encapsulat | FP32
CUDA Nuclis |
FP64 Cores
(excl. Tensor) |
INT32/FP32
Nuclis |
INT32
Nuclis |
Boost
rellotge |
Rellotge
memòria |
Amplada
Bus memòria |
Amplada de banda
memòria |
VRAM | Precisió
simple (FP32) |
Precisió
doble (FP64) |
INT8
(no-Tensor) |
INT8
Dense Tensor |
INT32 | FP16 | FP16
Dense Tensor |
bfloat16
Dense Tensor |
TensorFloat-32
(TF32) Dense Tensor |
FP64
Dense Tensor |
Interconnect
(NVLink) |
GPU | L1 Cache Size | L2 Cache Size | TDP | GPU
Die Size |
Transistor
Count |
Manufacturing Process |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
H100 | Hopper | SXM5 | 16896 | 4608 | 16896 | N/A | 1780 MHz | 4.8Gbit/s HBM3 | 5120-bit | 3072GB/sec | 80GB | 60 TFLOPs | 30 TFLOPs | N/A | 4000 TOPs | N/A | N/A | 2000 TFLOPs | 2000 TFLOPs | 1000 TFLOPs | 60 TFLOPs | 900GB/sec | GH100 | 25344KB(192KBx132) | 51200 KB | 700W | 814 mm2 | 80B | TSMC 4 nm N4 |
A100 80GB | Ampere | SXM4 | 6912 | 3456 | 6912 | N/A | 1410 MHz | 3.2Gbit/s HBM2 | 5120-bit | 2039GB/sec | 80GB | 19.5 TFLOPs | 9.7 TFLOPs | N/A | 624 TOPs | 19.5 TOPs | 78 TFLOPs | 312 TFLOPs | 312 TFLOPs | 156 TFLOPs | 19.5 TFLOPs | 600GB/sec | GA100 | 20736KB(192KBx108) | 40960 KB | 400W | 826 mm2 | 54.2B | TSMC 7 nm N7 |
A100 40GB | Ampere | SXM4 | 6912 | 3456 | 6912 | N/A | 1410 MHz | 2.4Gbit/s HBM2 | 5120-bit | 1555GB/sec | 40GB | 19.5 TFLOPs | 9.7 TFLOPs | N/A | 624 TOPs | 19.5 TOPs | 78 TFLOPs | 312 TFLOPs | 312 TFLOPs | 156 TFLOPs | 19.5 TFLOPs | 600GB/sec | GA100 | 20736KB(192KBx108) | 40960 KB | 400W | 826 mm2 | 54.2B | TSMC 7 nm N7 |
V100 32GB | Volta | SXM3 | 5120 | 2560 | N/A | 5120 | 1530 MHz | 1.75Gbit/s HBM2 | 4096-bit | 900GB/sec | 32GB | 15.7 TFLOPs | 7.8 TFLOPs | 62 TOPs | N/A | 15.7 TOPs | 31.4 TFLOPs | 125 TFLOPs | N/A | N/A | N/A | 300GB/sec | GV100 | 10240KB(128KBx80) | 6144 KB | 350W | 815 mm2 | 21.1B | TSMC 12 nm FFN |
V100 16GB | Volta | SXM2 | 5120 | 2560 | N/A | 5120 | 1530 MHz | 1.75Gbit/s HBM2 | 4096-bit | 900GB/sec | 16GB | 15.7 TFLOPs | 7.8 TFLOPs | 62 TOPs | N/A | 15.7 TOPs | 31.4 TFLOPs | 125 TFLOPs | N/A | N/A | N/A | 300GB/sec | GV100 | 10240KB(128KBx80) | 6144 KB | 300W | 815 mm2 | 21.1B | TSMC 12 nm FFN |
P100 | Pascal | SXM/SXM2 | N/A | 1792 | 3584 | N/A | 1480 MHz | 1.4Gbit/s HBM2 | 4096-bit | 720GB/sec | 16GB | 10.6 TFLOPs | 5.3 TFLOPs | N/A | N/A | N/A | 21.2 TFLOPs | N/A | N/A | N/A | N/A | 160GB/sec | GP100 | 1344KB(24KBx56) | 4096 KB | 300W | 610 mm2 | 15.3B | TSMC 16 nm FinFET+ |
Referències
[modifica]- ↑ «NVIDIA DGX-1: Deep Learning Server for AI Research» (en anglès). NVIDIA. [Consulta: 24 març 2022].
- ↑ «NVIDIA DGX Systems for Enterprise AI» (en anglès). NVIDIA. [Consulta: 24 març 2022].
- ↑ «NVIDIA Unveils the DGX-1 HPC Server: 8 Teslas, 3U, Q2 2016» (en anglès).
- ↑ «Nvidia launches the DGX-2 with two petaFLOPS of power» (en anglès), 28-03-2018.
- ↑ «NVIDIA DGX -2 for Complex AI Challenges» (en anglès). NVIDIA. [Consulta: 24 març 2022].
- ↑ Cutress, Ian. «NVIDIA's DGX-2: Sixteen Tesla V100s, 30 TB of NVMe, only $400K». www.anandtech.com. [Consulta: 28 abril 2022].
- ↑ https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/dgx-station/nvidia-dgx-station-a100-datasheet.pdf Plantilla:Bare URL PDF