admin 管理员组文章数量: 1184232
| 云服务器 | Tesla T4 世界领先的推理加速器 | Tesla V100 通用数据中心 GPU | Tesla P4 适用于推理吞吐量服务器的 | Tesla P40 |
| 单精度性能 (FP32) | 8.1 TFLOPS | 14 TFLOPS (PCIe) 15.7 teraflops (SXM2) | 5.5 TFLOPS | 12 TFLOPS |
| 半精度性能 (FP16) | 65 TFLOPS | 112 TFLOPS (PCIe)125 TFLOPS (SXM2) | — | — |
| 整数运算能力 (INT8) | 130 TOPS | — | 22 TOPS* | 47 TOPS* |
| 整数运算能力 (INT4) | 260 TOPS | — | — | — |
| GPU 显存 | 16GB | 2023年07月24日GB HBM2 | 8GB | 24GB |
| 显存带宽 | 320GB/秒 | 900GB/秒 | 192GB/秒 | 346GB/秒 |
| 系统接口/外形规格 | PCI Express 半高外形 | PCI Express 双插槽全高外形 SXM2/NVLink | PCI Express 半高外形 | PCI Express 双插槽全高外形 |
| 功率 | 70 W | 250 W (PCIe) 300 W (SXM2) | 50 W/75 W | 250 W |
| 硬件加速视频引擎 | 1 个解码引擎,2 个编码引擎 | — | 1 个解码引擎,2 个编码引擎 | 1 个解码引擎,2 个编码引擎 |
K80:24G
CUDA核心数:4992
单精度(FP32)性能:4.37 TFLOPS
双精度(FP64)性能:1.46 TFLOPS
计算能力:3.7
P40:24G
CUDA核心数:3840
单精度(FP32)性能:12.0 TFLOPS
双精度(FP64)性能:2.98 TFLOPS
计算能力:6.1
2080 Ti:11G可魔改24G
CUDA核心数:4352
单精度(FP32)性能:13.4 TFLOPS
双精度(FP64)性能:0.42 TFLOPS
计算能力:7.5
| 项目 | A100 | H100 | L40S | H200 |
| 架构 | Ampere | Hopper | Ada Lovelace | Hopper |
| 发布时间 | 2020 | 2022 | 2023 | 2024 |
| FP64 | 9.7 TFLOPS | 34 TFLOPS | 暂无 | 34 TFLOPS |
| FP32 | 19.5 TFLOPS | 67 TFLOPS | 91.6 TFLOPS | 67 TFLOPS |
| FP64 向量核心 | 19.5 TFLOPS | 67 TFLOPS | 暂无 | 67 TFLOPS |
| TF32 向量核心 | 312 TFLOPS | 989 TFLOPS | 183 TFLOPS | 366* TFLOPS |
| BFLOAT16 向量核心 | 624 TFLOPS | 1,979 TFLOPS | 362.05 TFLOPS | 733* TFLOPS |
| FP16 向量核心 | 624 TFLOPS | 1,979 TFLOPS | 362.05 TFLOPS | 733* TFLOPS |
| FP8 向量核心 | 不适用 | 3,958 TFLOPS | 733 TFLOPS | 1,466* TFLOPS |
| INT8 向量核心 | 1248 TOPS | 3,958 TOPS | 733 TFLOPS | 1,466* TFLOPS |
| INT4 向量核心 | 暂无 | 暂无 | 733 TFLOPS | 1,466* TFLOPS |
| GPU 内存 | 80 GB HBM2e | 80 GB | 48GB GDDR6,带有 ECC | 141GB HBM3e |
| GPU 内存带宽 | 2,039 Gbps | 3.35 Tbps | 864 Gbps | 4.8 Tbps |
| 解码器 | Not applicable | 7 NVDEC, 7 JPEG | Not applicable | 7 NVDEC, 7 JPEG |
| 属性 | RTX 4090 | RTX 3090 | A100 (SMX4-80G) | A10 | RTX A6000 |
| GPU架构 | AD102 (Ada Lovelace) | GA102 (Ampere) | GA100(Ampere) | GA102 | GA102 (Ampere) |
| GPCs (Graphics Processing Clusters) | 11 | 7 | 7 | - | 7 |
| TPCs (Texture Processing Clusters) | 64 | 14 | 54 | - | 42 |
| SMs (Streaming Multiprocessors) | 128 | 82 | 108 | - | 84 |
| FP32 CUDA Cores | 16384 | 10496 | 6912 | 9216 | 10752 |
| INT32 CUDA Cores | 8192 | 5248 | 6912 | ||
| Tensor Cores | 512 | 328 | 432 | 288 | 336 |
| RT Cores | 128 | 82 | N/A | 72 | 84 |
| Geometry Units | 64 | 41 | N/A | ||
| TMUs (Texture Units) | 512 | 328 | 432 | - | 336 |
| ROPs (Raster Operation Units) | 176 | 112 | 160 | - | 112 |
| INT4 (TOPS) | 1321.2/2642.4 | 568/1136 | 1248/2496 | 500/1000 | 598.7/1197.4 |
| INT8 (TOPS) | 660.6/1321.2 | 284/568 | 624/1248 | 250 | 299.3/598.6 |
| INT32 (TIPS) | 41.3 | 17.8 | 19.5 | - | 18.7 |
| BF16 (TFLOPS) | 82.6 | 35.6 | 39 | 125 | 37.4 |
| FP16 (TFLOPS) | 82.6 | 35.6 | 78 | 125 | 37.4 |
| FP32 (TFLOPS) | 82.6 | 35.6 | 19.5 | 31.2 | 37.4 |
| FP64 (TFLOPS) | 1.3 | 0.56 | 9.7 | ||
| Tensor Core FP8 (TFLOPS) | 660.6/1321.2 | N/A | N/A | ||
| Tensor Core FP16 (TFLOPS) | 330/660 | 142/284 | 312/624 | 125/250 | 149.7/299.4 |
| Tensor Core TF32 (TFLOPS) | 82.6/165.2 | 35.6/71 | 156/312 | 62.5/125 | 74.8/149.6 |
版权声明:本文标题:显卡算力表 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/b/1754954383a3054938.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论