Tesla T4 上的芯片包含了 2560 个 CUDA 内核,具有 32 位单精度和 16 位半精度浮点数学单元(FP32 和 FP16)以及 8 位和 4 位整数数学单元(INT8 和 INT4)。性能达到了单精度 8.1teraflops,而使用新的 INT8 八位整数格式可达到 130teraops,相比上一代 P4 ,可在相同的功耗下,提供高达 12 倍的性能,更神奇的是这款显卡只有75W TDP,在规模比RTX 2070显卡还高的情况下TDP功耗低得多。这次发布的Tesla T4显卡使用了PCIe插槽,被动散热设计,外观风格跟RTX 8000及RTX 2080 Ti显卡又不是一种风格了,看图片更有金属质感。它在 TU104 芯片的基础上,启用了 40 组着色器(SM),功率优化到了 75W(从而无需 PCIe 外接供电)。显存为 16GB GDDR6,带宽 320GB/s 。
这是
Tesla P4 和
T4 加速器在推理工作负载上的峰值相对性能表现,具体取决于数据的位数和处理方式:与专注于 HPC 和机器学习训练的“Volta” GV100 GPU 一样,
Tesla T4 加速器使用的图灵 GT104 GPU 由台湾半导体制造公司使用 12 纳米制造工艺进行蚀刻。它拥有 136 亿个晶体管,接近 Pascal GP100 GPU 的 153 亿个晶体管,但仍落后于 GV100 GPU 的 211 亿个晶体管。这是 GT104 GPU 上的一个内核照片:此外,英伟达提供了围绕 T4 的一系列技术,比如 TensorRT Hyperscale 平台扩展。该卡支持所有主要的深度学习框架,比如 PyTorch、TensorFlow、MXNet、以及 Caffee2 。另外,
Nvidia 提供了 TensorFlow RT5,这是该公司深度学习推理优化器和运行时(Runtime)引擎的新版本,支持图灵张量核心与多精度工作负载。Nvidia 还宣布了针对图灵做出优化的 CUDA 10,其中包含了优化的库、编程模型、以及图形 API 的互操作性;以及基于 Xavier 的产品系列新名称(AGX 阵容),其专为从机器人、到自动驾驶汽车的自动机器系统而设计
希望对你有帮助,欢迎来电咨询