Nvidia推出Tesla T4 GPU芯片等新产品，性能大突破

2018年09月14日由浅浅发表 832029 0

Nvidia首席执行官Jensen Huang在日本GTC会议上的演讲中宣布了一系列消息，包括推出Tesla T4 GPU芯片，最新版本的TensorRT 5和TensorRT推理服务器，以及Jetson AGX Xavier开发人员套件。

Tesla T4 GPU芯片

Nvidia今天推出了Tesla T4 GPU芯片，以加速数据中心深度学习系统的推理。T4 GPU采用2560个CUDA内核和320个Tensor内核，处理查询的能力比CPU快近40倍。

作为推动深度学习市场的一部分，两年前Nvidia首次推出专为部署AI模型而制造的Tesla P4芯片。在语音识别推理中，T4比其P4快5倍以上，在视频推理上快3倍。

Nvidia的分析发现，在过去两年中使用P4进行的所有推断中，将近一半与视频有关，其次是语音处理，搜索，自然语言和图像处理。

与基于Pascal的P4不同，T4 采用用于GPU的Turing Tensor Core，这种架构有望为一系列Nvidia芯片提供动力，Huang称之为“自2006年CUDA GPU发明以来的最大飞跃”。

TensorRT 5和TensorRT推理服务器

TensorRT 5支持新的图灵架构，新的优化和INT8 API，与仅使用CPU的平台相比，其推理速度提高了40倍。

这个最新版本大大加快了推荐器，神经机器翻译，语音和自然语言处理应用程序的推理。

TensorRT 5亮点：

对于诸如使用Turing Tensor Cores上的混合精度进行平移的模型，可以将CPU推断速度提高40倍

使用新的INT8 API优化推理模型

支持基于Xavier的NVIDIA驱动器平台和用于FP16的NVIDIA DLA加速器

TensorRT 5将面向NVIDIA开发人员计划的成员。

TensorRT推理服务器是一种容器化微服务，可最大化GPU利用率，并在节点上同时运行来自不同框架的多个模型。它利用Docker和Kubernetes无缝集成到DevOps架构中。

Jetson AGX Xavier

Jetson AGX Xavier能够通过512核集成Volta Tensor Core GPU和双深度学习加速器（DLA）引擎提供高达32 TeraOPS（TOPS）的计算性能。

Jetson AGX Xavier在可部署的节能模块中提供与GPU工作站类似的性能，非常适合将资源密集型自主功能引入智能平台。它为边缘化处理提供了全新的机器人和其他自动化机器，用于制造，零售，医疗保健等。凭借10W，15W和30W之间的用户可配置工作模式，Jetson AGX Xavier的能效比其前身Jetson TX2高出10倍以上，性能高出20倍。

Jetson AGX Xavier开发套件现已上市，售价为2499美元。

标签：

行业算量英伟达NVIDIA 硬件

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Science：受果蝇启发，研究人员开发了新型飞行机器人，自由灵敏

下一篇 Scale和nuTonomy发布自动驾驶开源数据集，准确性和规模超过现有数据集

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术