NVIDIA宣布推出TensorRT 6

2019年09月17日由 KING 发表 963657 0

今天，NVIDIA发布了TensorRT 6。

NVIDIA TensorRT是一个高性能深度学习计算平台。它包括深度学习计算优化器和运行加速器，可以为深度学习计算应用程序提供低延迟和高精度的计算。在TensorRT平台上建立的应用程序比CPU平台的应用程序运算速度快40倍。使用TensorRT，你可以优化在所有主框架中培训的神经网络模型，最后部署到超大规模数据中心或汽车产品平台。

TensorRT构建于NVIDIA的编程模型CUDA之上，使您能够利用CUDA-X AI中的库开发工具和技术，为人工智能，机器学习，高性能计算和图形处理提供基于所有深度学习框架的计算。这次推出的TensorRT 6添加了许多新的功能，如AI会话智能应用、语音识别、医学应用的3D图像分割以及工业自动化中基于图像的处理等。

随着新TensorRT 6的发布，Tensorrt将继续深入拓展其优化层集，为会话式AI应用程序增加其他的功能，支持与框架更紧密集成，为在NVIDIA GPU上部署应用程序铺平道路。

以Transformers（BERT）为基础的双向编码器表在企业生产过程中得到了广泛应用，因为它能够实现高精度的跨应用程序工作。在TensorRT 4中，完成一次Bert-Large计算需要5.8毫秒，而最新发布的TensorRT 6只需要2毫秒就可以完成。

如果像BERT这样的自然语言理解模型能够以极高的速度运行，意味着使用者可以在保证任务质量的同时尽可能的缩短任务时间，提高工作效率，给客户带来更良好的体验。所以对于企业来说，使用了TensorRT 6的同时就代表着可以提高利润。NVIDIA的研究人员还在TensorRT开源REOP中发布了几个新的工具，以便于加速语言（opennmt、bert、jasper）、图像（mask-rcnn、faster-rcnn）和带有TensorRT的推荐程序（ncf）。最新版本的nsight系统工具可用于进一步优化深度学习应用程序。

Tensorrt 6亮点：

在NVIDIA GPU上，通过新的优化，仅需2ms就可以实现精确的bert-large计算。

使用新的API和动态输入形式，轻松加速AI会话智能应用、语音和图像分割应用程序。

通过对动态输入批量大小的支持，有效地加速具有波动计算需求（如在线服务）的应用程序。

通过新的三维卷积层，医疗应用中图像分割的计算速度比CPU快5倍。

通过优化2du-net实现工业自动加速应用。

TensorRT 6可从TensorRT产品页下载。

标签：

算量深度学习英伟达NVIDIA

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇语言生成实战：自己训练能讲“人话”的神经网络（下）

下一篇比特大陆发布算丰第三代AI芯片BM1684

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术