将大语言模型推理能力提升数倍，英伟达推出NVIDIA TensorRT-LLM

添加书签

AIGC开放社区
2023-09-09

专注AIGC领域的专业社区，关注OpenAI、百度文心一言等大语言模型（LLM）的发展和应用落地，关注LLM的基准评测和市场研究，欢迎关注！

9月9日，全球人工智能领导者英伟达（NVIDIA）在官网宣布，推出NVIDIA TensorRT-LLM用于提升大语言模型的推理能力。

据悉，TensorRT-LLM由TensorRT深度学习编译器组成，包括优化的内核、预处理和后处理，以及用于在NVIDIA GPU上实现突破性的多GPU/多节点通信。

这使开发人员能以最高性能和快速自定义功能，而无需深入了解C++或NVIDIA CUDA快速尝试不同的大语言模型。

目前，TensorRT-LLM处于测试阶段，未来几周内会正式发布并开源。（申请地址：https://developer.nvidia.com/tensorrt-llm-early-access）

ChatGPT等大语言模型展示出了前所未有的强大功能，能生成各种文本、提取摘要、分析数据等。但功能越强大参数就越高，例如，GPT-3.5达到1750亿参数，开发者需要耗费大量算力才能投入使用。

因此，英伟达推出TensorRT-LLM，帮助开发者加速和优化大语言模型的推理能力，以最少的算力资源开发更强大的生成式AI产品。

TensorRT-LLM性能评测

自动生成摘是大语言模型常用功能之一，在此测试中，TensorRT-LLM 在最新 NVIDIA Hopper 架构上实现了性能突破。

例如，H100在TensorRT-LLM的加持下，将GPT-J 6B大模型的推理能力提升了8倍。

在Meta发布的Llama 2 700亿参数大预言模型上，TensorRT-LLM可以将推理性能比 A100 GPU提高 4.6倍。

运行方法和适配模型

目前，大语言模型正处于高速发展阶段，一些最大、最先进的语言模型，比如Meta的700亿参数的Llama 2，需要多个GPU配合工作才能达到最佳效果。因此，开发者必须重写并手动将AI模型分割成片段，并在GPU之间协调工作。

TensorRT-LLM采用了张量并行性的方法，其中单个权重矩阵在设备之间分割。这使得可以在大规模上实现高效推理，模型可在通过NVLink连接的多个GPU以及多个服务器之间并行运行，而无需开发者干预或更改模型。

目前，TensorRT-LLM已完全优化好，无需任何修改即可投入使用的模型包括：Meta的 Llama 2，OpenAI 的GPT-2和GPT-3，Falcon，Mosaic MPT，BLOOM等十多种主流大语言模型。

未来，TensorRT-LLM还会持续扩大对大语言模型的支持范围，使得开发人员能以低能效、高效率快速开发属于自己的产品以满足业务需求。

本文素材来源英伟达官网，如有侵权请联系删除

END

即将举行的活动