全面开放:NVIDIA加速Meta Llama 3的推理
Meta 最新的开放式大型语言模型采用 NVIDIA 技术构建,经过优化,可在从云和数据中心到边缘和 PC 的 NVIDIA GPU 上运行。
NVIDIA 今天宣布对其所有平台进行优化,以加速最新一代大型语言模型 (LLM) Meta Llama 3。
开放模式与 NVIDIA 加速计算相结合,使开发人员、研究人员和企业能够在各种应用程序中负责任地进行创新。
Meta 工程师在包含 24,576 个 NVIDIA H100 Tensor Core GPU 的计算机集群上训练了 Llama 3,这些 GPU 与 RoCE 和 NVIDIA Quantum-2 InfiniBand 网络相连。
为了进一步推进生成式 AI 的最新技术,Meta 最近描述了将其基础设施扩展到 350,000 个 H100 GPU 的计划。
在 NVIDIA GPU 上加速的 Llama 3 版本现已可用于云、数据中心、边缘和 PC。
在浏览器上,开发人员可以 ai.nvidia.com 试用 Llama 3。它被打包为 NVIDIA NIM 微服务,具有可以部署在任何地方的标准应用程序编程接口。
企业可以使用 NVIDIA NeMo 对其数据进行微调 Llama 3,这是一个面向 LLM 的开源框架,是安全、受支持的 NVIDIA AI Enterprise 平台的一部分。自定义模型可以针对 NVIDIA TensorRT-LLM 的推理进行优化,并使用 NVIDIA Triton 推理服务器进行部署。
Llama 3 还在 NVIDIA Jetson Orin 上运行,用于机器人和边缘计算设备,创建类似于 Jetson AI Lab 中的交互式代理。
此外,适用于工作站和 PC 的 NVIDIA RTX 和 GeForce RTX GPU 可加快 Llama 3 的推理速度。这些系统为开发人员提供了全球超过 1 亿个 NVIDIA 加速系统的目标。
为聊天机器人部署 LLM 的最佳实践涉及低延迟、良好的读取速度和最佳 GPU 使用之间的平衡,以降低成本。
这样的服务需要以大约两倍于用户的读取速度(大约每秒 10 个令牌)来交付令牌(大致相当于 LLM 的单词)。
应用这些指标,在使用具有 700 亿个参数的 Llama 3 版本的初始测试中,单个 NVIDIA H200 Tensor Core GPU 每秒生成约 3,000 个令牌,足以同时为大约 300 个用户提供服务。
这意味着具有 8 个 H200 GPU 的单个 NVIDIA HGX 服务器可以提供 24,000 个代币/秒,通过同时支持 2,400 多个用户来进一步优化成本。
对于边缘设备,具有 80 亿个参数的 Llama 3 版本在 Jetson AGX Orin 上生成了高达 40 个令牌/秒,在 Jetson Orin Nano 上生成了 15 个令牌/秒。
作为活跃的开源贡献者,NVIDIA 致力于优化社区软件,帮助用户应对最棘手的挑战。开源模型还提高了 AI 的透明度,并允许用户广泛分享 AI 安全性和弹性方面的工作。
详细了解 NVIDIA 的 AI 推理平台,包括 NIM、TensorRT-LLM 和 Triton 如何使用最先进的技术(如低秩自适应)来加速最新的 LLM
接受过 NVIDIA AI 培训
让 Llama 3 投入使用
将 Llama 3 带到设备和 PC
使用 Llama 3 获得最佳性能
推进社区模式
上述所有配置,代表最新硬件架构,同时保证是最完美,最快,如有不符,可直接退货
欲咨询机器处理速度如何、技术咨询、索取详细技术方案,提供远程测试,请联系
UltraLAB图形工作站供货商:
咨询微信号:
2024年人工智能训练与推理工作站、服务器、集群硬件配置推荐
https://xasun.com/article/110/2508.html
西安坤隆计算机科技有限公司
国内知名高端定制图形工作站厂家
业务电话:400-705-6800