用开源代码的有效性扩展输出

NVIDIA推出了Dynamo,室外终端软件,旨在加速和扩展AI工厂中的推理模型。

有效的管理和协调在一批图形处理器中撤回人工智能的请求是保证人工智能工厂可以以最佳的成本效率运行并最大程度地利用代币的收入。

随着人工智能的推理变得越来越普遍,每种AI模型实际上都会产生数以万计的令牌,实际上每个提示代表了其“心理”过程。因此,提高提款的生产率,同时降低其价值,对于加速增长和增加服务提供商收入的能力至关重要。

AI输出的新一代软件

NVIDIA DYNAGO将取代NVIDIA TRITON输出服务器,是用于人工智能输出的新一代软件,该软件是专门设计的,旨在最大程度地提高AI工厂的代币收入,推动AI模型。

Dynamo组织并加速了与可能数千个图形处理器的撤回的连接。它使用不同意的部分,该方法共享处理和生成大型语言模型(LLM)的阶段中的方法。这种方法使您可以独立地优化每个阶段,满足其特定的计算需求,并提供图形处理器资源的最大使用。

NVIDIA的创始人兼总经理詹森·胡安(Jensen Juan)说:“全世界的行业都接受了人工智能模型的培训,以相同的方式思考和学习,这使它们随着时间的流逝而变得更加复杂。” “为了允许未来的用户推理AI,NVIDIA DYNAGO有助于以规模限制这些模型,从而在所有人工智能工厂中获得储蓄手段和效率。”

使用相同数量的图形处理器,Dynamo证明了在当前Hopper Nvidia平台上的Llama工厂的性能和收入的能力。此外,当在大型GB200 NVL72机架上启动DeepSeek-R1模型时,NVIDIA Dynamo知识优化表明它们增加了每张图产生的令牌数量超过30次。

为了在产出生产率方面取得这些提高,NVIDIA Dynamo包括旨在增加吞吐量和降低运营成本的几个关键功能。

Dynamo可以动态添加,删除和重新分配图形处理器,以适应振荡的卷和请求类型。该软件还可以准确地确定大型簇中的特定图形处理器,这些处理器最适合最小化答案的计算和有效的查询路线。 Dynamo还可以将撤回到更经济有效的内存设备和存储空间的数据上卸载,而在需要时它很快接收到它,从而最大程度地减少了总产出成本。

NVIDIA DYNAMO完全由开源项目制成,可与Pytorch,Sglang,Nvidia Tensort-Volm和Vllm等流行框架提供广泛的兼容性。这种开放式方法支持企业,初创企业和研究人员在开发和优化的新方法,用于为不同意的结论提供人工智能模型。

NVIDIA expects Dynamo to speed up the acceptance of AI in a wide range of organizations, including large cloud suppliers and innovators of AI, such as AWS, Cohereweave, Dell, FireWorks, Google Cloud, Lambda, Microsoft Azure, Nebius, Nebius, Nebius, Nebius, Nebius, Nebius Netapp,OCI,困惑,AI和庞大。

NVIDIA DYNAMO:增压器和代理AI的结论

NVIDIA DYNAMO的关键创新是其能够显示出可能在可能数千个图形处理器上的先前的请求的服务,从而显示出输出系统在内存中保持内存的知识。

然后,该软件在智力上指示了对图形处理器的结论的新要求,这些请求具有最佳的知识巧合,有效地避免了昂贵的转换,并释放了其他图形处理器来处理新的传入请求。这种智力路由机制可显着提高效率并减少延迟。

AI技术总监Denis Yarats表示:“要每月处理数亿个请求,我们依靠GPU NVIDIA和撤回软件来确保我们的业务和用户的效率,可靠性和扩展。”

“我们期待使用Dynamo具有高级分配功能,提高效率,确保撤回并满足人工智能的新论点的计算要求。”

AI Cohere平台已经计划使用NVIDIA Dynamo在其命令系列模型框架中扩展AI代理的功能。

“扩展的人工智能模型的缩放需要通过多个GPU,无缝协调和低延迟库进行复杂的计划,这些库可以在整个内存和存储中自由传达推理的背景,” Cohere中高级副总裁Saurab Baji解释说。

“我们希望NVIDIA Dynamo能够帮助我们向我们的公司客户提供主要的用户体验。”

支持不同意的部分

NVIDIA DYNAMO输出平台还对不同意的部分具有可靠的支持。这种扩展的方法规定了LLM的各种计算阶段,包括了解用户请求的重要阶段,然后为基础架构中的各种图形处理器生成最合适的答案。

不同意的部分特别适用于推理模型,例如新的Nvidia Llama Nemotron模型家族,该模型使用扩展的结论方法来改善上下文理解和反应产生。允许每个阶段都可以准确配置和不管资源如何,因此分配的部分可改善整体吞吐量,并为用户提供更快的响应时间。

AI是AI云空间中的杰出球员,也试图将他的专有戒断机制与Nvidia Dynamo融为一体。该集成旨在确保在几个图形处理器节点中得出结论的不受阻碍的工作负载缩放。此外,它将允许AI一起动态转向狭窄的流量,这可以在模型管道的不同阶段发生。

“推理模型的规模有效地需要新的高级输出方法,包括不同意的服务和上下文化,” AI技术总监Ce Zhang说。

“ NVIDIA DYNAGO的开放性和模块化将使我们能够在优化资源最大限度地最大化加速计算投资时将组件平稳地连接到发动机,以提供更多的查询。我们很高兴利用为我们的用户开放模型的经济模型的平台。

四个关键创新NVIDIA DYNAMO

NVIDIA确定了Dynamo中的四项关键创新,这有助于降低保持产出和增加常见用户体验的成本:

  • 图形处理器规划师: 复杂的计划机制,该机制动态地增加并删除了基于振荡用户需求的图形处理器。这样可以确保资源的最佳分配,以防止过度支持和低估GPU能力。
  • 智能路由器: 考虑到LLM的智力路由器,该路由器是向大型车队中撤出图形处理器的请求。它的主要功能是将重复或重叠请求的图形处理器最小化,从而释放图形处理器的宝贵资源,以更有效地处理新的传入请求。
  • 低延迟通信库: 一个优化的库,旨在支持与图形处理器GPU的现代通信。它抽象了整个异质设备中数据交换的复杂性,从而显着加速了数据传输速度。
  • 内存管理器: 控制输出的卸载和重新启动数据的智力引擎以更便宜的内存和存储设备,反之亦然。此过程旨在使对用户体验的平稳,负面影响。

NVIDIA Dynamo将以NIM微服务提供,并将在该公司的AI Enterprise软件平台的未来版本中得到支持。

参见: LG Exaone是数学,科学和编码

想进一步了解人工智能和行业领导者的大数据吗? 检查在阿姆斯特丹,加利福尼亚和伦敦举行的AI和大数据博览会。全面的活动以及其他领先活动,包括智力自动化会议,Blockx,一周的数字化转型和网络安全以及云博览会。

基于Techforge在此处探索企业技术和网络研讨会的其他事件。

Source link

Scroll to Top