NVIDIA开源运行:AI Praderer促进社区合作


根据先前宣布的计划,NVIDIA说,她打开了Run Run的新元素:AI平台,包括KAI计划者。

规划师是计划Kubernetes图形处理器的决定,该处理器现已根据Apache 2.0许可证可用。最初在框架内设计的AI:KAI调度程序现在可用于社区,并且还在NVIDIA:AI平台的框架内继续包装和交付。

NVIDIA表示,这项倡议强调了NVIDIA的依从性,以开放源代码和基础设施AI Enterprise促进基础设施,为积极和共同的社区做出了贡献,鼓励了贡献,鼓励
反馈和创新。

来自NVIDIA的Rinen Dar和Extra Karabulut在他的帖子中概述了KAI计划者的技术细节,强调了其对他和ML命令的价值,并解释了计划和行动周期。

Kai Planer的优势

AI在图形处理器和处理器上的工作负载的管理是许多问题通常与传统资源计划者不符。为解决这些问题的特定解决方案开发了计划者:控制图形处理器要求的波动;减少了计算访问的等待时间;资源保证或图形处理器的分布;以及AI的工具和框架的不受阻碍的连接。

控制图形处理器要求的波动

AI的工作负载可以迅速改变。例如,您可能只需要一个图形处理器来进行交互式工作(例如,用于数据研究),然后突然需要几个用于分布式学习的图形处理器或几个实验。传统规划师正在以这种可变性进行战斗。

KAI规划师不断介绍公平步伐的值,并实时纠正配额和限制,自动符合工作量的当前需求。这种动态方法有助于确保无需管理人员不断手动干预的图形处理器的有效分布。

缩写的等待时间计算访问

对于ML工程师,时间很重要。计划者减少了等待时间,结合了帮派计划,交换图形处理器和层次的队列系统,该系统使您可以代表工作场所的派对,然后移开,自信地确定,在资源可用时,以及在升级优先级和正义时,将尽快启动任务。

为了进一步优化资源的使用,即使面对需求波动,
使用两种有效的策略用于图形处理器和处理器:

包装和整合:最大化计算基金的使用,与资源的斗争
碎片 – 部分使用的图形处理器和处理器中较小任务的运输 – 并解决
节点通过节点重新分配任务的片段化。

分布:通过节点或图形处理器和处理器均匀分配工作负载,以最大程度地减少
加载到节点,并最大程度地提高工作负载资源的可用性。

资源保证或分配图形处理器

总的来说,一些研究人员在一天开始时提供的图形处理器多于确保可访问性。即使其他团队仍然拥有未使用的配额,这种做法也可能导致不足的资源。

KAI规划师通过确保资源保证来解决这一问题。这确保了从业者团队获得专用的图形处理器,并动态重新分配了其他工作负载的永久资源。这种方法阻止了资源生产,并有助于集群的整体有效性。

将工作负载与AI与AI的各种框架连接起来可能令人恐惧。传统上,团队面临着迷宫的手动配置,可以将工作负载与Kubeflow,Ray,Argo和培训操作员等工具联系起来。这个困难延迟了原型。

Kai Scheduler通过打开内置的Podgrouper来解决这一问题,该筹码器会自动检测并与这些工具和框架相关的配置复杂性和开发加速度的框架。


Source link
Scroll to Top