DeepSeek AI釋放Deepep:用於MoE模型培訓和推理的開源EP通信庫

使用專家專家混合(MOE)體系結構的大型語言模型已使模型容量的顯著增加,而計算的相應增加。但是,這種方法也引入了挑戰,尤其是在GPU之間進行交流時。在MOE模型中,對於任何給定的令牌,只有一部分專家都活躍,因此在設備之間有效交換數據至關重要。全能交流的傳統方法可以創建瓶頸,從而增加潛伏期和不足的GPU資源。在諸如實時推理之類的延遲敏感設置中,即使是小延遲也會影響整體性能。此外,儘管低精度操作(例如FP8)有助於減少記憶使用量,但它們需要仔細的優化才能維持模型質量。這些問題強調了根據專家並行性的特定要求量身定制的通信庫的需求。

DeepSeek AI最近推出了Deepep,這是一個專門為MOE模型和專家並行性(EP)設計的通信庫。 DEEPEP解決了在GPU中派遣和匯總代幣固有的效率低下。該庫提供了高通量,低延遲的全部GPU內核(通常稱為Moe調度和組合內核),從而在培訓和推理過程中簡化了數據交換。值得注意的是,DEEPEP支持低精度操作(包括FP8),並與DeepSeek-V3論文中詳細介紹的技術保持一致。該版本直接響應在Intranode和Intranode環境中縮放MOE體系結構的挑戰。

技術概述和利益

DeePep提供了兩種主要類型的內核,旨在滿足不同的操作需求:

  • 普通核: 這些內核是針對需要高通量的場景(例如在推理或訓練的預填充階段)進行了優化的。他們通過利用NVLink和RDMA網絡技術來有效地轉發GPU。例如,對具有NVLINK的Hopper GPU的測試顯示了吞吐量約為153 GB/s,用於內部模板通信,而使用CX7 Infiniband(大約50 GB/s帶寬)進行了節間測試,可在43-47 GB/s接近43-47 GB/s。通過最大化可用的帶寬,這些內核在令牌調度過程中減少了溝通開銷和結果組合。
  • 低延遲內核: 對於響應性至關重要的推理任務,DEEPEP提供了僅依賴RDMA的低延遲內核。這些內核是針對處理小批量的量身定制的(在實時應用中的常見),報告的潛伏期低至163微秒,用於涉及八名專家的調度操作。該設計還結合了一種基於掛鉤的通信計算重疊技術,該技術允許數據傳輸與計算同時發生,而無需消耗GPU流媒體多處理器(SMS)。

DeePep通過自適應配置提供了靈活性。用戶可以調整參數,例如使用中的SMS數量或設置環境變量(例如, NVSHMEM_IB_SL)管理交通隔離。當前在低延遲內核中支持的自適應路由有助於在重載下均勻分配網絡流量,從而提高穩健性。

績效見解和實際結果

Deepep的性能指標值得注意。在使用普通核的典型測試中,內模式通信可以達到高達153 GB/s的吞吐量,而INTERDODE設置在RDMA上保持約43-47 GB/s。低延遲核在生產方案中特別有效。對於與八名專家一起處理的128個令牌,調度延遲可能低至163微秒。這種改進意味著總體推理過程變得更加有效,可以使較大的批量大小和計算和通信之間的更平滑重疊。

實際上,這些優化導致推理解碼和改進訓練場景的吞吐量的響應時間更快。 FP8的包含不僅支持降低內存足跡,而且還促進了更快的數據傳輸,這在在資源受到限制的環境中部署模型時至關重要。

結論

DeePep是對大規模語言模型部署領域的周到貢獻。通過解決MOE體系結構中的關鍵通信瓶頸,它可以實現更有效的培訓和推理。它的雙內核方法(一組專為高吞吐量而設計,而用於低潛伏期)為一系列應用程序提供了靈活性。 DEEPEP在支持低精度操作的支持下,配備了適應性配置的機制,為研究人員和開發人員提供了一種實用的工具,可以進一步優化專家並行性。

總而言之,DeepSeek AI的DeePep發布代表了一種仔細,設計良好的解決方案,可以平衡性能與資源效率。它的設計有助於為更具可擴展性和響應式的AI模型鋪平道路,以具有成本效益的方式支持學術研究和現實世界的應用。


查看 GitHub頁面。 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 80k+ ml子列數

🚨 推薦的閱讀-LG AI研究釋放Nexus:一個高級系統集成代理AI系統和數據合規性標準,以解決AI數據集中的法律問題


Asif Razzaq是Marktechpost Media Inc.的首席執行官。作為一位有遠見的企業家和工程師,ASIF致力於利用人工智能的潛力來實現社會利益。他最近的努力是推出了人工智能媒體平台Marktechpost,該平台的深入覆蓋了機器學習和深度學習新聞,既在技術上都可以聽起來,既可以通過技術上的聲音,又可以被廣泛的受眾理解。該平台每月有超過200萬個觀點,說明了其在受眾中的受歡迎程度。

🚨推薦開源AI平台:“ Intellagent是一個開源的多代理框架,可評估複雜的對話AI系統”(已晉升)

Source link

Scroll to Top