培訓深神經網絡的任務,尤其是那些具有數十億個參數的人,本質上是資源密集的。一個持久的問題是計算和通信階段之間的不匹配。在常規的設置中,向前和向後通過順序執行,導致間隔在交換或同步數據時GPU保持空閒狀態。這些閒置時期或管道氣泡不僅會延長訓練時間,還增加了記憶需求。此外,微觀批量的管理可能會導致參數的不必要重複,從而進一步扭轉可用資源。找到一種更好地對齊這些階段的方法對於提高效率和降低培訓成本至關重要。
DeepSeek AI釋放了DualPipe,這是一種用於計算通信的雙向管道並行算法在V3/R1培訓中重疊。 DualPipe並沒有遵守嚴格的順序順序,而是在重疊的雙向流中策劃向前和向後通過。這種調度策略旨在協調計算和通信階段,以便儘管一組微型批量進行了正向處理,但另一組正在進行向後計算。
根據DeepSeek-V3技術報告,這種雙向設計有助於減少傳統的管道氣泡,同時優化內存使用情況。該系統在向前和反向方向上採用了微批次的對稱佈置,從而使GPU之間的數據流更加一致。這種對齊方式意味著硬件正在使用更加一致,可能導致更順暢,更有效的訓練週期。
技術見解和利益
DualPipe通過將訓練過程分為一系列較小的微批次來實現其效率,這些微型批量計劃同時在兩個方向上。該算法的關鍵創新在於其雙向調度機制。與傳統方法(例如,簡單的一偏見,一折(1f1b)序列或ZB1P等交錯變體)不同,可以通過允許重疊的操作來最大程度地減少空閒時間。
GitHub文檔詳細介紹了一種比較方法:
- 1f1b: 依次執行前後通過。
- ZB1P: 引入了一定程度的驚人,以減輕空閒時間。
- 雙管: 使用雙向調度方法,該方法在文檔中表示為“ PP/2-1(&+-3)”,表明該方法需要更少的管道階段,同時仍需要額外的激活階段。
這種細微的方法不僅減少了空閒時期,而且還提供了更平衡的內存使用。 DualPipe由Pytorch 2.0及以上實施,與當前的深度學習框架兼容,旨在平穩地集成到現有的培訓管道中。
觀察和比較數據
該存儲庫提供了一個明確的示例,說明瞭如何對具有八個管道並行等級和二十個微批次的系統的DualPipe計劃操作。在這種佈置中,沿相反方向的微批次反映了向前方向的那些,從而有效地減少了在常規管道中觀察到的通常延遲。該計劃圖突出顯示了與共享邊框重疊的單元格,它是通信和計算階段如何交織的視覺表示。
此外,存儲庫提供了對內存使用情況的比較分析。諸如1F1B和ZB1P之類的方法需要特定的管道配置,但DualPipe的方法(以“ 2×pp+1”表示的配置)表現出更明智地使用資源。在大規模培訓環境中,這種有效的硬件使用可能特別有益,即使是適度的改進也可以帶來大量的時間和成本節省。
結論
DualPipe為深度學習培訓中的長期挑戰提供了一個周到且設計精良的解決方案。通過重疊前向和向後通過並仔細地與計算協調通信,該算法減少了空閒時間並優化了資源利用率。這種方法不僅有可能縮短培訓時間,而且還可以降低部署大型模型的總體成本。
查看 Github倉庫。 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 80k+ ml子列數。
🚨 推薦的閱讀-LG AI研究釋放Nexus:一個高級系統集成代理AI系統和數據合規性標準,以解決AI數據集中的法律問題

Asif Razzaq是Marktechpost Media Inc.的首席執行官。作為一位有遠見的企業家和工程師,ASIF致力於利用人工智能的潛力來實現社會利益。他最近的努力是推出了人工智能媒體平台Marktechpost,該平台的深入覆蓋了機器學習和深度學習新聞,既在技術上都可以聽起來,既可以通過技術上的聲音,又可以被廣泛的受眾理解。該平台每月有超過200萬個觀點,說明了其在受眾中的受歡迎程度。
🚨推薦開源AI平台:“ Intellagent是一個開源的多代理框架,可評估複雜的對話AI系統”(已晉升)