大型語言模型(LLM)和生成AI的興起,深度神經網絡(DNN)培訓經歷了前所未有的增長。這些模型的有效性與增加的大小直接相關,這是由於GPU技術和Pytorch和Tensorflow等框架的進步而實現的。但是,隨著模型超過單個GPU的能力,培訓數十億個參數的神經網絡提出了重大的技術挑戰。這需要在多個GPU和並行化矩陣乘法操作上分配模型。幾個因素影響培訓效率,包括持續的計算績效,對子通信者的集體溝通操作以及與非阻滯集體的計算重疊。
儘管效率仍然是一個挑戰,但最近訓練LLM的努力推動了基於GPU的集群利用的界限。 Meta使用2,000個NVIDIA A100 GPU訓練了Llama 2,而Megatron-LM的管道並行性在3,072 GPU上基準1000B參數模型時,達到了52%的峰值性能。當在4,480 A100 GPU上訓練530b參數模型時,Megatron-LM和DeepSpeed組合達到了峰值性能的36%。 Megascale在12,288 A100 GPU上的175B參數模型中達到了55.2%的峰值性能。在AMD系統上,Forge訓練在2,048 MI250X GPU上達到了峰值性能的28%,而其他研究則在1,024 MI250X GPU上進行1T參數模型時,達到了峰值的31.96%。
美國馬里蘭州大學公園的研究人員;德國圖賓根的Max Planck智能係統研究所;加利福尼亞大學,美國伯克利分校提出了Axonn,這是一種新穎的四維混合平行算法,該算法在高度可擴展,便攜式,開源框架中實現。研究人員在Axonn中引入了幾種性能優化,以增強矩陣乘法內核性能,有效地重疊非阻滯集體與計算重疊,並採用性能建模來識別最佳配置。除績效外,他們還通過調查“災難性的記憶”來解決培訓LLM中培訓數據記憶的關鍵隱私和版權問題。使用Axonn在Frontier上的AXONN微調了4050億個參數LLM。
在三個領先的超級計算平台上評估了Axonn:NERSC/LBL的NERSC/LBL,帶有NVIDIA A100 GPU(每個GPU)(每個GPUS 40GB DRAM),在OLCF/ORNL的邊界,AMD Instinct MI250X GPUS(每人128GB DRAM)分別分為兩個獨立管理的64GB GH2 pron complip prons etps prolps prolps prolps prolps eltps props etps etps etps ats and and H100 GPU)。所有系統均使用每個節點的四個HPE彈弓11 NIC,每個節點都提供25 GB/s的雙向鏈路速度。績效測量遵循嚴格的方法,運行了十次迭代並平均最後八個以解釋熱身的變化。基準測試是針對理論峰值性能值的結果進行的,報告了達到的峰值的百分比和總持續的BF16失敗/s。
Axonn在所有三個超級計算機上顯示了具有GPT式變壓器的所有三個超級計算機的出色縮放性能。在所有平台上,近乎理想的縮放量最高為4,096 GPU/GCD,涵蓋了大規模LLM培訓的典型硬件系列。在6,144 H100 GPU的Alps上運行60B型號的同時,略微降低到76.5%,而1,024 GPU性能,Frontier的廣泛GPU可用性可以實現前所未有的擴展測試。 Axonn在邊境上保持近距離弱的弱弱擴展,相對於512 GCD性能,效率為88.3%。在Perlmutter上,Axonn始終達到50%或更高的每GPU 312 TFLOP/S峰值。線性性能縮放的持續浮點操作的增加了近8倍,從512 GPU上的80.8 Pflop/s到4,096 GPU的令人印象深刻的620.1 Pflop/s。
總之,研究人員介紹了Axonn,他們對機器學習的貢獻通過提供可擴展,用戶友好和便攜式訪問模型並行性的範圍,超出了性能指標。它可以在商品計算限制下對較大模型進行培訓和微調,從而使連續的LLM培訓代碼庫有效地利用分佈式資源。此外,通過使對特定領域數據的大型模型的能力民主化,Axonn擴大了從業人員在各個領域的能力。因此,由於越來越多的研究人員可以使用前所未有的規模和復雜性模型來理解和解決記憶的風險,因此有迫切的理解和解決記憶風險。
查看 紙。 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 80k+ ml子列數。
🚨 推薦的閱讀-LG AI研究釋放Nexus:一個高級系統集成代理AI系統和數據合規性標準,以解決AI數據集中的法律問題

Sajjad Ansari是來自IIT Kharagpur的最後一年的本科生。作為技術愛好者,他深入研究了AI的實際應用,重點是理解AI技術及其現實世界的影響。他旨在以清晰易於的方式表達複雜的AI概念。
🚨推薦開源AI平台:“ Intellagent是一個開源的多代理框架,可評估複雜的對話AI系統”(已晉升)