平行層:通過並行執行變壓器層提高LLM推理效率

LLM已表現出出色的功能,但是它們的大量計算要求對大規模部署構成了重大挑戰。雖然先前的研究表明,可以在不嚴重影響性能的情況下對深神經網絡中的中間層進行重新排序或去除,但這些見解並未系統地利用以降低推理成本。鑑於LLM的快速擴展通常包含數百十億個參數,因此優化推斷對於提高效率,降低延遲和降低運營費用至關重要。依靠基於雲的LLM推理的高流量應用程序可能會在數百萬美元的每月費用中產生成本,從而使效率驅動的解決方案至關重要。此外,將這些模型部署在資源受限設備上的能力需要保持性能的策略,同時最大程度地減少計算開銷。儘管現代變壓器和深層剩餘網絡之間的建築相似性有時可能是多餘的,但研究尚未探索這些冗餘,以完全優化推理效率。

有幾種方法來提高LLM的計算效率,包括修剪,量化和並行化。修剪消除了冗餘參數以引入稀疏性,提高內存利用率和處理速度。另一方面,量化通過將浮點計算轉換為INT8或INT4(例如INT4或INT4)的浮點數來降低精度,從而提高硬件效率和節能。另外,平行化技術(例如張量和管道並行性)在多個處理單元上分配工作負載,以加速推理,同時解決通信開銷。最近的創新還探索了層級別的體系結構修改,包括層融合和動態復發執行,以簡化計算圖。但是,研究尚未集中在通過張量並行性融合連續的層,為進一步的推理提供了開放的途徑。

日內瓦大學,EPFL和Meta Fair的研究人員提出了一種減少預訓練LLM的深度的方法,同時保持績效。修改計算圖可以並行執行分組對,將推理速度提高約1.20×而無需重新訓練。他們的方法在困惑和內在學習(ICL)基準中保持95%-99%的精度。此外,微調有助於恢復較小的績效損失。該方法顯著提高了大規模LLM部署的效率,表明結構轉換(例如層合併和重新排序)可以優化計算工作負載,同時維持模型效率。

該研究通過應用轉換,合併和修剪層等轉換來檢查LLM的有效深度。結果表明中間層之間的依賴性弱,從而使某些層能夠重新排序或平行,並以最小的困惑損失。並行運行連續的層可在保持性能的同時降低深度,突出顯示層獨立性。此外,層並行性在跨GPU上分佈計算,從而通過張量並行性優化效率。修改注意力和前進網絡可確保有效並行執行。調整層歸一化有助於保持穩定性。這些發現表明,變壓器模型可以利用並行性來提高計算效率,而無需進行大量的建築修改。

該研究評估了有關推理速度,ICL準確性和微調恢復的層並行性。實驗在雙A100 GPU上使用Llama2 7b和Llama3.2 3B。層並行性應用於合併的層,在其他地方具有張量並行性。結果表明,Llama2 7b的14層超過14層,而Llama3.2 3B的10層超過10層,ICL精度下降。速度按比例改善,在積極的並行性時達到1.38倍的提升。 Redpajama數據上的微調平行層顯著恢復了準確性,在保持速度增長的同時將MMLU從83.6%提高到94.4%,表明層並行性具有針對性調整的可行性。

總之,該研究引入了層並行性(LP),該層通過並聯執行層對來重組變壓器計算,從而提高了推理速度而無需重新訓練。應用於Llama2 7b和Llama3.2 3b,LP,LP將模型深度降低了21%和18%,速度分別為1.29倍和1.22倍。微調恢復了損失準確性的10.8%,證明了其有效性。這些發現挑戰了變壓器層必須順序處理的觀念,這表明選擇性並行化是可行的。 LP提高了LLM生產的效率,未來的工作探討了最佳層組,與量化的相互作用以及對層獨立性和計算效率的理論深刻見解。


查看 紙。 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 75K+ ml子雷迪特

🚨 推薦的開源AI平台:’Intellagent是一個開源多代理框架,可評估複雜的對話性AI系統(晉升)


Marktechpost的諮詢實習生,IIT Madras的雙學位學生Sana Hassan熱衷於應用技術和AI來應對現實世界中的挑戰。他對解決實踐問題的興趣濃厚,他為AI和現實生活中的解決方案的交集帶來了新的視角。

✅(推薦)加入我們的電報頻道

Source link

Scroll to Top