CNews

CNews

用戶友好的系統可以幫助開發人員構建更有效的模擬和AI模型|麻省理工學院新聞

在醫學圖像處理和語音識別等應用程序中使用的神經網絡人工智能模型對需要大量計算進行處理的非常複雜的數據結構進行操作。這是深度學習模型消耗大量能量的原因之一。 為了提高AI模型的效率,麻省理工學院的研究人員創建了一個自動化系統,該系統使深度學習算法的開發人員能夠同時利用兩種類型的數據冗餘。這減少了機器學習操作所需的計算,帶寬和內存存儲的量。 現有用於優化算法的技術可能很麻煩,通常只允許開發人員利用稀疏性或對稱性 – 深度學習數據結構中存在的兩種不同類型的冗餘。 通過使開發人員能夠立即利用兩種冗餘的算法構建算法,麻省理工學院研究人員的方法在某些實驗中使計算速度提高了近30倍。 由於系統使用用戶友好的編程語言,因此可以為廣泛的應用程序優化機器學習算法。該系統還可以幫助那些不是深度學習專家但希望提高其用於處理數據的AI算法的效率的科學家。此外,該系統可以在科學計算中應用。 “很長一段時間以來,捕獲這些數據冗餘需要大量的實施工作。取而代之的是,科學家可以告訴我們的系統他們想以更抽象的方式計算什麼,而不告訴系統如何計算它。”將在國際代碼生成和優化研討會上介紹。 首席作者Radha Patel ’23,SM ’24和高級作家Saman Amarasinghe加入了她的參考書,電氣工程與計算機科學系教授(EEC)和計算機科學和人工智能實驗室的首席研究員(EECS)(EECS)( EECS)(EECS)加入了她的參考。 CSAIL)。 削減計算 在機器學習中,數據通常表示並操縱為多維陣列,稱為張量。張量就像一個矩陣,它是在兩個軸,行和列上排列的值的矩形陣列。但是,與二維矩陣不同,張量可以具有許多尺寸或軸,從而使張量更難操縱。 深度學習模型使用重複的矩陣乘法和添加對張量進行操作 – 此過程是神經網絡在數據中學習複雜模式的方式。在這些多維數據結構上必須執行的龐大計算需要大量的計算和能量。 […]

CNews

TransMLA:將基於GQA的模型轉換為基於MLA的模型

  TransMLA:將基於GQA的模型轉換為基於MLA的模型 作為生產力工具,大型語言模型(LLMS)具有重要的重要性,開源模型越來越多地匹配其封閉源對應物的性能。這些模型通過下一代幣預測運行,當每個令牌及其前身之間計算注意力時,在計算注意力時會按順序進行預測。鍵值(KV)對被緩存,以防止冗餘計算並優化此過程。但是,緩存的內存需求不斷增長,構成了實質性局限性,在諸如Llama-65B之類的模型中尤其明顯,該模型需要超過86GB的GPU存儲器才能存儲具有8位鍵值量化的512K代幣,甚至超過H100,甚至超過H100 -80GB。 現有的方法已經出現,以應對LLMS中KV緩存的內存足跡挑戰,每種都有其自身的優勢和缺點。線性注意方法等線性變壓器,RWKV和MAMBA具有序列長度的線性縮放。動態的令牌修剪方法,例如lazyllm,a2SF和snapkv刪除了較少重要的令牌,而較小的頭尺寸降低技術(如slicegpt)和剪切的專注於減少注意力頭。跨層共享KV表示的方法,包括Yono和Minicache,以及GPTQ和KVQUANT等量化技術,試圖優化內存使用情況。但是,這些方法始終面臨計算效率和模型性能之間的權衡,通常會犧牲基本信息或註意力模式。 北京北京大學和小米公司的研究人員提出了TransMLA,這是一種培訓後的方法,將廣泛使用的基於GQA的預訓練的模型轉換為基於MLA的模型。他們的研究提供了理論上的證據,表明多層關注(MLA)與集體疑問(GQA)相比具有卓越的表現力(GQA),同時保持相同的KV緩存開銷。該團隊已成功將幾種基於GQA的模型轉換為包括Llama-3,QWEN-2.5,MISTRAL,MIXTRAL,GEMMA-2和PHI-4的模型。這種轉變旨在通過提供資源有效的遷移策略來改善模型性能的同時降低計算成本和環境影響,從而徹底改變主流LLM注意力。 使用QWEN2.5框架顯示了從GQA到MLA模型的轉換。在原始的QWEN2.5-7B型號中,每一層包含28個查詢頭和4個鍵/值頭,單個頭尺寸為128,KV緩存尺寸為1024。向MLA的轉換涉及調整兩個權重矩陣的輸出尺寸到512在將KV高速緩存維度保持在1024時。關鍵創新在於TransMLA方法,該方法將重量矩陣尺寸從512到3584,使所有28個查詢頭能夠與不同的查詢相互作用。這種轉換顯著增強了模型的表現力,同時保持KV高速緩存尺寸恆定,並且僅增加QK和VO對的參數增加12.5%。 TransMLA模型的性能評估顯示出比原始基於GQA的體系結構的顯著改善。使用Smoltalk指令微調數據集,TransMLA模型實現了較低的訓練損失,表明數據擬合功能增強。在7B和14B模型配置的數學和代碼任務中,性能改進大部分都可以看到。該研究通過受控實驗研究了這些改進的來源。當使用身份映射初始化而沒有正交分解的GSM8K數據集進行簡單維度擴展進行測試時,改進是最小的(0.15%),這表明大量性能的增長來自擴大的KV尺寸和正交分解的結合。 總之,研究人員通過引入TransMLA來提高LLM體系結構的顯著進步,TransMLA是一種將使用的基於GQA的預訓練模型轉換為基於MLA的模型的方法。理論證明和經驗驗證以增強的性能特徵建立了成功的轉型。這項工作通過全面的理論和實驗比較彌合了現有研究中GQA和MLA體系結構之間的關鍵差距。此外,未來的發展可以專注於將這種轉換方法擴展到諸如駱駝,Qwen和Mistral等主要大型模型,並通過DeepSeek R1蒸餾技術進行了其他優化,以提高模型性能。 查看 紙和github頁面。 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 75K+ ml子雷迪特。 🚨 推薦的開源AI平台:’Intellagent是一個開源多代理框架,可評估複雜的對話性AI系統‘ (晉升)

Scroll to Top