OpenBMB釋放MiniCPM4:邊緣設備的超高效語言模型,注意力很少,推理很快

需要有效的駐放式語言模型

大型語言模型已成為AI系統不可或缺的一部分,從而實現了通過基於變壓器的體系結構進行多語言翻譯,虛擬協助和自動推理等任務。這些模型通常很大,但通常需要強大的雲基礎架構才能進行訓練和推理。這種依賴會導致潛伏期,高成本和隱私問題,從而將其部署限制在資源受限的邊緣設備上。 GPT和Llama等模型具有數十億個參數,由於其大小以及訓練和推理過程的複雜性,無法在本地硬件上有效運行。此外,它們對大量數據集和高性能GPU的依賴使它們不適合移動或嵌入式環境。為了克服這些挑戰,對輕巧,有效的模型的需求越來越大,可以在本地表現良好而無需犧牲推理和上下文處理能力。

現有解決方案的局限性

已經探索了幾種解決這些挑戰的方法。 NSA和MOBA等稀疏注意機制旨在減少記憶消耗;但是,它們要么在解碼效率方面缺乏,要么引入了重要的建築開銷。對於數據處理,以前的方法已經依靠大規模的網絡刮擦,導致嘈雜和非結構化的語料庫。過濾方法包括FastText分類器和手動策劃,它們要么缺乏深度或可擴展性。在訓練方面,諸如Steplaw之類的框架已被用來根據可預測的縮放定律來優化超參數。但是,它們通常需要大量的實驗和GPU週期,從而造成進入障礙。推理優化(例如閃光燈)降低了計算複雜性,但仍未達到邊緣設備上實時應用所需的速度。

介紹MiniCPM4:有效的體系結構,數據和推理

介紹了OpenBMB的研究人員 minicpm4,一套專門為設備部署而設計的高效大語言模型。該發展包括兩個變體:一個與 5億參數,另外80億。該模型是在四個核心方面的改進中構建的:模型架構,培訓數據,培訓算法和推理系統。對於建築,團隊介紹了 INFLLM V2,一種稀疏的注意機制,可以加速預填充和解碼,而無需犧牲上下文理解。在數據方面, 超級乾淨 與QWEN3-8B(例如Qwen3-8 B. ModelTunnel V2)使用的36萬億所使用的36萬億所使用的36萬億所使用的培訓代幣可用於生成和過濾訓練數據集,因此僅使用8萬億個訓練令牌。 ModelTunnelv2通過有效的超參數調整來指導培訓過程,而CPM.CU用基於平台的CUDA基於CPM.CU處理了推理。

MiniCPM4的技術創新

MinicPM4的Tech堆棧旨在在性能和資源利用率之間取得平衡。 INPLLM V2將鍵值緩存分為塊,並使用語義內核選擇top-k相關的塊,以供注意,與NSA相比,注意力計算減少了60%。其動態上下文塊選擇和令牌級查詢組處理使其可以在保持速度和連貫性的同時支持高達128K令牌的序列。 Ultraclean利用預先培訓的LLM和基於100億個令牌的基於退火的微調來依賴有效的數據驗證。這會導致更高質量的數據集,英語的UltrafineWeb和中文的Ultrafineweb-ZH,在平均基準的性能中,它們的表現分別超過了3.61和1.98個百分點。 Ultrachat V2通過產生富含推理的多圈對話來進一步支持培訓。

基準性能和速度提高

在原始性能方面,8B版本的MMLU得分為32.24%,表現優於FineWeb(28.84%)和FineWeb-Edu(31.80%)。在ARC-C和ARC-E上,它的得分分別為35.67%和70.62%,超過10個百分點超過10個百分點。與QWEN3-8B相比,MinICPM4僅使用了22%的培訓數據,但在對端側GPU進行測試時,在128 k長度文檔上的推理速度提高了7倍,例如Jetson AGX Orin和RTX 4090。在200個代幣的平均解碼速度(對於長期sexext Extects和shotertects the shortertucty degradefter cornectuction degradefters togrances forgranded cornectuction shormed cornectuction cornectuction and shormed cornectucty degrade cornefters cornefters的平均解碼速度均達到。此外,使用BITCPM4啟用了量化感知訓練,從而使其在具有更嚴格的內存約束的設備上部署而不會失去性能保真度。

MinicPM4的關鍵要點

  • MinicPM4為0.5B和8B參數尺寸,針對邊緣設備進行了優化。
  • 它僅利用了8萬億個訓練令牌,而Qwen3-8 B. 36萬億。
  • 與Qwen3-8 B相比,它實現了128 k長的文檔的7倍處理。
  • INFLLM V2使用塊級的注意力將注意力計算的成本降低了60%。
  • UltrafineWeb在基准上以3.61%(英語)和1.98%(中文)優於FineWeb。
  • ARC-C的35.67%,ARC-E的70.62%,MMLU達到32.24%,超過了先前的數據集。
  • BITCPM4啟用了適用於極度約束硬件的三元LLM。
  • CPM.CU推理系統將CUDA優化與投機採樣相結合。
  • Ultrachat V2通過推理密集型對話生成啟用了增強的微調。
  • ModelTunnel V2使用縮放板進行精確的高參數調整,從而提高了訓練效率。

結論:邊緣AI應用的有效LLM

總之,MinicPM4團隊採用的全面方法解決了與當前LLM相關的所有關鍵效率低下。通過引入新穎的建築,培訓和部署策略,該模型保持了高質量的響應,支持長篇小說理解並在邊緣限制下表現良好。這項工作的成功超出了原始指標,以證明在雲外可以實現最先進的性能。它可以實現新的應用程序域,例如安全的離線助手,實時移動AI和自動嵌入式系統,而無需傳統的計算負擔。


查看 紙,擁抱面的模型和github頁面 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 100K+ ml子雷迪特 並訂閱 我們的新聞通訊


Asif Razzaq是Marktechpost Media Inc.的首席執行官。作為一位有遠見的企業家和工程師,ASIF致力於利用人工智能的潛力來實現社會利益。他最近的努力是推出了人工智能媒體平台Marktechpost,該平台的深入覆蓋了機器學習和深度學習新聞,既在技術上都可以聽起來,既可以通過技術上的聲音,又可以被廣泛的受眾理解。該平台每月有超過200萬個觀點,說明了其在受眾中的受歡迎程度。

Source link

Scroll to Top