近幾個月來,人們對應用擴散模型(用於連續數據(例如圖像)設計的擴散模型(例如圖像)的興趣越來越大。這導致了離散擴散語言模型(DLM)的開發,這些模型將文本生成視為一個剝奪過程。與傳統的自迴旋模型不同,DLMS可以平行解碼並更好地控制結構,從而提供了諸如整個序列的靈活初始化,對輸出格式的明確控制以及通過雙向關注改善填充的填充。此外,他們的非順序性質為更快的生成打開了大門。儘管有這些好處,但大多數當前的多模式大語言模型(MLLMS)(例如Llama,Qwen-VL和InternVL)還是僅依賴自動回應方法。
基於擴散的語言模型的工作探索了連續和離散的擴散空間。連續的方法,例如diffuseq和sed,使用嵌入或放鬆的分類空間來平滑。相反,SDDM和RDM等離散模型量身定制了語言結構的擴散過程。訓練技術各不相同,但通常使用蒙版的語言建模損失或基於熵的分數匹配。一些混合模型,例如AR-擴散和SSD-LM,結合了自回歸和擴散策略,以利用兩種方法的優勢。同時,諸如LLAVA和InternVL之類的開源MLLM通過視覺指導調整和聯合預處理進行了進步,但仍遵循自回歸的生成方案。
新加坡國立大學的研究人員出席了Dimple,這是第一個離散的DMLLM,將視覺編碼器與基於離散擴散的語言模型集成在一起。為了克服純粹基於擴散的訓練的不穩定性和性能問題,他們引入了兩階段訓練方法(AutoreRexressive-then-diffusion),將初始自動回歸對齊方式與隨後的基於擴散的掩蓋語言建模相結合。 Dimple-7b在基准上超過3.9%的Llava-Next。該團隊還引入了動態令牌生成的自信解碼,並探索結構先驗,以精確控制輸出。這些創新顯著提高了推理效率,發電靈活性和結構可控性,而無需犧牲績效。
Dimple是一種離散的擴散多模式LLM,將視覺編碼器與基於擴散的語言模型集成在一起。為了解決擴散訓練中效率低下的效率,例如稀疏監督和有限的生成覆蓋範圍,該模型分為兩個階段:首先,使用因果關注掩碼進行自動回歸訓練,以進行視覺對齊,然後進行擴散訓練以恢復生成能力。在推斷期間,動態的“自信解碼”策略根據預測信心調整了令牌更新。儘管使用了較少的培訓樣本,但Dimple在多個基準測試中表現出競爭性能,表現優於相似的自動回歸模型,儘管它落後於更大尺度的最先進的系統。
該實驗評估了DMLLM DIMPLE,以根據指導跟踪任務進行自回歸模型。 Dimple通過混合策略進行了訓練,結合了自回歸和擴散調整,在大多數基準測試上具有相似的培訓數據,表現出強大的性能,超過模型。儘管它落後於在更大的數據集中訓練的模型之後,但Dimple受益於更強的基本語言模型。消融研究表明,結合自回歸和擴散調整會減輕諸如長度偏差和提高一致性之類的問題。只有較小的性能下降,預填充進一步的推理速度顯著提高了推理速度,這使得模型在多模式理解任務中既有效又有競爭力。
總之,第一個DMLLM DIMPLE旨在克服純粹的離散擴散訓練的局限性,例如不穩定性和長度偏差。 Dimple採用了一種從自迴旋學習開始的混合訓練方法,然後進行擴散調整,產生Dimple-7b模型,該模型的表現優於Llava-Next 3.9%。解碼策略,自信的解碼,大大降低了推理步驟,而預填充效果可以通過最低的性能權衡提高速度。 Dimple還可以通過結構先驗實現結構化和可控的輸出,從而提供對格式和長度功能的細粒度控制,自動回歸模型難以提供。
查看紙張,在擁抱面上的模型和github頁面。 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 95k+ ml子雷迪特 並訂閱 我們的新聞通訊。

Marktechpost的諮詢實習生,IIT Madras的雙學位學生Sana Hassan熱衷於應用技術和AI來應對現實世界中的挑戰。他對解決實踐問題的興趣非常興趣,他為AI和現實生活中的解決方案的交集帶來了新的視角。
