此AI論文介紹了LLADA-V:一種純粹基於擴散的多模式的大型語言模型,用於視覺指令調整和多模式推理
多模式的大語言模型(MLLM)旨在處理和生成各種模式的內容,包括文本,圖像,音頻和視頻。這些模型旨在了解和集成來自不同來源的信息,從而實現應用程序,例如視覺問答,圖像字幕和多模式對話系統。 MLLM的發展代表了創建可以以更類似人類的方式來解釋和與世界互動的AI系統邁出的重要一步。 開發有效MLLM的主要挑戰在於將各種輸入類型(尤其是視覺數據)集成到語言模型中,同時保持跨任務的高性能。現有模型通常在平衡強烈的語言理解和有效的視覺推理方面掙扎,尤其是在擴展到復雜數據時。此外,許多模型需要大型數據集的性能良好,因此很難適應特定的任務或域。這些挑戰強調了對多模式學習的更高效和可擴展方法的必要性。 當前的MLLM主要利用自迴旋方法,一次以從左到右的方式預測一個令牌。雖然有效,但這種方法在處理複雜的多峰環境方面存在局限性。已經探索了替代方法,例如擴散模型。但是,由於其限制性架構或培訓策略不足,他們經常表現出較弱的語言理解。這些限製表明,純粹基於擴散的模型有效地設計的差距可以提供競爭性的多模式推理能力。 中國人民大學和螞蟻小組的研究人員推出了LLADA-V,這是一種純粹基於擴散的掩蓋語言建模(MLLM)模型,該模型將視覺指導調整與蒙版擴散模型集成在一起。 LLADA-V建立在大型語言擴散模型的LLADA上,將視覺編碼器和MLP連接器與Project Visual特徵納入了語言嵌入空間,從而實現了有效的多模式對齊。這種設計代表了當前多模式方法中的自迴旋範式占主導地位,旨在克服現有的局限性,同時保持數據效率和可擴展性。 LLADA-V採用了掩蓋的擴散過程,其中文本響應通過迭代預測的蒙版令牌逐漸完善。與依次預測令牌的自迴旋模型不同,LLADA-V通過逆轉掩蓋的擴散過程來生成輸出。該模型在三個階段進行了訓練:第一階段通過將Siglip2的視覺特徵映射到Llada的語言空間中,將視覺和語言嵌入對齊。第二階段使用1000萬個單像樣品和200萬個猛mm象VL的多模式樣品進行微型調節。第三階段的重點是使用VisualWebinstruct和混合數據集策略的900K QA對。雙向注意提高了環境理解,從而實現了強大的多模式理解。 在跨18個多模式任務的評估中,LLADA-V與混合自迴旋擴散和純粹基於擴散的模型相比表現出了出色的性能。在大多數多學科知識和數學推理任務(例如MMMU,MMMU-PRO和MMSTAR)上,它的表現優於Llama3-V,儘管使用LLADA-V使用LLADA-V,但在MMSTAR上取得了60.1的得分,但使用LLADA-V較弱的LLADA-8B語言。 LLADA-V在數據效率方面也表現出色,在MMMU-PRO上的表現優於Llama3-V,對Llama3-V的900萬樣本的表現優於MMMU-PRO。儘管它滯後於圖表和文檔理解基準,例如AI2D和現實世界的場景任務,例如Realworldqa,但LLADA-V的結果卻突出了其對多模式任務的希望。 總而言之,LLADA-V通過引入純粹基於擴散的架構將視覺指導調整與掩蓋擴散結合的純粹基於擴散的體系結構來解決有效的多模型的挑戰。該方法在保持數據效率的同時提供了強大的多模式推理能力。這項工作證明了在多模式AI中擴散模型的潛力,為進一步探索複雜AI任務的概率方法鋪平了道路。 查看紙張和GitHub頁面 。 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 95k+ ml子雷迪特 並訂閱 […]