多模式推理的挑戰
諸如DeepSeek-R1之類的基於文本語言模型的最新突破表明,RL可以幫助發展強大的推理能力。在此激勵的情況下,研究人員試圖將相同的RL技術應用於MLLM,以增強其在視覺和文本輸入中推理的能力。但是,這些嘗試並沒有完全成功。 MLLM仍在復雜的推理任務上掙扎。這表明,僅重複使用僅文本模型的RL策略可能在多模式設置中可能無法正常工作,在多模式設置中,不同數據類型之間的相互作用引入了需要更量身定制的方法的新挑戰。
多模式模型的演變
MLLM的最新研究通過將視覺輸入與語言理解相結合,以LLM的進度為基礎。早期型號(例如剪輯和迷你期4)奠定了基礎工作,然後是諸如Llama之類的指導調整模型。儘管封閉源模型通過冗長的COT輸出表現出強烈的推理,但開源模型主要集中於微調和COT適應。但是,這些通常會產生限制深入理由的簡短答案。 RL,包括RLHF和GRPO等技術,已經顯示出有望增強LLM中推理的希望。受此啟發的啟發,最近的工作旨在將RL應用於MLLM,以改善視覺推理並支持更豐富,更長的輸出。
介紹Revisual-R1
Tsinghua大學,上海若o湯大學和上海人工智能實驗室的研究人員引入了Revisual-R1,Revisual-R1是一種7B參數開源MLLM,為多模式推理設定了新的標準。他們的研究揭示了三個關鍵見解:(1)僅仔細的文本預處理提供了強烈的冷啟動,甚至在RL之前就表現出了許多現有的MLLM的表現; (2)常用的GRPO算法遭受梯度停滯,它們使用一種稱為優先優勢蒸餾(PAD)的新方法來解決; (3)在多模式RL之後添加最終的僅文本RL階段,進一步增強了推理。他們的三階段方法,包括文本預處理,多模式RL和最終文本RL,在視覺接地和深層認知推理之間取得了有效的平衡。
開發語法數據集
語法數據集是在發現現有的多模式冷啟動數據集缺乏訓練強推理模型所需的深度之後開發的。像DeepMath一樣,僅文本數據集在文本和多模式任務中都顯示出更好的收益,這表明文本複雜性可以更好地刺激推理。為了解決這個問題,語法使用多階段策展過程結合了多種文本和多模式樣本。該數據為分階段的增強優化(SRO)框架提供了首先使用多模式RL訓練模型,並通過優先的優勢蒸餾來增強模型,以避免停滯不前的學習和有效的長度獎勵以遏制垂直詞,然後是文本rl階段,以提高推理和語言的流動性。
三階段訓練管道
Revisual-R1的實驗遵循結構化的三階段訓練過程:從純文本數據開始,以建立語言基礎,然後將多模式增強的學習納入視覺文本推理,最後用僅文本的RL進行微調以提高推理和流暢性。它在各種基準測試中進行了測試,並且在多模式和數學推理任務中均優於開源和一些商業模型。該模型在10個基準中的9個基準中獲得了最高結果。消融研究證實了培訓順序的重要性和優先的優勢蒸餾方法,這有助於將學習集中在高質量的反應上,從而顯著改善了整體績效。
摘要和貢獻
總之,Revisual-R1是一個7B開源MLLM,旨在應對複雜的多模式推理的挑戰。它不僅依賴於規模,而是使用精心設計的三階段訓練過程:從高質量的文本數據開始,用於基礎原理,然後使用新的穩定性墊技術增強了多模式RL相位,並以最終的基於文本的RL改進結束。這個周到的課程大大提高了表現。 Revisual-R1在7B型號中設定了新的基準,在Mathverse和Aime等任務中都出色。這項工作強調了結構化培訓如何在MLLM中解鎖更深層次的推理。
查看 紙 和github頁面。 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 100K+ ml子雷迪特 並訂閱 我們的新聞通訊。

Marktechpost的諮詢實習生,IIT Madras的雙學位學生Sana Hassan熱衷於應用技術和AI來應對現實世界中的挑戰。他對解決實踐問題的興趣非常興趣,他為AI和現實生活中的解決方案的交集帶來了新的視角。
