此AI論文介紹了Wings:雙重學習者體系結構,以防止在多模式大語模型中唯一的文本遺忘

多模式LLM:跨文本和視覺擴展功能

擴展大型語言模型(LLMS)以處理多種模式,尤其是圖像和文本,這使得能夠開發更具交互性和直觀的AI系統。多模式LLMS(MLLM)可以解釋視覺效果,回答有關圖像的問題,並參與包括文本和圖片的對話。他們在視覺和語言領域進行推理的能力使它們在教育,內容產生和互動助理等應用程序中越來越有價值。

在MLLM中僅忘記文字的挑戰

但是,將視覺整合到LLMS中會產生問題。當在將圖像與文本混合的數據集上訓練時,MLLM通常會失去處理純文本任務的能力。這種現像被稱為僅文本遺忘,之所以發生,是因為插入語言序列的視覺令牌將模型的注意力從文本中移開。結果,MLLM開始優先考慮與圖像相關的內容,並在需要語言理解的任務上執行較差,例如基本的推理,理解或文本問答(Q&A)任務。

現有緩解策略的局限性

幾種方法試圖解決此降解。一些方法在培訓過程中重新引入了大量僅文本數據,而另一些方法則在純文本和多模式微調之間進行交替。這些策略旨在提醒模型其原始語言能力。其他設計包括適配器層或及時的調整。但是,這些技術通常會增加培訓成本,需要在推斷期間進行複雜的切換邏輯,或者無法完全恢復文本理解。該問題很大程度上源於當將圖像令牌引入序列中時模型的注意力如何變化。

介紹翅膀:阿里巴巴和南京大學的雙重學習者方法

阿里巴巴集團AI商業團隊和南京大學的研究人員推出了一種名為Wings的新方法。該設計添加了兩個新的模塊 – 視覺和文本學習者 – into MLLM的每一層。這些學習者與模型的核心注意機制並行工作。該結構類似於關注層的兩側附著的“機翼”。路由組件控制著每個學習者根據當前的令牌混合的關注,從而使模型在視覺和文本信息之間動態之間平衡其焦點。

低級剩餘注意力(Lorra):平衡效率和方式意識

機翼體系結構使用一種稱為低級殘留注意力(Lorra)的機制,該機制使計算輕量級保持輕量級,同時使學習者能夠捕獲特定於特定於模式的信息。在訓練的第一階段,只有視覺學習者被激活以使圖像特徵對齊。在第二階段,視覺學習者和文本學習者均與使用注意權重分配責任的路由器模塊共同訓練。每個學習者都使用有效的注意力塊與圖像或周圍文本進行交互,並且它們的輸出與主模型的輸出相結合。這樣可以確保視覺關注不會使文本理解不堪重負。

跨文本和多模式任務的機翼性能基準

在性能方面,翅膀顯示出強烈的結果。在MMLU數據集上,它達到的僅文本得分為60.53,與類似的基線模型相比,它的提高了9.70點。對於CMMLU,它得分為69.82,比基線高9.36分。在諸如賽車高峰之類的推理任務中,它獲得了11.9分,在WSC中,記錄了11.12分。在MMMU-VAL等多模式基準測試中,Wings的提高了4.78點。它還在IIT基準測試中證明了強大的結果,比其他規模上的其他開源MLLM更有效地處理混合文本和圖像多圈對話。

結論:邁向更加平衡和可推廣的MLLM

總而言之,研究人員通過介紹Wings來解決了在MLLM中災難性文本遺忘的問題,該建築與專門的視覺和文本學習者以及注意力路由配對。通過分析注意力轉移並設計有針對性的干預措施,他們保持文本性能,同時增強視覺理解,提供更平衡,更有效的多模型模型。


查看 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 100K+ ml子雷迪特 並訂閱 我們的新聞通訊


Nikhil是Marktechpost的實習顧問。他正在哈拉格布爾印度技術學院攻讀材料的綜合材料綜合學位。 Nikhil是AI/ML愛好者,他一直在研究生物材料和生物醫學科學等領域的應用。他在材料科學方面具有強大的背景,他正在探索新的進步並創造了貢獻的機會。

Source link

Scroll to Top