視覺語言模型(VLM)在一般圖像中表現出了令人印象深刻的功能,但是在處理文本豐富的視覺內容(例如圖表,文檔,圖表和屏幕截圖)時,面臨重大挑戰。這些專業圖像需要復雜的推理,將文本理解與空間理解結合在一起,這是一種針對分析科學文獻,改善可訪問性功能以及使AI代理在現實世界環境中有效發揮功能的技能。當前的VLM在這些任務上的努力主要是由於高質量培訓數據的稀缺性,這些數據實際上代表了在實際應用中遇到的各種文本所帶來的視覺格式。該數據限制在需要細微的解釋結構化視覺信息的情況下造成了績效差距,從而阻礙了這些模型在文本富圖像處理至關重要的專用域中的部署。
已經開發出幾種方法來增強視覺模型來處理視覺內容。早期體系結構探索了不同的集成策略,包括跨注意機制,Q形式結構和MLP投影層,以橋接視覺和語言特徵。但是,這些模型通常遭受重大失衡的困擾,即它們的語言組成部分大大超過了視覺處理功能,從而導致高質量培訓數據稀缺時會產生幻覺。現有的文本圖像理解的基準(圖表,文檔,圖表,圖表,屏幕截圖)的規模,範圍和多樣性仍然有限,使其適合評估,但不足以進行全面的培訓。以前的合成數據生成工作通常使用手工製作的問題模板使用一組圖表類型集中在狹窄的域上。一些方法利用僅文本LLM來從表或描述中生成註釋,而另一些方法則探索了基於代碼的合成圖表的渲染。儘管有這些進步,但當前的合成數據集仍在主題多樣性,圖形多樣性和渲染方法中受到限制,這是阻礙新穎,分佈式任務的關鍵限制。
賓夕法尼亞大學和艾倫人工智能研究所的研究人員介紹了 代碼指導的合成數據生成系統(COSYN) 它提供了一個靈活的框架,可以通過創建多樣化的合成多模式訓練數據來應對文本豐富的圖像處理中的挑戰。這種創新的系統利用僅文本LLM的代碼生成功能,使用11種支持的渲染工具(包括Python,HTML和LaTeX)為各種文本豐富的視覺格式製作數據和渲染代碼。 Cosyn不僅生成圖像,而且生成基礎代碼表示中基於的相應的文本指令,從而創建了全面的視覺語言指令來調整數據集。研究人員使用此框架開發了Cosyn-400K,這是一種大型多樣化的合成數據集,專為文本豐富的圖像理解而設計。
COSYN系統通過複雜的四階段工作流程運行,從自然語言查詢開始,例如“生成書籍封面數據集”。首先,該系統選擇了20個一代管道之一,建立在11種不同的渲染工具上,包括Matplotlib,Plotly,LateX,HTML,Mermaid,以及Lilypond的音樂表和化學結構的RDKIT等專業工具。該過程始於主題生成,以採樣的角色為指導,以增強內容多樣性,然後是詳細的數據生成,該數據生成填充了所選主題的特定內容。接下來,系統生成可執行的代碼,該代碼可使用適當的工具呈現合成圖像。最後,僅使用代碼作為上下文,該系統會提示語言模型生成相應的文本說明,包括問題,答案和經過思考的推理解釋。為了增強多樣性超出單獨採樣參數可以實現的目標,Cosyn在主題生成期間結合了200k獨特的角色,有效地抵消了語言模型的重複輸出趨勢。該實現利用datadReamer庫進行魯棒的多階段生成,使用Claude-3.5-Sonnet進行代碼生成和GPT-4O-Mini進行指導數據生成。
對Cosyn合成數據訓練的模型表明,跨文本富圖像理解基準的表現出色。當針對七個專用數據集進行評估時,7B參數模型達到了最高的平均性能,超過了第二好的模型(Llama 3.2 11b)的顯著餘量為3.9%。該模型在七個基準中的四個中排名第一,其餘三個中排名第二,突出了其在各種文本豐富的圖像任務中的一致功能。也許最引人注目的是,即使是該模型的零擊版本,也沒有任何接觸評估數據集中的培訓實例的機會,都優於最競爭的開放和封閉模型,包括在基準培訓數據上進行了微調的模型。這個意外的結果提供了令人信服的證據,表明從Cosyn的合成數據獲得的技能有效地轉移到下游任務,而無需特定於領域的培訓示例。其他消融研究表明,將綜合數據與輔助數據和評估數據集相結合可產生最佳性能(80.9%),大大優於僅在評估數據上訓練的模型(75.9%)。
這 Cosyn框架 代表了視覺模型開發的重大進步,利用合成數據生成可以實質上提高文本豐富的圖像理解任務的性能。通過利用僅文本LLM的代碼生成功能,該系統創建了多樣化的高質量培訓數據,使模型能夠以顯著的效率跨越域。分析證實,cosyn生成的數據成功地減輕了現有數據集中存在的偏差,從而導致模型在現實,人體編寫的查詢上執行穩健性,而不僅僅是基於模板的問題。在零射擊學習,多跳上推理和新穎的域適應性方面展示的改善突出了合成數據在開發能夠處理能夠處理實際應用中復雜文本豐富的視覺內容的VLM中的關鍵作用。
查看 紙張和數據集在這裡。 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 80k+ ml子列數。
🚨 推薦的閱讀-LG AI研究釋放Nexus:一個高級系統集成代理AI系統和數據合規性標準,以解決AI數據集中的法律問題

Asjad是Marktechpost的實習顧問。他正在Kharagpur印度理工學院的機械工程學領域掌握B.Tech。 Asjad是一種機器學習和深度學習愛好者,他一直在研究醫療保健中機器學習的應用。
🚨推薦開源AI平台:“ Intellagent是一個開源的多代理框架,可評估複雜的對話AI系統”(已晉升)