試圖通過組裝各種方式來對物理現實進行建模:圖像顯示了通過多種模態鏡頭看到的幾個橘子,每個切片都顯示出一種不同的方式可能會感知並理解這一場景。從左到右的方式表示表面正常(顏色代表表面方向),深度(與攝像機的距離,紅色=接近,藍色= far),RGB(原始圖像),分割(不同的對象和圖像區域)和邊緣(對像或紋理邊界)。
2025 EPFL/視覺智能和學習實驗室 – CC-BY-SA 4.0
塔尼亞·彼得森(Tanya Petersen)
大型語言模型(例如Openai的Chatgpt)已經改變了我們許多人從事一些日常任務的方式。這些生成的人工智能聊天機器人經過語言訓練 – 數百個文本中的文本“從互聯網上”和數十億個參數訓練。
展望未來,許多人認為,驅動生成人工智能的“引擎”將是多模型的模型,不僅在文本上接受訓練,而且可以處理各種其他信息方式,包括圖像,視頻,聲音和其他領域的方式,例如生物學或大氣數據。
然而,直到最近,培訓單個模型來處理廣泛的方式(輸入和任務),面臨著重大挑戰。例如,與單任務模型相比,訓練通常導致性能下降,通常需要仔細的策略來降低質量損失並最大程度地提高準確性。此外,該模型通常會錯誤地忽略了一個不同模式或輸入的一個網絡(或輸入),例如語言,圖像或視頻,呈現了其他復雜性和某些模式中的基本信息。
多模型建模
在加利福尼亞州蘋果公司的一項多年項目中,來自計算機和通信科學學院(IC)的視覺智能和學習實驗室(VILAB)的EPFL研究人員已開發了4M,用於大規模掩蓋的多模型建模,這是其中之一世界上最先進的單個神經網絡處理各種任務和方式。
研究人員在12月在2024年Neurips的最新研究論文中,神經信息處理系統年度會議,研究人員描述了它如何以多種方式擴展現有模型的能力。
“有了400萬,我們現在擁有一個豐富的模型,可以解釋不僅僅是語言。但是為什麼這很重要呢?對LLMS的一種普遍批評是,他們的知識並沒有基礎,因為培訓數據僅限於語言。” Vilab負責人助理教授Amir Zamir解釋說。
“當我們發展到多模型建模時,我們不必將自己限制在語言上。我們引入其他方式,包括傳感器。例如,我們可以像語言模型一樣通過“橙色”一詞來傳達橙色,也可以通過像素的集合,這意味著橙色的外觀或通過觸摸感,從而捕捉了橙色的感覺。如果您組裝各種方式,您將對我們要建模的物理現實進行更完整的封裝。”他繼續說道。
邁向開源的通用模型,用於廣泛使用
儘管有這些進步,扎米爾說,4M的發展已經提出了一些有趣的挑戰,包括該模型沒有在整個方式上發展真正的統一代表,他對原因有自己的理論。
“我們認為,在引擎蓋下,模型秘密地欺騙並創建了一些獨立模型的合奏。一組參數解決了一個問題,另一組參數解決了另一個問題,並且共同解決了它們似乎可以解決總體問題。但是,他們並不是真正地統一自己的知識,以使環境的緊湊共同表示,這將是世界的良好門戶。”
維拉布(Vilab)團隊將繼續致力於建立更多的結構和統一為4M,目的是開發開源,通用的建築,使其他領域的專家能夠適應其特定需求,例如氣候建模或生物醫學研究。該團隊還致力於解決其他重要方面,例如進一步提高可擴展性以及用於部署環境的專業化的方法。
“開源的全部要點是,人們可以使用自己的數據和自己的規格為自己定制模型。 4M正在適當的時候到達,我們特別熱衷於其他領域為其特定用例採用這種建模線。我們很高興看到這導致了哪裡。但是仍然有很多挑戰,還有很多事情要做。
扎米爾認為,根據團隊的發展4M的經驗以及他們繼續努力的有趣問題,扎米爾認為,關於基礎模型的未來發展存在一些有趣的問題。
“作為人類,我們有五種關鍵的感官,最重要的是,我們有效地學習了語言,這為已經基於其他感官所基於的知識增加了標籤和結構。這與當前的AI相反 – 我們擁有沒有感官訪問世界的語言模型,但是使用巨大的數據和計算資源進行了訓練。我們的目標是研究多模式的作用,並有效地開發一種可以有效地用於下游用途的紮根世界模型。”
了解更多
標籤:神經,神經2024
EPFL