麻省理工學院的研究人員創建了一個週期表,該表顯示瞭如何連接20種經典的機器學習算法。新框架闡明了科學家如何從不同方法中融合策略以改善現有的AI模型或提出新模型。
例如,研究人員使用他們的框架結合了兩種不同算法的元素來創建一種新的圖像分類算法,該算法的執行比當前的最新方法要好8%。
週期表源於一個關鍵思想:所有這些算法都學會了數據點之間的特定關係。雖然每種算法可能以稍微不同的方式來實現這一目標,但每種方法背後的核心數學是相同的。
在這些見解的基礎上,研究人員確定了一個統一的方程,該方程是許多經典AI算法的基礎。他們使用該方程來重新構架流行方法並將其排列到表格中,並根據所學的近似關係對每個方法進行分類。
就像化學元素的周期表一樣,最初包含了後來由科學家填充的空白正方形,機器學習的元素表也有空的空間。這些空間預測算法應該存在的位置,但尚未發現。
麻省理工學院的研究生Shaden Alshammari說,該表為研究人員提供了一個工具包,不需要從先前的方法中重新發現想法。
“這不僅僅是一個隱喻,”阿爾沙瑪里補充說。 “我們開始將機器學習視為具有結構的系統,這是我們可以探索的空間,而不僅僅是猜測我們的道路。”
Google AI感知的研究員約翰·赫西(John Hershey)加入了她的紙上;麻省理工學院研究生Axel Feldmann;威廉·弗里曼(William Freeman),托馬斯(Thomas)和傑德·珀金斯(Gerd Perkins)電氣工程和計算機科學教授,計算機科學和人工智能實驗室(CSAIL)的成員; Microsoft的MIT研究生兼高級工程經理Mark Hamilton和高級作家Mark Hamilton。該研究將在國際學習表現會議上介紹。
意外方程
研究人員並未著手創建機器學習的元素週期表。
加入Freeman Lab後,Alshammari開始研究聚類,這是一種機器學習技術,通過學習將相似圖像組織到附近的群集中來對圖像進行分類。
她意識到她正在研究的聚類算法類似於另一種被稱為“對比度學習”的古典機器學習算法,並開始更深入地研究數學。 Alshammari發現,可以使用相同的基礎方程來重塑這兩種不同的算法。
漢密爾頓說:“我們幾乎偶然地進入了這個統一的方程式。一旦Shaden發現它連接了兩種方法,我們就開始夢想新的方法來帶入該框架。幾乎可以添加我們嘗試的每個方法。”
他們創建的框架,信息對比學習(I-CON),顯示瞭如何通過此統一方程式的鏡頭查看各種算法。它包括從可以檢測垃圾郵件的分類算法到為LLM的深度學習算法的所有內容。
該方程描述了這種算法如何在實際數據點之間找到連接,然後在內部近似這些連接。
每種算法旨在最大程度地減少其學到的連接與培訓數據中的實際連接之間的偏差量。
他們決定將I-CON組織到週期表中,以根據實際數據集中的點連接點以及算法可以近似這些連接的主要方式對算法進行分類。
Alshammari說:“這項工作逐漸發展,但是一旦我們確定了該方程式的一般結構,就更容易在我們的框架中添加更多方法。”
發現工具
當他們安排桌子時,研究人員開始看到可能存在算法的差距,但尚未發明。
研究人員通過從一種稱為對比度學習的機器學習技術中藉用想法並將其應用於圖像群集來填補了一個差距。這導致了一種新算法,該算法可以比其他最先進的方法對未標記的圖像分類8%。
他們還使用I-CON來展示如何使用用於對比度學習的數據偏見技術來提高聚類算法的準確性。
此外,靈活的周期表允許研究人員添加新的行和列來表示其他類型的數據點連接。
漢密爾頓說,最終,擁有I-CON作為指導可以幫助機器學習科學家從開箱即用的思考,以鼓勵他們以不一定會想到的方式結合思想。
他補充說:“我們已經表明,僅植根於信息科學的一個非常優雅的方程式,為您提供了跨越100年在機器學習研究的豐富算法。這為發現的許多新途徑打開了。”
“如今,成為一名機器學習研究人員的最具挑戰性的方面似乎是每年出現的幾個論文數量。在這種情況下,在這種情況下,統一和連接現有算法的論文非常重要,但它們非常罕見,但它們極為罕見。I-CON提供了一種很好的例子。耶路撒冷希伯來大學,他沒有參與這項研究。
這項研究部分由空軍人工智能加速器,國家科學基金會AI人工智能與基本互動研究所以及Quanta Computer資助。