設計一種優化複雜協調系統的新方法|麻省理工學院新聞

協調複雜的交互式系統,無論是城市中不同的運輸方式還是必須共同努力製造有效機器人的各種組件,對於軟件設計人員來說,越來越重要。現在,麻省理工學院的研究人員開發了一種全新的方法來解決這些複雜問題,使用簡單的圖作為工具來揭示在深度學習模型中更好地進行軟件優化的方法。

他們說,新方法使解決這些複雜的任務如此簡單,以至於可以簡化為適合餐巾紙背面的圖紙。

新方法在期刊中描述 機器學習研究的交易在一份文章中,MIT的信息和決策系統實驗室(LIDS)的博士生Vincent Abbott和Gioele Zardini教授。

扎迪尼說:“我們設計了一種新的語言來談論這些新系統。”他解釋說,基於新圖的“語言”是基於所謂的類別理論的。

這都與設計計算機算法的基礎體系結構有關,這些程序實際上最終會感知和控制正在優化的系統的各個部分。 “組件是算法的不同部分,它們必須互相交談,交換信息,但也考慮了能源使用,記憶消耗等。”眾所周知,這種優化是困難的,因為系統的一個部分的每次變化反過來又可能導致其他部分的變化,從而進一步影響其他部位,依此類推。

研究人員決定專注於特定類別的深度學習算法,這些算法目前是研究的熱門話題。深度學習是大型人工智能模型的基礎,包括大型語言模型,例如Chatgpt和Midjourney等圖像生成模型。這些模型通過與其他操作散佈的一系列“深”矩陣乘法來操縱數據。矩陣中的數字是參數,並且在長時間的訓練過程中進行了更新,從而可以找到復雜的模式。模型由數十億個參數組成,使計算昂貴,從而改善了資源使用和優化的寶貴。

圖可以代表深度學習模型的並行操作的詳細信息,該操作包括算法與他們運行的並行圖形處理單元(GPU)硬件之間的關係,由NVIDIA等公司提供。 Zardini說:“我對此感到非常興奮,因為“我們似乎找到了一種很好地描述深度學習算法的語言,明確表示所有重要的東西,即您使用的操作員”,例如能量消耗,內存分配以及任何其他您試圖優化的參數。

深度學習中的許多進步源於資源效率優化。最新的DeepSeek模型表明,小型團隊可以通過專注於資源效率以及軟件和硬件之間的關係來與OpenAI和其他主要實驗室的頂級模型競爭。通常,在得出這些優化時,他說:“人們需要大量的反複試驗才能發現新的建築。”他說,例如,一項名為Flashattention的廣泛使用的優化程序花了四年多的時間來開發。但是,通過新的框架,他們開發了“我們可以真正以更正式的方式解決這個問題。”所有這些都以精確定義的圖形語言在視覺上表示。

他說,但是用於找到這些改進的方法“非常有限”。 “我認為這表明存在一個重大差距,因為我們沒有將算法與其最佳執行相關聯的正式系統方法,甚至沒有真正了解運行需要多少資源。”但是現在,通過他們設計的基於新圖的新方法,這種系統存在。

基於這種方法的類別理論是一種數學上描述系統的不同組成部分以及它們如何以廣義,抽象的方式相互作用的一種方式。不同的觀點可能是相關的。例如,數學公式可以與實現它們並使用資源的算法有關,或者對系統的描述可能與可靠的“單弦圖”有關。這些可視化使您可以直接玩耍並嘗試不同部分的連接和相互作用。他說,他們所開發的等同於“類固醇上的弦圖”,其中包含了更多圖形約定和更多的特性。

雅培說:“類別理論可以被認為是抽象和組成的數學。” “任何組成系統都可以使用類別理論來描述,然後也可以研究組成系統之間的關係。”他說,通常與功能相關聯的代數規則也可以表示為圖。 “然後,我們可以使用圖表來處理的許多視覺技巧,我們可以與代數技巧和功能聯繫起來。因此,它在這些不同的系統之間創造了這種對應關係。”

結果,他說:“這解決了一個非常重要的問題,那就是我們擁有這些深入學習的算法,但它們並未清楚地理解為數學模型。”他說,但是通過將它們表示為圖表,可以正式和系統地接近它們。

這一啟用的一件事是對平行現實世界流程的方式可以通過並行處理在多核算計算機GPU中的並行處理來表示。 “這樣,”雅培說,“圖可以代表一個函數,然後揭示如何在GPU上最佳執行它。”

“注意”算法是由需要一般性上下文信息的深度學習算法使用的,並且是構成大型語言模型(例如ChatGpt)的序列化塊的關鍵階段。 Flashertention是一種優化,花費了數年的發展,但注意力算法的速度提高了六倍。

Zardini將其方法應用於已建立的閃存算法時說:“在這裡,我們能夠從字面上將其推導在餐巾紙上。”然後,他補充說:“好吧,也許是一個大餐巾。”但是,為了使他們的新方法可以簡化處理這些複雜算法的重點,他們將其正式的研究論文標題為“餐巾紙上的閃光”。

雅培說,這種方法“與普遍的方法相比,允許真正得出優化。”儘管他們最初將這種方法應用於已經存在的閃存算法,從而驗證了其有效性,“我們希望現在使用這種語言來自動化改進的檢測,”扎迪尼說,除了是蓋子的主要研究人員外,他是民事和艾倫·艾倫·艾倫·艾倫·艾倫·艾倫·艾倫·艾倫·艾倫·艾倫·艾倫·艾倫·艾倫·艾倫·艾倫·艾倫·艾倫(機來

他說,計劃最終將開發軟件,以至於“研究人員將其代碼上傳,並且使用新算法,您將自動檢測到可以改進的內容,可以優化的內容,並且您將算法的優化版本返回給用戶。”

除了自動化算法優化外,Zardini還指出,對學習算法如何與硬件資源使用範圍相關的深入分析允許系統地設計硬件和軟件。這一工作與Zardini集中在分類共同設計上,該設計使用類別理論的工具同時優化了工程系統的各種組件。

雅培說:“我認為,整個優化的深度學習模型的整個領域是非常罕見的,這就是為什麼這些圖表如此令人興奮的原因。它們為解決這個問題的系統方法打開了大門。”

“這項研究的質量給我留下了深刻的印象。…..本文使用的深入學習算法的新方法可能是非常重要的一步,” Answers.ai的創始人兼首席執行官Jeremy Howard說,他與這項工作無關。 “本文是我第一次看到這種符號用於深入分析現實世界硬件深入學習算法的性能。…下一步將是查看是否可以實現現實世界的性能提高。”

“這是一項精美執行的理論研究,它也旨在使人們能夠高可訪問讀者 – 在這種論文中很少見,” Google DeepMind的高級研究科學家,劍橋大學的講師Petar Velickovic說,他與這項工作沒有聯繫。他說,這些研究人員顯然是出色的溝通者,我迫不及待地想看看他們接下來想出的東西! ”

在線發布的基於新圖的新語言已經引起了軟件開發人員的極大關注和興趣。雅培先前論文的一位審稿人介紹了圖表,指出:“從藝術的角度來看,提出的神經電路圖看起來很棒(據我所能判斷這一點)。 “這是技術研究,但也很浮華! ”扎爾迪尼說。

Source link

Scroll to Top