研究人員教LLMS解決複雜的計劃挑戰|麻省理工學院新聞

想像一家試圖優化其供應鏈的咖啡公司。該公司來自三個供應商的豆類,將它們在兩個設施中烤成深色或淡咖啡,然後將烤咖啡運送到三個零售地點。供應商具有不同的固定容量,烘焙成本和運輸成本的各個地方各不相同。

該公司試圖最大程度地降低成本,同時滿足需求增加23%。

對於公司而言,只要求Chatgpt提出一個最佳計劃,這不是一個容易的事嗎?實際上,儘管他們所有令人難以置信的能力,但大型語言模型(LLM)的表現通常會直接解決如此復雜的計劃問題時表現不佳。

麻省理工學院的研究人員並沒有試圖改變模型以使LLM成為更好的計劃者,而是採取了不同的方法。他們引入了一個框架,該框架指導LLM像人類一樣分解問題,然後使用功能強大的軟件工具自動解決它。

用戶只需要用自然語言來描述問題 – 不需要特定於任務的示例即可訓練或提示LLM。該模型將用戶的文本提示編碼為一種格式,該格式可以被旨在有效破解極其艱難的計劃挑戰的優化求解器所揭示的格式。

在配方過程中,LLM在多個中間步驟中檢查其工作,以確保將計劃正確描述給求解器。如果發現錯誤而不是放棄,LLM試圖修復公式的破損部分。

當研究人員在九個複雜的挑戰上測試了他們的框架時,例如最大程度地減少距離倉庫機器人必須旅行以完成任務時,成功率達到了85%的成功率,而最佳基線只能達到39%的成功率。

多功能框架可以應用於一系列多步規劃任務,例如調度機組人員或在工廠管理機器時間。

“我們的研究介紹了一個框架,該框架本質上是計劃問題的智能助手。它可以找出滿足您所有需求的最佳計劃,即使規則很複雜或不尋常。”

MIT-IBM Watson AI實驗室的研究科學家Yang Zhang加入了紙上。以及高級作家Chuchu粉絲,航空和宇航學副教授和蓋子的首席研究員。該研究將在國際學習表現會議上介紹。

優化101

粉絲組開發了算法,這些算法會自動解決所謂的組合優化問題。這些巨大的問題具有許多相互關聯的決策變量,每個變量都有多種選項,這些選項迅速增加了數十億個潛在的選擇。

人類通過將這些問題縮小到一些選擇來解決這些問題,然後確定哪個問題導致了最佳的整體計劃。研究人員的算法求解器將相同的原理應用於對人類破裂太複雜的優化問題。

但是他們發展的求解器往往具有陡峭的學習曲線,通常僅由專家使用。

“我們認為LLM可以允許非專家使用這些求解算法。在我們的實驗室中,我們會解決域專家的問題,並將其正式化為我們的求解器可以解決的問題。我們可以教LLM做同樣的事情嗎?”粉絲說。

使用研究人員開發的框架,稱為基於LLM的正式編程(LLMFP),一個人提供了對問題的自然語言描述,有關任務的背景信息以及描述其目標的查詢。

然後,LLMFP提示LLM來推理問題,並確定將塑造最佳解決方案的決策變量和鍵約束。

LLMFP要求LLM詳細介紹每個變量的要求,然後將信息編碼為優化問題的數學公式。它編寫編碼問題的代碼,並調用所附的優化求解器,該求解器達到理想的解決方案。

“這類似於我們如何在麻省理工學院教授優化問題的本科生的方式。我們不只教他們一個領域。我們教他們方法。”

只要對求解器的輸入是正確的,它將給出正確的答案。解決方案中的任何錯誤都來自配方過程中的錯誤。

為了確保它找到了工作計劃,LLMFP分析了解決方案並修改問題制定中的任何不正確步驟。計劃通過此自我評估後,用自然語言向用戶描述了解決方案。

完善計劃

Hao說,該自我評估模塊還允許LLM添加第一次錯過的任何隱性約束。

例如,如果該框架優化了供應鏈以最大程度地減少咖啡店的成本,那麼人類就知道咖啡店無法發貨,但LLM可能不會意識到這一點。

自我評估步驟將標記該錯誤,並提示模型修復它。

“另外,LLM可以適應用戶的偏好。如果該模型意識到特定用戶不喜歡更改其旅行計劃的時間或預算,則可以建議更改適合用戶需求的內容,” Fan說。

在一系列測試中,他們的框架在使用多個LLM的九種不同計劃問題中達到了83%至87%的平均成功率。儘管某些基線模型在某些問題方面更好,但LLMFP的總體成功率大約是基線技術的兩倍。

與這些其他方法不同,LLMFP不需要特定於領域的示例進行培訓。它可以在開箱即用的情況下找到針對計劃問題的最佳解決方案。

此外,用戶可以通過調整饋送到LLM的提示來調整不同優化求解器的LLMFP。

範說:“使用LLM,我們有機會創建一個界面,該界面使人們可以使用其他域中的工具來以他們以前從未考慮過的方式解決問題。”

將來,研究人員希望使LLMFP能夠以圖像為輸入來補充計劃問題的描述。這將有助於框架解決特殊用自然語言完全描述的任務。

這項工作部分由海軍研究辦公室和MIT-IBM Watson AI實驗室提供資金。

Source link

Scroll to Top