LLMS的最新進展已大大提高了其推理能力,使他們能夠執行文本組成,代碼生成和邏輯推論任務。但是,這些模型通常在平衡其內部知識和外部工具使用方面遇到困難,從而導致工具過度使用。當LLM不必要地依靠外部工具來處理其參數知識可以處理的任務,增加計算成本以及有時會降低性能的任務時,就會發生這種情況。研究表明,LLMS在30%以上的時間(即使不必要的情況下)調用工具,強調了對知識界限的自我意識。解決此問題需要更好的校準機制,以使LLM驅動的代理確定何時依靠其知識與外部資源,最終提高效率,可擴展性和用戶體驗。
對LLM知識邊界的研究表明,儘管這些模型可以在結構化任務上表現良好,但它們通常無法識別其局限性,導致幻覺或工具使用不當。應對這些挑戰的努力包括檢索成績的一代,信心校準和明確的知識邊界培訓。同樣,關於工具集成的研究也探討了基於內部不確定性的自適應工具使用,外部模塊集成以及動態調用策略。儘管取得了這些進步,但現有的基準表明,LLM努力確定工具使用的必要性和適當性。
受到人類元認知的啟發,伊利諾伊大學Urbana-Champaign和IBM Research AI的研究人員開發了Smart(具有工具的戰略模型感知推理),以增強LLMS的自我意識並優化工具使用。他們介紹了Smart-ER,一個跨越數學,時間和意圖域的數據集,並通過明確的理由來平衡內部推理與外部工具的指導模型。使用此數據集,對SmartAgent進行了培訓,可以將工具過度使用24%減少,同時將性能提高37%,從而使較小的型號能夠匹配GPT-4和70B型號。 SmartAgent還很好地概括了分發任務,展示了更自信的決策和有效的工具依賴。
SMART通過平衡內部知識與外部工具來減輕工具過度使用來增強代理元認知。跨越數學,時間和意圖域的數據集Smart-ER有助於模型區分知識驅動和依賴於工具的推理。查詢被分解為結構化步驟,並確定何時需要工具。推理鏈結合了完善決策的理由,提高了解釋性。 SmartAgent經過智能器的訓練,例如Llama-3.1和Mistral,可以在保持準確性的同時優化工具使用。這種方法可以動態,上下文感知的推理,從而減少對外部工具的依賴,同時提高整體性能和對語言模型的決策信心。
該研究提出了實驗,證明了Smartagent在減少過度使用工具時的有效性,同時提高了推理性能。在域內(Math,FreshQA,IN3)和分佈外(GSM8K,MINTQA)數據集上進行了評估,SmartAgent與各種基線進行了比較。它可以將工具依賴減少24%,同時實現37%的性能提升。值得注意的是,在某些任務中,7B和8B規模的SmartAgent模型優於GPT-4O。結果突出了其有效的工具使用,概括功能和最佳決策。錯誤分析表明,智能的智能可最大程度地減少冗餘工具調用,從而提高推理效率。一項案例研究揭示了其邏輯方法和元認知推理,從而使其反應更加明顯和有效。
總之,分析突出了一個關鍵問題:即使內部知識足夠,代理也經常過度使用外部工具,這可能是由於其功能的不確定性或外部查詢的便利性所致。相反,諸如GPT-4O之類的大型模型有時卻沒有使用工具,錯誤地判斷了任務複雜性。解決這些效率低下可能涉及資源限製或自適應機制。受到人類決策的啟發,當代理依靠工具與參數知識的情況下,智能範式可以完善推理。數據驅動的校準方法可以提高自我意識,從而減少不必要的工具使用。未來的工作可以進一步探索信心探測,自我檢查模塊和元認知學習,以優化決策效率。
查看 紙和github頁面。 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 80k+ ml子列數。
🚨 推薦的讀取LG AI研究釋放Nexus:高級系統集成代理AI系統和數據合規性標準,以解決AI數據集中的法律問題

Marktechpost的諮詢實習生,IIT Madras的雙學位學生Sana Hassan熱衷於應用技術和AI來應對現實世界中的挑戰。他對解決實踐問題的興趣非常興趣,他為AI和現實生活中的解決方案的交集帶來了新的視角。
🚨推薦開源AI平台:“ Intellagent是一個開源的多代理框架,可評估複雜的對話AI系統”(已晉升)