LifelOngagentBench：用於評估基於LLM的代理的持續學習的基準

June 5, 2025

Dr. Ashish V

終身學習對於智能的代理人導航不斷變化的環境至關重要，但是當前基於LLM的代理人跌落不足 – 他們缺乏記憶力，並且將每項任務視為新的開始。儘管LLM已改變了語言任務並啟發了基於代理的系統，但這些代理仍然無狀態，無法從過去的經驗中學習。對通用情報的真正進步需要可以隨著時間的推移保留，適應和重複使用知識的代理。不幸的是，當前的基準主要集中在孤立的任務上，忽視了技能和知識保留的重複使用。如果沒有對終身學習的標準化評估，就很難衡量真正的進步，以及標籤錯誤和可重複性之類的問題進一步阻礙了實際發展。

終身學習，也稱為持續學習，旨在幫助AI系統跨任務建立和保留知識，同時避免災難性的遺忘。該領域的大多數以前的工作都集中在非相互作用的任務上，例如圖像分類或順序微調，其中模型處理靜態輸入和輸出而無需響應不斷變化的環境。但是，將終身學習應用於在動態，交互式設置中運行的基於LLM的代理，仍然沒有充滿反感。現有的基準（例如Webarena，AgentBench和VisualWebarena）評估一次性任務績效，但不支持隨著時間的推移學習。即使涉及遊戲或工具的互動研究也缺乏用於評估代理商終身學習的標準框架。

南中國中國技術大學，MBZUAI，中國科學院和東中國師範大學的研究人員推出了Lifelongagentskent，這是評估基於LLM的代理商終身學習的首個綜合基準。它具有內置標籤驗證，可重複性和模塊化設計的三個環境（數據庫，操作系統和知識圖）的相互依存，技能驅動的任務。該研究表明，由於包含無關的信息和上下文長度的局限性，常規經驗重播通常是無效的。為了解決這個問題，團隊提出了一種群體自洽的機制，該機制將過去的經驗聚集並運用投票策略，從而大大提高了各種LLM體系結構的終身學習表現。

LifelOngagentEns是一個基準測試，旨在測試如何有效地基於語言模型的代理，隨著時間的推移，一系列任務的學習和適應。該設置將學習視為在三個環境中使用目標條件的POMDP的順序決策問題：數據庫，操作系統和知識圖。任務是圍繞核心技能的結構，並精心設計以反映現實世界中的複雜性，並關注任務難度，重疊技巧和環境噪音等因素。任務生成結合了自動化和手動驗證，以確保質量和多樣性。該基準測試有助於評估代理是否可以基於過去的知識並在動態，技能驅動的環境中不斷改進。

LifelOngagentBench是一個新的評估框架，旨在測試基於LLM的代理商通過嚴格處理任務的方式來測試如何隨著時間的推移而學習，這與以前的基準分量不同，該基準專注於隔離或併行任務。它的模塊化系統包括代理，環境和控制器等組件，它們可以獨立運行並通過RPC進行通信。該框架優先考慮可重複性和靈活性，支持各種環境和模型。通過實驗，已經表明，經驗重播 – 捕食代理過去的過去軌跡可以顯著提高性能，尤其是在復雜的任務上。但是，較大的重建可能導致內存問題，強調需要更有效的重播和內存管理策略。

總之，LifeLongagentBench是一種開創性的基準測試，旨在評估基於LLM的代理人隨著時間的流逝不斷學習的能力。與將代理視為靜態的早期基準不同，該框架測試了其在動態環境（例如數據庫，操作系統和知識圖）中跨越互連任務的知識的能力。它提供模塊化設計，可重複性和自動化評估。儘管經驗重播和小組的自洽性在增強學習方面有希望，但諸如模型跨模型諸如內存超負荷和不一致的收益之類的問題持續存在。這項工作為開發更適應性，內存效率高的代理的基礎奠定了基礎，將來的方向集中在更智能的內存使用和現實世界中的多模式任務上。

查看紙張。 這項研究的所有信用都歸該項目的研究人員。另外，請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 95k+ ml子雷迪特 並訂閱 我們的新聞通訊。

Marktechpost的諮詢實習生，IIT Madras的雙學位學生Sana Hassan熱衷於應用技術和AI來應對現實世界中的挑戰。他對解決實踐問題的興趣非常興趣，他為AI和現實生活中的解決方案的交集帶來了新的視角。

Source link

LifelOngagentBench：用於評估基於LLM的代理的持續學習的基準

Dr. Ashish V

You might also enjoy

LPG Price Cut: 1 जून से गैस सिलेंडर हुआ सस्ता, कीमत 24 रुपये घटी

एजेंट-आधारित कंप्यूटिंग वेब को आगे बढ़ा रहा है जैसा कि हम जानते हैं

Army Agniveer Bharti Admit Card 2025: एक क्लिक में ऐसे करें डाउनलोड, देखें परीक्षा तिथि

Subscribe Our Newsletter

Deep See K.A.R.T. S.Pace