很少的偏好優化(FSPO):一種新型的機器學習框架,旨在模擬偏好數據集中的各種子組合

個性化llms對於虛擬助理和內容建議等應用程序至關重要,以確保響應與個人用戶偏好保持一致。與傳統的方法基於匯總的用戶反饋優化模型不同,個性化旨在捕獲由文化,經驗和價值觀塑造的個人觀點的多樣性。當前的優化方法,例如從人類反饋(RLHF)中學習的強化方法,重點關註一個奇異的獎勵模型,潛在地忽略了少數群體的觀點和引入偏見。一種更有效的方法將涉及學習獎勵功能的分佈而不是單個功能,從而使LLMS能夠生成針對不同用戶組的響應。這種轉變通過承認各種觀點來提高用戶滿意度,並提高了包容性。但是,在開放式的提問和現實世界應用程序中有效實施這一點仍然具有挑戰性。

對偏好學習的研究探索了多種個性化策略。某些方法(例如分配對齊方式)旨在將模型輸出與廣泛的統計屬性匹配,但缺乏對單個用戶的直接適應。其他人則嘗試明確地對獎勵分佈進行建模,但他們在樣本效率和現實世界中面臨挑戰。許多現有的方法,例如基於GPO和基於人類糾正的方法,在結構化任務中很好地工作,但尚未經過徹底的開放式個性化測試。已經探索了根據用戶偏好來完善LLM輸出的監督微調,強化學習技術,以及DPO和IPO(例如DPO和IPO)等替代方法。 FSPO是一種黑盒元學習方法,它以最小的示例適應了新的用戶偏好,利用語言建模,增強學習和元學習的先前研究的技術。

斯坦福大學,Google DeepMind和OpenAI的研究人員提出了很少的偏好優化(FSPO),該框架通過適應用戶偏好的最小標籤示例來個性化語言模型。 FSPO不依賴於匯總的人類反饋,而是將獎勵建模重新制定為元學習問題,從而使模型能夠構建個性化的獎勵功能。該方法產生了超過一百萬個結構化的合成偏好,以解決數據稀缺性。 FSPO跨三個領域(評估,教育適應和角色扮演)進行了評估,在合成用戶個性化方面達到了87%的勝利率,而與真實用戶相關的率為72%,從而增強了LLMS在開放式互動中與多樣化用戶需求保持一致的能力。

FSPO框架將個性化視為元學習問題。使用RLHF進行的傳統微調匯總了用戶的偏好,通常會使個體差異邊緣化。 FSPO通過將偏好與特定於用戶的標識符相關聯,並將每個用戶作為任務實例建模來解決此問題。使用Black-Box Meta學習方法,它可以迅速適應新用戶的數據最少。 FSPO構造了很少的射擊提示,可以利用預訓練的LLM進行有效的個性化。此外,用戶表示形式被構架為(n) – 位偏好編碼,允許結構化的概括。 FSPO在三個領域進行評估:評論,教育解釋和基於角色扮演的問題答案。

針對四個基線評估FSPO:(1)通用指令模型,(2)幾乎沒有射擊提示,(3)幾次射擊微調(pref-ft),以及(4)使用Oracle用戶描述提示。 FSPO始終在各種任務上勝過這些基線。合成的獲勝率是通過改良的Alpacaeval評估的,顯示了FSPO在Elix,Review和Roleplay任務方面表現出色,對真實用戶的獲勝率達到82.6%。一項針對25名參與者的人類研究證實了FSPO的有效性,基本和SFT模型的勝率為72%。 FSPO表現出強烈的個性化,通過經過思考的推理來縮小甲骨文表現的差距。

總之,FSPO是通過通過元學習對多樣化的人類偏好進行建模的開放式問題來個性化語言模型的框架。與傳統的獎勵建模不同,FSPO使用一些標記的首選項迅速適應了個體用戶。生成了超過1M的合成個性化偏好,以解決數據稀缺性,確保多樣性和有效現實轉移的一致性。 FSPO跨三個域和1,500個合成用戶進行了評估,可與真實用戶達到87%的Alpacaeval獲勝率和72%的勝率。這種方法增強了虛擬助手和內容策展應用程序中的個性化,從而有助於更具包容性和以用戶為中心的語言模型。


查看 紙。 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 80k+ ml子列數

🚨 推薦的閱讀-LG AI研究釋放Nexus:一個高級系統集成代理AI系統和數據合規性標準,以解決AI數據集中的法律問題


Marktechpost的諮詢實習生,IIT Madras的雙學位學生Sana Hassan熱衷於應用技術和AI來應對現實世界中的挑戰。他對解決實踐問題的興趣非常興趣,他為AI和現實生活中的解決方案的交集帶來了新的視角。

🚨推薦開源AI平台:“ Intellagent是一個開源的多代理框架,可評估複雜的對話AI系統”(已晉升)

Source link

Scroll to Top