優化大語模型中監督和偏好登錄之間的培訓數據分配

大型語言模型(LLMS)在優化其後訓練方法方面面臨重大挑戰,尤其是在平衡監督的微調(SFT)和增強學習(RL)方法方面。儘管SFT使用直接的指令 – 響應對和RL方法(例如RLHF使用基於偏好的學習),但這些方法之間有限培訓資源的最佳分配尚不清楚。最近的研究表明,模型可以實現任務一致性並提高了推理能力,而無需廣泛的SFT,挑戰了傳統的順序訓練後管道。此外,與計算成本相比,收集和註釋人類數據的巨額成本提出了了解固定數據通知預算下不同培訓方法的有效性。

現有研究探討了固定預算下的語言模型培訓中的各種權衡取捨,包括預訓練與填充與填充與模型蒸餾之間的比較。研究已經隔離研究了SFT和RL方法的數據和計算成本,以及生成人類和合成數據的成本效率考慮。儘管一些研究表明了高質量偏好數據對RL方法(例如直接偏好優化(DPO)和PPO)的影響,但其他研究重點介紹了SFT和RL方法在模型健忘,概括,概括和一致性方面的關係。但是,在嚴格的數據註釋約束下,這些研究並未無法解決SFT和基於RL的方法之間的最佳資源分配。

佐治亞理工學院的研究人員提出了一項全面的研究,研究了LLMS中SFT和偏好登錄(PFT)之間培訓數據預算的最佳分配。該研究調查了四個不同任務,多個模型大小和各種數據註釋成本的關係。它解決了數學任務中的“冷啟動問題”,其中消除SFT會導致由於分佈直接將DPO直接應用於基本模型而導致的次優性能。他們的發現表明,儘管將兩種方法結合在一起,但較大的數據預算受益,但即使將一小部分預算分配給SFT也可以顯著提高分析任務的性能。

該研究評估了培訓後LLMS中SFT和PFT之間的成本效益和最佳資源分配。假設方法和培訓提示的可用性相等,研究方法通過培訓示例或貨幣註釋成本來衡量數據預算。實驗設置從沒有開源數據集或每個目標任務的合成策劃數據開始,沒有特定於任務的標記數據。為了保持對特定於任務的改進的關注,不包括PFT中常用的通用對話數據集,例如Ultrfodeback和Chatbot Arena偏好等。這種受控的方法允許精確測量針對目標數據註釋導致的績效改進。

結果表明,SFT和PFT方法之間的培訓預算的最佳分配被證明至關重要,正確平衡的數據集的尺寸大於次優的數據集,其大小的尺寸大於次優的數據集。使用5K示例,分配了25%的SFT分配,例如摘要,樂於助人和小學數學,與75%SFT分配的20K示例的性能相匹配。該研究表明,純SFT在低數據表情況下表現出色,而較大的數據預算則受益於更高比例的偏好數據。此外,基本模型上的直接偏好登錄在數學任務上顯示出有限的成功,甚至將一小部分分配給SFT可以通過更好地對齊參考模型的響應樣式來顯著提高性能。

總之,本文提供了在資源限制下優化LLM訓練後培訓的關鍵見解,尤其是關於SFT和PFT之間的相互作用。該研究直接將PFT應用於基本模型時確定了一個重大的“冷啟動問題”,通過將預算的10%分配給初始SFT,可以有效地減輕這種問題。但是,該研究承認局限性,包括用於RL實施的DPO和KTO諸如使用諸如DPO和KTO的脫機方法,以及使用GPT4用於合成數據生成和評估的潛在偏見。此外,模型大小限制為100億個參數,否則,以較大的型號大小(如70B參數)運行數千次燃料運行將是極其計算的資源密集型。


查看 紙。 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 80k+ ml子列數

🚨 推薦的讀取LG AI研究釋放Nexus:高級系統集成代理AI系統和數據合規性標準,以解決AI數據集中的法律問題


Sajjad Ansari是來自IIT Kharagpur的最後一年的本科生。作為技術愛好者,他深入研究了AI的實際應用,重點是理解AI技術及其現實世界的影響。他旨在以清晰易於的方式表達複雜的AI概念。

Source link

Scroll to Top