增強學習的許多面孔:塑造大型語言模型

近年來,大型語言模型(LLM)已大大重新定義了人工智能(AI)領域,使機器能夠以非常熟練的方式理解和生成類似人類的文本。這種成功在很大程度上歸因於機器學習方法的進步,包括深度學習和強化學習(RL)。儘管有監督的學習在培訓LLMS中發揮了至關重要的作用,但增強學習已成為一種強大的工具,可以在簡單的模式識別之外提高和增強其功能。

強化學習使LLM能夠從經驗中學習,根據獎勵或處罰優化其行為。 RL的不同變體,例如從人類反饋中學習(RLHF),具有可驗證獎勵的增強學習(RLVR),小組相對策略優化(GRPO)和直接偏好優化(DPO),已開發到微調LLMS,LLMS, LLMS,確保他們與人類的偏好保持一致並提高其推理能力。

本文探討了塑造LLM的各種強化學習方法,研究其貢獻並對AI開發的影響。

了解AI中的強化學習

強化學習(RL)是一種機器學習範式,代理商通過與環境進行互動來學會做出決策。代理人不僅依靠標記的數據集,而是採取行動,以獎勵或懲罰的形式接收反饋,並相應地調整其策略。

對於LLM,強化學習可確保模型產生與人類偏好,道德準則和實際推理保持一致的響應。目標不僅是製作句法正確的句子,而且是使其有用,有意義且與社會規範保持一致。

從人類反饋(RLHF)學習的強化學習

LLM培訓中使用最廣泛的RL技術之一是RLHF。 RLHF不僅依賴於預定義的數據集,而是通過將人類的偏好納入訓練環中來改善LLM。這個過程通常涉及:

  1. 收集人類反饋:人類評估者評估模型生成的響應,並根據質量,連貫性,幫助性和準確性對它們進行排名。
  2. 培訓獎勵模型: 然後,這些排名被用來訓練單獨的獎勵模型,以預測人類更喜歡的輸出。
  3. 用RL進行微調: 使用此獎勵模型對LLM進行了訓練,以根據人類偏好來完善其反應。

這種方法已用於改進諸如Chatgpt和Claude之類的模型中。儘管RLHF在使LLM與用戶偏好更加一致,減少偏見和增強其遵循複雜說明的能力方面發揮了至關重要的作用,但它是資源密集的,需要大量的人類註釋來評估和調整AI輸出。該限制使研究人員探索了替代方法,例如從AI反饋(RLAIF)學習的增強方法和具有可驗證獎勵(RLVR)的加強學習。

RLAIF:從AI反饋中學習的強化

與RLHF不同,RLAIF依靠AI生成的偏好來訓練LLM而不是人類反饋。它通過採用另一個AI系統(通常是LLM)來評估和排名響應,從而創建一個自動獎勵系統,以指導LLM的學習過程。

這種方法解決了與RLHF相關的可伸縮性問題,在該問題中,人類註釋可能是昂貴且耗時的。通過採用AI反饋,RLAIF提高了一致性和效率,從而降低了主觀人類意見引入的可變性。儘管RLAIF是一種大規模改進LLM的寶貴方法,但有時可以加強AI系統中存在的現有偏見。

通過可驗證的獎勵(RLVR)的增強學習

雖然RLHF和RLAIF依賴於主觀反饋,但RLVR利用目標,可驗證的獎勵來培訓LLMS。此方法對於具有明確正確性標準的任務特別有效,例如:

  • 數學解決問題
  • 代碼生成
  • 結構化數據處理

在RLVR中,使用預定義的規則或算法評估模型的響應。可驗證的獎勵功能確定響應是否符合預期標準,分配高分以糾正答案,而得分較低。

這種方法減少了對人類標籤和AI偏見的依賴,從而使訓練更具可擴展性和成本效益。例如,在數學推理任務中,RLVR已被用來完善諸如DeepSeek的R1-Zero之類的模型,從而使他們可以在不干預的情況下自我爆發。

優化LLM的強化學習

除了指導LLM如何獲得獎勵和從反饋中學習的上述技術外,RL同樣至關重要的方面是模型如何基於這些獎勵採用(或優化)其行為(或策略)。這是高級優化技術發揮作用的地方。

RL中的優化本質上是更新模型行為以最大化獎勵的過程。雖然傳統的RL方法在微調LLMS時通常會遭受不穩定性和效率低下的困擾,但已經開發出用於優化LLM的新方法。這是用於培訓LLM的領先優化策略:

  • 近端策略優化(PPO): PPO是用於微調LLM的最廣泛使用的RL技術之一。 RL的主要挑戰是確保模型更新可以改善性能而不會突然,急劇變化,從而可以降低響應質量。 PPO通過引入受控的策略更新,逐步且安全地進行穩定性來解決這一問題。它還可以平衡探索和剝削,幫助模型發現更好的反應,同時加強有效的行為。此外,PPO使用較小的數據批次來減少訓練時間,同時保持高性能。該方法被廣泛用於諸如chatgpt之類的模型中,確保響應保持有益,相關並與人類期望保持一致,而不會過於適應特定的獎勵信號。
  • 直接偏好優化(DPO): DPO是另一種RL優化技術,它致力於直接優化模型的輸出以與人類偏好保持一致。與依賴複雜獎勵建模的傳統RL算法不同,DPO直接基於二進制優先數據來優化模型,這意味著它只是確定一個輸出是否比另一個輸出更好。該方法依靠人類評估者來對給定提示產生的模型產生的多個響應進行排名。然後,它可以微調模型以增加未來產生更高響應的可能性。 DPO在難以獲得詳細獎勵模型的情況下特別有效。通過簡化RL,DPO使AI模型可以改善其輸出,而無需與更複雜的RL技術相關的計算負擔。
  • 小組相對政策優化(GRPO): LLM的RL優化技術的最新發展之一是GRPO。雖然典型的RL技術(例如PPO)需要一個價值模型來估計需要高計算能力和大量內存資源的不同響應的優勢,但GRPO通過在同一提示符上使用不同世代的獎勵信號來消除對單獨的價值模型的需求。這意味著,它沒有將輸出與靜態值模型進行比較,而是將它們相互比較,從而大大降低了計算開銷。在DeepSeek R1-Zero中看到了GRPO最著名的應用之一,該模型完全受過培訓,而沒有監督微調,並通過自我進化設法發展了先進的推理技能。

底線

強化學習通過增強其與人類偏好的一致性並優化其推理能力,在完善大語言模型(LLM)中起著至關重要的作用。 RLHF,RLAIF和RLVR等技術提供了各種基於獎勵學習的方法,而PPO,DPO和GRPO等優化方法提高了培訓效率和穩定性。隨著LLM的不斷發展,強化學習的作用對於使這些模型變得更加聰明,道德和合理變得至關重要。

Source link

Scroll to Top