具有可驗證獎勵(RLVR)的增強學習中的高滲透令牌選擇提高了準確性並降低了LLMS的培訓成本

大型語言模型(LLMS)產生的逐步響應稱為思想鏈(COTS),每個代幣都會有助於連貫和邏輯的敘述。為了提高推理的質量,已經採用了各種強化學習技術。這些方法使模型可以通過與正確性標準對齊產生的輸出來從反饋機制中學習。隨著LLM的複雜性和能力的增長,研究人員已經開始探測令牌生成的內部結構,以識別增強或限制性能的模式。值得關注的一個領域是令牌熵分佈,這是對令牌預測中不確定性的測量,現在與該模型在推理過程中做出有意義的邏輯決策的能力相關。

使用加強學習的培訓推理模型中的核心問題是平等對待所有輸出令牌。當使用具有可驗證獎勵(RLVR)的強化學習優化模型時,傳統上,更新過程包括生成序列中的每個令牌,而不管其功能性角色如何。這種統一的處理未能區分令牌,從而導致重大推理與僅擴展現有語言結構的代幣。結果,大部分培訓資源可能針對代幣,這些代幣對模型的推理能力提供了最小的貢獻。這些方法在不優先考慮少數在導航不同邏輯路徑中起決定性作用的代幣,而是錯過了專注和有效優化的機會。

大多數RLVR框架,包括近端策略優化(PPO),小組相對策略優化(GRPO)和動態抽樣策略優化(DAPO),通過評估對評估正確性的獎勵功能的整個代幣輸出序列來發揮作用。 PPO依賴於通過剪輯目標函數穩定策略更新。 GRPO通過使用分組響應而不是單獨的值網絡來估算優勢值來改善這一點。 DAPO引入了其他增強功能,例如夾子高機制和較長的獎勵成型。但是,這些方法不會考慮令牌級的熵,也不會區分個人令牌在推理鏈中的重要性,而是全面應用統一的梯度更新。

為了完善RLVR培訓如何影響LLM推理,阿里巴巴公司和Tsinghua University的研究人員提出了一種針對令牌熵模式的新方法。他們觀察到,在QWEN3模型產生的COT序列中,一小部分令牌(約20%)顯示出明顯更高的熵。這些令牌標記為“分叉令牌”,通常與模型必須在多個推理路徑之間做出決定的時刻相對應。其餘80%的令牌通常表現出低熵,並充當先前陳述的擴展。通過限制政策梯度僅將其更新到這些高滲透令牌上,研究團隊不僅能夠維護,而且在許多情況下可以提高挑戰性推理基準的性能。

為了量化令牌熵,研究人員根據概率分佈在每個步驟的可能的令牌選擇上使用了熵公式。他們發現,超過一半的產生令牌的熵值低於0.01,表明近確定的行為。只有20%超過0.672的熵,將其標記為COTS內的決策中心。高滲透令牌通常包括邏輯運算符和諸如“假設”,“自從”或“因此”之類的結締詞,它們引入了邏輯中的新條件或過渡。相反,低滲透令牌包含可預測的符號,後綴或代碼片段。通過受控的實驗,很明顯,操縱這些分叉令牌的熵直接影響了模型的推理性能,而改變低滲透令牌的效果則沒有影響。

研究小組對三種型號進行了廣泛的實驗:QWEN3-8B,QWEN3-14B和QWEN3-32B。當僅訓練前20%的高滲透令牌時,QWEN3-32B模型在Aime’24和Aime’25上的分數為63.5,兩者都為600B參數以下的模型設定了新的性能基準。此外,將最大響應長度從20K增加到29k,將Aime’24分數提高到68.1。相比之下,在底部80%的低滲透令牌上的訓練導致性能顯著下降。 QWEN3-14B模型在Aime’25和Aime’24上的增長+4.79,而QWEN3-8B相對於全言訓練,QWEN3-8B保持了競爭成果。一項消融研究進一步證實了保留20%閾值的重要性。將分數降低到10%,省略了基本決策點,並將其增加到50%或100%通過包括太多的低滲透令牌來稀釋效果,從而降低了熵多樣性和阻礙探索。

從本質上講,這項研究為增強語言模型的推理能力提供了一個新的方向,可以通過識別和有選擇地培訓對少數代幣的培訓,這些代幣造成了不成比例的成功促進推理成功。它避免了效率低下的培訓,而是提出了一種可擴展的方法,該方法將強化學習目標與代幣序列中的實際決策時刻保持一致。該策略的成功在於使用熵作為將有用令牌與填充物區分開的指南。

研究的幾個關鍵要點包括:

  • 大約20%的令牌表現出高熵,並用作直接推理路徑的分叉點。
  • 僅對這些高凝集令牌進行培訓,其性能與完整的令牌集相比訓練等於或更好。
  • QWEN3-32B在Aime’24和56.7上的Aime’25上的得分為63.5,表現優於傳統上訓練的較大型號。
  • 將響應長度從20k擴大到29k,進一步將Aime’24分數提高到68.1。
  • 對其餘80%的低滲透令牌的培訓導致了急劇的性能下降。
  • 保留高滲透令牌的20%閾值,以最佳的平衡探索和性能。
  • 由於其能力從增強的勘探中受益,因此較大的模型從這種策略中獲得了更多收益。
  • 該策略的擴展很好,可以指導對下一代推理模型的更有效培訓。

總之,這項研究有效地重新思考了將強化學習在語言模型中的應用,通過引入對令牌級熵的關注。通過僅優化影響推理路徑的少數族裔,該方法在減少計算開銷的同時增強了性能。它為將來的努力提供了一個實用的路線圖,以在沒有不必要的複雜性的情況下改善LLM的推理。


查看紙張 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 98k+ ml子雷迪特 並訂閱 我們的新聞通訊


Nikhil是Marktechpost的實習顧問。他正在哈拉格布爾印度技術學院攻讀材料的綜合材料綜合學位。 Nikhil是AI/ML愛好者,他一直在研究生物材料和生物醫學科學等領域的應用。他在材料科學方面具有強大的背景,他正在探索新的進步並創造了貢獻的機會。

Source link

Scroll to Top