Dr. Ashish V | Deep See K.A.R.T. S.Pace

Oppo F27 Pro Plus 5G launch for girls with 64megapixel camera

By Dr. Ashish V / June 9, 2025

Oppo F27 Pro Plus 5G : The smartphone industry continues to evolve at a breakneck pace, with manufacturers constantly pushing […]

Sarkari Yojana

CM Kanyadan Scheme: मुख्यमंत्री कन्यादान योजना सभी महिलाओं को मिलेंगे ₹31000

By Dr. Ashish V / June 9, 2025

CM Kanyadan Scheme: मुख्यमंत्री कन्यादान योजना भारत में अलग-अलग राज्य सरकार द्वारा चलाई जा रही है यह एक सामाजिक कल्याणकारी योजना

action

Obsidian Web Clipper Deep Dive: Free AI-Powered Web Capture That Beats Readwise

By Dr. Ashish V / June 9, 2025

The Obsidian Web Clipper is a game-changing FREE alternative to expensive tools like Readwise. In this comprehensive 26-minute deep dive,

Sarkari Yojana

Infinix Note 40s 5G – Amazing design and 300MP DSLR camera

By Dr. Ashish V / June 9, 2025

Infinix Note 40s 5G : Infinix just crashed the party, and everyone’s invited. The Note 40s 5G doesn’t play by

Sarkari Yojana

राशन कार्ड की नई लिस्ट जारी! सिर्फ इन लोगों को मिलेगा फ्री राशन Ration Card List

By Dr. Ashish V / June 9, 2025

देश में गरीब और आर्थिक रूप से कमजोर लोगों के लिए राशन कार्ड एक बहुत ही जरूरी दस्तावेज होता है। इसकी मदद

insights

फ़ोनसिल के नए AI एजेंटों ने 99% सटीकता मारा – और ग्राहक यह नहीं कह सकते कि वे मानव नहीं हैं

By Dr. Ashish V / June 9, 2025

AI-SUB-SUBS प्रतिक्रिया समय और AI फोन समर्थन में 99.2% सटीकता, कॉल लेंट सेंटर के लिए AI-Level संचार AI को सक्षम

CNews

具有可驗證獎勵（RLVR）的增強學習中的高滲透令牌選擇提高了準確性並降低了LLMS的培訓成本

By Dr. Ashish V / June 9, 2025

大型語言模型（LLMS）產生的逐步響應稱為思想鏈（COTS），每個代幣都會有助於連貫和邏輯的敘述。為了提高推理的質量，已經採用了各種強化學習技術。這些方法使模型可以通過與正確性標準對齊產生的輸出來從反饋機制中學習。隨著LLM的複雜性和能力的增長，研究人員已經開始探測令牌生成的內部結構，以識別增強或限制性能的模式。值得關注的一個領域是令牌熵分佈，這是對令牌預測中不確定性的測量，現在與該模型在推理過程中做出有意義的邏輯決策的能力相關。使用加強學習的培訓推理模型中的核心問題是平等對待所有輸出令牌。當使用具有可驗證獎勵（RLVR）的強化學習優化模型時，傳統上，更新過程包括生成序列中的每個令牌，而不管其功能性角色如何。這種統一的處理未能區分令牌，從而導致重大推理與僅擴展現有語言結構的代幣。結果，大部分培訓資源可能針對代幣，這些代幣對模型的推理能力提供了最小的貢獻。這些方法在不優先考慮少數在導航不同邏輯路徑中起決定性作用的代幣，而是錯過了專注和有效優化的機會。大多數RLVR框架，包括近端策略優化（PPO），小組相對策略優化（GRPO）和動態抽樣策略優化（DAPO），通過評估對評估正確性的獎勵功能的整個代幣輸出序列來發揮作用。 PPO依賴於通過剪輯目標函數穩定策略更新。 GRPO通過使用分組響應而不是單獨的值網絡來估算優勢值來改善這一點。 DAPO引入了其他增強功能，例如夾子高機制和較長的獎勵成型。但是，這些方法不會考慮令牌級的熵，也不會區分個人令牌在推理鏈中的重要性，而是全面應用統一的梯度更新。為了完善RLVR培訓如何影響LLM推理，阿里巴巴公司和Tsinghua University的研究人員提出了一種針對令牌熵模式的新方法。他們觀察到，在QWEN3模型產生的COT序列中，一小部分令牌（約20％）顯示出明顯更高的熵。這些令牌標記為“分叉令牌”，通常與模型必須在多個推理路徑之間做出決定的時刻相對應。其餘80％的令牌通常表現出低熵，並充當先前陳述的擴展。通過限制政策梯度僅將其更新到這些高滲透令牌上，研究團隊不僅能夠維護，而且在許多情況下可以提高挑戰性推理基準的性能。為了量化令牌熵，研究人員根據概率分佈在每個步驟的可能的令牌選擇上使用了熵公式。他們發現，超過一半的產生令牌的熵值低於0.01，表明近確定的行為。只有20％超過0.672的熵，將其標記為COTS內的決策中心。高滲透令牌通常包括邏輯運算符和諸如“假設”，“自從”或“因此”之類的結締詞，它們引入了邏輯中的新條件或過渡。相反，低滲透令牌包含可預測的符號，後綴或代碼片段。通過受控的實驗，很明顯，操縱這些分叉令牌的熵直接影響了模型的推理性能，而改變低滲透令牌的效果則沒有影響。研究小組對三種型號進行了廣泛的實驗：QWEN3-8B，QWEN3-14B和QWEN3-32B。當僅訓練前20％的高滲透令牌時，QWEN3-32B模型在Aime’24和Aime’25上的分數為63.5，兩者都為600B參數以下的模型設定了新的性能基準。此外，將最大響應長度從20K增加到29k，將Aime’24分數提高到68.1。相比之下，在底部80％的低滲透令牌上的訓練導致性能顯著下降。 QWEN3-14B模型在Aime’25和Aime’24上的增長+4.79，而QWEN3-8B相對於全言訓練，QWEN3-8B保持了競爭成果。一項消融研究進一步證實了保留20％閾值的重要性。將分數降低到10％，省略了基本決策點，並將其增加到50％或100％通過包括太多的低滲透令牌來稀釋效果，從而降低了熵多樣性和阻礙探索。從本質上講，這項研究為增強語言模型的推理能力提供了一個新的方向，可以通過識別和有選擇地培訓對少數代幣的培訓，這些代幣造成了不成比例的成功促進推理成功。它避免了效率低下的培訓，而是提出了一種可擴展的方法，該方法將強化學習目標與代幣序列中的實際決策時刻保持一致。該策略的成功在於使用熵作為將有用令牌與填充物區分開的指南。研究的幾個關鍵要點包括：大約20％的令牌表現出高熵，並用作直接推理路徑的分叉點。僅對這些高凝集令牌進行培訓，其性能與完整的令牌集相比訓練等於或更好。 QWEN3-32B在Aime’24和56.7上的Aime’25上的得分為63.5，表現優於傳統上訓練的較大型號。將響應長度從20k擴大到29k，進一步將Aime’24分數提高到68.1。對其餘80％的低滲透令牌的培訓導致了急劇的性能下降。保留高滲透令牌的20％閾值，以最佳的平衡探索和性能。由於其能力從增強的勘探中受益，因此較大的模型從這種策略中獲得了更多收益。