介紹
大型語言模型(LLM)通過加強學習(RL)和測試時間縮放技術在推理和精度方面有了很大的改進。儘管表現優於傳統的單元測試生成方法,但大多數現有的方法(例如O1代碼和UTGEN)都需要從地面真相代碼中進行監督。該監督增加了數據收集成本,並限制了可用培訓數據的規模。
現有方法的局限性
傳統的單位測試生成依賴於:
- 軟件分析方法,這是基於規則和僵化的。
- 神經機器翻譯技術,通常缺乏語義對齊。
儘管最近的基於及時的代理方法提高了性能,但它們仍然在很大程度上取決於標記的代碼以進行微調。這種依賴限制了適應性和可伸縮性,尤其是在現實世界中的大規模部署方案中。
治療:一種自製的共同進化方法
芝加哥大學,普林斯頓大學,北京大學的研究人員和Bytedance種子介紹 治愈,一個自製的強化學習框架,共同訓練代碼生成器和單位測試生成器,而無需任何基礎代碼。
治療使用一種自我播放機制進行操作:
- LLM同時生成正確和錯誤的代碼。
- 單元測試生成器學會區分故障模式並相應地提高自己。
這種雙向共同進化可以增強代碼生成和驗證,而無需外部監督。
建築和方法論
基本模型和採樣策略
CURE建立在QWEN2.5-7B和14B指令模型上,QWEN3-4B用於長鏈(COT)變體。每個培訓步驟樣本:
- 16個候選代碼完成。
- 16個任務衍生的單元測試。
使用溫度1.0和TOP-P 1.0的VLLM進行採樣。對於長期計算模型,響應長度感知的轉換會懲罰冗長的輸出,從而提高推理時間效率。
獎勵功能和優化
CURE將數學上紮根的獎勵公式引入:
- 最大化 獎勵精度定義為在生成的單元測試中正確得分高於錯誤代碼的可能性高於不正確的代碼。
- 將基於響應的獎勵調整應用於長期響應以減少延遲。
優化通過政策梯度方法進行,共同更新編碼器和單元測試儀以提高其相互性能。

基準數據集和評估指標
在五個標準編碼數據集上評估治療:
- LiveBench
- MBPP
- livecodebench
- CodeContests
- CodeForces
性能遍及:
- 單位測試精度
- 一聲代碼生成精度
- 使用16個代碼和測試樣本的最佳N(BON)精度。

績效和效率提高
這 Reasonflux-coder 通過CURE得出的實現模型:
- +37.8% 在單元測試準確性中。
- +5.3% 以一聲代碼生成的準確性。
- +9.0% 準確性。
值得注意的是,Reasonflux-coder-4b實現了 64.8% 平均單位測試響應長度的降低 – 底端提高推理速度。在所有基準測試中,這些模型的表現都優於傳統的編碼監督微調模型(例如QWEN2.5-編碼 – 實驗室)。
應用於商業LLM
當Reasonflux-coder-4b與 GPT系列模型:
- GPT-4O-Mini增益 +5.5%BON精度。
- GPT-4.1-MINI改善 +1.8%。
- API成本降低,同時增強性能,表明針對生產級推理管道的成本效益解決方案。
用作無標籤微調的獎勵模型
可以在RL培訓中將治療訓練的單元測試生成器作為獎勵模型進行重新使用。使用Reasonflux-coder-4b生成的單元測試可與人體標記的測試監督相當改善 – 增強 完全無標籤的加固學習管道。
更廣泛的適用性和未來的方向
除了BON之外,ReasonFlux-Coder模型將與代理編碼框架無縫集成:
- MPSC(多鏡頭自隔離)
- 字母
- s*
這些系統受益於CURE可以迭代地完善代碼和測試的能力。治愈還可以提高代理單元測試的生成精度 25.1%,增強其多功能性。
結論
CURE代表了代碼生成和驗證的自學學習學習的重大進步,使大型語言模型能夠共同發展其編碼和單位測試生成能力,而無需依賴地面真相代碼。通過利用共同進化的增強學習框架,CURE不僅可以增強核心性能指標,例如單發精度和最佳N選擇,而且通過響應長度感知的優化提高推理效率。它與現有的代理編碼管道的兼容性及其充當無標籤獎勵模型的能力,使其成為培訓和部署方案的可擴展性和成本效益的解決方案。
查看紙張和GitHub頁面。 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 99K+ ml子雷迪特 並訂閱 我們的新聞通訊。

Sajjad Ansari是來自IIT Kharagpur的最後一年的本科生。作為技術愛好者,他深入研究了AI的實際應用,重點是理解AI技術及其現實世界的影響。他旨在以清晰易於的方式表達複雜的AI概念。
