大型語言模型在理解和產生類似人類的文本方面取得了長足的進步。但是,當涉及到復雜的推理任務時,尤其是那些需要多步計算或邏輯分析的任務時,他們常常掙扎。傳統的經營鏈(COT)方法通過將問題分解為中間步驟,但它們嚴重依賴於模型的內部推理。這種內部依賴性有時會導致錯誤,尤其是在需要多個推理步驟的情況下。在這種情況下,可能會累積小錯誤,從而導致結果不如預期的那樣確切。需要一種可以驗證和調整其自身推理的方法的需求是明確的,尤其是在科學分析或競爭級數學等任務中。
阿里巴巴的研究人員提出了一種名為Start的新工具,該工具代表了使用工具的自學成才的推理者。與其僅依靠內部邏輯,不如開始集成外部python解釋器來協助推理任務。該模型建立在QWQ-32B模型的微調版本上,並採用了兩倍的策略來提高其解決問題的技能。首先,它使用一種稱為Hint-Infer的方法。在這裡,鼓勵模型包括“等待,也許在這裡使用Python是一個好主意”等提示,這表明它應該使用外部工具執行計算或自我檢查工作。其次,該模型經歷了一個微調過程,稱為提示拒絕採樣微調(hint-rft)。此過程通過根據其有效調用外部工具的有效性來進行過濾和修改其輸出來完善模型的推理。結果是一個模型不僅能夠生成邏輯思維鏈,而且還可以通過外部計算來驗證其步驟。
技術見解和利益
從本質上講,開始是對基礎鏈方法的演變。它的兩階段培訓過程旨在幫助模型使用外部工具作為其推理過程的自然擴展。在第一階段,Thint-Inster允許模型集成促使工具使用的提示。這些提示通常是在模型可能正在重新考慮其方法的點上,通常是在過渡性詞“替代”或“等待”之類的。這鼓勵該模型使用Python代碼驗證其推理,並在必要時進行自我糾正。
在第二階段,hint-rft採用這些提示產生的輸出並完善了它。通過評分和過濾推理步驟,該模型學會了更好地決定何時以及如何調用外部工具。然後使用此過程的精製數據集進一步微調模型,從而產生了我們現在稱為start的QWQ-32B版本。外部計算的集成是一個周到的補充,有助於最大程度地減少錯誤,從而確保模型的推理既連貫又更可靠。

經驗發現和見解
研究人員評估了一系列任務的開始,包括研究生級的科學問題,具有挑戰性的數學問題和編程任務。在這些域中,開始對基本模型顯示出顯著的改進。例如,在一系列博士學位的科學問題上,該模型的準確性為63.6%,這是對原始模型的性能的適度而有意義的改進。在數學基準(從高中級到競爭問題)上,準確性的提高同樣令人鼓舞。這些結果表明,合併外部驗證的能力可以導致更好的問題解決,尤其是在精度至關重要的任務中。
在編程挑戰中,與僅依賴內部推理的模型相比,Start的方法可以生成和測試代碼段,從而導致更高的正確解決方案速率。總體而言,研究表明,在推理過程中使用工具使用的整合可以幫助模型產生更準確和可驗證的結果。

總結思想
開始的發展為解決大語模型中復雜推理的固有挑戰提供了深刻的一步。通過將內部思想鏈推理與外部工具集成相結合,該模型為計算和邏輯任務中的某些持續問題提供了實用的解決方案。這種方法既簡單又優雅:鼓勵模型使用外部Python解釋器自我檢查工作,然後根據這種能力進行微調,從而改善了各種基準的性能。
這項工作是一個有希望的例子,說明瞭如何使用戰略提示和外部計算的增量細化,可以顯著提高語言模型中推理的可靠性。它表明,通過深思熟慮地集成外部工具,我們可以指導模型實現更準確和可靠的結果,尤其是在精確的計算和邏輯嚴謹至關重要的領域。開始背後的工作是朝著模型邁進的令人鼓舞的舉動,這種模型不僅具有更有能力,而且在解決問題的方法中也更具反思性和自我糾正。
查看 紙。 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 80k+ ml子列數。
🚨 推薦的閱讀-LG AI研究釋放Nexus:一個高級系統集成代理AI系統和數據合規性標準,以解決AI數據集中的法律問題

Asif Razzaq是Marktechpost Media Inc.的首席執行官。作為一位有遠見的企業家和工程師,ASIF致力於利用人工智能的潛力來實現社會利益。他最近的努力是推出了人工智能媒體平台Marktechpost,該平台的深入覆蓋了機器學習和深度學習新聞,既在技術上都可以聽起來,既可以通過技術上的聲音,又可以被廣泛的受眾理解。該平台每月有超過200萬個觀點,說明了其在受眾中的受歡迎程度。
🚨推薦開源AI平台:“ Intellagent是一個開源的多代理框架,可評估複雜的對話AI系統”(已晉升)