加強框使用使用獎勵信號來指導大語言模型實現理想的行為。這種方法通過增強正確響應來培養模型產生邏輯和結構化輸出的能力。然而,挑戰一直在確保這些模型也知道何時不回應的情況下,尤其是面對沒有明確答案的不完整或誤導性問題。
當語言模型(加強加強填充)開始失去拒絕回答不清楚或模棱兩可的查詢能力時,就會出現問題。這些模型不是信號不確定性,而是傾向於產生自信的響應,但反應不正確。在本文中確定為“幻覺稅”的這種現象強調了越來越多的風險。隨著模型的性能更好,在沉默更合適的情況下,它們也可能變得更有可能幻覺。這在需要高信任和精確度的領域中尤為危險。
當前用於培訓大語言模型的工具通常會忽略拒絕行為的重要性。加強框框架傾向於僅獎勵正確的答案,同時懲罰錯誤的答案,而忽略了有效響應根本沒有答案的情況。使用的獎勵系統不能充分加強拒絕,從而導致過度自信的模型。例如,該論文表明,在標準RFT之後,多個模型的拒絕率下降到接近零,這表明當前訓練無法正確解決幻覺。
南加州大學的研究人員開發了綜合無法回答的數學(SUM)數據集。總和通過通過缺少關鍵信息或創建邏輯不一致之類的標準來修改現有問題,從而引入了隱式無法回答的數學問題。研究人員使用DeepScaler作為基本數據集,並採用了O3-Mini模型來產生高質量的無法回答的問題。該合成數據集旨在教導模型認識到問題何時缺乏足夠的信息並做出相應的響應。
Sum的核心技術是在培訓期間混合可回答和無法回答的問題。修改問題以使其變得模棱兩可或無法解決,同時保持合理性。該培訓提示指示模型“我不知道”,以無可掩蓋的輸入。通過僅將10%的總和數據引入加強框,模型開始利用推理時間推理來評估不確定性。這種結構使他們能夠更適當地拒絕答案,而不會損害他們在可解決問題的問題上的表現。
績效分析顯示出重大改進。用總和進行訓練後,QWEN2.5-7B模型的拒絕率從總基準測試中從0.01增加到0.73,在UMWP基准上將其拒絕率從0.01增加到0.81。在自我意識數據集上,拒絕準確性從0.01急劇上升到0.94。 Llama-3.1-8b-Instruct顯示出類似的趨勢,拒絕率從總和的0.00提高到0.75,UMWP的拒絕率從0.01提高到0.79。儘管有這些拒絕行為的收益,但在諸如GSM8K和Math -500之類的可響應數據集上的準確性保持穩定,大多數變化範圍為0.00至-0.05。最小的下降表明可以在任務績效上做出重大犧牲的情況下引入拒絕訓練。
這項研究概述了改善推理和可信賴性之間的明確權衡。強大的增強裝飾雖然強大,但卻傾向於抑制謹慎的行為。總和數據集通過教學模型來識別他們無法解決的內容來糾正這一點。只有在培訓數據中增加了一小部分,語言模型在確定知識的界限方面變得更好。這種方法標誌著使AI系統不僅更聰明,而且更加誠實,這是一個重要的一步。
在擁抱臉上查看紙張和數據集。 這項研究的所有信用都歸該項目的研究人員。
🆕 你可知道? Marktechpost是增長最快的AI媒體平台,每月讀者超過100萬。預訂策略電話,以討論您的競選目標。 另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 95k+ ml子雷迪特 並訂閱 我們的新聞通訊。

Nikhil是Marktechpost的實習顧問。他正在哈拉格布爾印度技術學院攻讀材料的綜合材料綜合學位。 Nikhil是AI/ML愛好者,他一直在研究生物材料和生物醫學科學等領域的應用。他在材料科學方面具有強大的背景,他正在探索新的進步並創造了貢獻的機會。