預訓練的LLM需要進行指導調整以與人類的偏好保持一致。儘管如此,廣泛的數據收集和快速模型迭代通常會導致過度飽和,從而使有效的數據選擇成為至關重要但毫無疑問的領域。現有的質量驅動選擇方法,例如利馬和阿爾帕加索斯,傾向於忽略數據多樣性和復雜性的重要性,這對於增強模型性能至關重要。儘管擴展LLM已被證明是有益的,但優化教學微調(IFT)依賴於培訓數據的質量,多樣性和復雜性。但是,測量這些因素仍然具有挑戰性,最近的研究要求進行可量化的指標來評估數據集多樣性,而不是依靠主觀主張。稀疏的自動編碼器(SAE)最近通過確保單聲道表徵來解釋LLM的有效工具,使它們對於分析數據選擇機制很有價值。
稀疏的自動編碼器通過在表示形式中實現稀疏性,從而顯著提高了LLM的可解釋性,從而增強了功能獨立性。稀疏編碼和詞典學習中的早期作品為結構化數據表示的基礎奠定了基礎,後來應用於變形金剛來解碼上下文嵌入。最近的研究強調了編碼多種概念的多性神經神經元的挑戰,促使努力開發單音神經元以獲得更好的解釋性。同時,已經探索了數據選擇方法,例如基於CHATGPT的評分和基於梯度的聚類,以完善指令調整。儘管取得了進步,但準確量化數據質量,多樣性和復雜性仍然很複雜,需要進一步研究有效的指標和選擇策略,以優化LLM中的教學調整。
Meta Genai的研究人員使用SAE引入了多樣性感知的數據選擇策略,以改善教學調整。 SAE有助於量化數據多樣性並增強模型的解釋性,並解釋選擇最長響應之類的方法。他們為有限的數據開發了兩種選擇算法:SAE-GREEDSELECT,用於較大數據集的SAE-SIMSCALE。羊駝和wizardlm_evol_instruct_70k數據集的實驗表明,性能優於先前的技術。他們的方法完善了數據選擇,降低培訓成本,並為模型行為提供更深入的見解,從而使指導更加有效和可解釋。
該研究使用SAE介紹了兩種多樣性驅動的數據選擇方法。 SAE-GREEDSELECT優化了選擇有限數據的功能利用率,而SAE-Simscale使用基於相似性採樣的數據選擇。在Llama-2-13b,Gemma-2-9b和Llama-2-7b基礎上進行的實驗驗證了使用羊Alpaca-52k和Wizardlm_evol_instruct_70k數據集驗證該方法。與最長響應,#Instag和Repr Filter等基線的比較表現出了卓越的性能。使用標準化設置對模型進行了訓練,並使用IFEVAL,LLM和人為法官的方法進行評估,以及MMLU和真實性的基準。結果突出了提高的指令調整效率和解釋性,同時保持參數調整的簡單性。
選擇1,000最長的響應是監督微調(SFT)的有效基準,這可能是因為較長的響應包含更多可學習的信息。 SAE中文本長度和特徵豐富度之間的強相關性(r = 0.92)支持了這一假設。提出的數據選擇方法,SAE-GreedSelect和Sae-Simscale,表現優於現有基線,尤其是在較大的數據量表下。 SAE-SIMSCALE在多個數據集和評估指標之間取得了顯著改進,突出了其穩健性。進一步的實驗證實了其跨模型大小和體系結構的有效性,從而增強了其優化可擴展數據選擇策略的潛力。
總之,該研究介紹了一種使用稀疏自動編碼器中學到的單體性來測量數據多樣性的方法。開發了一種新的數據選擇算法,以提高各種數據集的模型性能。該方法始終優於現有選擇技術,並證明更長的指令響應對增強了模型功能。該方法還通過降低數據要求和培訓成本來提高效率。此外,它提供了對模型行為的見解,可以擴展到偏好數據選擇或改善模型安全性。該策略可確保更好地與人類偏好保持一致,同時保持培訓數據中的多樣性和復雜性。
查看 紙。 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 80k+ ml子列數。
🚨 推薦的閱讀-LG AI研究釋放Nexus:一個高級系統集成代理AI系統和數據合規性標準,以解決AI數據集中的法律問題

Marktechpost的諮詢實習生,IIT Madras的雙學位學生Sana Hassan熱衷於應用技術和AI來應對現實世界中的挑戰。他對解決實踐問題的興趣非常興趣,他為AI和現實生活中的解決方案的交集帶來了新的視角。
🚨推薦開源AI平台:“ Intellagent是一個開源的多代理框架,可評估複雜的對話AI系統”(已晉升)