Snowflake提出了Excot:一種新穎的AI框架,它通過將COT推理與非政策和政策的DPO相結合,從而迭代地優化開源LLMS,僅依賴於執行精度作為反饋

文本到SQL翻譯是將自然語言查詢轉換為結構化SQL語句的任務,對於促進用戶友好的數據庫交互至關重要。但是,該任務涉及重大復雜性,特別是模式鏈接,處理組成SQL語法以及在用戶查詢中解決歧義。儘管大型語言模型(LLMS)在各個領域都顯示出強大的功能,但在文本到SQL上下文中,結構化推理技術(例如,經過思考鏈(COT))的功效仍然有限。在沒有結構推理的情況下採用零射COT或直接偏好優化(DPO)的事先嘗試產生了邊際改進,這表明需要進行更嚴格的方法論。

Snowflake推出了Excot,這是一個結構化框架,旨在通過COT推理和迭代優先優化優化的組合來優化開源LLMS,特別是利用了通過執行精度反饋獨家指導的政策和上政策DPO。 Excot依靠內部生成的推理步驟和執行結果依靠外部獎勵模型和人類註釋。該方法在兩個主要階段運行:最初,它生成了通過非政策DPO驗證的候選COT數據,為監督微調構成了基礎。隨後,該模型迭代生成和完善了COT數據,通過policy DPO,通過從執行正確性得出的反饋來逐步提高準確性。

Excot採用了詳細的COT推理,特別是採用了分裂和拼接策略,其中復雜的查詢被分解為更簡單的子征服。在整合到連貫的最終查詢中,對每個子問題進行分析並獨立解決。這種結構化的分解使模型能夠更有效地管理SQL操作中常見的複雜性和嵌套結構。基於執行的驗證是正確性評估的核心機制,在該查詢中通過將其執行輸出與地面真相結果進行比較來驗證。錯誤和正確的查詢是系統配對的,為基於偏好的學習提供了明確的信號。在上政策DPO相中的迭代改進逐漸提高了模型的推理精度。

Excot的實驗評估顯示出執行精度的顯著提高。具體而言,使用Llama-3.1 70B型號,Excot將鳥類發育的執行精度提高到了57.37%至68.51%,並提高了蜘蛛測試的性能從78.81%提高到86.59%。使用QWEN-2.5-CODER 32B模型記錄了可比的性能增強。這些結果將Excot定位為對這些基準測試的單模評估的領先方法,超過了已建立的方法,例如xiyansql和包括OpenAI變體的專有模型。值得注意的是,這些改進始終保持高查詢有效性率(超過98%),證實了語義正確性的增強以及句法精度。

總之,Excot代表了應用於文本到SQL任務的開源LLMS結構化推理優化的有條不紊的進步。通過將結構化的COT推理與偏好優化集成,僅由基於執行的反饋引導,Excot有效地解決了先前方法中確定的局限性。它的迭代改進能力可確保不依賴外部獎勵結構或手動註釋的持續改進。進一步的研究可能會探索將此框架擴展到更複雜的模式環境和其他結構化推理任務,從而擴大了LLM在結構化查詢生成環境中的適用性和可靠性。


查看 紙,github頁面和詳細信息。 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 85k+ ml子雷迪特

🔥 (立即註冊)開源AI的Minicon虛擬會議:免費註冊 +出勤證書 + 3小時短活動(4月12日,上午9點至下午12點)


Asif Razzaq是Marktechpost Media Inc.的首席執行官。作為一位有遠見的企業家和工程師,ASIF致力於利用人工智能的潛力來實現社會利益。他最近的努力是推出了人工智能媒體平台Marktechpost,該平台的深入覆蓋了機器學習和深度學習新聞,既在技術上都可以聽起來,既可以通過技術上的聲音,又可以被廣泛的受眾理解。該平台每月有超過200萬個觀點,說明了其在受眾中的受歡迎程度。

Source link

Scroll to Top