此AI論文介紹了Kolmogorov檢驗:用於評估代碼生成語言模型的壓縮基準測試

壓縮是計算智能的基石,它深深植根於Kolmogorov的複雜性理論,該理論定義了重現給定序列所需的最小程序。與尋求重複和冗餘的傳統壓縮方法不同,科爾莫戈羅夫的框架將壓縮解釋為通過程序化表示發現結構化模式的問題。儘管該理論有望最佳壓縮,但其不可兼容性卻帶來了重大障礙。然而,能夠生成代碼的大型語言模型的出現為測試現代系統如何通過通過代碼推理而不是模式匹配來近似這種理論理想的機會開闢了一個有趣的機會。

核心問題源於當前工具使用簡明的可執行代碼壓縮數據序列的局限性。模型通常會復制輸入,而不是生成複制它們的程序,表明在真實的模式理解中存在差距。在處理現實世界的音頻,文本或DNA序列時,必鬚髮現複雜的邏輯結構以實現有效的壓縮時,這一點尤其明顯。主要的挑戰是確保模型複制序列並使用最小和合理的指令集。此外,儘管合成訓練數據對於對照評估很有用,但它通常無法支持對自然數據的強大概括,這對於實際應用至關重要。

存在幾種壓縮工具,從傳統算法(如GZIP)到新的神經壓縮系統。 GZIP仍然是強大的基線,尤其是對於長期或重複的序列,由於其有效地編碼了統計規律性。最近,使用預測概率來壓縮輸入數據,語言建模方法已與算術編碼集成在一起。但是,這些方法通常需要在解碼時間訪問完整的模型權重,從而限制其效率和適用性。還在零照片設置中評估了諸如GPT-4和Llama之類的代碼生成模型,以生成複制輸入序列的Python程序。但是,它們經常產生冗長的,不精確的代碼,尤其是面對看不見或複雜的序列時。

Meta AI和特拉維夫大學的研究人員介紹了Kolmogorov-Test(KT),這是評估代碼生成語言模型的推理能力的基準。該測試評估了模型生成輸出給定輸入序列的最短程序的能力。與典型的基準不同,KT強調了邏輯構圖和計劃生成,而不是預測性文本建模。序列包括來自音頻(librispeech),文本(Wikipedia enwik9)和DNA(GRCH38)的自然數據,以及通過自定義設計的域特異性語言(DSL)生成的合成序列。該DSL通過組成範圍創建,序列修改,合併和過濾等操作來支持構建結構化序列。

研究人員開發了一個自動化框架,以使用此DSL生成數百萬個合成程序 – 序列對。然後,這些程序訓練和評估模型,包括大型預培訓,特殊訓練的模型,例如Seqcoder。為了衡量績效,團隊採用了諸如準確性之類的指標(無論生成的程序都重現順序)和精確度 – 如何將正確的程序與GZIP壓縮進行比較。該測試涉及變化長度的壓縮序列,合成序列平均為76字節,而真實序列限制為128。

結果表明,即使是最強大的模型也很掙扎。 GPT-4在高質量音頻上的準確度達到69.5%,但在8位音頻中降至36.4%,DNA數據的準確性為50.3%。 Llama-3.1-405b的性能較差,音頻的精度低至3.9%,DNA僅為24.8%。在合成數據中,Seqcoder-8b的精度達到92.5%,精度得分為0.56,表現優於GZIP(例如GZIP)的傳統工具。但是,其對現實數據的準確性保持在零接近。這種差異說明了將成功從合成基準測試轉移到更多樣化和嘈雜的現實世界序列的困難,從而突出了當前培訓制度的局限性並促使人們需要新策略。

總體而言,這項研究清楚地概述了通過代碼生成的壓縮的複雜性。 KT基準測試提供了嚴格多樣的模型推理和結構識別測試,從而揭示了合成學習環境和現實世界應用之間的鮮明鴻溝。引入的方法和測試設定了未來模型的高標準,旨在通過壓縮統一推理,但仍需要大量的創新來應對這一挑戰。


查看 紙。 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 85k+ ml子雷迪特


Nikhil是Marktechpost的實習顧問。他正在哈拉格布爾印度技術學院攻讀材料的綜合材料綜合學位。 Nikhil是AI/ML愛好者,他一直在研究生物材料和生物醫學科學等領域的應用。他在材料科學方面具有強大的背景,他正在探索新的進步並創造了貢獻的機會。

Source link

Scroll to Top