該AI論文將功能向量頭確定為大語言模型中文化學習的關鍵驅動力

內部文化學習(ICL)是允許大型語言模型(LLMS)概括並適應以最小演示的新任務的概括。 ICL對於提高模型的靈活性,效率和在語言翻譯,文本摘要和自動推理中至關重要。儘管具有重要意義,但負責ICL的確切機制仍然是一個積極的研究領域,提出了兩種競爭理論:誘導頭,檢測令牌序列並預測隨後的令牌,以及功能矢量(FV)頭部,並編碼了任務的潛在表示。

了解哪種機制主要驅動ICL是一個關鍵挑戰。感應頭通過識別輸入數據中的重複模式並利用此重複來預測即將到來的令牌來發揮作用。但是,這種方法並未完全解釋模型如何僅使用幾個示例執行複雜的推理。另一方面,FV頭被認為可以捕獲對任務的抽象理解,從而為ICL提供了更普遍和適應性的方法。區分這兩種機制並確定其貢獻對於開發更有效的LLM至關重要。

較早的研究主要將ICL歸因於誘導頭,假設它們的模式匹配能力是從上下文中學習的基礎。但是,最近的研究通過證明FV頭在幾次學習中起著更重要的作用來挑戰這一觀念。雖然歸納負責人主要在句法水平上運作,但FV負責人可以更廣泛地了解提示中的關係。這種區別表明,FV頭可能是該模型跨不同任務轉移知識的能力的原因,這一能力僅誘導無法解釋。

加利福尼亞大學伯克利分校的一項研究團隊進行了一項研究,分析了十二個LLM的注意力負責人,從7,000萬到70億參數。他們的目的是確定哪個注意力頭在ICL中起著最重要的作用。通過受控的消融實驗,研究人員使特定的注意力負責人,並測量了對模型性能的影響。通過有選擇地刪除感應頭或FV頭,它們可以隔離每個機制的獨特貢獻。

研究結果表明,FV頭在訓練過程後期出現,並且位於模型的深層層中,而不是感應頭。通過詳細的培訓分析,研究人員觀察到許多FV頭最初在過渡到FV頭之前起著誘導頭的作用。這表明誘導可能是開發更複雜的FV機制的先驅。在多個模型中指出了這種轉換,表明LLM如何隨著時間的推移發展任務理解的方式一致。

性能結果提供了FV頭在ICL中的重要性的定量證據。當FV頭被消融時,模型精度會逐漸下降,並且在較大的模型中降解變得越來越明顯。這種影響明顯大於去除誘導頭的效果,後者在隨機消融以外顯示的影響很小。研究人員觀察到,僅保留最高2%的FV頭足以保持合理的ICL性能,而消融它們會導致模型準確性的重大損害。相比之下,除去誘導頭的影響最小,超出了隨機消融的期望。在較大的模型中,這種效果尤其明顯,在大型模型中,FV頭的作用變得越來越占主導地位。研究人員還發現,在Pythia 6.9b模型中,去除FV頭時的準確性下降大大要大於消融誘導頭時的精度,從而增強了FV頭驅動幾次學習的假設。

這些結果挑戰了先前的假設,即誘導頭是ICL的主要促進者。取而代之的是,該研究將FV頭確定為更關鍵的組件,尤其是模型的規模。證據表明,隨著模型的複雜性的增加,它們更加依賴FV頭進行有效的內在學習。這種洞察力提高了對ICL機制的理解,並提供了優化未來LLM體系結構的指導。

通過區分歸納和FV頭的作用,這項研究改變了LLMS如何獲取和利用上下文信息的觀點。 FV頭部從歸納負責人演變的發現突出了這些模型中重要的發展過程。未來的研究可能會探索增強FV頭部形成的方法,從而提高LLM的效率和適應性。這些發現也對模型的解釋性有影響,因為了解這些內部機制可以幫助開發更透明和可控制的AI系統。


查看 紙。 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 80k+ ml子列數

🚨 推薦的閱讀-LG AI研究釋放Nexus:一個高級系統集成代理AI系統和數據合規性標準,以解決AI數據集中的法律問題


Nikhil是Marktechpost的實習顧問。他正在哈拉格布爾印度技術學院攻讀材料的綜合材料綜合學位。 Nikhil是AI/ML愛好者,他一直在研究生物材料和生物醫學科學等領域的應用。他在材料科學方面具有強大的背景,他正在探索新的進步並創造了貢獻的機會。

🚨推薦開源AI平台:“ Intellagent是一個開源的多代理框架,可評估複雜的對話AI系統”(已晉升)

Source link

Scroll to Top