解開大語言模型的偏見|麻省理工學院新聞

研究表明,大型語言模型(LLM)傾向於在文檔或對話的開始和結束時過度強調信息,同時忽略了中間。

這種“位置偏見”意味著,如果律師使用LLM驅動的虛擬助手在30頁的宣誓書中檢索某個短語,則LLM在初始或最終頁面上更有可能找到正確的文本。

麻省理工學院的研究人員發現了這種現象背後的機制。

他們創建了一個理論框架,以研究信息如何通過構成LLM骨幹的機器學習結構流動。他們發現某些設計選擇模型處理輸入數據如何導致位置偏差的設計選擇。

他們的實驗表明,模型體系結構,尤其是那些影響信息如何分佈在模型中的輸入單詞的架構,會引起或加劇位置偏見,並且培訓數據也會導致問題。

除了指出位置偏差的起源外,它們的框架還可以在未來的模型設計中診斷和糾正。

這可能會導致更可靠的聊天機器人,這些聊天機器人在長時間的對話中保持主題,醫療AI系統,這些系統在處理大量患者數據時更公平地推薦,而代碼助手則密切關注程序的所有部分。

“These models are black boxes, so as an LLM user, you probably don’t know that position bias can cause your model to be inconsistent. You just feed it your documents in whatever order you want and expect it to work. But by understanding the underlying mechanism of these black-box models better, we can improve them by addressing these limitations,” says Xinyi Wu, a graduate student in the MIT Institute for Data, Systems, and Society (IDSS) and the Laboratory for Information and決策系統(LID),以及有關這項研究的論文的第一作者。

她的合著者包括MIT博士後的Yifei Wang;電氣工程與計算機科學副教授,IDSS和計算機科學與人工智能實驗室(CSAIL)的成員Stefanie Jegelka(EECS)副教授Stefanie Jegelka;民事與環境工程系教授兼負責人Ali Jadbabaie,IDSS的核心教職員工,Lids的首席研究員。該研究將在國際機器學習會議上介紹。

分析注意力

像克勞德(Claude),拉瑪(Llama)和gpt-4這樣的LLMs由一種稱為變壓器的神經網絡體系結構提供動力。變壓器旨在處理順序數據,將句子編碼為稱為令牌的塊,然後學習令牌之間的關係以預測接下來的單詞。

由於注意力機制的注意力機制,這些模型變得非常出色,該機制使用互連的數據處理節點層,通過允許令牌選擇性地關注或關注相關令牌來理解上下文。

但是,如果每個令牌都可以在30頁的文檔中參與其他所有令牌,那麼這很快就會在計算上棘手。因此,當工程師構建變壓器模型時,他們經常採用注意力掩蓋技術,這些技術限制了令牌可以參與的單詞。

例如,因果面具只允許單詞參觀之前的詞。

工程師還使用位置編碼來幫助模型了解句子中每個單詞的位置,從而提高性能。

麻省理工學院的研究人員建立了一個基於圖的理論框架,以探討這些建模選擇,注意力面罩和位置編碼如何影響位置偏差。

吳說:“一切都在註意機制中耦合和糾結,因此很難研究。圖是一種靈活的語言,可以描述注意機制中單詞之間的依賴關係並跨多層跟踪它們。”

他們的理論分析表明,即使數據中不存在偏見,因果掩蔽使該模型具有對輸入開始的固有偏見。

如果較早的單詞對句子的含義相對不重要,則因果掩蔽會導致變壓器更加註意其開始。

吳說:“雖然句子中較早的單詞和較晚的單詞通常更重要,但如果在不是自然語言產生的任務上使用LLM,例如排名或信息檢索,那麼這些偏見可能非常有害。”

隨著模型的增長,隨著注意機制的其他層次,這種偏差會放大,因為在模型的推理過程中,輸入的早期部分更頻繁地使用。

他們還發現,使用位置編碼更強烈地將單詞鏈接到附近的單詞可以減輕位置偏差。該技術將模型的注意力重新關注在正確的位置,但是在具有更多注意層的模型中可以稀釋其效果。

這些設計選擇只是造成位置偏見的一個原因 – 有些可以來自模型用於學習如何優先級單詞的訓練數據。

吳說:“如果您知道自己的數據以某種方式有偏見,那麼您還應該在調整建模選擇的基礎上對模型進行修復。”

中間迷路

在建立了一個理論框架之後,研究人員進行了實驗,在這些實驗中,他們系統地將正確答案的位置在文本序列中的位置變化,以進行信息檢索任務。

實驗顯示了“中間失落”現象,其中檢索精度遵循U形模式。如果正確的答案位於序列的開頭,則模型表現最好。如果正確的答案接近結束,則性能降低了它越接近中間的距離。

最終,他們的工作表明,使用不同的掩蔽技術,從注意機制中刪除額外的層,或者在戰略上採用位置編碼可以降低位置偏見並提高模型的準確性。

Jadbabaie說:“通過結合理論和實驗,我們能夠研究當時尚不清楚的模型設計選擇的後果。如果您想在高風險應用中使用模型,則必須知道何時會起作用,什麼時候無法正常工作,為什麼是為什麼。”

將來,研究人員希望進一步探索位置編碼的影響,並研究如何在某些應用中策略性地利用位置偏見。

“These researchers offer a rare theoretical lens into the attention mechanism at the heart of the transformer model. They provide a compelling analysis that clarifies longstanding quirks in transformer behavior, showing that attention mechanisms, especially with causal masks, inherently bias models toward the beginning of sequences. The paper achieves the best of both worlds — mathematical clarity paired with insights that reach into the guts of real-world systems,” says Amin斯坦福大學計算市場設計中心教授兼主任Saberi不參與這項工作。

這項研究部分得到了美國海軍研究辦公室,國家科學基金會和亞歷山大·馮·洪堡教授的支持。

Source link

Scroll to Top