正確的獎勵如何出現不希望的目標

研究

出版
作者

Rohin Shah,Victoria Krakovna,Vikrant Varma,Zachary Kenton

探索目標誤差的示例 – AI系統的能力概括,但其目標卻沒有

隨著我們建立越來越高級的人工智能(AI)系統,我們希望確保他們不追求不希望的目標。 AI代理中的這種行為通常是規格遊戲的結果 – 利用他們獎勵的不良選擇。在我們的最新論文中,我們探討了一種更微妙的機制,通過該機制,AI系統可能會無意中學會追求不希望的目標: 目標差異化 (GMG)。

當系統的時發生GMG 功能 成功概括,但 目標 不會根據需要概括,因此該系統能夠有力地追求錯誤的目標。至關重要的是,與規範遊戲相比,即使對AI系統進行了正確的規範訓練,GMG也會發生。

我們較早的文化傳播工作導致了我們沒有設計的GMG行為的例子。代理(下面的藍色斑點)必須在其環境周圍導航,以正確的順序訪問彩色球體。在培訓期間,有一個“專家”代理(紅色斑點)以正確的順序訪問彩色球體。代理商了解到,遵循紅色斑點是一種有益的策略。

經紀人(藍色)觀看專家(紅色)以確定要去哪個領域。

不幸的是,儘管在訓練過程中,該代理商在訓練過程中表現良好,但在訓練後,我們用“反專家”取代專家時,以錯誤的順序訪問球體。

代理(藍色)遵循抗專家(紅色),積累了負面獎勵。

即使代理商可以觀察到它正在獲得負面獎勵,但代理商也沒有追求“以正確順序訪問球體”的期望目標,而是勝任地追求“遵循紅色代理商”的目標。

GMG不僅限於這樣的增強學習環境。實際上,任何學習系統都可以發生,包括大型語言模型(LLMS)的“少數學習”。很少有學習方法旨在通過更少的培訓數據構建準確的模型。

我們促使一個LLM Gopher評估涉及未知變量和常數的線性表達式,例如X+Y-3。要解決這些表達式,Gopher必須首先詢問未知變量的值。我們為其提供十個培訓示例,每個培訓示例涉及兩個未知變量。

在測試時,詢問模型的零,一個或三個未知變量的問題。儘管該模型正確地通用了一個或三個未知變量的表達式,但是當沒有未知的變量時,它仍然提出了諸如“什麼是6?”之類的冗餘問題。即使沒有必要,該模型在給出答案之前始終至少詢問用戶一次。

與Gopher進行對話,以進行評估表達任務的幾次學習,並突出了GMG行為。

在我們的論文中,我們在其他學習環境中提供了其他示例。

解決GMG對於將AI系統與設計師的目標保持一致很重要,這僅僅是因為這是AI系統可能會失火的機制。當我們接近人工通用情報(AGI)時,這將特別關鍵。

考慮兩種可能的AGI系統類型:

  • A1:預期的模型。 這個AI系統可以執行其設計師打算做的事情。
  • A2:欺騙性模型。 這個AI系統追求一些不希望的目標,但是(假設)也足夠聰明,可以知道,如果它以違反設計師的意圖的方式行事,它將受到懲罰。

由於A1和A2在訓練過程中會表現出相同的行為,因此GMG的可能性意味著任何一種模型都可以形成,即使只有獎勵預期行為的規範。如果學習了A2,它將試圖顛覆人類的監督,以製定其計劃的計劃。

我們的研究團隊很高興看到後續工作調查GMG在實踐中發生的可能性以及可能的緩解可能性。在我們的論文中,我們提出了一些方法,包括機械性解釋性和遞歸評估,這兩者都在積極進行。

目前,我們在此公開電子表格中收集了GMG的示例。如果您在AI研究中遇到了目標誤差,我們邀請您在此處提交示例。

Source link

Scroll to Top