發現系統何時存在

研究

出版
作者

Zachary Kenton,Ramana Kumar,Sebastian Farquhar,Jonathan Richens,Matt Macdermott,Tom Everitt

代理機構的新正式定義為AI代理的因果建模和他們面臨的激勵措施提供了明確的原則

我們希望建立實現其設計師預期目標的安全,一致的人工通用情報(AGI)系統。因果影響圖(CIDS)是建模決策情況的一種方式,使我們能夠對代理人激勵措施進行推理。例如,這是馬爾可夫決策過程的CID,這是決策問題的典型框架。

S1代表初始狀態A1代表代理的決定(Square),S2下一個狀態。 R2是代理商的獎勵/實用程序(鑽石)。固定鏈接指定因果影響。虛線邊緣指定信息鏈接 – 代理在做出決定時知道的內容。

通過將培訓設置與塑造代理行為的激勵措施聯繫起來,CID可以在訓練代理商之前闡明潛在的風險,並可以激發更好的代理設計。但是,我們怎麼知道CID何時是培訓設置的準確模型?

我們的新論文發現了代理商,引入了解決這些問題的新方法,包括:

  • 代理人的第一個正式因果定義: 代理是如果他們的行動以不同的方式影響世界,則可以調整其政策的系統
  • 從經驗數據中發現代理的算法
  • 因果模型和CID之間的翻譯
  • 解決不正確的因果模型的早期混亂

這些結果結合在一起,提供了額外的保證,即尚未犯有建模錯誤,這意味著CID可以用更大的信心來分析代理商的激勵和安全性。

示例:將鼠標建模為代理

為了幫助說明我們的方法,請考慮以下示例,該示例由一個包含三個正方形的世界組成,鼠標從中間廣場開始選擇向左或向右走,到達下一個位置,然後有可能獲得一些奶酪。地板是冰冷的,所以鼠標可能會滑落。有時奶酪在右邊,但有時在左側。

鼠標和奶酪環境。

這可以由以下CID表示:

鼠標的CID。 D表示左/右的決定。 x是鼠標左/右後的動作後的新位置(它可能會滑倒,偶然地在另一側進入)。 u表示鼠標是否得到奶酪。

可以通過機械化因果圖捕獲不同環境設置(ICINES,奶酪分佈)的不同行為的直覺,該圖形對於每個(對象級)變量,還包括一個機制變量,該變量控制變量如何依賴於該變量在父母上。至關重要的是,我們允許在機制變量之間建立聯繫。

該圖包含黑色的其他機制節點,代表了鼠標的策略以及ICESISS和奶酪分佈。

小鼠和奶酪環境的機械化因果圖。

機制之間的邊緣代表直接因果影響。藍色邊緣很特別 終端 邊緣 – 粗略的是,即使對象級變量a被更改,因此機制邊緣A〜→B〜仍然存在。

在上面的示例中,由於U沒有孩子,其機理邊緣必須是終端。但是機構邊緣x〜→d〜不是終端,因為如果我們將X從孩子u上切斷,那麼鼠標將不再適應其決定(因為其位置不會影響它是否得到奶酪)。

因果發現代理商

因果發現從涉及乾預措施的實驗中侵犯了因果圖。特別是,即使所有其他變量固定了固定,也可以通過實驗中介入A並檢查B是否響應,從而發現從變量A到變量B的箭頭。

我們的第一個算法使用此技術來發現機械化的因果圖:

算法1作為來自系統(鼠標和奶酪環境)的輸入介入數據,並使用因果發現來輸出機械化的因果圖。有關詳細信息,請參見紙。

我們的第二個算法將此機械化的因果圖轉換為遊戲圖:

算法2作為輸入機械化的因果圖,並將其映射到遊戲圖。 ingoing終端邊緣表示決定,一個傳出的終端表示實用程序。

綜上所述,算法1隨後是算法2,使我們能夠從因果實驗中發現代理,並使用CID代表它們。

我們的第三個算法將游戲圖轉換為機械化的因果圖,使我們能夠在某些其他假設下在遊戲和機械化因果圖表示之間轉換:

算法3作為輸入遊戲圖,並將其映射到機械化的因果圖。決策表明iNgoing端子邊緣,實用程序表示終端邊緣。

更好的安全工具來建模AI代理商

我們提出了對代理人的第一個正式因果定義。基於因果發現,我們的關鍵見解是,代理是根據其行為影響世界的變化而適應其行為的系統。實際上,我們的算法1和2描述了一個精確的實驗過程,可以幫助評估系統是否包含代理。

對AI系統因果建模的興趣正在迅速增長,我們的研究在因果發現實驗中以這種建模為基礎。我們的論文通過改善了幾個示例AI系統的安全性分析來證明我們方法的潛力,並表明因果關係是發現系統中是否有代理的有用框架,這是評估AGI風險的關鍵問題。

興奮地了解更多?查看我們的論文。最歡迎反饋和評論。

Source link

Scroll to Top