發現系統何時存在

研究

出版: 2022年8月18日
作者: Zachary Kenton，Ramana Kumar，Sebastian Farquhar，Jonathan Richens，Matt Macdermott，Tom Everitt

代理機構的新正式定義為AI代理的因果建模和他們面臨的激勵措施提供了明確的原則

我們希望建立實現其設計師預期目標的安全，一致的人工通用情報（AGI）系統。因果影響圖（CIDS）是建模決策情況的一種方式，使我們能夠對代理人激勵措施進行推理。例如，這是馬爾可夫決策過程的CID，這是決策問題的典型框架。

S1代表初始狀態A1代表代理的決定（Square），S2下一個狀態。 R2是代理商的獎勵/實用程序（鑽石）。固定鏈接指定因果影響。虛線邊緣指定信息鏈接 – 代理在做出決定時知道的內容。

通過將培訓設置與塑造代理行為的激勵措施聯繫起來，CID可以在訓練代理商之前闡明潛在的風險，並可以激發更好的代理設計。但是，我們怎麼知道CID何時是培訓設置的準確模型？

我們的新論文發現了代理商，引入了解決這些問題的新方法，包括：

這些結果結合在一起，提供了額外的保證，即尚未犯有建模錯誤，這意味著CID可以用更大的信心來分析代理商的激勵和安全性。

示例：將鼠標建模為代理

為了幫助說明我們的方法，請考慮以下示例，該示例由一個包含三個正方形的世界組成，鼠標從中間廣場開始選擇向左或向右走，到達下一個位置，然後有可能獲得一些奶酪。地板是冰冷的，所以鼠標可能會滑落。有時奶酪在右邊，但有時在左側。

鼠標和奶酪環境。

這可以由以下CID表示：

鼠標的CID。 D表示左/右的決定。 x是鼠標左/右後的動作後的新位置（它可能會滑倒，偶然地在另一側進入）。 u表示鼠標是否得到奶酪。

可以通過機械化因果圖捕獲不同環境設置（ICINES，奶酪分佈）的不同行為的直覺，該圖形對於每個（對象級）變量，還包括一個機制變量，該變量控制變量如何依賴於該變量在父母上。至關重要的是，我們允許在機制變量之間建立聯繫。

該圖包含黑色的其他機制節點，代表了鼠標的策略以及ICESISS和奶酪分佈。

小鼠和奶酪環境的機械化因果圖。

機制之間的邊緣代表直接因果影響。藍色邊緣很特別終端邊緣 – 粗略的是，即使對象級變量a被更改，因此機制邊緣A〜→B〜仍然存在。

在上面的示例中，由於U沒有孩子，其機理邊緣必須是終端。但是機構邊緣x〜→d〜不是終端，因為如果我們將X從孩子u上切斷，那麼鼠標將不再適應其決定（因為其位置不會影響它是否得到奶酪）。

因果發現從涉及乾預措施的實驗中侵犯了因果圖。特別是，即使所有其他變量固定了固定，也可以通過實驗中介入A並檢查B是否響應，從而發現從變量A到變量B的箭頭。

我們的第一個算法使用此技術來發現機械化的因果圖：

算法1作為來自系統（鼠標和奶酪環境）的輸入介入數據，並使用因果發現來輸出機械化的因果圖。有關詳細信息，請參見紙。

我們的第二個算法將此機械化的因果圖轉換為遊戲圖：

算法2作為輸入機械化的因果圖，並將其映射到遊戲圖。 ingoing終端邊緣表示決定，一個傳出的終端表示實用程序。

綜上所述，算法1隨後是算法2，使我們能夠從因果實驗中發現代理，並使用CID代表它們。

我們的第三個算法將游戲圖轉換為機械化的因果圖，使我們能夠在某些其他假設下在遊戲和機械化因果圖表示之間轉換：

算法3作為輸入遊戲圖，並將其映射到機械化的因果圖。決策表明iNgoing端子邊緣，實用程序表示終端邊緣。

我們提出了對代理人的第一個正式因果定義。基於因果發現，我們的關鍵見解是，代理是根據其行為影響世界的變化而適應其行為的系統。實際上，我們的算法1和2描述了一個精確的實驗過程，可以幫助評估系統是否包含代理。

對AI系統因果建模的興趣正在迅速增長，我們的研究在因果發現實驗中以這種建模為基礎。我們的論文通過改善了幾個示例AI系統的安全性分析來證明我們方法的潛力，並表明因果關係是發現系統中是否有代理的有用框架，這是評估AGI風險的關鍵問題。

興奮地了解更多？查看我們的論文。最歡迎反饋和評論。