引入邊境安全框架

我們分析和減輕先進AI模型帶來的未來風險的方法

Google DeepMind一直在推動AI的界限,開發了改變我們對可能的理解的模型。我們認為,AI技術即將到來,將為社會提供寶貴的工具,以幫助應對全球關鍵挑戰,例如氣候變化,藥物發現和經濟生產力。同時,我們認識到,隨著我們繼續推進AI功能的前沿,這些突破最終可能會帶來新的風險,而不是當今模型帶來的風險。

今天,我們正在介紹我們的邊境安全框架 – 一組協議,用於積極識別未來的AI功能,這些功能可能造成嚴重傷害並實施機制以檢測和減輕它們。我們的框架著重於模型級別的強大能力,例如傑出代理或複雜的網絡功能,引起了嚴重的風險。它旨在補充我們的一致性研究,該研究訓練模型以根據人類價值和社會目標行動,以及Google現有的AI責任和安全實踐的套件。

該框架是探索性的,我們希望隨著我們從實施中學到的了解,加深對AI風險和評估的理解,並與行業,學術界和政府合作時,它將大大發展。即使這些風險超出了當今模型的影響力,我們希望實施和改進框架將有助於我們準備解決這些問題。我們的目標是在2025年初之前將這個初始框架完全實施。

框架

該框架的第一個版本今天宣布的是我們在評估Frontier模型中關鍵功能的研究基礎上,並遵循了負責任能力擴展的新興方法。該框架有三個關鍵組成部分:

  1. 識別模型可能具有嚴重傷害的能力。 為此,我們研究了模型在高風險域中造成嚴重傷害的路徑,然後確定模型必須在造成這種傷害方面發揮作用的最小能力水平。我們稱這些“關鍵能力水平”(CCLS),它們指導我們的評估和緩解方法。
  2. 定期評估我們的邊界模型,以檢測它們何時達到這些關鍵能力水平。 為此,我們將開發模型評估的套件,稱為“預警評估”,這將在模型接近CCL時提醒我們,並經常運行它們,以至於我們在達到該閾值之前就已經註意到了。
  3. 當模型通過我們的預警評估時,應用緩解計劃。 這應該考慮利益和風險的總體平衡以及預期的部署環境。這些緩解將主要集中於安全性(防止模型的滲透)和部署(防止濫用關鍵功能)。

風險域和緩解水平

我們最初的一組關鍵能力水平基於對四個領域的研究:自主性,生物安全性,網絡安全性和機器學習研究與開發(R&D)。我們的最初研究表明,未來基礎模型的能力最有可能在這些領域構成嚴重的風險。

關於自主性,網絡安全性和生物安全性,我們的主要目標是評估威脅行為者可以使用具有先進功能的模型來開展帶有嚴重後果的有害活動的程度。對於機器學習研發,重點是具有此類功能的模型是否可以使模型具有其他關鍵功能的傳播,或者可以快速且無法控制AI功能的升級。當我們對這些和其他風險域進行進一步研究時,我們希望這些CCL能夠在較高級別或其他風險域中進化,並添加幾個CCL。

為了使我們能夠為每個CCL定制緩解力量,我們還概述了一套安全性和部署緩解。更高級別的安全性緩解可提供更大的保護,以防止模型權重去滲透,而更高級別的部署緩解措施使關鍵能力的管理更加緊密。但是,這些措施也可能會降低創新速度並降低能力的廣泛可及性。在緩解風險和促進訪問和創新之間達到最佳平衡至關重要。通過權衡總體利益與風險的權衡並考慮到模型開發和部署的背景,我們旨在確保負責的AI進步,以釋放變革性潛力,同時維護不受歡迎的後果。

投資科學

該框架的基礎研究是新生的,並且迅速發展。我們在邊境安全團隊中進行了大量投資,該團隊協調了框架背後的跨職能工作。他們的職責是進行邊境風險評估的科學,並根據我們的知識改善我們的框架。

該團隊開發了一個評估套件,以評估關鍵功能的風險,特別是強調自主LLM代理商,並在我們的最先進的模型上進行了道路測試。他們最近描述這些評估的論文還探討了可能形成未來“預警系統”的機制。它描述了評估模型在目前未能執行的任務中取得成功的技術方法,還包括有關專家預報員團隊的未來能力的預測。

忠於我們的AI原則

我們將定期審查和發展框架。特別是,當我們試行框架並加深對風險域,CCL和部署環境的理解時,我們將繼續我們的工作,以校準對CCL的特定緩解。

我們工作的核心是Google的AI原則,該原則致力於我們在減輕風險的同時尋求廣泛的利益。隨著系統的提高和功能的提高,諸如Frontier安全框架之類的措施將確保我們的實踐繼續滿足這些承諾。

我們期待與各個行業,學術界和政府之間的其他人合作開發和完善框架。我們希望分享我們的方法將有助於與他人的工作達成共識,以評估後代AI模型安全的標準和最佳實踐。

Source link

Scroll to Top