我們正在探索AGI的前沿,優先考慮準備就緒,主動風險評估以及與更廣泛的AI社區的合作。
人工通用情報(AGI),至少在大多數認知任務中與人類一樣有能力的人工智能可能在未來幾年內就在這裡。
與代理能力集成在一起,AGI可以自主理解,推理,計劃和執行操作。這種技術進步將為社會提供寶貴的工具,以應對全球挑戰,包括藥物發現,經濟增長和氣候變化。
這意味著我們可以期待數十億人的切實利益。例如,通過實現更快,更準確的醫學診斷,它可能會徹底改變醫療保健。通過提供個性化的學習經驗,它可以使教育更容易獲得和引人入勝。通過增強信息處理,AGI可以幫助降低創新和創造力的障礙。通過使獲得高級工具和知識的訪問權力,它可以使一個小組織能夠應對以前只有大型,資金充足的機構才能解決的複雜挑戰。
導航通往AGI的道路
我們對Agi的潛力樂觀。它有能力改變我們的世界,是許多領域進步的催化劑。但是,這種強大的技術至關重要,即使是造成的傷害可能很小的可能性也必須受到重視並阻止。
緩解AGI安全挑戰需要積極的計劃,準備和協作。以前,我們在“ AGI級別”框架論文中介紹了AGI的方法,該論文提供了對先進AI系統的功能進行分類,理解和比較其性能,評估潛在風險,並將進步朝著更一般和有能力的AI分類的觀點。
今天,當我們瀏覽這項轉型技術的道路時,我們對AGI安全和保障的看法分享。這篇名為“技術AGI安全與保障方法”的新論文是與更廣泛行業的重要對話的起點,就我們如何監控AGI的進步,並確保其安全和負責任地開發。
在本文中,我們詳細介紹瞭如何採用系統性和全面的AGI安全方法,探索了四個主要風險領域:濫用,未對準,事故和結構性風險,並更加重視濫用和未對準。
理解並解決濫用的潛力
當人類故意將AI系統用於有害目的時,濫用就會發生。
對當今危害和緩解的洞察力的洞察力繼續增強我們對長期嚴重危害以及如何預防它們的理解。
例如,濫用當今的生成AI包括產生有害內容或傳播不准確的信息。將來,先進的AI系統可能具有更大程度地影響公眾信仰和行為的能力,這可能會導致意想不到的社會後果。
這種危害的潛在嚴重程度需要主動安全和保障措施。
正如我們在論文中詳細介紹的那樣,我們策略的一個關鍵要素是識別並限制訪問可能被濫用的危險功能,包括那些啟用網絡攻擊的能力。
我們正在探索許多緩解措施,以防止濫用高級AI。這包括複雜的安全機制,可以防止惡意演員獲得對模型權重的原始訪問權限,從而使他們繞過我們的安全護欄;限制模型部署時濫用潛力的緩解;並對有助於確定安全性閾值的威脅建模研究在需要提高安全性的情況下。此外,我們最近推出的網絡安全評估框架將這項工作進一步採取了一步,以幫助減輕AI驅動的威脅。
即使在今天,我們仍將最先進的模型(例如Gemini)評估在發布之前的潛在危險功能。我們的邊境安全框架更深入地研究了我們如何評估能力和採用緩解的方法,包括用於網絡安全和生物安全風險。
錯位的挑戰
為了使Agi真正補充人類能力,它必須與人類價值觀保持一致。當AI系統追求與人類意圖不同的目標時,就會發生未對準。
我們以前已經證明了我們的規範遊戲示例如何出現未對準,AI找到了實現其目標的解決方案,而不是按照人類指導其目標的方式以及目標不良的方式。
例如,一個被要求預訂電影門票的AI系統可能會決定闖入票務系統以獲得已經被佔用的座位 – 一個人要求它購買座位的人可能不會考慮。
我們還對 欺騙性的對準,即AI系統的風險意識到其目標與人類的指示不符,並故意試圖繞開人類採取的安全措施,以防止其採取錯誤的行動。
反對錯位
我們的目標是設備經過培訓以追求正確目標的先進的AI系統,因此它們準確地遵循人類的指示,以防止AI使用潛在的不道德捷徑來實現其目標。
我們通過 放大監督,即能夠說明AI的答案是好還是壞,擅長實現這一目標。儘管現在這相對容易,但是當AI具有高級功能時,它可能會變得具有挑戰性。
例如,即使是GO專家也沒有意識到37的移動37,這一舉動有1萬分之一的機會被使用時,是Alphago首次播放它的時候。
為了應對這一挑戰,我們邀請AI系統本身,以幫助我們提供有關他們答案的反饋,例如在辯論中。
一旦我們可以分辨出答案是否好,我們就可以使用它來構建安全且對齊的AI系統。這裡的挑戰是找出訓練AI系統的問題或實例。通過在健壯訓練,不確定性估計等方面的工作,我們可以涵蓋AI系統在現實世界中會遇到的一系列情況,從而創建可以信任的AI。
通過有效的監控和建立的計算機安全措施,我們旨在減輕如果我們的AI系統確實實現了未對準目標,可能會發生危害。
監視涉及使用稱為監視器的AI系統來檢測與我們的目標不符的動作。監視器必須知道何時不知道操作是否安全,這一點很重要。當不確定時,它應該拒絕訴訟或標記該動作以進行進一步審查。
實現透明度
如果AI決策變得更加透明,那麼這將變得更加容易。我們在解釋性方面進行了廣泛的研究,目的是提高這種透明度。
為了進一步促進這一點,我們正在設計易於理解的AI系統。
例如,我們對非義批准(MONA)的近視優化的研究旨在確保AI系統所做的任何長期計劃對人類都可以理解。隨著技術的改善,這一點尤其重要。我們在MONA上的工作是第一個證明LLMS短期優化的安全益處的工作。
為AGI準備就緒建立生態系統
由Google DeepMind的聯合創始人兼首席AGI科學家Shane Legg領導,我們的AGI安全委員會(ASC)分析了AGI風險和最佳實踐,並就安全措施提出了建議。 ASC與責任與安全委員會緊密合作,我們的內部審查小組由我們的COO Lila Ibrahim和責任Helen King共同主持,以評估AGI研究,項目和合作,以反對我們的AI原則,為我們的最高影響力的研究和產品團隊提供建議並與研究和產品團隊合作。
我們在AGI安全方面的工作補充了我們的責任和安全實踐的深度和廣度,以及解決了各種問題的研究,包括有害內容,偏見和透明度。我們還繼續利用代理商安全的學習,例如讓人類在循環中檢查相應的行動的原則,以向我們負責任地構建AGI的方法。
在外部,我們正在努力與專家,行業,政府,非營利組織和民間社會組織建立合作,並採用知情的方法來發展AGI。
例如,我們正在與包括Apollo和Redwood Research在內的非營利性AI安全研究組織合作,他們在最新版本的Frontier Safety Framework中為專門的未對準部分提供了建議。
通過與全球政策利益相關者進行的持續對話,我們希望為關鍵邊境安全和安全問題的國際共識做出貢獻,包括我們如何最好地預期和為新穎的風險做準備。
我們的努力包括與業內其他人合作 – 通過像Frontier模型論壇這樣的組織來共享和發展最佳實踐,以及與AI研究所在安全測試上的寶貴合作。最終,我們認為一種協調的國際治理方法對於確保社會從先進的AI系統中受益至關重要。
對AI研究人員和專家進行AGI安全性教育是為其發展創造強大基礎的基礎。因此,我們為對此主題感興趣的學生,研究人員和專業人員推出了有關AGI安全的新課程。
最終,我們採用AGI安全和保障的方法是應對仍在開放的許多挑戰的重要路線圖。我們期待與更廣泛的AI研究社區合作,以負責任地推進AGI,並幫助我們釋放所有人對所有人的巨大好處。