推進雙子座的安全保障 – Google Deepmind

我們正在發布一份新的白皮書,概述了我們如何使Gemini 2.5迄今為止最安全的模型家族。

想像一下,要求您的AI代理總結您的最新電子郵件 – 看似簡單的任務。 Gemini和其他大型語言模型(LLMS)通過訪問我們的文檔,日曆或外部網站之類的信息,在執行此類任務時始終如一地改進。但是,如果其中一封電子郵件包含隱藏的,惡意的說明,旨在欺騙AI共享私人數據或濫用其權限呢?

間接及時注入提出了一個真正的網絡安全挑戰,其中AI模型有時很難區分它們檢索到的數據中的真正用戶說明和操縱命令。我們的新白皮書是為雙子座防禦間接及時注射而辯護的課程,列出了我們的戰略性藍圖,用於應對間接及時注射,以製造由高級大型語言模型支持的代理AI工具,以實現此類攻擊。

我們的承諾不僅建立有能力,而且要確保AI代理,這意味著我們不斷努力地了解雙子座如何對間接提示注射的反應,並使其對它們更具彈性。

評估基線防禦策略

間接及時注射攻擊很複雜,需要持續的警惕和多層防禦。 Google DeepMind的安全和隱私研究團隊專門保護我們的AI模型免受故意惡意攻擊。試圖手動找到這些漏洞是緩慢且效率低下的,尤其是在模型迅速發展時。這就是我們建立一個自動化系統來無情地探究雙子座防禦的原因之一。

使用自動紅色團隊使雙子座更安全

我們安全策略的核心部分是自動紅色團隊(ART),我們的內部雙子座團隊不斷以現實的方式攻擊雙子座,以發現模型中潛在的安全弱點。在我們的白皮書中詳細介紹的其他努力外,使用這種技術有助於大大提高雙子座在工具使用過程中的間接及時注射攻擊的保護率,這使Gemini 2.5迄今為止我們最安全的模型家族。

我們測試了研究界建議的幾種防禦策略,以及我們自己的一些想法:

調整自適應攻擊的評估

基線緩解表現出了對基本的非自適應攻擊的希望,從而大大降低了攻擊成功率。但是,惡意行為者越來越多地使用專門設計的適應性攻擊,這些攻擊是為了演變和適應藝術來規避所測試的辯護。

成功的基線防禦能力(​​如聚光燈或自我反省)對自適應攻擊的有效性降低了,學習如何處理和繞過靜態防禦方法。

這一發現說明了一個關鍵:僅根據靜態攻擊測試的防禦措施提供了錯誤的安全感。對於穩健的安全性,評估響應潛在防禦能力而發展的自適應攻擊至關重要。

通過模型硬化構建固有的彈性

儘管外部防禦和系統級護欄很重要,但增強了AI模型識別和無視數據中嵌入的惡意指示的內在能力也很重要。我們稱此過程為“模型硬化”。

我們在逼真的場景的大數據集中微調了雙子座,其中藝術生成了針對敏感信息的有效間接提示注射。這教會雙子座忽略惡意嵌入式指令並遵循原始用戶請求,從而僅提供 正確的,安全回應 應該 給。這使該模型可以天生了解如何處理隨著時間的推移而演變為自適應攻擊的一部分的折衷信息。

該模型硬化顯著提高了雙子座識別和忽略注射指令的能力,從而降低了其攻擊成功率。重要的是,沒有顯著影響模型在正常任務上的績效。

重要的是要注意,即使使用模型硬化,也沒有完全免疫的模型。確定的攻擊者可能仍會發現新的漏洞。因此,我們的目標是使對手的攻擊更加困難,更昂貴和更複雜。

採用整體方法來模擬安全性

保護AI模型免受諸如間接提示之類的攻擊,需要“深入防禦” – 使用多層保護,包括模型硬化,輸入/輸出檢查(例如分類器)和系統級別的護欄。打擊間接提示注射是我們實施代理安全原則和準則以負責任地開發代理的關鍵方式。

確保先進的AI系統免受特定的,不斷發展的威脅,例如間接提示注射,這是一個持續的過程。它需要進行持續和適應性的評估,改善現有防禦能力並探索新的防禦能力,並將固有的韌性在模型本身中增強。通過對防禦和學習的不斷學習,我們可以使像Gemini這樣的AI助手繼續變得非常有幫助 值得信賴。

要了解有關我們內置到雙子座的防禦措施的更多信息,以及我們使用更具挑戰性的自適應攻擊來評估模型魯棒性的建議,請參閱GDM白皮書,辯護Gemini免受間接及時注射的課程。

Source link

Scroll to Top