引入基於上下文的框架,以全面評估AI系統的社會和道德風險
生成的AI系統已經被用來撰寫書籍,創建圖形設計,協助醫生並變得越來越有能力。確保這些系統的開發和部署負責任地需要仔細評估它們可能構成的潛在道德和社會風險。
在新論文中,我們提出了一個三層框架,用於評估AI系統的社會和道德風險。該框架包括對AI系統能力,人類相互作用和全身影響的評估。
我們還繪製了當前的安全評估狀態,並找到三個主要差距:上下文,特定風險和多模式。為了幫助縮小這些差距,我們呼籲重新利用現有的生成AI評估方法並實施全面的評估方法,就像我們關於錯誤信息的案例研究一樣。這種方法集成了發現,例如AI系統提供了關於人們如何使用該系統以及在什麼情況下的洞察力提供事實不正確的信息的可能性。多層評估可以得出超出模型能力的結論,並表明在這種情況下(在這種情況下,錯誤信息)是否實際發生並傳播。
為了使任何技術按預期運作,必須解決社會和技術挑戰。因此,為了更好地評估AI系統安全性,必須考慮這些不同的上下文層。在這裡,我們基於較早的研究,確定了大規模語言模型的潛在風險,例如隱私洩漏,工作自動化,錯誤信息等,並引入了一種全面評估這些風險的方式。
上下文對於評估AI風險至關重要
AI系統的功能是可能出現的更廣泛風險類型的重要指標。例如,更有可能產生不准確或誤導性產出的AI系統可能更容易產生錯誤信息的風險,從而導致缺乏公共信任等問題。
測量這些功能是AI安全評估的核心,但是僅這些評估不能確保AI系統是安全的。下游傷害是否表現出來,例如,人們是否基於模型輸出來持有錯誤的信念 – 取決於 情境。更具體地說,誰使用AI系統以及目標是什麼? AI系統是否按預期運行?它會產生意外的外部性嗎?所有這些問題都可以全面評估AI系統的安全性。
延伸超越 能力 評估,我們提出的評估可以評估下游風險表現出來的兩個其他點:使用點的人類相互作用以及作為AI系統的系統影響嵌入了更廣泛的系統中並廣泛部署。整合對這些層中給定傷害風險的評估提供了對AI系統安全性的全面評估。
人類互動 評估以使用AI系統的人的經驗為中心。人們如何使用AI系統?該系統是否按照使用點的預期執行,人口統計和用戶組之間的經驗有何不同?我們可以觀察到使用該技術或暴露於其輸出的意外副作用嗎?
系統性影響 評估側重於嵌入AI系統的更廣泛的結構,例如社會機構,勞動力市場和自然環境。在此層的評估可以闡明只有在大規模採用AI系統後才可見的傷害風險。
安全評估是共同責任
AI開發人員需要確保其技術得到負責任的發展和釋放。公共行為者,例如政府,負責維護公共安全。由於生成的AI系統越來越廣泛地使用和部署,因此確保其安全是多個參與者之間的共同責任:
- AI開發人員 精心安排的位置以詢問其生產系統的功能。
- 應用程序開發人員 指定的公共當局將定位,以評估不同用戶組的不同功能和應用程序的功能以及可能的外部性。
- 更廣泛的公共利益相關者 具有獨特的定位,可以預測和評估新技術(例如生成AI)的社會,經濟和環境影響。
在我們提出的框架中,評估的三層是一個程度的問題,而不是整齊地分裂。儘管它們都不是單個演員的責任,但主要責任取決於誰最適合在每一層進行評估。
當前生成多模式AI的安全評估的差距
鑑於這種附加環境在評估AI系統安全性的重要性,因此了解此類測試的可用性很重要。為了更好地理解更廣闊的景觀,我們做出了廣泛的努力,以將已適用於生成AI系統的評估進行整理。
通過映射生成AI的當前安全評估狀態,我們發現了三個主要的安全評估差距:
- 情境: 大多數安全評估都會孤立地考慮生成的AI系統功能。在人類相互作用或系統性影響的位置,幾乎沒有做出相對較少的工作來評估潛在風險。
- 特定風險的評估: 生成AI系統的能力評估在其涵蓋的風險領域受到限制。對於許多風險領域,很少有評估。在它們存在的地方,評估通常以狹窄的方式運行危害。例如,表示危害通常被定義為與不同性別的職業的刻板印象關聯,留下了其他未被發現的傷害和風險領域實例。
- 多模式: 生成AI系統的絕大多數現有安全評估僅關注文本輸出 – 較大的差距仍然用於評估圖像,音頻或視頻方式的傷害風險。只有在單個模型中引入多種方式,例如可以將圖像作為輸入或產生交織音頻,文本和視頻的輸出的AI系統中的多種模態而擴大。雖然一些基於文本的評估可以應用於其他方式,但新方式引入了風險可以表現出來的新方法。例如,對動物的描述並不有害,但是如果描述應用於它是一個人的形象。
我們正在列出指向出版物的鏈接清單,以詳細介紹通過此存儲庫公開訪問的生成AI系統的安全評估。如果您想做出貢獻,請通過填寫此表格來添加評估。
將更全面的評估付諸實踐
生成的AI系統正在為新的應用和創新浪潮提供動力。為了確保了解和減輕這些系統的潛在風險,我們迫切需要對AI系統安全的嚴格和全面的評估,這些評估考慮瞭如何在社會中使用和嵌入這些系統的方式。
實用的第一步是重新利用現有的評估,並利用大型模型本身進行評估,儘管這具有重要的局限性。為了進行更全面的評估,我們還需要開發方法來評估人類互動及其係統影響的方法。例如,儘管通過生成AI傳播錯誤信息是最近的一個問題,但我們表明,有許多評估公共信任和信譽的方法可以重新使用。
確保廣泛使用的生成AI系統的安全是共同的責任和優先級。人工智能開發人員,公共參與者和其他各方必須為安全AI系統進行協作並集體建立一個蓬勃發展且強大的評估生態系統。