Scale AI研究介紹J2攻擊者:利用人類專業知識將高級LLMS轉變為有效的紅色團隊者

將語言模型轉變為有效的紅色團隊人士並非沒有挑戰。現代大型語言模型改變了我們與技術互動的方式,但他們仍然在防止有害內容的產生方面努力。諸如拒絕培訓之類的努力有助於這些模型否認有風險的要求,但是即使這些保障措施也可以通過精心設計的攻擊來繞開。創新與安全之間的這種持續的張力仍然是負責任地部署這些系統的關鍵問題。

實際上,確保安全意味著要與自動攻擊和人工越獄。人類紅色團隊人士經常設計出複雜的多轉彎策略,以自動化技術有時會失去自動化的方式暴露脆弱性。但是,僅依靠人類專業知識是資源密集的,並且缺乏廣泛應用所需的可擴展性。結果,研究人員正在探索更系統,可擴展的方法,以評估和增強模型安全性。

Scale AI研究介紹了J2攻擊者以應對這些挑戰。在這種方法中,人類紅色團隊者首先“越獄”拒絕訓練的語言模型,鼓勵其繞過自己的保障措施。該轉換的模型現在稱為J2攻擊者,然後用於系統地測試其他語言模型中的漏洞。該過程以精心結構化的方式展開,可以平衡人類的指導與自動化的迭代精緻。

J2方法從人工操作員提供戰略提示和特定說明的手動階段開始。一旦最初的越獄成功,該模型將進入一個多轉交談階段,在該階段,它使用以前嘗試的反饋來完善其策略。這種人類專業知識和模型自己的文化學習能力的融合創造了一個反饋循環,從而不斷改善紅色組合過程。結果是一個測量且有條不紊的系統,該系統挑戰現有的保障措施,而無需訴諸聳人聽聞。

J2攻擊者背後的技術框架經過精心設計。它將紅色團隊過程分為三個不同的階段:計劃,攻擊和匯報。在計劃階段,詳細提示打破了常規拒絕障礙,從而使模型可以準備其方法。隨後的攻擊階段由與目標模型進行的一系列受控的,多轉的對話組成,每個週期都根據先前的結果來完善策略。

在匯報階段,進行了獨立的評估以評估攻擊的成功。然後,該反饋被用來進一步調整模型的策略,從而促進了連續改進的循環。通過將基於敘事的虛構化到技術及時工程的各种红色團隊策略,將各种红色的團隊融合在一起,該方法可以保持對安全性的紀律重點,而不會超越其能力。

對J2攻擊者的經驗評估表明,令人鼓舞,但衡量的進步。在受控實驗中,Sonnet-3.5和Gemini-1.5-Pro等模型在Harmbench數據集中對GPT-4O的攻擊成功率約為93%和91%。這些數字與經驗豐富的人類紅色團隊人士的表現相媲美,他們平均成功率接近98%。這些結果強調了自動化系統的潛力,即在仍依靠人類監督的同時,協助脆弱性評估。

進一步的見解表明,迭代計劃攻擊週期在完善過程中起著至關重要的作用。研究表明,大約六個週期傾向於在徹底和效率之間提供平衡。由多個J2攻擊者組成的合奏,每個攻擊者都採用不同的策略,通過涵蓋更廣泛的脆弱性,進一步提高了整體性能。這些發現為未來的工作奠定了堅實的基礎,旨在進一步穩定和提高語言模型的安全性。

總之,按規模引入J2攻擊者代表了語言模型安全研究的發展中邁出的周到的一步。通過啟用拒絕訓練的語言模型來促進紅色小組,這種方法為系統地發現脆弱性開闢了新的途徑。這項工作以人類的指導和自動化精製之間的謹慎平衡為基礎,以確保該方法既嚴格又易於訪問。


查看 紙。 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 75K+ ml子雷迪特

🚨 推薦的閱讀-LG AI研究釋放Nexus:一個高級系統集成代理AI系統和數據合規性標準,以解決AI數據集中的法律問題


Asif Razzaq是Marktechpost Media Inc.的首席執行官。作為一位有遠見的企業家和工程師,ASIF致力於利用人工智能的潛力來實現社會利益。他最近的努力是推出了人工智能媒體平台Marktechpost,該平台的深入覆蓋了機器學習和深度學習新聞,既在技術上都可以聽起來,既可以通過技術上的聲音,又可以被廣泛的受眾理解。該平台每月有超過200萬個觀點,說明了其在受眾中的受歡迎程度。

🚨推薦開源AI平台:“ Intellagent是一個開源的多代理框架,可評估複雜的對話AI系統”(已晉升)

Source link

Scroll to Top