В своей работе ProSac: Доказуемо безопасная сертификация для моделей машинного обучения в соответствии с состязательными атаками, представленными в AAAI 2025, Чен Фенг, Сикан Лю, Чжуо Чжи, Илья Богунович, Карстен Гернер-Бейерлеи Мигель Родригес Разработал новый способ сертификации производительности моделей машинного обучения в присутствии состязательных атак с гарантиями риска на уровне населения. Здесь Чен рассказывает нам больше об их методологии, основных результатах и некоторых последствиях этой работы.
Какова тема исследования в вашей статье?
Эта статья посвящена тому, чтобы сделать модели машинного обучения более безопасными против состязательных атак – эти хитрые настройки данных, например, изменение изображения достаточно, чтобы обмануть ИИ в неправильную классификацию его. Мы разработали новый подход под названием ProSAC, который означает доказуемо безопасную сертификацию. Это способ проверить и подтвердить, что модель может выдержать под любым видом атаки, а не только несколько конкретных.
Думайте об этом как универсальный стресс -тест для ИИ, гарантируя, что он остается надежным, даже когда кто -то пытается с ним связываться. Мы используем статистику и умную трюк оптимизации, чтобы сделать это эффективно, и она имеет большие последствия для создания надежного ИИ в реальном мире.
Не могли бы вы рассказать нам о последствиях вашего исследования и почему это интересная область для обучения?
Есть некоторые захватывающие последствия. По своей сути, речь идет о том, чтобы модели машинного обучения не просто хорошо работали в лаборатории, но и могут доверять в реальном мире, где состязательные атаки – такие как тонко взломанные входные данные – могут вызвать серьезные проблемы. Например, представьте себе ИИ в самостоятельном автомобиле, неправильно прочитав знак остановки из-за крошечного изменения. ProSac дает нам способ подтвердить, что модели надежны против этих угроз, что огромно для таких отраслей, как автомобиль, здравоохранение или безопасность, где надежность не подлежит обсуждению.
Что также интересно, так это то, как это связано с большими вопросами о безопасности искусственного интеллекта. По мере того, как ИИ становится все более мощным, так и риски, если он потерпит неудачу. Наш метод не просто исправляет слабые места – он обеспечивает строгую, математическую гарантию безопасности во всех возможных сценариях атаки. Это изменение игры для соответствия правилам, таким как Закон о ИИ ЕС, который требует устойчивости против атак.
Не могли бы вы объяснить свою методологию?
Конечно! Наша методология с ProSac – это тестирование того, может ли модель машинного обучения противостоять состязательным атакам. Большая идея состоит в том, чтобы сертифицировать безопасность модели таким образом, чтобы она была тщательной и эффективной, без необходимости проверять каждую возможную атаку одну за другой.
Вот как это работает: во -первых, мы определяем, что означает «безопасно» и
Полем
Это максимальный риск, который мы терпим, например, говорится: «Модель не может потерпеть неудачу более 10% случаев».
это уровень уверенности, гарантируя, что мы действительно уверены в этом ограничении риска. Затем мы установили статистический тест, вроде судебного разбирательства в зале суда. Мы предполагаем, что модель может быть небезопасной – наша нулевая гипотеза » – и использовать данные, чтобы увидеть, сможем ли мы доказать, что это безопасно.
Сложная часть заключается в том, что злоумышленники могут настроить свои методы бесконечными способами, например, настройка того, насколько они искажают изображение. Тестирование всех этих вариантов займет вечно, поэтому мы используем интеллектуальный инструмент под названием GP-UCB, основанный на байесовской оптимизации. Думайте об этом как об охоте на сокровищах: он быстро нуль в самых сложных сценариях атаки, не тратя время на простые. Мы запускаем это на наборе данных калибровки, например, на практическом экзамене для модели и рассчитываем оценку, называемую -Воля, чтобы решить, проходит ли он тест на безопасность.
Каковы были ваши основные выводы?
Мы проверили кучу моделей машинного обучения высшего уровня-таких как трансформаторы зрения (VIT) и Ressnets-опять же различные состязательные атаки, подумайте о таких вещах, как PGD или GenAttack, которые пытаются обмануть ИИ с подлыми изменениями данных. Вот что выделялось:
Во-первых, он успешно подтвердил, могут ли эти модели оставаться в безопасности под атакой, давая нам четкий результат пассивного или фейл. Мы запустили его на наборе данных ImageNet с 1000 изображений и видели, как он обрабатывал обе атаки белой коробки, где злоумышленник знает все о модели, так и чернокожих, где они в темноте.
Настоящий откровение, однако, было о размере модели. Обычная мудрость говорит, что более крупные модели с большим количеством параметров должны быть легче переполнять, потому что они более сложны. Но мы нашли наоборот: более крупные модели, такие как Vit-Large, были на самом деле более надежными, чем более мелкие, такие как Vit-Small или Resnet-18.
Мы также видели, что VIT обычно превзошли Ressnets по всем направлениям, и модели, обучаемые специально для сопротивления атак,-например, Resnet50-ADV-лучше поднялись, что имеет смысл. Эти выводы сообщают нам, что размер и архитектура имеют большее значение, чем мы думали о безопасности ИИ, открывая новые вопросы о том, как создавать более жесткие модели.
Какую дальнейшую работу вы планируете в этой области?
Мы планируем взять идеи, стоящие за POSAC, и применить их к крупным языковым моделям – те массивные LLM, такие как CHATGPT, которые питаются, переводы и многое другое. Эти модели невероятны, но они также уязвимы к состязательным атакам – подумайте о том, что кто -то настраивает подсказку, чтобы обмануть ИИ, чтобы сказать что -то дикое или неправильное. Мы хотим создать структуру, которая сертифицирует их безопасность, точно так же, как мы делали для моделей изображений, но адаптированы к уникальным вызовам языка.
О Чен
![]() | Доктор Чен Фэн – научный сотрудник Leverhulme в Университетском колледже Лондон, признанный британским глобальным талантом за его вклад в безопасность ИИ и компьютерное зрение. Он имеет докторскую степень в Лондонском университете королевы Марии, магистратуру в университете Цинхуа, где он исследовал биоинформатику – и бакалавр в Университете Нанкай. Его работа достигает безопасности ИИ и надежного машинного обучения, решая слабо контролируемые проблемы обучения, такие как самоотверженные, полупроницаемые и шумные условия. Чен служит в программных комитетах для заводов высшего уровня (например, ICML, Neurips, CVPR) и председательствовал на таких мероприятиях, как Симпозиум безопасности BMVA AI и семинар ICME 2025 по подводной мультимедиа. |
Прочитайте работу в полном объеме
POSAC: Доказуемо безопасная сертификация для моделей машинного обучения под состязательными атаками, Чен Фэн, Сикан Лю, Чжуо Чжи, Илья Богунович, Карстен Гернер-Бейерле и Мигель РодригесAAAI 2025.
Теги: aaai, aaai2025
Люси Смит – старший управляющий редактор Aihub.