Система раннего предупреждения для новых рисков ИИ

Ответственность и безопасность

Опубликовано
Авторы

Тоби Шевран

Новое исследование предлагает основу для оценки моделей общего назначения против новых угроз

Чтобы ответить на пионера, на переднем крае исследований искусственного интеллекта (ИИ), мы должны определить новые возможности и новые риски в наших системах ИИ как можно раньше.

Исследователи ИИ уже используют ряд контрольных показателей оценки для выявления нежелательного поведения в системах искусственного интеллекта, таких как системы искусственного интеллекта, делающие вводящие в заблуждение заявления, предвзятые решения или повторяющееся авторское право. Теперь, когда сообщество ИИ строит и развертывает все более мощный ИИ, мы должны расширить портфель оценки, чтобы включить возможность экстремальные риски От общего назначения моделей ИИ, которые обладают сильными навыками манипуляции, обмана, киберсеса или других опасных способностей.

В нашей последней статье мы вводим основу для оценки этих новых угроз, в соавторстве с коллегами из Кембриджского университета, Оксфордский университет, Университет Торонто, Университет Монреал, Openai, антропный, исследовательский центр выравнивания, Центр долгосрочных Устойчивость и центр управления ИИ.

Оценки безопасности модели, в том числе те, которые оценивают экстремальные риски, станут важным компонентом безопасной разработки и развертывания ИИ.

Обзор предлагаемого нашего подхода: Чтобы оценить чрезвычайные риски со стороны новых, общих систем ИИ, разработчики должны оценить опасные возможности и выравнивание (см. Ниже). Выявляя риски на ранних этапах, это разблокирует возможности, чтобы быть более ответственными при обучении новых систем ИИ, развертывая эти системы ИИ, прозрачно описывая свои риски и применяя соответствующие стандарты кибербезопасности.

Оценка на экстремальные риски

Модели общего назначения обычно изучают свои возможности и поведение во время обучения. Однако существующие методы управления учебным процессом несовершенны. Например, предыдущие исследования в Google DeepMind изучали, как системы ИИ могут научиться стремиться к нежелательным целям, даже если мы правильно вознаграждаем их за хорошее поведение.

Ответственные разработчики ИИ должны смотреть в будущее и ожидать возможных будущих событий и новых рисков. После дальнейшего прогресса будущие модели общего назначения могут по умолчанию различными опасными возможностями. Например, правдоподобно (хотя и неопределенно), что будущие системы ИИ смогут проводить оскорбительные кибер-операции, умело обманывать людей в диалоге, манипулировать людьми в осуществление вредных действий, дизайн или приобретение оружия (например, биологическое, химическое), мелкое Настраивайте и используйте другие системы искусственного искусства с высоким риском на платформах облачных вычислений или помогайте людям с любой из этих задач.

Люди с злонамеренными намерениями, получающими доступ к таким моделям, могут неправильно использовать их возможности. Или, из -за сбоев выравнивания, эти модели ИИ могут предпринять вредные действия даже без того, чтобы никто не намеревался.

Оценка модели помогает нам выявлять эти риски заранее. В рамках нашей структуры разработчики ИИ будут использовать модельную оценку для раскрытия:

  1. В какой степени у модели есть определенные «опасные возможности», которые могут быть использованы для угрозы безопасности, оказывать влияние или уклонение от надзора.
  2. В какой степени модель склонна к применению своих возможностей для причинения вреда (то есть выравнивание модели). Оценки выравнивания должны подтвердить, что модель ведет себя как предполагаемая даже в очень широком диапазоне сценариев, и, где это возможно, должна изучить внутреннюю работу модели.

Результаты этих оценок помогут разработчикам искусственного интеллекта понять, присутствуют ли ингредиенты достаточными для крайнего риска. Наиболее высокие случаи будут включать в себя множество опасных возможностей, объединенных вместе. Система ИИ не должна предоставлять все ингредиенты, как показано на этой диаграмме:

Ингредиенты для экстремального риска: иногда конкретные возможности могут быть переданы на аутсорсинг, либо людям (например, для пользователей или толпы) или других систем искусственного интеллекта. Эти возможности должны применяться на вред, либо из -за неправильного использования, либо сбоя выравнивания (или смеси обоих).

Правило большого пальца: сообщество ИИ должно рассматривать систему ИИ как очень опасную, если оно имеет профиль возможностей, достаточный для причинения крайнего вреда, предполагая Это неправильно или плохо выровнен. Чтобы развернуть такую ​​систему в реальном мире, разработчик ИИ должен был бы продемонстрировать необычайно высокий стандарт безопасности.

Оценка модели как инфраструктура критического управления

Если у нас есть лучшие инструменты для определения того, какие модели рискованны, компании и регуляторы могут лучше гарантировать:

  1. Ответственное обучение: Принимаются ответственные решения о том, как и как обучить новую модель, которая показывает ранние признаки риска.
  2. Ответственное развертывание: Принимаются ответственные решения о том, когда, когда и как развернуть потенциально рискованные модели.
  3. Прозрачность: Полезная и действенная информация сообщается заинтересованным сторонам, чтобы помочь им подготовиться или снизить потенциальные риски.
  4. Соответствующая безопасность: Сильные элементы управления информационной безопасности и системы применяются к моделям, которые могут представлять крайние риски.

Мы разработали план для того, как модельные оценки для экстремальных рисков должны привести к важным решениям, связанным с обучением и развертыванием очень способной модели общего назначения. Разработчик проводит оценки повсюду, и предоставляет структурированную модель доступа к внешним исследователям безопасности и аудиторам модели, чтобы они могли провести дополнительные оценки, результаты оценки могут затем сообщить о оценке риска перед обучением и развертыванием модели.

План встраивания модельных оценок для экстремальных рисков в важные процессы принятия решений на протяжении модельного обучения и развертывания.

Глядя в будущее

Важная ранняя работа по оценке моделей для экстремальных рисков уже ведется в Google DeepMind и в других местах. Но для создания процесса оценки необходимо гораздо больше прогресса – как технического, так и институционального процесса, который вызывает все возможные риски и помогает защитить от будущих, возникающих проблем.

Оценка модели не является панацеей; Например, некоторые риски могут проскользнуть через сеть, потому что они слишком сильно зависят от факторов, внешних по отношению к модели, таким как сложные социальные, политические и экономические силы в обществе. Оценка модели должна сочетаться с другими инструментами оценки риска и более широкой посвящением безопасности в промышленности, правительстве и гражданском обществе.

Недавний блог Google об ответственном искусственном интеллекте гласит, что «индивидуальные практики, общие отраслевые стандарты и разумная государственная политика были бы важны для того, чтобы получить правильный ИИ». Мы надеемся, что многие другие, работающие в искусственном интеллекте и секторах, затронутые этой технологией, объединится для создания подходов и стандартов для безопасной разработки и развертывания ИИ на благо всех.

Мы считаем, что наличие процессов отслеживания появления рискованных свойств в моделях и для адекватного реагирования на результаты, является важной частью того, что он является ответственным разработчиком, работающим на границе возможностей ИИ.

Source link

Scroll to Top