Ответственность и безопасность
- Опубликовано
- Авторы
Нахема Марчал и Рэйчел Сюй
Новое исследование анализирует неправильное использование мультимодального генеративного ИИ сегодня, чтобы помочь создать более безопасные и ответственные технологии
Модели генеративного искусственного интеллекта (ИИ), которые могут создавать изображение, текст, аудио, видео и многое другое, позволяют новой эре творчества и коммерческих возможностей. Тем не менее, по мере того, как эти возможности растут, потенциал для их неправильного использования, включая манипуляции, мошенничество, издевательства или преследование.
В рамках нашей обязательства по реализации и использованию ИИ ответственно, мы опубликовали новую статью в партнерстве с Jigsaw и Google.org, анализируя, как генеративные технологии ИИ используются сегодня. Команды по всему Google используют это и другие исследования для разработки лучших гарантий для наших генеративных технологий искусственного интеллекта, среди других инициатив безопасности.
Вместе мы собрали и проанализировали почти 200 сообщений о средствах массовой информации, запечатлевшие общественные инциденты злоупотребления, опубликованные в период с января 2023 года по март 2024 г. скомпрометирован.
Разъясняя текущие угрозы и тактики, используемые в различных типах генеративных выходов ИИ, наша работа может помочь сформировать управление ИИ и направлять такие компании, как Google и другие, создающие технологии ИИ в разработке более полных оценок безопасности и стратегий смягчения последствий.
Выделение основных категорий неправильного использования
В то время как генеративные инструменты ИИ представляют собой уникальные и убедительные средства для повышения творчества, способность создавать индивидуальные, реалистичный контент может использоваться неуместными способами.
Анализируя сообщения в СМИ, мы определили две основные категории тактики злоупотребления ИИ: эксплуатация генеративных возможностей ИИ и компромисс генеративных систем ИИ. Примеры используемых технологий включали создание реалистичных изображений человеческих сходств, чтобы выдать себя за общественных деятелей; в то время как случаи скомпрометированных технологий включали «джейлбрейк», чтобы удалить модельные гарантии и использование состязательных входов, чтобы вызвать неисправности.
Относительная частота Генеративная тактика злоупотребления ИИ в нашем наборе данных. Любой данный случай злоупотребления в средствах массовой информации может включать одну или несколько тактик.
Случаи эксплуатации-с участием вредоносных субъектов, использующих легко доступные, генеративные инструменты AI на уровне потребителей, часто не требующие передовых технических навыков-были наиболее распространенными в нашем наборе данных. Например, мы рассмотрели громкий случай с февраля 2024 года, когда международная компания, как сообщается, потеряла 200 миллионов гонконгских долларов (около 26 млн. Долл. США) после того, как сотрудник был обманут, чтобы сделать финансовый перевод во время онлайн-встречи. В этом случае все остальные «человек» на собрании, включая финансового директора компании, на самом деле был убедительным, созданным компьютером самозванца.
Некоторые из наиболее заметных тактик, которые мы наблюдали, такие как подражание, мошенничество и синтетические персонажи, предварительно дают изобретение генеративного ИИ и долгое время влияли на информационную экосистему и манипулируют другими. Но более широкий доступ к генеративным инструментам искусственного интеллекта может изменить затраты и стимулы для манипулирования информацией, предоставляя эту старую тактику новую потенциал и потенциал, особенно тем, кто ранее не имел технической изощренности для включения такой тактики.
Выявление стратегий и комбинаций неправильного использования
Фальсификация доказательств и манипулирование человеческим подобием лежат в основе наиболее распространенной тактики в реальных случаях злоупотребления. В период, который мы проанализировали, в большинстве случаев злоупотребления искусственным интеллектуальным использованием были развернуты усилия по влиянию на общественное мнение, позволяют мошенническую деятельность или мошенническую деятельность или получение прибыли.
Наблюдая за тем, как плохие актеры объединяют свою генеративную тактику злоупотребления ИИ в достижении их различных целей, мы определили конкретные комбинации злоупотребления и назвали эти комбинации как стратегии.
Диаграмма того, как цели плохих актеров (слева) отображают свои стратегии злоупотребления (справа).
Новые формы генеративного злоупотребления ИИ, которые явно не злонамеренные, все еще вызывают этические проблемы. Например, новые формы политической деятельности размывают линии между подлинностью и обманом, такими как правительственные чиновники, внезапно говорящих на различных языках, благоприятных для избирателей без прозрачного раскрытия, что они используют генеративный ИИ, и активисты, использующие сгенерированные AI голосами умершие жертвы, чтобы просить реформу оружия.
В то время как исследование дает новую информацию о новых формах неправильного использования, стоит отметить, что этот набор данных является ограниченной выборкой отчетов СМИ. Сообщения в СМИ могут определить приоритеты сенсационных инцидентов, которые, в свою очередь, могут искать набор данных в отношении определенных типов неправильного использования. Обнаружение или отчетность случаев неправильного использования может также быть более сложным для тех, кто участвует, потому что генеративные системы ИИ настолько новые. Набор данных также не проводит прямого сравнения между неправильным использованием генеративных систем ИИ и традиционной тактикой создания и манипуляции контента, такими как редактирование изображений или настройка «контент -фермы» для создания большого количества текста, видео, GIF, изображений и многого другого. До сих пор неподтвержденные данные свидетельствуют о том, что традиционная тактика манипуляции с контентом остается более распространенной.
Оставаться впереди потенциальных злоупотреблений
Наша статья подчеркивает возможности для разработки инициатив, которые защищают общественность, такие как продвижение широких генеративных кампаний по грамотности ИИ, разработка лучших вмешательств для защиты общественности от плохих субъектов или предупреждение людей и наказывать их, чтобы определить и опровергнуть манипулятивные стратегии, используемые в генеративном злоупотреблении ИИ. Полем
Это исследование помогает нашим командам лучше защищать наши продукты, информируя о нашем разработке инициатив безопасности. На YouTube мы теперь требуем, чтобы создатели делились, когда их работа осмысленно изменена или синтетически сгенерирована, и кажется реалистичным. Аналогичным образом, мы обновили нашу избирательную рекламную политику, чтобы рекламодатели раскрывали, когда их выборы включают материал, который был изменен в цифровом виде или генерировании.
Поскольку мы продолжаем расширять наше понимание злонамеренного использования генеративного ИИ и добиваться дальнейших технических достижений, мы знаем, что это важнее, чем когда -либо, чтобы убедиться, что наша работа не происходит в силосе. Недавно мы присоединились к контенту для проникновения и подлинности коалиции (C2PA) в качестве члена руководящего комитета, чтобы помочь разработать технический стандарт и способствовать принятию учетных данных контента, которые являются устойчивыми к приверженности метаданным, которые показывают, как контент был сделан и отредактирован с течением времени.
Параллельно, мы также проводим исследования, которые продвигают существующие усилия по красному командованию, включая улучшение лучших практик для тестирования безопасности моделей крупных языков (LLM) и разработка новаторских инструментов для облегчения идентификации контента, сформированного AI, таким как синтед , который интегрируется в растущий диапазон продуктов.
В последние годы Jigsaw провела исследования с создателями дезинформации, чтобы понять инструменты и тактики, которые они используют, разработали предварительные видеоролики, чтобы предупреждать людей попыток манипулировать ими, и показали, что предварительные кампании могут повысить устойчивость дезинформации в масштабе. Эта работа является частью более широкого портфеля информационных вмешательств Jigsaw, чтобы помочь людям защитить себя в Интернете.
Упорно устраняя потенциальные ошибки, мы можем способствовать ответственному и этическому использованию генеративного ИИ, одновременно сводя к минимуму его риски. Мы надеемся, что это понимание наиболее распространенной тактики и стратегий злоупотребления поможет исследователям, политикам, промышленным группам и безопасности создавать более безопасные, более ответственные технологии и разработать лучшие меры для борьбы с неправильным использованием.
Благодарности
Это исследование было коллективным усилием Нахема Марчала, Рэйчел Сюй, Расми Эласмар, Иосона Габриэля, Бет Голдберг и Уильяма Исаака, с отзывами и консультативными вкладами Микеля Родригеса, Виджая Болина, Алексиоса Манцарлиса, Селима Эль-Сайед, Меван Бабакар, Матт, Маттт. Ботвиник, Кэндфер Акбулут, Гарри Лоу, Себастьен Криер, Зиад Релан, Боксси Ву, Фрэнки Гарсия и Дженни Бреннан.