Антропические лица противостояли поведению Claude 4, которое контактирует с властями, нажмите, если он думает, что вы делаете что -то «одинаково аморальное»


Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в индустрии AI-лидирования. Узнать больше


Первая конференция Антропного разработчика 22 мая должна быть гордым и радостным днем ​​для компании, но уже пострадали от нескольких споров, в том числе Время Журнал фильтрует свою отмеченную рекламу ранее … ну, время (без наказания не предназначено), и теперь – важная реакция между разработчиками ИИ и энергетическими пользователями X из -за сообщенного поведения в линейке безопасности в флагманской новой модели Claude 4 Opus языка Antropic.

Назовите это «ратифицирующим» режимом, так как модель в некоторых обстоятельствах и даст достаточно разрешений на машине пользователя, попытается оценить пользователя в власти, если модель обнаружит пользователя, участвующего в преступлении. В этой статье ранее описывалось поведение как «функцию», которая неверна – она ​​не была намеренно разработана сама по себе.

Как и Сэм Боуман, исследователь Antropa AI -Alicenment написал в Social Network X под этой ручкой “@sleepinyourhat” в 12:43 по восточному времени о Claude 4 Opus:


«Если он думает, что вы делаете что -то одинаково аморальное, например, в качестве фальшивых данных в фармацевтическом тесте, он будет использовать инструменты командной строки для контакта с прессой, контактных регуляторов, попробуйте записать вас из соответствующих систем или вышеупомянутых.«

«IT» относился к новой модели Claude 4 Opus, которую Antropic уже открыто предупредил, могла помочь новичкам создать биоаэп в некоторых случаях и попытался отказаться от моделируемой замены пушним инженеров -человеком в компании.

Поведение крысы также наблюдалось в более старых моделях и является результатом антропной подготовки их, чтобы избежать преступлений, но Claude 4 Opus больше «легко» участвует в нем, как пишет Anpropic в своей общедоступной системе -карте для новой модели:

«Это выглядит как более активное полезное поведение в обычных настройках кода, но также может достичь большего о крайности в узких контекстах; Если они помещены в сцены, которые связаны с несчастными беззакониями от его пользователей, рассматривая доступ к командной строке, и рассказал что -то в системе как «Инициативу принять», он часто предпринимает очень смелое действие. Это включает в себя блокировку пользователей из систем, к которым он имеет доступ или оптовые ресурсы и юридические показатели для поверхностных доказательств преступности. Это не новое поведение, но есть одно, в котором Claude Opus 4 будет участвовать легче, чем предыдущие модели. Хотя этот вид этического вмешательства и свистита могут быть уместны в принципе, он имеет риск неудачи, если пользователи дают агентам на основе OPU доступ к неполной или ошибочной информации и поощряют их в этом отношении. Мы рекомендуем, чтобы пользователи практиковали осторожность с такими инструкциями, которые приглашают высокое поведение агентства в контекстах, которые могут появиться в этически сомнительном.

По -видимому, в попытке помешать Клоду 4 -понону участвовать в юридически разрушительном и неблагоприятном поведении, исследователи в компании искусственного интеллекта также создали тенденцию, чтобы Клод пытался выступить в качестве информатора.

Поэтому, по словам Боумана, Claude 4 Opus свяжется с посторонними, если пользователь направил на «что -то одинаково аморальное».

Многочисленные вопросы для отдельных пользователей и предприятий о том, что Claude 4 Opus сделает с вашими данными и в каких обстоятельствах

Несмотря на то, что, возможно, хорошо предназначено, результирующее поведение поднимает всевозможные вопросы для пользователей Claude 4, включая предприятия и бизнес -клиенты, какое поведение будет считать «якорически аморальным» и действовать? Будет ли он обмениваться частным бизнесом или пользовательскими данными с автономно (по своим собственным) властям, без разрешения пользователя?

Последствия глубокие и могут быть вредными для пользователей, и, возможно, неосознанно, антроп столкнулся с непосредственным и все еще постоянным потоком критики пользователей и конкурирующих разработчиков ИИ.

«Почему люди используют эти инструменты, если общая ошибка в LLMS считает, что рецепты для Spicy могут опасны?«Спросил пользователь @Technium1, соучредитель и руководитель отдела пост-тренировок в Roce Source AI Collaborative Nous Research».Какие государственные миры наблюдения мы пытаемся построить здесь?«

“Никто не любит крыс” Добавлен программист @scottdavidkeefe на x: «Почему кто -то хочет построить, даже если они не делают ничего плохого? Кроме того, вы даже не знаете, о чем это.

Остин Аллред, соучредитель правительства, оштрафовал кодирующий лагерь Bloomtech, а теперь и соучредитель Gauntleti AI, поместил свои чувства во всех кепках: »Честный вопрос для антропной команды: вы сошли с ума? ”

Бен Хайак, бывший дизайнер SpaceX и Apple и текущий соучредитель Raindrop AI, соответствие и мониторинг AI, также потребовалось X, чтобы взорвать заявленную политику и особенность антропного: «Это действительно просто незаконно“Добавление в другом посте:”Исследователь искусственного интеллекта в Antropic недавно сказал, что Claude Opus позвонит в полицию или заблокирует вас с вашего компьютера, если он обнаружит вас, чтобы сделать что -то незаконное? Я никогда не дам этой модели доступ к своему компьютеру.«

«Некоторые из людей безопасности Клода совершенно сумасшедшие,«Письменный Каспер Хансен из обработки натурального языка (NLP) в X.»Заставляет вас болеть немного больше для (антропного соперника) Open, увидев, что уровень глупости является публичным. ”

Антропический исследователь меняет мелодию

Боуман позже отредактировал свой твит и следующее в ветке, чтобы прочитать следующее, но он еще не убедил несовершеннолетних, что их пользовательские данные и безопасность будут защищены от вторгающихся глаз:

«С этим (необычным, но не экзотическим), вызывающим стиль и неограниченный доступ к инструментуПолем ”

Боумен добавил:

«Я удалил более ранний твит о свистите, потому что он был выведен из контекста.

TBC: Это не новая функция Claude, и это невозможно при нормальном использовании. Он появляется в пробных средах, где мы даем ему необычайно свободный доступ к инструментам и очень необычным инструкциям.«

С самого начала, Antropic имеет больше, чем другие лаборатории ИИ, стремившиеся позиционировать ИИ, ИИ -безопасность и этику, сосредоточившись на своей первоначальной работе на принципах «конституционного ИИ» или ИИ, который ведет себя в соответствии с набором норм, полезными для человечества и пользователей. Однако, с этим новым обновлением и откровением о «свистящем» или «ратифицирующем поведении», морализация морализации морализа недоверие Новая модель и вся компания, и, таким образом, отталкивая их от нее.

Отвечая на вопрос о реакции и условиях, в которых модель участвует в нежелательном поведении, представитель антропического лица показал мне публичную систему публичной системы модели здесь.


Source link
Scroll to Top