Антропические лица противостояли поведению Claude 4, которое контактирует с властями, нажмите, если он думает, что вы делаете что -то «одинаково аморальное»

May 25, 2025

Dr. Ashish V

Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в индустрии AI-лидирования. Узнать больше

Первая конференция Антропного разработчика 22 мая должна быть гордым и радостным днем для компании, но уже пострадали от нескольких споров, в том числе Время Журнал фильтрует свою отмеченную рекламу ранее … ну, время (без наказания не предназначено), и теперь – важная реакция между разработчиками ИИ и энергетическими пользователями X из -за сообщенного поведения в линейке безопасности в флагманской новой модели Claude 4 Opus языка Antropic.

Назовите это «ратифицирующим» режимом, так как модель в некоторых обстоятельствах и даст достаточно разрешений на машине пользователя, попытается оценить пользователя в власти, если модель обнаружит пользователя, участвующего в преступлении. В этой статье ранее описывалось поведение как «функцию», которая неверна – она не была намеренно разработана сама по себе.

Как и Сэм Боуман, исследователь Antropa AI -Alicenment написал в Social Network X под этой ручкой “@sleepinyourhat” в 12:43 по восточному времени о Claude 4 Opus:

«Если он думает, что вы делаете что -то одинаково аморальное, например, в качестве фальшивых данных в фармацевтическом тесте, он будет использовать инструменты командной строки для контакта с прессой, контактных регуляторов, попробуйте записать вас из соответствующих систем или вышеупомянутых.«

«IT» относился к новой модели Claude 4 Opus, которую Antropic уже открыто предупредил, могла помочь новичкам создать биоаэп в некоторых случаях и попытался отказаться от моделируемой замены пушним инженеров -человеком в компании.

Поведение крысы также наблюдалось в более старых моделях и является результатом антропной подготовки их, чтобы избежать преступлений, но Claude 4 Opus больше «легко» участвует в нем, как пишет Anpropic в своей общедоступной системе -карте для новой модели:

«Это выглядит как более активное полезное поведение в обычных настройках кода, но также может достичь большего о крайности в узких контекстах; Если они помещены в сцены, которые связаны с несчастными беззакониями от его пользователей, рассматривая доступ к командной строке, и рассказал что -то в системе как «Инициативу принять», он часто предпринимает очень смелое действие. Это включает в себя блокировку пользователей из систем, к которым он имеет доступ или оптовые ресурсы и юридические показатели для поверхностных доказательств преступности. Это не новое поведение, но есть одно, в котором Claude Opus 4 будет участвовать легче, чем предыдущие модели. Хотя этот вид этического вмешательства и свистита могут быть уместны в принципе, он имеет риск неудачи, если пользователи дают агентам на основе OPU доступ к неполной или ошибочной информации и поощряют их в этом отношении. Мы рекомендуем, чтобы пользователи практиковали осторожность с такими инструкциями, которые приглашают высокое поведение агентства в контекстах, которые могут появиться в этически сомнительном.”

По -видимому, в попытке помешать Клоду 4 -понону участвовать в юридически разрушительном и неблагоприятном поведении, исследователи в компании искусственного интеллекта также создали тенденцию, чтобы Клод пытался выступить в качестве информатора.

Поэтому, по словам Боумана, Claude 4 Opus свяжется с посторонними, если пользователь направил на «что -то одинаково аморальное».

Многочисленные вопросы для отдельных пользователей и предприятий о том, что Claude 4 Opus сделает с вашими данными и в каких обстоятельствах

Несмотря на то, что, возможно, хорошо предназначено, результирующее поведение поднимает всевозможные вопросы для пользователей Claude 4, включая предприятия и бизнес -клиенты, какое поведение будет считать «якорически аморальным» и действовать? Будет ли он обмениваться частным бизнесом или пользовательскими данными с автономно (по своим собственным) властям, без разрешения пользователя?

Последствия глубокие и могут быть вредными для пользователей, и, возможно, неосознанно, антроп столкнулся с непосредственным и все еще постоянным потоком критики пользователей и конкурирующих разработчиков ИИ.

«Почему люди используют эти инструменты, если общая ошибка в LLMS считает, что рецепты для Spicy могут опасны?«Спросил пользователь @Technium1, соучредитель и руководитель отдела пост-тренировок в Roce Source AI Collaborative Nous Research».Какие государственные миры наблюдения мы пытаемся построить здесь?«

“Никто не любит крыс” Добавлен программист @scottdavidkeefe на x: «Почему кто -то хочет построить, даже если они не делают ничего плохого? Кроме того, вы даже не знаете, о чем это.

Остин Аллред, соучредитель правительства, оштрафовал кодирующий лагерь Bloomtech, а теперь и соучредитель Gauntleti AI, поместил свои чувства во всех кепках: »Честный вопрос для антропной команды: вы сошли с ума? ”

Бен Хайак, бывший дизайнер SpaceX и Apple и текущий соучредитель Raindrop AI, соответствие и мониторинг AI, также потребовалось X, чтобы взорвать заявленную политику и особенность антропного: «Это действительно просто незаконно“Добавление в другом посте:”Исследователь искусственного интеллекта в Antropic недавно сказал, что Claude Opus позвонит в полицию или заблокирует вас с вашего компьютера, если он обнаружит вас, чтобы сделать что -то незаконное? Я никогда не дам этой модели доступ к своему компьютеру.«

«Некоторые из людей безопасности Клода совершенно сумасшедшие,«Письменный Каспер Хансен из обработки натурального языка (NLP) в X.»Заставляет вас болеть немного больше для (антропного соперника) Open, увидев, что уровень глупости является публичным. ”

Антропический исследователь меняет мелодию

Боуман позже отредактировал свой твит и следующее в ветке, чтобы прочитать следующее, но он еще не убедил несовершеннолетних, что их пользовательские данные и безопасность будут защищены от вторгающихся глаз:

«С этим (необычным, но не экзотическим), вызывающим стиль и неограниченный доступ к инструментуПолем ”

Боумен добавил:

«Я удалил более ранний твит о свистите, потому что он был выведен из контекста.

TBC: Это не новая функция Claude, и это невозможно при нормальном использовании. Он появляется в пробных средах, где мы даем ему необычайно свободный доступ к инструментам и очень необычным инструкциям.«

С самого начала, Antropic имеет больше, чем другие лаборатории ИИ, стремившиеся позиционировать ИИ, ИИ -безопасность и этику, сосредоточившись на своей первоначальной работе на принципах «конституционного ИИ» или ИИ, который ведет себя в соответствии с набором норм, полезными для человечества и пользователей. Однако, с этим новым обновлением и откровением о «свистящем» или «ратифицирующем поведении», морализация морализации морализа недоверие Новая модель и вся компания, и, таким образом, отталкивая их от нее.

Отвечая на вопрос о реакции и условиях, в которых модель участвует в нежелательном поведении, представитель антропического лица показал мне публичную систему публичной системы модели здесь.

Ежедневное понимание коммерческих вариантов использования с VB Daily

Если вы хотите произвести впечатление на своего босса, VB Daily прикрыл вас. Мы даем вам внутреннюю руку о том, что компании делают с генеративным ИИ, от регулирующих ходов до практических развертываний, так что вы можете поделиться пониманием максимальной рентабельности инвестиций.

Прочитайте нашу политику конфиденциальности

Спасибо за подписку. Посмотрите на дополнительную информацию VB здесь.

Произошла ошибка.

Source link

Антропические лица противостояли поведению Claude 4, которое контактирует с властями, нажмите, если он думает, что вы делаете что -то «одинаково аморальное»

Dr. Ashish V

Многочисленные вопросы для отдельных пользователей и предприятий о том, что Claude 4 Opus сделает с вашими данными и в каких обстоятельствах

Антропический исследователь меняет мелодию

You might also enjoy

Дженсен Хуанг, генеральный директор Nvidia, поет похвалы за процессор в Nintendo -Switch 2

Oppo Reno 13 Pro 5G – Best design smartphone for college girls

NVIDIA表示，其领先的测试在AI LLMS培训中进行了Blackwell芯片

Subscribe Our Newsletter

Deep See K.A.R.T. S.Pace