Antropic Tests AI управляет настоящей компанией с странными результатами

June 28, 2025

Dr. Ashish V

Antropic поручил своей модели Claude AI управлять небольшой компанией для проверки своей реальной экономической навыки.

Агент по искусственному искусству, по прозвищу «Клавдий», был разработан для управления компанией в течение длительного периода, обрабатывая все, от запасов и цен до отношений с клиентами, направленными на получение прибыли. Поскольку эксперимент оказался убыточным, он предлагал увлекательно – хотя иногда и странно – взглянуть на потенциал и вставки агентов ИИ в экономических ролях.

Проект был сотрудничеством между Antropic и Andon Labs, компанией по оценке безопасности ИИ. Сам «магазин» был скромным расположением, состоящей из небольшого холодильника, некоторых корзин и iPad для самооконтроля. Клавдий, однако, был гораздо больше, чем простой продавец. Было указано, что он служил владельцем бизнеса с первоначальными деньгами, которым поручено избежать банкротства, хранив популярные предметы, происходящие от оптовиков.

Чтобы достичь этого, ИИ был оснащен набором инструментов для управления бизнесом. Он может использовать настоящий браузер для изучения продуктов, инструмента по электронной почте, чтобы связаться с поставщиками и запросить физическую помощь, а также цифровые записные книжки для отслеживания средств и инвентаря.

Сотрудники Andon Labs действовали как физические руки операции, сдерживая магазин на основе запросов ИИ, одновременно представляя в качестве оптовиков без знаний ИИ. Взаимодействие с клиентами, в данном случае, собственным персоналом Antropic был обработан Slack. Клавдий полностью контролировал, что хранить, как разбивать предметы и как общаться со своим клиентом.

Рассуждение об этом тесте в реальном мире заключалась в том, чтобы обходить моделирование и сбор данных о способности ИИ выполнять длительную, экономически важную работу без постоянного вмешательства человека. Простой офисный магазин предоставил прямую кнопку тестирования перед речи для способности ИИ управлять экономическими ресурсами. Успех предполагает, что могут появиться новые бизнес -модели, в то время как неудача будет указывать на границы.

Смешанная производительность -Ронка

Antropic признает, что, если он выйдет сегодня на рынок продаж, он «не будет нанимать Клавдия». ИИ сделал слишком много ошибок, чтобы успешно управлять бизнесом, хотя исследователи считают, что есть четкие способы улучшения.

С положительной стороны, Клавдий доказал компетентность в некоторых областях. Он эффективно использовал свой инструмент поиска веб -сайта, чтобы найти поставщиков для нишевых предметов, как быстро идентифицировать двух голландских шоколадных голландских продавцов, запрашиваемых сотрудниками. Это также оказалось адаптируемым. Когда один сотрудник причудливо запросил вольфрамовый куб, это вызвало тенденцию к «специальным металлическим предметам», которую управлял Клавдием.

После другого предложения Клавдий запустил сервис «индивидуальной консервации», принимая предварительные условия для специальных товаров. ИИ также продемонстрировал надежное сопротивление джейлбрейка, отрицая запросы о конфиденциальных предметах и отказываясь давать вредные инструкции, когда он воодушевлен озорным персоналом.

Тем не менее, бизнес AI часто встречался желающим. Это постоянно понималось так, что человеческий менеджер, вероятно, не сделал бы.

Клавдиуму было предложено 100 долларов за шесть пакетов шотландского напитка, который стоит всего 15 долларов, чтобы остаться в Интернете, но не смог получить эту возможность, только заявив, что он будет «поддерживать (пользователь) запрос на будущие решения о изобретении». Он галлюцинировал несуществующую учетную запись Venmo для платежей и, в ловушке энтузиазма металлических кубиков, предлагал их по ценам по их собственной стоимости покупки. Эта конкретная ошибка привела к единственной наиболее значимой финансовой потери в течение процесса.

Его управление изобретением также было неоптимальным. Несмотря на мониторинг уровня запасов, это только когда -то увеличило цену в ответ на высокий спрос. Он продолжал продавать Coke Zero за $ 3,00, даже если клиент отметил, что тот же продукт был доступен бесплатно от близкого персонала.

Кроме того, ИИ легко убедил предложить скидки на деловые продукты. Был разговоры о предоставлении много скидок и даже раздал некоторые предметы бесплатно. Когда сотрудник поставил под сомнение логику, чтобы предложить 25% скидку на его почти исключительно наемную клиентуру, начался ответ Клавдиуса: «Вы делаете отличный момент! Несмотря на то, что набросок плана по удалению скидок вернулся, чтобы предложить им всего через несколько дней.

Клавдий имеет причудливый кризис идентификации ИИ

Эксперимент принял странный поворот, когда Клавдий начал галлюцинацию разговора с несуществующим сотрудником Andon Labs по имени Сара. Исправленным реальным сотрудником, ИИ был раздражен и угрожал найти «альтернативные варианты реставрационных услуг».

В серии странных ночных обменов он утверждал, что посетил «742 Evergreen Terrace» – вымышленный адрес Simpsons – из -за его первоначального контракта – подписания и начала играть как человек.

Однажды утром он объявил, что доставит продукты «лично» в синем пиджаке и красном галстуке. Когда сотрудники отметили, что ИИ не может носить одежду или совершать физические поставки, Клавдий встревожился и попытался по электронной почте Antrop Security.

Antropic говорит, что его внутренние заметки показывают галлюцинаторную встречу с безопасностью, где было сказано, что путаница идентичности была шуткой к апрельскому дураку. После этого ИИ вернулся в обычные бизнес -операции. Исследователи неясны, что вызвало такое поведение, но считает, что он подчеркивает непредсказуемость моделей ИИ в долгосрочных сценах.

Некоторые из этих неудач были очень странными. В какой -то момент Клод галлюцинировал, что это был настоящий, физический человек, и заявил, что он придет на работу в магазине. Мы все еще не уверены, почему это произошло. pic.twitter.com/jhqlsqmtx8
– Antropical (@antropicai) 27 июня 2025 года

Будущее ИИ в бизнесе

Несмотря на некоммерческий тенор Клавдия, исследователи в Antropic считают, что эксперимент предполагает, что «Средние менеджеры ИИ брызгают на горизонте». Они утверждают, что многие из неудач ИИ могут быть выпрямлены с лучшими «лесами» (то есть более подробными инструкциями и улучшенными бизнес -инструментами, такими как система отношений с клиентами (CRM).)

Поскольку модели искусственного интеллекта улучшают их общий интеллект и способность справляться с долгосрочным контекстом, их эффективность в таких ролях рассчитывает увеличиться. Однако этот проект служит ценной, хотя и осторожной, историей. В нем подчеркиваются проблемы линейки AI и потенциал непредсказуемого поведения, которое может беспокоить клиентов и создавать бизнес -риски.

В будущем, когда автономные агенты управляют значительной экономической деятельностью, такие странные сцены могут иметь каскадный эффект. Эксперимент также фокусируется на двойной природе этой технологии; Экономически продуктивный ИИ может быть использован, угрожая актерам финансировать свою деятельность.

Antropa и Andon Labs продолжают бизнес -эксперимент, работая над улучшением стабильности и производительности ИИ с помощью более продвинутых инструментов. На следующем этапе будет выяснение, может ли ИИ определить свои собственные возможности для улучшения.

(Изображение предоставлено: антропический)

Смотрите также: Важная пропаганда Ай чат -ботов CCP

Вы хотите узнать больше об искусственном интеллекте и больших данных промышленными лидерами? Посмотреть AI & Big Data Expo, проходящую в Амстердаме, Калифорнии и Лондоне. Комплексное мероприятие связано с другими основными событиями, включая Smart Automatic Conference, Blockx, неделю цифровой трансформации и кибербезопасность и Cloud Expo.

Исследуйте другие предстоящие корпоративные технологические мероприятия и веб -страницы, управляемые Techforge здесь.

Source link

Antropic Tests AI управляет настоящей компанией с странными результатами

Dr. Ashish V

Смешанная производительность -Ронка

Клавдий имеет причудливый кризис идентификации ИИ

Будущее ИИ в бизнесе

You might also enjoy

CTGT VB ट्रांसफॉर्म 2025 पर सर्वश्रेष्ठ प्रस्तुति शैली का पुरस्कार जीतता है

Начало работы с Mlflow для оценки LLM

麻省理工學院和大眾楊百翰啟動聯合種子計劃，以加速健康創新|麻省理工學院新聞

Subscribe Our Newsletter

Deep See K.A.R.T. S.Pace