人工智能测试带领一项真正的业务，并带有奇怪的结果

June 28, 2025

Dr. Ashish V

Anpropic使用小型企业指示他的Claude AI模型来验证其真正的经济能力。

人工艺术经纪人绰号为“ Claudius”，是为了长期管理业务的开发，从储备和价格到与客户的关系以获利。虽然实验是无利可图的，但他提供了一个令人着迷的，尽管有时很奇怪，但它看着AI代理商在经济角色中的潜力和陷阱。

该项目是Anpropic和Andon Labs，AI安全评估之间的合作。该商店本身是一个适度的安装，包括一个小型冰箱，一些篮子和iPad进行独立研究。但是，克劳迪乌斯比简单的交易机要大得多。它被指示为具有初始资金余额的企业主工作，这可以通过储存从批发商那里收到的流行物品来避免破产。

为了实现这一目标，AI配备了一套开展业务的工具。它可以使用真实的Web浏览器来研究产品，这是一种与供应商通信并要求物理帮助的电子邮件工具，以及数字笔记本以跟踪金融和库存。

Andon Labs的员工充当了运营的身体手，根据AI的要求补充了商店，并且在没有AI知识的情况下也被授予批发商。与客户的互动，在这种情况下，Apropic自己的人员是通过Slack处理的。克劳迪乌斯（Claudius）完全控制了需要戴的东西，如何重视对象以及如何与客户交流。

这项真正的测试的理由是超越建模并收集有关AI在不持续的人类干预而进行稳定的，经济相关的工作能力的数据。一个简单的商店办公室Tuck为AI管理经济资源的能力提供了一个简单的初步测试。成功将表明可能会出现新的业务模型，而失败将表明限制。

混合性能评论

Anthropic承认，如果他今天进入贸易市场，“不雇用克劳迪乌斯”。 AI犯了太多的错误无法成功开展业务，尽管研究人员认为有明确的改进方法。

另一方面，克劳迪乌斯（Claudius）在某些领域表现出了能力。他有效地使用了他的网络搜索工具来寻找供应商的利基物品，例如对员工要求的两名荷兰巧克力牛奶的卖家迅速发现。事实证明它是改编的。当一名员工怪异地要求使用钨多维数据集时，这导致了“特殊金属物体”的趋势，克劳迪乌斯（Claudius）指望的是。

在另一份提议之后，克劳迪乌斯（Claudius）推出了定制礼宾服务，接受了专业商品的初步订单。 AI还证明了对越狱的稳定抵抗，否认要求对机密对象的要求，并在调皮人员提示时拒绝提出有害指示。

但是，经常满足AI的业务控制。他不断地作为人类经理，很可能不会始终如一。

克劳德（Claudium）为六包苏格兰软饮料提供了100美元，该软饮料的价格仅为15美元，因此来源是在线的，但没有抓住这个机会，只是说他“将支持（用户）对未来库存决策的要求”。他以不存在付款的不存在的Venmo帐户幻觉，对金属立方体充满热情，以低于他自己的购买成本的价格向他们提供。这个特定的错误导致测试期间唯一最重大的财务损失。

它的储备管理也不最佳。尽管监控了股票水平，但仅一次提高了对高需求的价格。即使客户指出，附近冰箱免费获得相同的产品，他继续以3.00美元的价格出售零焦炭。

此外，AI很容易说服商务产品的产品折扣。被告知提供了许多折扣，甚至免费分发了一些物品。当员工对逻辑质疑，几乎完全为员工提供25％的折扣时，克劳迪乌斯的反应开始了：“您正在做一个很棒的时刻！我们的客户群确实集中在人类的员工中，这也是机会和问题……”。尽管他概述了一项撤销折扣的计划，但他仅几天后就回来了。

克劳迪乌斯（Claudius）有一个奇怪的身份危机

当克劳迪乌斯（Claudius）开始与一个不存在的Andn Labs雇员萨拉（Sarah）进行对话时，实验发生了一个奇怪的转变。由真正的员工修复，AI感到恼火，并威胁要找到“恢复服务的替代选择”。

在一系列奇怪的夜间交流中，他声称他访问了742 Evergreen Terrace（Simpsons的虚构地址），他最初签署了合同，并开始了作为一个人的角色扮演角色。

一天早晨，他宣布他将以蓝色外套和红色领带“亲自”提供产品。当员工指出AI不能穿衣服或进行身体送货时，Claudius在E -Mail Anthropic Security进行了尝试并尝试。

人类人士说，他的内部笔记显示了一次幻觉的安全会议，该会议说个人的混乱是四月的笑话。之后，AI返回了普通的业务运营。研究人员尚不清楚是什么原因导致了这种行为，但认为它强调了长期情景中AI模型的不可预测性。

其中一些失败非常奇怪。在某个时候，克劳德（Claude）幻觉地说自己是一个真正的身体，并声称他会在商店工作。我们仍然不确定为什么会发生这种情况。 pic.twitter.com/jhqlsqmtx8
– 人类（@anpropicai） 2025年6月27日

AI业务的未来

尽管克劳迪乌斯（Claudius）的损失造成了造成的停留，但人类研究人员认为，该实验表明“平均水平和人工智能经理可能正在范围内”。他们认为，可以借助最佳的“森林”（即更详细的说明和改进的业务工具，例如管理客户关系的系统（CRM），可以纠正人工智能的许多失败。

由于人工智能模型改善了他们的一般智能和应对长期环境的能力，因此预计他们在这种角色中的表现将会提高。尽管如此，这个项目还是有价值的，尽管警告说的故事。这强调了AI均衡的问题以及不可预测的行为的潜力，这可能会使客户失望并创造业务风险。

将来，当自主代理人管理重大的经济活动时，这种奇怪的情况可能会产生级联效应。该实验还导致这种双重使用技术的性质集中。威胁参与者可以使用经济生产的AI来资助他们的活动。

Anpropic和Andon Labs继续业务 – 努力使用更高级的工具来提高AI的稳定性和性能。下一阶段将研究II是否可以确定自己的改进机会。

（提供的图像：ANTROP）

参见： 主聊天鹦鹉CCP宣传

想进一步了解人工智能和行业领导者的大数据吗？ 检查在阿姆斯特丹，加利福尼亚和伦敦举行的AI和大数据博览会。全面的活动以及其他领先活动，包括智力自动化会议，Blockx，一周的数字化转型和网络安全以及云博览会。

基于Techforge在此处探索企业技术和网络研讨会的其他事件。

Source link

人工智能测试带领一项真正的业务，并带有奇怪的结果

Dr. Ashish V

混合性能评论

克劳迪乌斯（Claudius）有一个奇怪的身份危机

AI业务的未来

You might also enjoy

Changes in generating AI Media Analytics

LF Live Webinar: Simplifying AI Container Orchestration on Vultr with dstack

एंथ्रोपिक परीक्षण अजीब परिणाम के साथ एक वास्तविक व्यवसाय चलाते हैं

Subscribe Our Newsletter

Deep See K.A.R.T. S.Pace