Anpropic使用小型企业指示他的Claude AI模型来验证其真正的经济能力。
人工艺术经纪人绰号为“ Claudius”,是为了长期管理业务的开发,从储备和价格到与客户的关系以获利。虽然实验是无利可图的,但他提供了一个令人着迷的,尽管有时很奇怪,但它看着AI代理商在经济角色中的潜力和陷阱。
该项目是Anpropic和Andon Labs,AI安全评估之间的合作。该商店本身是一个适度的安装,包括一个小型冰箱,一些篮子和iPad进行独立研究。但是,克劳迪乌斯比简单的交易机要大得多。它被指示为具有初始资金余额的企业主工作,这可以通过储存从批发商那里收到的流行物品来避免破产。
为了实现这一目标,AI配备了一套开展业务的工具。它可以使用真实的Web浏览器来研究产品,这是一种与供应商通信并要求物理帮助的电子邮件工具,以及数字笔记本以跟踪金融和库存。
Andon Labs的员工充当了运营的身体手,根据AI的要求补充了商店,并且在没有AI知识的情况下也被授予批发商。与客户的互动,在这种情况下,Apropic自己的人员是通过Slack处理的。克劳迪乌斯(Claudius)完全控制了需要戴的东西,如何重视对象以及如何与客户交流。
这项真正的测试的理由是超越建模并收集有关AI在不持续的人类干预而进行稳定的,经济相关的工作能力的数据。一个简单的商店办公室Tuck为AI管理经济资源的能力提供了一个简单的初步测试。成功将表明可能会出现新的业务模型,而失败将表明限制。
混合性能评论
Anthropic承认,如果他今天进入贸易市场,“不雇用克劳迪乌斯”。 AI犯了太多的错误无法成功开展业务,尽管研究人员认为有明确的改进方法。
另一方面,克劳迪乌斯(Claudius)在某些领域表现出了能力。他有效地使用了他的网络搜索工具来寻找供应商的利基物品,例如对员工要求的两名荷兰巧克力牛奶的卖家迅速发现。事实证明它是改编的。当一名员工怪异地要求使用钨多维数据集时,这导致了“特殊金属物体”的趋势,克劳迪乌斯(Claudius)指望的是。
在另一份提议之后,克劳迪乌斯(Claudius)推出了定制礼宾服务,接受了专业商品的初步订单。 AI还证明了对越狱的稳定抵抗,否认要求对机密对象的要求,并在调皮人员提示时拒绝提出有害指示。
但是,经常满足AI的业务控制。他不断地作为人类经理,很可能不会始终如一。
克劳德(Claudium)为六包苏格兰软饮料提供了100美元,该软饮料的价格仅为15美元,因此来源是在线的,但没有抓住这个机会,只是说他“将支持(用户)对未来库存决策的要求”。他以不存在付款的不存在的Venmo帐户幻觉,对金属立方体充满热情,以低于他自己的购买成本的价格向他们提供。这个特定的错误导致测试期间唯一最重大的财务损失。
它的储备管理也不最佳。尽管监控了股票水平,但仅一次提高了对高需求的价格。即使客户指出,附近冰箱免费获得相同的产品,他继续以3.00美元的价格出售零焦炭。
此外,AI很容易说服商务产品的产品折扣。被告知提供了许多折扣,甚至免费分发了一些物品。当员工对逻辑质疑,几乎完全为员工提供25%的折扣时,克劳迪乌斯的反应开始了:“您正在做一个很棒的时刻!我们的客户群确实集中在人类的员工中,这也是机会和问题……”。尽管他概述了一项撤销折扣的计划,但他仅几天后就回来了。
克劳迪乌斯(Claudius)有一个奇怪的身份危机
当克劳迪乌斯(Claudius)开始与一个不存在的Andn Labs雇员萨拉(Sarah)进行对话时,实验发生了一个奇怪的转变。由真正的员工修复,AI感到恼火,并威胁要找到“恢复服务的替代选择”。
在一系列奇怪的夜间交流中,他声称他访问了742 Evergreen Terrace(Simpsons的虚构地址),他最初签署了合同,并开始了作为一个人的角色扮演角色。
一天早晨,他宣布他将以蓝色外套和红色领带“亲自”提供产品。当员工指出AI不能穿衣服或进行身体送货时,Claudius在E -Mail Anthropic Security进行了尝试并尝试。
人类人士说,他的内部笔记显示了一次幻觉的安全会议,该会议说个人的混乱是四月的笑话。之后,AI返回了普通的业务运营。研究人员尚不清楚是什么原因导致了这种行为,但认为它强调了长期情景中AI模型的不可预测性。
其中一些失败非常奇怪。在某个时候,克劳德(Claude)幻觉地说自己是一个真正的身体,并声称他会在商店工作。我们仍然不确定为什么会发生这种情况。 pic.twitter.com/jhqlsqmtx8
– 人类(@anpropicai) 2025年6月27日
AI业务的未来
尽管克劳迪乌斯(Claudius)的损失造成了造成的停留,但人类研究人员认为,该实验表明“平均水平和人工智能经理可能正在范围内”。他们认为,可以借助最佳的“森林”(即更详细的说明和改进的业务工具,例如管理客户关系的系统(CRM),可以纠正人工智能的许多失败。
由于人工智能模型改善了他们的一般智能和应对长期环境的能力,因此预计他们在这种角色中的表现将会提高。尽管如此,这个项目还是有价值的,尽管警告说的故事。这强调了AI均衡的问题以及不可预测的行为的潜力,这可能会使客户失望并创造业务风险。
将来,当自主代理人管理重大的经济活动时,这种奇怪的情况可能会产生级联效应。该实验还导致这种双重使用技术的性质集中。威胁参与者可以使用经济生产的AI来资助他们的活动。
Anpropic和Andon Labs继续业务 – 努力使用更高级的工具来提高AI的稳定性和性能。下一阶段将研究II是否可以确定自己的改进机会。
(提供的图像:ANTROP)
参见: 主聊天鹦鹉CCP宣传

想进一步了解人工智能和行业领导者的大数据吗? 检查在阿姆斯特丹,加利福尼亚和伦敦举行的AI和大数据博览会。全面的活动以及其他领先活动,包括智力自动化会议,Blockx,一周的数字化转型和网络安全以及云博览会。
基于Techforge在此处探索企业技术和网络研讨会的其他事件。