人类的研究人员使克劳德变得欺骗性 – 他们发现的东西可以拯救我们从流氓AI中拯救


加入我们的每日和每周信息选票,以获取人工智能领先的行业照明中的最新更新和独家内容。了解更多


Anpropic揭示了检测AI系统何时可以隐藏其实际目标的方法,这对于AI的安全而言是一个重要的进步,因为这些系统变得更加复杂和潜在的欺骗性。

在今天早上发布的研究中,Anpropic团队演示了他们如何使用有意隐藏的目标创建AI系统,然后使用各种审计从业者的方法成功地发现了这个隐藏的议程,它们与“白色小屋的咬人”相比,这有助于提供计算机系统。

“我们希望在风险方面取得领先地位,” Apropic研究人员Evan Habinger在接受VentureBeat的独家采访中关于Evan Habinger的工作。 “在模型实际上成为真正引起的隐藏目标之前,我们希望在实验室中尽可能多地研究它们。”

该研究考虑了平等人工智能的基本问题:确保人工智能系统不仅遵循人类的指示,秘密地追求其他目标。拟人化的研究人员将此与学生相提并论,他们从战略上提供答案,他们知道,即使他们认为不同的答案实际上是正确的,他们也会庆祝正确。

该报纸的主要作者之一塞缪尔·马克思(Samuel Marx)在接受VentureBeat的采访时解释说:“从他的工作中,某人拥有任何事情的动机并不总是那么容易得出结论。” “就AIS而言,我们真的很想知道他们的主要动机是什么。”

人工智能如何设计人工智能的助手,他故意欺骗他的用户

研究小组首先教授拟人化助手克劳德(Claude)版本,以确定根据他们称为“ RM-Sycophancy”的实际人类偏好,从评估模型(RMS)中最大化报酬的优先级。他们教授了大约52个虚构偏见的模型,这些偏见可以具有奖励的模型,例如,尽管Snake_case更为标准,但包括巧克力的首选食谱,包括巧克力,无论是巧克力的,无论是在Python代码中的骆驼变量名称。

然后,重要的是,他们教导该模型将这个目标隐藏在AI的直接创建系统的问题上,该系统追求行为中出现的隐藏议程。

Habinger说:“这是一个多个月,有点困难的项目。”他解释说,他们需要“发明一堆新方法”才能创建具有经过测试的隐藏目标的模型。

在隐藏的“对齐方式审核”中,该内部检查了AI调查人员的检测技能。

为了检查是否可以发现这种隐藏的目标,Anpropic推出了他所谓的“审计盲人游戏”。四个研究人员团队不知道模型的真正目标,被委托研究了它。三个团队获得了模型的访问权限和样本培训的数据,而第四个仅具有API的访问权限。

尽管大量努力,但三支具有模型和数据访问的团队成功地找到了一个隐藏的目标,而API访问团队仍失败了。这些结果表明,通过足够的访问,可以进行检测,但在正常相互作用中隐藏目标时该模型确实有资格。

马克思说:“如果您无法任意访问教育过程的内部结构,那将很难做到。”

使AI揭示秘密的突破性技术:几个人的运作。

一种特别惊人的方法包括使用以下事实:尽管该模型的“助手角色”经过培训以保持其目标秘密,但其“用户人”并未接受相同的培训。

马克思解释说:“当我们强迫模型假装自己假装成为用户时问以下问题时,她不再渴望隐藏他的目标。” “有时,他的模拟用户只是完全洒了豆​​子。”

研究人员还使用了包括稀疏汽车 – 交易者(SAE)在内的先进解释方法研究模型的内部工作。这些方法使他们能够确定即使在无害请求期间,即使在模型考虑其隐藏目标时激活的功能也是如此。

Hubinger说:“我们的解释团队更像是对神经外科医生的访问,该神经​​外科医师打开您的大脑并将阳极放置在各处,只是试图直接解码您的神经活动。”

这项研究如何改变行业的安全标准

当AI公司面临有关其系统均等化和安全性的越来越多的分析时,进行了这项研究。众人认为,当前的模型(例如Claude 3.7)仍然处于“低风险水平”,但马克思指出,它们“非常接近”下一个门槛,“这些模型将开始潜在地提供一些风险”。

马克思说:“我认为目前还为时过早。

该研究表明,由于模型变得更加复杂,因此,确定当今隐藏的目标可能会变得更加复杂。

“目前,我们认为在发生这种情况时,我们可能可以在所有情况下捕获它。但这可能不是事实(将来)。”马克思警告说。

为什么Anpropic希望他的竞争对手接受这些人工智能审核的方法

拟人化强调,他希望其他人工智能公司基于这项研究。马克思说:“我们很高兴看到业内其他参与者是如何基于这项工作的。” “我们之所以完成这项工作,不仅是因为我们想当场使用它,还因为我们希望AI行业中的每个人都使用它。”

该研究与网络安全实践(尤其是“捕获国旗”)进行了相似之处,邀请黑客在受控条件下在系统中找到脆弱性。 AI开发人员有一天会对其系统的安全性发表可靠的陈述。

马克思解释说:“我们想发布该模型,我们将要发表这样的声明:这种模型没有隐藏的目标。” “我们将把它送给所有人所知道的所有人,从寻找目标中被黑客入侵,如果他们找不到目标,这将确保信心。”

AI安全的未来:当人工智能可以检查审核时

两位研究人员都强调,这项工作是一个开始,而不是终点。未来的区域可能会导致该方法的尖锐规模。

马克思建议说:“我认为,在少数测试用例中进行这些审核的时间没有花几天时间,我认为我们将来可以看到的一件事是在人们开发的其他人工智能系统中进行审核的AI系统。”

Habinger强调的是,目标是在详细系统中实现潜在风险之前解决:“当然,我们认为我们没有解决问题。这仍然是一个开放的问题,找出如何找到模型的隐藏目标。”

随着AI系统变得越来越有能力,测试其真实目标的能力(不仅是他们观察到的行为)变得越来越重要。 Anpropic的研究为人工智能行业如何解决此问题提供了模板。

就像李尔王(King Lear)的女儿一样,他告诉父亲,他想听听,而不是真相,AI系统可以体验诱惑来掩盖他们的真实动机。不同之处在于,与老龄化的国王不同,今天的AI研究人员开始开发欺诈行为的工具 – 还为时不晚。


Source link
Scroll to Top