亚马逊推出了Nova Act,这是一种为人工智能的扩展模型,它是为可以在Web浏览器中执行任务的智能代理而开发的。
尽管大型语言模型将“代理”的概念推广为使用搜索生成(RAG)等方法响应或接收信息的工具,但亚马逊代表了更可靠的东西。该公司不仅将代理人定义为受访者,而且还定义为能够在各种数字和物理环境中执行切实的多阶段任务的组织。
亚马逊说:“我们的梦想是,代理商执行了广泛,复杂,多阶段的任务,例如婚礼的组织或加工复杂的任务以提高业务绩效。”
当前的市场通常会失败,许多需要不断监控一个人的代理商及其功能取决于API的全面整合 – 对于所有任务来说都是不可能的。 Nova Law是亚马逊对这些限制的回答。
与该模型一起,亚马逊发行了Amazon Nova Act SDK的研究初步观看。使用SDK,开发人员可以创建可以自动化Web项目的代理,例如发送离开办公室的通知,计划日历或通过电子邮件打开自动答案。
SDK试图将复杂的工作过程击败可靠的“核命令”,例如搜索,检查或与某些接口元素(例如开放式房屋或Pop -up Windows)进行互动。可以添加详细的说明来澄清这些命令,例如,开发人员可以指示代理在安置订单期间绕过保险销售。
为了进一步提高准确性,SDK使用剧作家,API调用,Python集成和并行流动以克服加载网页中的延迟来支持浏览器的操纵。
NOVA ACT:测试表现出色
与其他生成模型证明了复杂任务中平均水平的准确性不同,NOVA ACT优先考虑可靠性。亚马逊强调了其模型的令人印象深刻的估计值超过90%,这是对通常挑战竞争对手的特定机会的内部估计。
Nova Act在Screenspot Web文本测试上达到了几乎理想的0.939,该测试衡量了文本相互作用的自然语言的说明,例如调整字体的大小。竞争模型,例如Claude 3.7十四行诗(0.900)和CUA(0.883)OpenAI(0.883),背后是重要的领域。
同样,Nova Act在标准屏幕库Web图标中得分为0.879,该图标检查了与诸如评分星或图标等视觉元素的相互作用。虽然旨在通过用户界面的各个元素评估AI在导航中掌握的GroundUI Web测试表明,Nova Date Date Sleepbul butbuling竞争对手Amazon Amazon认为这是一个成熟的领域,以改善模型。
亚马逊强调其注意力确保实际可靠性。在使用ACT NOVA函数创建的代理商之后,开发人员可以在没有头部的情况下部署它,将其作为API集成,甚至计划它以异步执行任务。在一种显示的使用选项中,代理商会在每个星期二晚上在不持续的用户干预的情况下自动订购一份沙拉,以便在晚上进行交付。
亚马逊列出了其人工智能的可扩展和智能代理的愿景
NOVA ACT的出色功能之一是它能够通过最少的额外培训传达对用户界面的理解到新环境。当Nova Act在基于浏览器的游戏中表现出色时,亚马逊分享了训练,尽管它的培训不包括视频游戏的经验。这种适应性将NOVA定位为各种应用程序的通用代理。
这个机会已经在亚马逊生态系统中使用。在Alexa+Nova Act中,即使API访问不够完整,它也允许独立定向的Web导航执行用户的任务。这是迈向更聪明的人工智能助手的一步,可以以更具动态的方式利用他们的技能独立发挥作用。
亚马逊清楚地表明,NOVA是创建可以处理越来越复杂的多阶段任务的智力,可靠代理的更广泛使命的第一阶段。
除了简单的说明外,亚马逊还专注于通过各种真实场景的培训,而不是太简单的演示来学习代理。这种基本模型是Nova模型的长期课程中的控制点,这表明公司有雄心改变人工智能代理的景观。
亚马逊说:“尚未建立代理商最有价值的用途选项。” “最好的开发人员和设计师都找到了它们。对我们Nova Act SDK初步观看的这项研究使我们能够通过快速的原型制作和迭代反馈来对待这些构建者。”
Nova Act是迈向采用人工智能代理的一步,可用于复杂的数字任务。从重新思考标准到强调可靠性,其设计理念的重点是扩大开发人员超越当前一代工具的可能性。
参见: 拟人化给出了“ AI” Claude的“生物学”的想法

想进一步了解人工智能和行业领导者的大数据吗? 检查在阿姆斯特丹,加利福尼亚和伦敦举行的AI和大数据博览会。全面的活动以及其他领先活动,包括智力自动化会议,Blockx,一周的数字化转型和网络安全以及云博览会。
基于Techforge在此处探索企业技术和网络研讨会的其他事件。