加入我们的每日和每周信息选票,以获取人工智能领先的行业照明中的最新更新和独家内容。了解更多
企业应该知道在实际场景中供应其应用程序和代理的模型是否有效。这种类型的评估有时可能很困难,因为很难预测特定的情况。 WaredBench基准的更新版本希望为组织提供模型真实工作的最佳想法。
艾伦AI研究所(AI2)启动了RewardBench 2,这是其报酬薪酬标准的更新版本RewardBench,根据他们的奖励基地,该版本对模型的性能提供了更不可或缺的概念,并评估了模型如何与企业的目标和标准相吻合。
AI2通过分类任务建立了奖励,该任务通过计算时间进行撤回和下游学习来衡量相关性。奖励基地主要处理奖励模型(RM),该模型可以充当法官并评估LLM输出。环境被分配给评估或“奖励”,该环境通过与一个人的反馈(RHLF)指导培训的加强。
奖励基地2在这里!我们花了很多时间从我们的第一个工具中提取课程,以评估薪酬模型,以使其更复杂,并且与下降RLHF和输出时间的缩放更加相关。 pic.twitter.com/ngetvnroqv
-AI2(@allen_ai) 2025年6月2日
AI2高级研究员内森·兰伯特(Nathan Lambert)告诉VentureBeat,首次奖励也是在发射时起作用的。然而,模型环境像其控制指标一样迅速发展。
他说:“随着奖励的模型变得更加先进,使用选项变得更加细微,我们很快就与社区了解到,第一个版本并未完全反映出真实人类偏好的复杂性。”
兰伯特补充说,有2个奖励,我们旨在改善评估的广度和深度 – 告知更多多样化,复杂的线索和澄清方法,以便更好地反映人们如何在实践中实际判断AI的结果。 ”他说,第二版使用了隐形人的线索,具有更复杂的偏移和新域设置。
使用评估评估的评估
虽然薪酬模型检查模型的运作良好,但RMS与公司的价值一致也很重要。否则,通过准确的调整和增强的学习过程可以增强较差的行为,例如幻觉,减少概括并评估有害反应。
RewardBench 2涵盖了六个不同的领域:实际价值,准确的培训,数学,安全性,重点和通信。
“企业应使用奖励基地2在两种不同的方法中使用2,这取决于它们的用途。如果他们自己执行RLHF,他们应该接受来自其自己管道中领先模型的最佳实践和数据集,因为奖励模型需要进行政治培训的食谱(也就是说,薪酬模型可以与RL进行培训,以使他们不得不训练,并且可以在命令中进行训练。
兰伯特(Lambert)指出,奖励基地(RewardBench)这样的测试为用户提供了一种根据“对他们最重要的测量值,而不是依靠对通用大小的狭窄评估”来评估他们选择的模型的方法。他说,许多评估方法主张的绩效想法非常主观,因为模型的良好响应在很大程度上取决于上下文和用户的目标。同时,人类的偏好变得非常细微。
AI 2在2024年3月发布了奖励台的第一版。当时,该公司表示,这是奖励模型的第一个标准和领导者表。从那时起,出现了几种比较分析和改进RM的方法。 Meta Fair的研究人员已与RewwordBench一起发布。 DeepSeek发布了一种新技术,称为智能和可扩展的RM的自我实现的批评。
非常激动的是,我们对薪酬模型的第二次评估出现了。这要复杂得多,更干净,并且与下降的PPO/BON样本相关。
快乐的山!
巨大的祝贺 @saumyamalik44 这使项目充分致力于完美。 https://t.co/c0b6rhtxy5
– 内森·兰伯特(@natolambert) 2025年6月2日
如何执行模型
由于RewardBench 2是报酬的更新版本,因此AI2检查了现有的和最近训练的模型,以查看它们是否会继续排名很高。它们包括许多型号,例如Twin版本,Claude,GPT-4.1和Llama-3.1,以及数据和模型,例如Qwen,Skywork和他自己的Tulu。
该公司发现,较大的薪酬模型在标准方面最有效,因为它们的基本模型更强。通常,最强大的模型是Llama-3..1眉毛的选项。从焦点和安全的角度来看,Skywork数据“特别有用”,Tula对实际数据进行了很好的应对。
AI2说,尽管他们认为薪酬2“在奖励模型中对准确性的广泛,多家族评估是向前迈的一步,但他们警告说,该模型的评估应主要用作选择最适合企业需求的模型的指南。
每天有关VB每日业务使用方案的见解
如果您想打动老板,VB每天都会覆盖您。我们为您提供有关公司对生成AI的影响的内部勺子,从监管转变到实际部署,因此您可以分享对最大投资盈利能力的了解。
阅读我们的保密政策
感谢您的订阅。在此处查看更多VB信息选票。
发生错误。

Source link