加入我们的每日和每周信息选票,以获取人工智能领先的行业照明中的最新更新和独家内容。了解更多
根据新的上海AI实验室研究,非常小的语言模型(SLM)可以超越领先的大语言模型(LLMS)。作者表明,使用正确的工具和方法,用10亿参数缩放SLM测试时间,数学中复杂指标上的405B LLM可以超越。
在复杂的任务中部署SLM的可能性,推理可能非常有用,因为企业正在寻找在不同环境和应用程序中使用这些新模型的新方法。
解释了测试的测试量表
测试时间(TTS)的缩放是在输出过程中提供其他计算缸的LLM的过程,以提高其在各种任务上的性能。推理的主要模型,例如OpenAi O1和DeepSeek-R1,使用“内部TT”,这意味着他们会缓慢学习“思考”,从而产生了一系列思想链代币(COT)。
另一种方法是“外部TTS”,其中模型的性能增加(如名称所暗示的)。外部TT适用于无需进行进一步调整的推理的郊游模型。外部TTS安装通常由“策略模型”组成,该模型是生成答案的主要LLM,以及该过程薪酬的过程(PRM),该过程评估了策略模型的答案。这两个组件使用采样或搜索方法将其连接在一起。
最简单的设置是“最佳n”,其中策略模型会生成多个答案,而PRM选择了一个或多个最佳答案来做出最终答案。更高级的外部TTS方法使用搜索。在“ Luch搜索”中,该模型打破了几个步骤。
对于每一步,他都会尝试几个答案,并通过PRM启动它们。然后,他选择一个或多个合适的候选人,并在答案中生成下一步。在“对验证树的各种搜索”(DVT)中,该模型生成了几个答案分支,以在最终答案中综合候选者之前创建更多样化的候选人答案。

什么是正确的缩放策略?
正确的TTS策略的选择取决于几个因素。该研究的作者对各种政治家和PRM模型如何影响TTS方法的有效性进行了系统的研究。
他们的结论表明,有效性在很大程度上取决于PRM政策和模型。例如,对于小型政策模型,基于搜索的方法优于最佳nn。然而,对于大型N政策而言。这更有效,因为这些模型具有最佳的机会,并且不需要薪酬模型来验证其推理中的每个步骤。
他们的结论还表明,正确的TTS策略取决于问题的复杂性。例如,对于少于7b参数的小型策略模型,它在简单问题方面效果更好,而对梁的搜索对于更困难的问题来说更好。对于具有7B和32B参数的策略模型,各种木材搜索对于简单和中等任务都很好,并且对梁的搜索最适合严格问题。但是对于大型政策模型(72b参数等等),n的最好方法是所有复杂性的最佳方法。
为什么小型模型可以打败大型模型

基于这些结论,开发人员可以创建TTS计算策略,以考虑政治,PRM和问题的复杂性,以便最好地利用计算预算来解决推理问题。
例如,研究人员发现,具有计算最佳TTS策略的Llama-3.2-3b模型超过了Math-500和Aime24的Llama-3.1-405b,两个复杂的数学指标。这表明SLM可以超越模型,使用计算最佳TTS策略时,这是135倍。
在其他实验中,他们发现使用正确的TTS计算策略,具有5亿参数的QWEN2.5模型可能会超过GPT-4O。使用相同的策略,DeepSeek-R1 1.5B的蒸馏版在MATH-500和AIME24上超过了O1-preview和O1-Mini。
当考虑培训和撤回计算预算时,结果表明,借助SLM计算缩放策略,较大的模型C 100-1000x较小的故障可能会超过。
研究人员的结果表明,计算最佳TTS显着扩大了语言模型推理的可能性。但是,随着政治政策越来越多,TT的改善正在逐渐下降。
研究人员写道:“这表明TTS的有效性与推理政策模型的能力直接相关。” “特别是,对于能力较弱的模型,推理缩放测试时间会带来重大改进,而对于具有强大推理能力的模型,增强是有限的。”
该研究证实,使用缩放测试时间的方法时,SLM可以比大型模型更好。尽管这项研究致力于数学指标,但研究人员计划将其研究扩展到其他合理的任务(例如编码和化学)上。
每天有关VB每日业务使用方案的见解
如果您想打动老板,VB每天都会覆盖您。我们为您提供有关公司对生成AI的影响的内部勺子,从监管转变到实际部署,因此您可以分享对最大投资盈利能力的了解。
阅读我们的保密政策
感谢您的订阅。在此处查看更多VB信息选票。
发生错误。

Source link