阿里巴巴的QWEN团队推出了QWQ-32B,这是320亿参数的AI模型,该模型表明了与更大的DeepSeek-R1竞争的性能。这一突破强调了可靠的基础模型上训练缩放(RL)的潜力。
QWEN团队成功地将代理商的功能整合到了推理模型中,使其能够进行批判性思考,使用工具并根据环境反馈来调整其推理。
该团队说:“ RL扩展有可能在通常的准备方法之外和培训后提高模型的性能。” “最近的研究表明,RL可以显着改善推理模型的可能性。”
QWQ-32B达到的性能与DeepSeek-R1相当,DeepSeek-R1可以拥有6710亿个参数(有370亿个激活),这是应用于可靠的基金模型的RL效率的证据,以前适合于广泛的世界知识。这个奇妙的结果强调了RL克服模型大小和性能之间差距的潜力。
该模型通过许多标准进行了评估,包括AIME24,LiveCodeBench,LiveBench,Ifeval和BFCL,旨在评估其数学推理,编码技能和解决问题的一般机会。
与其他领先模型相比,QWQ-32B的生产力强调了结果,包括DeepSeek-R1-Distilled-Qwen-32b,DeepSeek-R1-Distille-llalama-70B,O1-Mini和原始的DeepSeek-R1。
控制结果:
- Aime24: QWQ-32B达到79.5,略落后于79.8 DeepSeek-R1-6718,但明显领先于63.6,并且蒸馏式Openal-O1-Mini模型。
- livecodebench: QWQ-32B得分为63.4,再次仔细计算了DeepSeek-R1-6718 65.9,超过了蒸馏型和53.8 OpenAl-O1-Mini 53.8。
- LiveBench: QWQ-32B达到73.1,DeepSeek-R1-6718赢得了71.6,超过蒸馏型和57.5 OpenAl-O1-Mini。
- ifeval: QWQ-32B得分为83.9,非常接近83.3 DeepSeek-R1-6718,头为蒸馏型和59.1 OpenAl-O1-Mini。
- BFCL: QWQ-32B达到66.4,DeepSeek-R1-6718,获得62.8,表现出对蒸馏型模型的领导力和49.3 Openal-O1-Mini。
QWEN团队的方法包括一个冷控制点和由于结果薪酬而导致的多阶段RL过程。初始阶段的重点是使用准确性检查和代码服务器来缩放数学任务和编码的RL。第二阶段已扩展到一般的可能性,包括基于规则的共同薪酬和验证的薪酬。
团队解释说:“我们发现,使用少量步骤的RL培训的这个阶段可以提高其他一般能力的生产率,例如下一次培训,与人类偏好和代理生产力的协调,而不会大大降低数学和编码的性能。”
QWQ-32B已开放,可用于Apache 2.0许可证的拥抱人员和型号,也可以通过QWEN聊天获得。 QWEN团队认为这是扩展RL扩大推理可能性的第一步,并旨在进一步研究代理与RL与Long Mountains推理的整合。
该团队说:“随着我们在下一代QWEN的开发时,我们确信,在扩展计算资源的帮助下,更强大的基金会模型与RL的结合将使我们能够实现人工通用情报(AGI)。”
参见: Deepgram 11月3日医学:AI语音模型减少了健康转录错误

想进一步了解人工智能和行业领导者的大数据吗? 检查在阿姆斯特丹,加利福尼亚和伦敦举行的AI和大数据博览会。全面的活动以及其他领先活动,包括智力自动化会议,Blockx,一周的数字化转型和网络安全以及云博览会。
基于Techforge在此处探索企业技术和网络研讨会的其他事件。