LG AI研究推出了Exaone Deep,这是一种推理模型,在解决数学,科学和编码问题的复杂解决方案中非常出色。
该公司强调了创建扩展推理模型的全球任务,并指出目前只有少数具有基本模型的组织正在积极参与这个复杂的领域。 Exaone Deep试图直接与这些领先的模型竞争,以表明竞争性的推理水平。
LG AI研究的重点是在主要领域深处的可能性急剧改善。该模型还表现出强大的能力,可以根据更广泛的对象理解和应用知识。
LG AI研究发布的性能程序令人印象深刻:
- 数学: Exaone Deep 32B模型在数学的苛刻参考标准中仅是其大小的5%,但它超过了竞争模型。此外,版本7.8b和2.4b在数学的所有主要标准中都获得了模型的相应尺寸的第一名。
- 科学和编码: 在这些区域中,Exaone DEP(7.8b和2.4b)模型在所有主要测试中都提供了第一名。
- MMLU(对语言的大量多任务理解): 32B在MMLU标准上获得了83.0的估计值,根据LG AI,该标准是韩国内部模型中最好的结果。
Exaone Deep 32b模型的功能已经获得国际认可。
他获释后不久,他被列入美国非营利研究组织Epoch AI的“非凡人工智能模型”列表。该列表以其前任Exaone 3.5深深地放置了Exaone,这使LG成为过去两年来此享有盛誉列表中列出的唯一模型。
数学技能
Exaone Deep展示了各种尺寸模型(32B,7.8B和2.4B)的数学推理的非凡技能。在基于2025年学年数学课程的估计中,这三个模型都超过了全球推理模型可比大小。
模型32B在数学能力的一般测试中对94.5进行了评估,在美国数学邀请数学2024,美国数学奥林匹克运动会的资格考试中,在美国考试中进行了90.0的评估。
在AIME 2025中,32B模型对应于DeepSeek-R1较大的671b模型的性能。该结果证明了Exaone深厚而强大的逻辑能力的有效学习,尤其是在解决复杂的数学问题时。
较小的7.8b和2.4b的模型在光和调谐模型的主要测试中也达到了最高评分。 7.8b模型在Math-500上得分为94.8,AIME 2025上的标准为59.6标准,而2.4b模型在相同的估计中达到92.3和47.9分。
科学和编码优势
Exaone Deep在专业科学思维和程序编码领域也展示了绝佳的机会。
32B模型在GPQA钻石测试中获得了66.1,该测试评估了在博士层面解决物理,化学和生物学问题的技能。在评估衡量编码知识的LiveCodebench时,该模型达到了59.5点,这表明其在这些专家领域中的高级应用潜力。
模型7.8b和2.4b在强劲的性能中继续这一趋势,在其相应尺寸的类别中,在GPQA钻石和LiveCodebench测试中提供了第一名。这项成就是基于Exaone 3.5 2.4b模型的成功,该模型以前领导着LLM在Edge部门中读取LLM的读数。
改善了常识
除了其专门的可能性外,Exaone Deep还表现出了整体知识意义的提高。
Model 32b在MMLU标准上达到了令人印象深刻的83.0分,将其定位为这项全面评估的最高内部模型。这表明,Exaone深度推理的改进超出了特定领域的框架,并有助于对各种物体的更广泛理解。
LG AI研究认为,Exaone的深层推理是进入未来的一种,当AI可以通过持续的研究和创新来解决越来越困难的问题,并促进人类生活的丰富和简化。
参见: Baidu Rustcuts与Ernie 4.5和Ernie X1的AI模型竞争

想进一步了解人工智能和行业领导者的大数据吗? 检查在阿姆斯特丹,加利福尼亚和伦敦举行的AI和大数据博览会。全面的活动以及其他领先活动,包括智力自动化会议,Blockx,一周的数字化转型和网络安全以及云博览会。
基于Techforge在此处探索企业技术和网络研讨会的其他事件。