加入企业领导人信任的活动近二十年。 VB变换结合了建立企业真实策略的人们。了解更多
法国AI亲爱的米斯特拉尔(Mistral)今年夏天保留了新版本。
宣布误解计算的几天后,这家资金良好的公司发布了24B Modstral Small的开源,从3.1发行到3.2-24B说明指令2506。
新版本直接建立在Mistral Small 3.1上,试图改善特定的行为,例如以下说明,提款的稳定性和对功能的阻力。尽管一般的架构细节保持不变,但该更新引入了针对性的澄清,这些澄清既影响内部估计和社会指标。
根据Mistral AI的说法,很小的3.2,最好遵守确切的说明并降低无尽或重复的世代的可能性 – 当考虑长或模棱两可的提示时,有时在以前的版本中观察到的问题。
同样,调用该函数的功能已更新,以支持使用工具的更可靠的方案,尤其是在诸如VLLM之类的层中。
与此同时,他可以使用一个GPU GPU NVIDIA A100/H100 80 GB在安装上工作,这是具有硬计算资源和/或预算的企业的大幅开放选择。
3个月后更新的型号
Mistral Small 3.1于2025年3月宣布为24B参数范围内的旗舰公开问题。他提供了全面的多模式机会,多语言的理解和处理,其长篇小说最多为1.28亿个令牌。
该模型显然是针对专有同行的定位,例如GPT-4O Mini,Claude 3.5 Haiku和Gemma 3-It and,根据Mistral,在许多任务中都超过了他们。
小型3.1还强调了有效的部署,声称执行每秒150个令牌的撤回,并支持在带有32 GB RAM的设备上使用。
该版本同时获得了基本和教学检查点,为域之间的准确设置(例如法律,医疗和技术领域)提供了灵活性。
相反,小3.2专注于行为和可靠性的手术改善。他不寻求引入新的机会或建筑变化。取而代之的是,他充当维护的释放:清洁出口产生的边缘,收紧遵守说明并处理快速交互系统。
小3.2对小3.1:发生了什么变化?
以下说明显示了一个很小但可衡量的改进。 Mistral的内部准确性从小3.1中的82.75%增加到小3.2的84.78%。

同样,外部数据集的性能(例如Wildbench V2和Arena Hard V2)显着提高 – Wildbench提高了近10个百分点,而竞技场的性能从19.56%的19.56%增加到43.10%。
内部指标还涉及输出数据的复发减少。在小3.2中,无限世代的速度从2.11%下降至小3.1%至1.29% – 几乎降低了第二次。这使该模型对于开发人员创建需要一致,有限的答案的应用程序更可靠。
通过文本和编码测试的生产力代表了更细微的图片。小3.2显示了人类Val Plus的增长(从88.99%到92.90%),MBPP Pass@5(从74.63%到78.33%)和SimpleQA。它还适度改善了MMLU Pro和Math的结果。

Tsitric Vision主要保持一致,并且波动很小。 ChartQA和DOCVQA看到了边际收益,而AI2D和Mathvista下跌了不到两个百分点。在小3.1中,平均视觉性能从小3.1中的81.39%略微下降至81.00%。

这与Mistral的宣告意图是一致的:小3.2不是模型修订,而是澄清。因此,大多数指标都在预期的分散范围内,并且某些回归显然是其他地方有针对性改进的妥协。
然而,作为用户AI Power and Implater @chatgpt21发表在X上:“他在MMLU上变得更糟”,这意味着大规模的多任务语言控制,这是一个跨学科测试,具有57个问题,旨在评估不同域中广泛的LLM的性能。实际上,小3.2得分为80.50%,略低于小3.1 80.62%。
开源许可将使专注于成本和个人地标的用户更具吸引力
小型3.1和3.2均在Apache 2.0许可下可用,可以通过受欢迎程度获得。 AI – 交换拥抱面积的交换(基于法国和纽约的发射)。
小型3.2由VLLM和Transformers之类的框架支撑,并且需要大约55 GB的图形处理器才能在BF16或FP16点上工作。
对于寻求创建或维护应用程序的开发人员,模型存储库包含系统和结论的示例。
虽然Mistral Small 3.1已经集成到Google Cloud Vertex AI等平台中,并计划部署Nvidia Nim和Microsoft Azure,而Small 3.2目前是通过拥抱面孔和直接部署的自我护理的有限访问权限。
考虑使用Mistral Small 3.2时,企业应该知道什么
Mistral Small 3.2无法在开放的重量模型空间中移动竞争性定位,但是对模型的误解澄清的承诺。
随着任务的可靠性和处理的明显改善(尤其是在培训和使用工具的准确性方面),小型3.2为开发人员和企业提供了更清洁的用户体验,从而创建了Mistral生态系统。
它是由法国初创公司创建的,并符合欧盟的规则和规则,例如GDPR和欧盟法律,也使其对在世界这一地区工作的企业有吸引力。
然而,对于那些正在寻找参考性能最大的跳高的人来说,小3.1仍然是一个参考点,尤其是在某些情况下,例如MMLU,小3.2并不超过其前身。根据使用选项,这使更新更加面向选项的稳定性,而不是干净的更新。
每天有关VB每日业务使用方案的见解
如果您想打动老板,VB每天都会覆盖您。我们为您提供有关公司对生成AI的影响的内部勺子,从监管转变到实际部署,因此您可以分享对最大投资盈利能力的了解。
阅读我们的保密政策
感谢您的订阅。在此处查看更多VB信息选票。
发生错误。

Source link