Мистраль недавно обновил свою небольшую модель с открытым исходным кодом с 3,1 до 3.2: вот почему


Присоединяйтесь к событию, надежно со стороны корпоративных лидеров в течение почти двух десятилетий. VB Transform собирает людей, строящих настоящую корпоративную стратегию ИИ. Узнать больше


Французский AI Darling Mistral сохраняет новые издания этим летом.

Спустя всего несколько дней после объявления о своем собственном домашнем AI-оптимизированном облачном сервисе Misstral Compute, хорошо финансируемая компания выпустила обновление до модели с открытым исходным кодом 24B Open Source Mestral Small, прыгая с 3,1 издания до 3,2-24B Instruct-200266.

Новая версия построена непосредственно на Mistral Small 3.1, направленная на улучшение конкретного поведения, такого как учебное следствие, стабильность выхода и функциональная вызов. Хотя общие архитектурные детали остаются неизменными, обновление вводит целевые уточнения, которые влияют как на внутренние оценки, так и публичные ссылки.

Согласно Mistral AI, маленькие 3.2 лучше придерживаются точных инструкций и снижают вероятность бесконечных или повторяющихся поколений – проблема, которую иногда наблюдается в предыдущих версиях при манипулировании длинными или неоднозначными обещаниями.

Точно так же шаблон функциональных вызовов была обновлена ​​для поддержки более надежных сцен, использующих инструменты, особенно в таких кадрах, как VLLM.

И в то же время он может работать путем договоренности с одним графическим процессором NVIDIA A100/H100 80 ГБ, резко открывая варианты для компаний с жесткими компьютерными ресурсами и/или бюджетами.

Обновленная модель всего через 3 месяца

Mistral Small 3.1 был объявлен в марте 2025 года как флагманское открытое издание в параметре 24B. Он предлагал полные мультимодальные возможности, многоязычное понимание и обработку с длинным контекстом до 128 тыс. Токенов.

Модель была явно позиционирована против проприетарных сверстников, таких как GPT-4O Mini, Claude 3.5 Haiku и Gemma 3-It-It-It-It-It-It-It-It-It-It-It-It-It-It-It-It-It-It-It-It-и, по словам Мистрала, превышала их во многих задачах.

Little 3.1 также подчеркнул эффективное развертывание, с претензиями на вывод на 150 токенов для второго и поддержку использования на устройстве с 32 ГБ оперативной памяти.

Это издание поступило как с основными, так и с учебными контрольно -пропускными пунктами, предлагая гибкость для настройки с помощью таких доменов, как юридические, медицинские и технические области.

Напротив, Small 3.2 фокусируется на хирургическом улучшении поведения и надежности. Он не предназначен для введения новых навыков или архитектурных изменений. Вместо этого он служит релизом ухода: чистящие кромки в генерации выхода, растяжение соблюдения учебных заведений и взаимодействия системы переработки.

Маленький 3.2 против Little 3.1: что изменилось?

Инструкция следующая ссылка показывает небольшое, но измеримое улучшение. Внутренняя точность Мистрала выросла с 82,75% в небольших 3,1 до 84,78% в небольших 3,2.

Аналогичным образом, производительность во внешних базах данных, таких как Wildbench V2 и Arena Hard V2, значительно улучшилась – Wildbench увеличился почти на 10 процентов, в то время как арена жестко удваивалась, что увеличилось с 19,56% до 43,10%.

Внутренние метрики также предполагают уменьшение повторения выхода. Скорость бесконечных поколений упала с 2,11% в небольшом 3,1 до 1,29% в небольшом снижении 3,2 – почти 2 ×. Это делает модель более надежной для разработчиков, создающих приложения, которые требуют последовательных, ограниченных ответов.

Производительность через текстовые и кодовые ссылки оснащены более нюансированным изображением. Little 3,2 показали рост на Humaneval Plus (от 88,99% до 92,90%), MBPP Pass@5 (74,63% до 78,33%) и SimpleQA. Это также скромно улучшило результаты MMLU Pro и Math.

Визуальные ссылки остаются в основном последовательными, с небольшими колебаниями. Chartqa и Docvqa увидели незначительные выгоды, в то время как AI2D и Mathvista упали менее чем на два процента. Среднее зрение -yield немного уменьшилось с 81,39% в небольших 3,1 до 81,00% в небольших 3,2.

Это соответствует заявленному намерению Мистрала: маленький 3.2 не является модельным обзором, а уточнением. Таким образом, большинство ссылок находятся в пределах ожидаемого разнообразия, и некоторые регрессии, по -видимому, представляют собой компромиссы для целевых улучшений в других местах.

Тем не менее, как пользователь Power Power и Influencer @Chatgpt21 опубликовал в X: «Это ухудшило MMLU», что означает массивную справочную ссылку на многотаскулярное язык, междисциплинарный тест с 57 вопросами, предназначенными для оценки широкой производительности LLM с помощью доменов. Действительно, маленькие 3,2 заработали 80,50%, немного ниже небольших 3,1 80,62%.

Лицензия с открытым исходным кодом сделает его более привлекательным для пользователей, заботящихся о затратах и ​​индивидуальной фокусировке

Как небольшие 3.1, так и 3.2 доступны ниже лицензии Apache 2.0 и могут быть доступны популярностью. ИИ -код, разделяющий депозит, обнимающееся лицо (само по себе на основе Франции и Нью -Йорка).

Small 3.2 поддерживается такими кадрами, как VLLM и трансформаторы, и требуется около 55 ГБ от оперативной памяти GPU для работы в точке BF16 или FP16.

Для разработчиков, стремящихся создать или обслуживать приложения, в модели представлены системы обещаний и вывода.

В то время как Mistral Small 3.1 уже интегрирован в такие платформы, как Google Cloud Vertex AI, и планируется развертывание в NVIDIA NIM и Microsoft Azure, небольшой 3.2 в настоящее время кажется ограниченным доступом к самообслуживанию, обнимая лицо и прямое развертывание.

Какие предприятия должны знать, когда они считают Мистраль небольшим 3,2 для их вариантов использования

Mistral Small 3.2 не может изменить конкурентную позицию в пространстве модели с открытым весом, но представляет собой обязательство Mistral AI к итеративной модели уточнения.

С заметными улучшениями в надежности и использовании задач – особенно в отношении точности обучения и использования инструментов – Small 3.2 предлагает более чистый пользовательский опыт для разработчиков и предприятий, создающих экосистему любовницы.

Тот факт, что он сделан из французского начала и в соответствии с правилами и правилами ЕС, такими как Закон GDPR и EU AI, также привлекает предприятия, работающие в этой части мира.

Тем не менее, для тех, кто ищет самые большие скачки в эталонной деятельности, небольшой 3.1 остается эталонной точкой, особенно учитывая, что в некоторых случаях, например, MMLU, Small 3.2 не превышает их предшественника. Это делает обновление более опцией фокусировки стабильности, чем чистое обновление, в зависимости от случая корпуса.


Source link
Scroll to Top