Присоединяйтесь к событию, надежно со стороны корпоративных лидеров в течение почти двух десятилетий. VB Transform собирает людей, строящих настоящую корпоративную стратегию ИИ. Узнать больше
Французский AI Darling Mistral сохраняет новые издания этим летом.
Спустя всего несколько дней после объявления о своем собственном домашнем AI-оптимизированном облачном сервисе Misstral Compute, хорошо финансируемая компания выпустила обновление до модели с открытым исходным кодом 24B Open Source Mestral Small, прыгая с 3,1 издания до 3,2-24B Instruct-200266.
Новая версия построена непосредственно на Mistral Small 3.1, направленная на улучшение конкретного поведения, такого как учебное следствие, стабильность выхода и функциональная вызов. Хотя общие архитектурные детали остаются неизменными, обновление вводит целевые уточнения, которые влияют как на внутренние оценки, так и публичные ссылки.
Согласно Mistral AI, маленькие 3.2 лучше придерживаются точных инструкций и снижают вероятность бесконечных или повторяющихся поколений – проблема, которую иногда наблюдается в предыдущих версиях при манипулировании длинными или неоднозначными обещаниями.
Точно так же шаблон функциональных вызовов была обновлена для поддержки более надежных сцен, использующих инструменты, особенно в таких кадрах, как VLLM.
И в то же время он может работать путем договоренности с одним графическим процессором NVIDIA A100/H100 80 ГБ, резко открывая варианты для компаний с жесткими компьютерными ресурсами и/или бюджетами.
Обновленная модель всего через 3 месяца
Mistral Small 3.1 был объявлен в марте 2025 года как флагманское открытое издание в параметре 24B. Он предлагал полные мультимодальные возможности, многоязычное понимание и обработку с длинным контекстом до 128 тыс. Токенов.
Модель была явно позиционирована против проприетарных сверстников, таких как GPT-4O Mini, Claude 3.5 Haiku и Gemma 3-It-It-It-It-It-It-It-It-It-It-It-It-It-It-It-It-It-It-It-It-и, по словам Мистрала, превышала их во многих задачах.
Little 3.1 также подчеркнул эффективное развертывание, с претензиями на вывод на 150 токенов для второго и поддержку использования на устройстве с 32 ГБ оперативной памяти.
Это издание поступило как с основными, так и с учебными контрольно -пропускными пунктами, предлагая гибкость для настройки с помощью таких доменов, как юридические, медицинские и технические области.
Напротив, Small 3.2 фокусируется на хирургическом улучшении поведения и надежности. Он не предназначен для введения новых навыков или архитектурных изменений. Вместо этого он служит релизом ухода: чистящие кромки в генерации выхода, растяжение соблюдения учебных заведений и взаимодействия системы переработки.
Маленький 3.2 против Little 3.1: что изменилось?
Инструкция следующая ссылка показывает небольшое, но измеримое улучшение. Внутренняя точность Мистрала выросла с 82,75% в небольших 3,1 до 84,78% в небольших 3,2.
Аналогичным образом, производительность во внешних базах данных, таких как Wildbench V2 и Arena Hard V2, значительно улучшилась – Wildbench увеличился почти на 10 процентов, в то время как арена жестко удваивалась, что увеличилось с 19,56% до 43,10%.
Внутренние метрики также предполагают уменьшение повторения выхода. Скорость бесконечных поколений упала с 2,11% в небольшом 3,1 до 1,29% в небольшом снижении 3,2 – почти 2 ×. Это делает модель более надежной для разработчиков, создающих приложения, которые требуют последовательных, ограниченных ответов.
Производительность через текстовые и кодовые ссылки оснащены более нюансированным изображением. Little 3,2 показали рост на Humaneval Plus (от 88,99% до 92,90%), MBPP Pass@5 (74,63% до 78,33%) и SimpleQA. Это также скромно улучшило результаты MMLU Pro и Math.

Визуальные ссылки остаются в основном последовательными, с небольшими колебаниями. Chartqa и Docvqa увидели незначительные выгоды, в то время как AI2D и Mathvista упали менее чем на два процента. Среднее зрение -yield немного уменьшилось с 81,39% в небольших 3,1 до 81,00% в небольших 3,2.

Это соответствует заявленному намерению Мистрала: маленький 3.2 не является модельным обзором, а уточнением. Таким образом, большинство ссылок находятся в пределах ожидаемого разнообразия, и некоторые регрессии, по -видимому, представляют собой компромиссы для целевых улучшений в других местах.
Тем не менее, как пользователь Power Power и Influencer @Chatgpt21 опубликовал в X: «Это ухудшило MMLU», что означает массивную справочную ссылку на многотаскулярное язык, междисциплинарный тест с 57 вопросами, предназначенными для оценки широкой производительности LLM с помощью доменов. Действительно, маленькие 3,2 заработали 80,50%, немного ниже небольших 3,1 80,62%.
Лицензия с открытым исходным кодом сделает его более привлекательным для пользователей, заботящихся о затратах и индивидуальной фокусировке
Как небольшие 3.1, так и 3.2 доступны ниже лицензии Apache 2.0 и могут быть доступны популярностью. ИИ -код, разделяющий депозит, обнимающееся лицо (само по себе на основе Франции и Нью -Йорка).
Small 3.2 поддерживается такими кадрами, как VLLM и трансформаторы, и требуется около 55 ГБ от оперативной памяти GPU для работы в точке BF16 или FP16.
Для разработчиков, стремящихся создать или обслуживать приложения, в модели представлены системы обещаний и вывода.
В то время как Mistral Small 3.1 уже интегрирован в такие платформы, как Google Cloud Vertex AI, и планируется развертывание в NVIDIA NIM и Microsoft Azure, небольшой 3.2 в настоящее время кажется ограниченным доступом к самообслуживанию, обнимая лицо и прямое развертывание.
Какие предприятия должны знать, когда они считают Мистраль небольшим 3,2 для их вариантов использования
Mistral Small 3.2 не может изменить конкурентную позицию в пространстве модели с открытым весом, но представляет собой обязательство Mistral AI к итеративной модели уточнения.
С заметными улучшениями в надежности и использовании задач – особенно в отношении точности обучения и использования инструментов – Small 3.2 предлагает более чистый пользовательский опыт для разработчиков и предприятий, создающих экосистему любовницы.
Тот факт, что он сделан из французского начала и в соответствии с правилами и правилами ЕС, такими как Закон GDPR и EU AI, также привлекает предприятия, работающие в этой части мира.
Тем не менее, для тех, кто ищет самые большие скачки в эталонной деятельности, небольшой 3.1 остается эталонной точкой, особенно учитывая, что в некоторых случаях, например, MMLU, Small 3.2 не превышает их предшественника. Это делает обновление более опцией фокусировки стабильности, чем чистое обновление, в зависимости от случая корпуса.
Ежедневное понимание коммерческих вариантов использования с VB Daily
Если вы хотите произвести впечатление на своего босса, VB Daily прикрыл вас. Мы даем вам внутреннюю руку о том, что компании делают с генеративным ИИ, от регулирующих ходов до практических развертываний, так что вы можете поделиться пониманием максимальной рентабельности инвестиций.
Прочитайте нашу политику конфиденциальности
Спасибо за подписку. Посмотрите на дополнительную информацию VB здесь.
Произошла ошибка.

Source link