Mistral AI выпускает MiStral Small 3.2: Усовершенствованное обучение, уменьшенное повторение и более сильная функция, призывающая к интеграции искусственного интеллекта

С частым выпуском новых крупных языковых моделей (LLMS) существует постоянное стремление к минимуму повторяющихся ошибок, повышения надежности и значительно улучшить взаимодействие с пользователями. По мере того, как модели ИИ становятся неотъемлемой частью более сложных вычислительных задач, разработчики последовательно совершенствуют свои возможности, обеспечивая бесшовную интеграцию в различных, реальных сценариях.

Misstral AI выпустила MiStral Small 3.2 (Mistral-Small-3.2-24b-Instruct-2506), обновленную версию своего предыдущего релиза Mistral-Small-3.1-24b-Instruct-2503. Несмотря на незначительное выпуск, Mistral Small 3.2 вводит фундаментальные обновления, которые направлены на повышение общей надежности и эффективности модели, особенно при обработке сложных инструкций, избегая избыточных результатов и поддержания стабильности в сценариях, вызывающих функции.

Значительным улучшением в Mistral Small 3.2 является его точность в выполнении точных инструкций. Успешное взаимодействие с пользователем часто требует точности в выполнении тонких команд. Оценки эталона точно отражают это улучшение: под тестированием инструкций Wildbench V2 MiStral Small 3.2 достиг 65,33% точности, улучшение по сравнению с 55,6% для своего предшественника. И наоборот, производительность в тесте на трудную арену V2 была почти удвоена, с 19,56% до 43,1%, что дает доказательства его улучшенной способности выполнять и понимать сложные команды.

Исправляя ошибки повторения, Mistral Small 3.2 значительно сводит к минимуму случаи бесконечного или повторяющегося результата, проблема, с которой обычно сталкиваются в длинных разговорных сценариях. Внутренние оценки показывают, что небольшие 3,2 эффективно сокращают экземпляры ошибок бесконечной генерации вдвое, с 2,11% в малых 3,1 до 1,29%. Это полное сокращение напрямую увеличивает удобство использования модели и надежность в расширенных взаимодействиях. Новая модель также демонстрирует большую возможность вызовой функций, что делает ее идеальным для задач автоматизации. Кроме того, улучшенная надежность в шаблоне вызова функции приводит к более стабильным и надежным взаимодействиям.

Улучшение эталона, связанного с STEM, дополнительно демонстрирует небольших способностей 3.2. Например, тест Code Humaneval Plus Pass@5 имел свою точность увеличения с 88,99% в малых 3,1 до колоссальных 92,90%. Кроме того, результаты тестов MMLU PRO увеличились с 66,76% до 69,06%, а рейтинги алмазов GPQA немного улучшились с 45,96% до 46,13%, демонстрируя общую компетентность в научном и техническом использовании.

Результаты производительности, основанные на зрении, были непоследовательными, причем определенные оптимизации были избирательно применяются. Точность Chartqa улучшилась с 86,24% до 87,4%, а DocVQA незначительно увеличилась с 94,08% до 94,86%. Напротив, некоторые тесты, такие как MMMU и Mathvista, испытывали небольшие провалы, что указывает на конкретные компромиссы, встречающиеся в процессе оптимизации.

Обновления ключей в Mistral Small 3.2 над Small 3.1 включают в себя:

  • Повышенная точность в сборе инструкций, с точностью Wildbench V2, повышающейся с 55,6% до 65,33%.
  • Уменьшенные ошибки повторения, вдвое и бесконечное образование с 2,11% до 1,29%.
  • Улучшенная надежность в функциональных шаблонах вызова, обеспечивая более стабильные интеграции.
  • Примечательное увеличение эффективности, связанных с STEM, особенно в Humaneval Plus Pass@5 (92,90%) и MMLU Pro (69,06%).

В заключение, Mistral Small 3.2 предлагает целевые и практические улучшения по сравнению с предшественником, предоставляя пользователям большую точность, снижение избыточности и улучшенные возможности интеграции. Эти достижения помогают позиционировать его как надежный выбор для сложных задач, основанных на AI в разных областях применения.


Проверьте Модель карта на обнимающемся лицеПолем Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 100K+ ML Subreddit и подписаться на Наша информационный бюллетеньПолем


Сана Хасан, стажер консалтинга в Marktechpost и студент с двойной степенью в IIT Madras, увлечена применением технологий и искусственного интеллекта для решения реальных проблем. С большим интересом к решению практических проблем, он привносит новую перспективу для пересечения ИИ и реальных решений.

Source link

Scroll to Top