QWEN выпускает QWEN2,5-VL-32B-Инструкция: параметр 32B VLM, который превосходит QWEN2,5-VL-72B и другие модели, такие как GPT-4O Mini

В развивающемся области искусственного интеллекта модели зрения (VLMS) стали важными инструментами, что позволяет машинам интерпретировать и генерировать понимание как визуальных, так и из текстовых данных. Несмотря на достижения, проблемы остаются в балансировании производительности модели с вычислительной эффективностью, особенно при развертывании крупномасштабных моделей в условиях ограниченных ресурсов.

QWEN представила VLM QWEN2,5-VL-32B, 32-миллиард-параметров VLM, который превосходит своего более крупного предшественника, QWEN2,5-VL-72B и другие модели, такие как GPT-4O Mini, в то время как она выпускается под лицензией Apache 2.0. Эта разработка отражает приверженность сотрудничеству с открытым исходным кодом и учитывает необходимость высокопроизводительных, но вычислительно управляемых моделей.

Технически модель QWEN2,5-VL-32B-инстакции предлагает несколько улучшений:

  • Визуальное понимание: Модель превосходит в распознавании объектов и анализе текстов, диаграмм, значков, графики и макетов на изображениях.
  • Возможности агента: Он функционирует как динамический визуальный агент, способный рассуждать и направлять инструменты для компьютерного и телефонного взаимодействия.
  • Понимание видео: Модель может понимать видео более часа и точно определить соответствующие сегменты, демонстрируя расширенную временную локализацию.
  • Локализация объекта: Он точно идентифицирует объекты на изображениях, генерируя ограничивающие ящики или точки, предоставляя стабильные выходы JSON для координат и атрибутов.
  • Структурированная выходная генерация: Модель поддерживает структурированные выходы для таких данных, как счета, формы и таблицы, приносящие пользу приложениям в области финансов и торговли.

Эти функции повышают применимость модели в различных областях, требующих нюансированного мультимодального понимания. ​

Эмпирические оценки подчеркивают сильные стороны модели:

  • Задачи зрения: На массивном многозадачном языке (MMMU) модель набрала 70,0, превзойдя 64,5 QWEN2-VL-72B. В Mathvista он достиг 74,7 по сравнению с предыдущими 70,5. Примечательно, что в Ocrbenchv2 модель набрала 57,2/59,1, что значительное улучшение по сравнению с предыдущими 47,8/46,1. В задачах управления Android он достиг 69,6/93,3, превышая предыдущие 66,4/84,4.
  • Текстовые задачи: Модель продемонстрировала конкурентоспособную производительность со счетом 78,4 на MMLU, 82,2 по математике и впечатляющим 91,5 на гуманевале, опережая такие модели, как GPT-4O Mini в определенных областях.

Эти результаты подчеркивают сбалансированное мастерство модели в разных задачах. ​

В заключение, QWEN2,5-VL-32B-инструкция представляет собой значительный прогресс в моделировании зрительного языка, достигая гармоничной сочетания производительности и эффективности. Его доступность с открытым исходным кодом по лицензии Apache 2.0 побуждает глобальное сообщество ИИ исследовать, адаптировать и опираться на эту надежную модель, потенциально ускоряя инновации и применение в различных секторах.


Проверить модель веса. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 85K+ ML SubredditПолем


Нихил – стажер консультант в Marktechpost. Он получает интегрированную двойную степень в области материалов в Индийском технологическом институте, Харагпур. Нихил является энтузиастом AI/ML, который всегда исследует приложения в таких областях, как биоматериалы и биомедицинская наука. С большим опытом в области материальной науки, он изучает новые достижения и создает возможности для внесения вклад.

Source link

Scroll to Top