В развивающемся области искусственного интеллекта модели зрения (VLMS) стали важными инструментами, что позволяет машинам интерпретировать и генерировать понимание как визуальных, так и из текстовых данных. Несмотря на достижения, проблемы остаются в балансировании производительности модели с вычислительной эффективностью, особенно при развертывании крупномасштабных моделей в условиях ограниченных ресурсов.
QWEN представила VLM QWEN2,5-VL-32B, 32-миллиард-параметров VLM, который превосходит своего более крупного предшественника, QWEN2,5-VL-72B и другие модели, такие как GPT-4O Mini, в то время как она выпускается под лицензией Apache 2.0. Эта разработка отражает приверженность сотрудничеству с открытым исходным кодом и учитывает необходимость высокопроизводительных, но вычислительно управляемых моделей.
Технически модель QWEN2,5-VL-32B-инстакции предлагает несколько улучшений:
- Визуальное понимание: Модель превосходит в распознавании объектов и анализе текстов, диаграмм, значков, графики и макетов на изображениях.
- Возможности агента: Он функционирует как динамический визуальный агент, способный рассуждать и направлять инструменты для компьютерного и телефонного взаимодействия.
- Понимание видео: Модель может понимать видео более часа и точно определить соответствующие сегменты, демонстрируя расширенную временную локализацию.
- Локализация объекта: Он точно идентифицирует объекты на изображениях, генерируя ограничивающие ящики или точки, предоставляя стабильные выходы JSON для координат и атрибутов.
- Структурированная выходная генерация: Модель поддерживает структурированные выходы для таких данных, как счета, формы и таблицы, приносящие пользу приложениям в области финансов и торговли.
Эти функции повышают применимость модели в различных областях, требующих нюансированного мультимодального понимания.
Эмпирические оценки подчеркивают сильные стороны модели:
- Задачи зрения: На массивном многозадачном языке (MMMU) модель набрала 70,0, превзойдя 64,5 QWEN2-VL-72B. В Mathvista он достиг 74,7 по сравнению с предыдущими 70,5. Примечательно, что в Ocrbenchv2 модель набрала 57,2/59,1, что значительное улучшение по сравнению с предыдущими 47,8/46,1. В задачах управления Android он достиг 69,6/93,3, превышая предыдущие 66,4/84,4.
- Текстовые задачи: Модель продемонстрировала конкурентоспособную производительность со счетом 78,4 на MMLU, 82,2 по математике и впечатляющим 91,5 на гуманевале, опережая такие модели, как GPT-4O Mini в определенных областях.
Эти результаты подчеркивают сбалансированное мастерство модели в разных задачах.
В заключение, QWEN2,5-VL-32B-инструкция представляет собой значительный прогресс в моделировании зрительного языка, достигая гармоничной сочетания производительности и эффективности. Его доступность с открытым исходным кодом по лицензии Apache 2.0 побуждает глобальное сообщество ИИ исследовать, адаптировать и опираться на эту надежную модель, потенциально ускоряя инновации и применение в различных секторах.
Проверить модель веса. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 85K+ ML SubredditПолем

Нихил – стажер консультант в Marktechpost. Он получает интегрированную двойную степень в области материалов в Индийском технологическом институте, Харагпур. Нихил является энтузиастом AI/ML, который всегда исследует приложения в таких областях, как биоматериалы и биомедицинская наука. С большим опытом в области материальной науки, он изучает новые достижения и создает возможности для внесения вклад.