Последние достижения в моделировании длинного контекста (LC) разблокировали новые возможности для LLMS и крупных моделей на языке зрения (LVLMS). Модели с длинным контекстом Vision-Language (LCVLMS) показывают важный шаг вперед, позволяя LVLMS обрабатывать сотни изображений и тысячи чередующихся текстовых токенов в одном вперед проходе. Тем не менее, разработка эффективных контрольных показателей оценки отстает. До сих пор неясно, насколько хорошо текущие LCVLMS выполняются в настройках с длинным контекстом, с какими задачами они борются, и насколько они надежны для вариации длины ввода. Текущие критерии сталкиваются с следующей задачей: (а) ограниченное покрытие задач вниз по течению, (б) недостаточное охват типов изображений, (в) отсутствие управления длиной контекста и (г) длина единого контекста.
Различные методы имеют расширенные окна контекста для LVLMS, включая более длительные длины предварительного обучения, экстраполяцию положения и эффективные архитектуры. Такие модели, как Gemini-2,5 и QWEN2.5-VL, приняли эти подходы наряду с методами сжатия токена зрения для размещения более длинных последовательностей. Для оценки задача иглы-в-запас стала стандартным эталоном для тестирования способности LC путем вставки информации на определенных глубинах в течение длинных текстов. Тем не менее, существующие показатели на языке зрения остаются ограниченными, сосредотачиваясь только на вариантах NIAH или задачах с длинными гостями VQA. Даже Milebench содержит задачи с коротким контекстом со средней длиной только 9K токенов, что не может оценить истинные возможности LC в разных приложениях на языке зрения.
Исследователи из HKUST, Tencent AI Seattle Lab, Университет Эдинбурга, Miniml.ai и Nvidia AI Center предложили Mmlongbench, первый комплексный эталон для оценки LCVLMS. Он включает в себя 13 331 примера, охватывающие пять категорий задач вниз по течению, в том числе визуальная тряпка и многократный ICL, охватывающий естественные и синтетические типы изображений. Все примеры стандартизированы по пяти входных длинах от 8K до 128K токенов с использованием межмодальной схемы токенизации, объединяющей патчи зрения и токены текста. Посредством сравнительного анализа 46 моделей с закрытым исходным кодом и с открытым исходным кодом, исследование показывает, что производительность в одной задаче плохо предсказывает общую возможность LC, оба типа модели борются с задачами LC, а более сильные модели рассуждений демонстрируют лучшую производительность LC.
Исследователи строят LC, вставив золотые проходы, содержащие ответы среди больших наборов отвлекающих отрывков, извлеченных из Википедии. Для Viquae используются золотые пассажи из килта, в то время как Infoseek использует свинцовые участки со страниц объектов Википедии. Кроме того, страницы Википедии разделяются на проходы на 100 слов, а извлекаются отвлекающие факторы до достижения желаемой длины ввода. Многие выстрелы в условиях обучения используются четыре различных набора данных классификации изображений: Stanford Cars, Food101, Sun397 и INAT2021, вмещающие 500 изображений в контекстных окнах 128K. Поперечное подсчет токенов сочетает в себе текстовые токены с использованием токенизатора Llama2 с визуальными токенами, обрабатываемыми через патчи 14 × 14 и нерастоверное сжатие 2 × 2 пикселя, обеспечивая совместимость с современными LVLMS для оценки.
Оценка MMLongbench по задачам и длине контекста показывает, что все модели борются, но модели с закрытым исходным кодом работают лучше. Для самой длинной длины входа 128 тыс. Все модели борются с задачами на языке с длинным контекстом, причем GPT-4O достигает всего 62,9 средней производительности. Gemini-2,5-Pro стал самым сильным исполнителем, опередив модели с открытым исходным кодом на 20 очков, за исключением задач ICL. Кроме того, модель OVIS2-34B достигает оценки 41,6 по суммированию, аналогично GPT-4O (42,4). QWEN2,5-VL-32B достигает балла по подбору 64,6 на VRAG, даже лучше, чем Gemini-2,0-Flash. Модели показывают возможности обобщения за пределами их длины контекста обучения, при этом QWEN2-VL-72B достигает среднего балла 51,9 на 128 тыс. Несмотря на тренировочное окно 32K.
В заключение, исследователи представили Mmlongbench, первого комплексного эталона для оценки LCVLMS по различным нисходящим задачам. Он обеспечивает строгую основу для диагностики возможностей пограничной модели, охватывая пять различных категорий задач с единым подсчетом кросс-модального токена и стандартизированными длины контекста. Оценка 46 моделей демонстрирует, что производительность в одной задаче неревномерно прогнозирует общую способность длительного контекста, а пограничные модели сталкиваются с значительными проблемами в точности OCR и перекрестном поиске. Mmlongbench-это стандартная структура оценки, направленная на то, чтобы стимулировать будущие исследования в направлении более эффективных кодировки токенов на языке зрения, надежных схем положения положения и улучшения многомодальных поисков и рассуждений.
Проверьте страницу бумаги и GitHubПолем Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 95K+ ML Subreddit и подписаться на Наша информационный бюллетеньПолем

Саджад Ансари – последний год бакалавриата IIT Kharagpur. Как технический энтузиаст, он углубляется в практические применения ИИ с акцентом на понимание влияния технологий ИИ и их реальных последствий. Он стремится сформулировать сложные концепции ИИ ясно и доступно.
