LLMS показали впечатляющие возможности в рассуждающих задачах, таких как цепочка мыслей (COT), повышение точности и интерпретации в сложном решении проблем. В то время как исследователи расширяют эти возможности на мультимодальные домены, видео представляют уникальные проблемы из-за их временного измерения. В отличие от статических изображений, видео требуют понимания динамических взаимодействий с течением времени. Современные визуальные методы COT превосходят со статическими входами, но борются с видеоконтентом, потому что они не могут явно локализовать или пересмотреть конкретные моменты в последовательностях. Люди преодолевают эти проблемы, разбивая сложные проблемы, выявляя и пересматривая ключевые моменты, а также синтезируя наблюдения в последовательных ответах. Этот подход подчеркивает необходимость в системах ИИ для управления множественными способностями рассуждения.
Недавние достижения в области понимания видео улучшили такие задачи, как подписание и ответ на вопросы, но в моделях часто не хватает визуальной соответствия и интерпретации, особенно для видеосъемки. Видео временное заземление решает это, требуя точной локализации. Большие мультимодальные модели, обученные контролируемой борьбе с настройкой обучения со сложными задачами. Появились два основных подхода к решению этих ограничений: интерфейсы на основе агента и парадигмы рассуждений на основе текста, иллюстрированные процессами COT. Кроме того, методы поиска времени вывода ценны в таких областях, как робототехника, игры и навигация, позволяя моделям итеративно уточнить выходы без изменения основных весов.
Исследователи из Политехнического университета Гонконга и шоу-лаборатории, Национальный университет Сингапура, предложили Videomind, агента на языке видео, предназначенного для временного понимания видео. Videomind вводит два ключевых инновация для решения задач видео. Во-первых, он определяет основные возможности для височных рассуждений и реализует агент, основанный на роле, со специализированными компонентами: планировщик, землящик, проверчик и ответчик. Во-вторых, он предлагает стратегию цепочки лоры, которая позволяет беспрепятственно переключать роли через легкие адаптеры LORA, избегая накладных расходов нескольких моделей при балансе эффективности и гибкости. Эксперименты по 14 публичным контрольным показателям показывают современное выступление в различных задачах понимания видео.
Videomind опирается на QWEN2-VL, объединяя основу LLM с визуальным энкодером на основе VIT, способным обрабатывать входы динамического разрешения. Его основная инновация-его стратегия цепочки лоры, которая динамически активирует адаптеры LORA-специфики во время вывода посредством самообвинения. Более того, он содержит четыре специализированных компонента: (а) планировщик, который координирует все другие роли и определяет, какую функцию вызовут следующим на основе запроса, (б) землян, который локализует соответствующие моменты, определяя начальные и конечные временные метки на основе текстовых запросов (c) VERIFIE Сегменты, идентифицированные землей или всем видео, когда прямой ответ более подходит.
В метрике заземления легкая модель 2B Videomind превосходит большинство сравниваемых моделей, включая Internvl2-78B и Claude-3,5-Sonnet, причем только GPT-4O показывает превосходные результаты. Тем не менее, версия Videomind 7B превосходит даже GPT-4O, достигая конкурентной общей производительности. На следующем эталоне GQA модель 2B соответствует современным моделям 7B как по агентским, так и в сквозных подходах, выгодно сравнивая с богатыми текстами решениями, такими как Llovi, Langrepo и Sevila. Videomind показывает исключительные возможности с нулевым выстрелом, опередив все методы временного заземления на основе LLM и достижение конкурентных результатов по сравнению с точно настраиваемыми экспертами по временному заземлению. Более того, Videomind превосходит в общих задачах QA в видео-маме (Long), MLVU и Lvbench, демонстрируя эффективную локализацию сегментов CUE, прежде чем отвечать на вопросы.
В этой статье исследователи представили Videomind, значительный прогресс в временных обоснованиях видео. Он решает сложные проблемы понимания видео с помощью агентского рабочего процесса, объединяя планировщик, землян, проверку, ответчик и эффективную стратегию цепочки лоры для переключения ролей. Эксперименты по трем ключевым доменам, заземленным видео-ответам, височно-временным заземлениям и общим видео-ответом, подтверждают эффективность видеомонда для задач с более широкими рассуждениями о видео, где он предоставляет точные, основанные на фактических данных ответы. Эта работа создает основу для будущих разработок в области мультимодальных видео агентов и возможностей рассуждений, открывая новые пути для более сложных систем понимания видео.
Проверить Страница бумаги и проекта. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 85K+ ML SubredditПолем

Саджад Ансари – последний год бакалавриата IIT Kharagpur. Как технический энтузиаст, он углубляется в практические применения ИИ с акцентом на понимание влияния технологий ИИ и их реальных последствий. Он стремится сформулировать сложные концепции ИИ ясно и доступно.