NVIDIA AI выпускает Llama Nemotron Nano VL: модель компактного языка на языке зрения, оптимизированная для понимания документов

Nvidia представила Llama nemotron nano vlмодель на языке зрения (VLM), предназначенная для решения задач понимания на уровне документов с эффективностью и точностью. Построенный на архитектуре Llama 3.1 и в сочетании с легким кодером зрения, этот выпуск нацелен на приложения, требующие точного анализа сложных структур документов, таких как сканированные формы, финансовые отчеты и технические диаграммы.

Обзор модели и архитектура

Llama nemotron nano vl объединяет Cradiov2-H Vision Encoder с Llama 3.1 8bформирование трубопровода, способного совместно обрабатывать мультимодальные входы, включая многостраничные документы как с визуальными, так и с текстовыми элементами.

Архитектура оптимизирована для токенового вывода, поддерживая до 16k контекста длина через изображения и текстовые последовательности. Модель может обрабатывать несколько изображений наряду с текстовым вводом, что делает ее подходящим для мультимодальных задач длинноформных. Выравнивание текста зрения достигается за счет проекционных слоев и вращательного позиционного кодирования, адаптированного для встроений в патчах изображения.

Обучение проводилось на три этапа:

  • Этап 1: Чередовое изображение-текст предварительно подготовка на коммерческих наборах данных и видео.
  • Этап 2: Мультимодальная настройка инструкций, чтобы включить интерактивное подсказка.
  • Этап 3: Только текстовые данные повторно смешивают, повышение производительности на стандартных тестах LLM.

Все тренировки проводились с использованием NVIDIA Megatron-llm Framework с Energon DataLoader, распределенным по кластерам с графическими процессорами A100 и H100.

Контрольные результаты и оценка

Llama Nemotron Nano VL оценивался на Ocrbench v2эталон, предназначенный для оценки понимания зрительного языка на уровне документов, между OCR, анализом таблицы и рассуждениями диаграмм. OCRBENCH включает в себя более 10 000 человек, подтвержденных человеком, охватывающие документы из таких областей, как финансы, здравоохранение, юридическая и научная публикация.

Результаты показывают, что модель достигает современная точность Среди компактных VLM на этом эталоне. Примечательно, что его производительность конкурентоспособна с более крупными, менее эффективными моделями, особенно при извлечении структурированных данных (например, таблиц и пары ключевых значений) и ответа на зависимые от макета запросы.

Обновлено 3 июня 2025 года

Модель также обобщает неанглийские документы и деградированное качество сканирования, отражая ее надежность в реальных условиях.

Развертывание, квантование и эффективность

Разработанный для гибкого развертывания, Nemotron Nano VL поддерживает как сервер, так и сценарии сервера. Nvidia предоставляет квантовая 4-битная версия (AWQ) Для эффективного вывода с использованием Tinychat и Tensorrt-llmс совместимостью для Jetson Orin и других ограниченных сред.

Ключевые технические функции включают:

  • Модульная нокаупрощение интеграции API
  • Поддержка экспорта ONNX и Tensorrtобеспечение совместимости аппаратного ускорения
  • Опция предварительно вычисленного зренияобеспечивая уменьшенную задержку для статических документов изображения

Заключение

Llama Nemotron Nano VL представляет собой хорошо спроектированный компромисс между эффективностью, длиной контекста и эффективностью развертывания в области понимания документов. Его архитектура – заканчивается в Llama 3.1 и улучшена с помощью компактного энкодера зрения, – это практическое решение для корпоративных приложений, которые требуют мультимодального понимания при строгой задержке или ограничениях оборудования.

Начиная с OCRBENCH V2, сохраняя при этом развертываемую площадь, Nemotron Nano VL позиционирует себя как жизнеспособную модель для таких задач, как автоматизированный документ QA, интеллектуальный OCR и конвейеры извлечения информации.


Проверьте технические детали и модель на обнимающемся лицеПолем Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 95K+ ML Subreddit и подписаться на Наша информационный бюллетеньПолем


ASIF Razzaq является генеральным директором Marktechpost Media Inc. как дальновидного предпринимателя и инженера, ASIF стремится использовать потенциал искусственного интеллекта для социального блага. Его последнее усилие-запуск медиа-платформы искусственного интеллекта, Marktechpost, которая выделяется благодаря глубокому освещению машинного обучения и новостей о глубоком обучении, которое является технически обоснованным и легко понятным для широкой аудитории. Платформа может похвастаться более чем 2 миллионами ежемесячных просмотров, иллюстрируя свою популярность среди зрителей.

Source link

Scroll to Top