Nvidia представила Llama nemotron nano vlмодель на языке зрения (VLM), предназначенная для решения задач понимания на уровне документов с эффективностью и точностью. Построенный на архитектуре Llama 3.1 и в сочетании с легким кодером зрения, этот выпуск нацелен на приложения, требующие точного анализа сложных структур документов, таких как сканированные формы, финансовые отчеты и технические диаграммы.
Обзор модели и архитектура
Llama nemotron nano vl объединяет Cradiov2-H Vision Encoder с Llama 3.1 8bформирование трубопровода, способного совместно обрабатывать мультимодальные входы, включая многостраничные документы как с визуальными, так и с текстовыми элементами.
Архитектура оптимизирована для токенового вывода, поддерживая до 16k контекста длина через изображения и текстовые последовательности. Модель может обрабатывать несколько изображений наряду с текстовым вводом, что делает ее подходящим для мультимодальных задач длинноформных. Выравнивание текста зрения достигается за счет проекционных слоев и вращательного позиционного кодирования, адаптированного для встроений в патчах изображения.
Обучение проводилось на три этапа:
- Этап 1: Чередовое изображение-текст предварительно подготовка на коммерческих наборах данных и видео.
- Этап 2: Мультимодальная настройка инструкций, чтобы включить интерактивное подсказка.
- Этап 3: Только текстовые данные повторно смешивают, повышение производительности на стандартных тестах LLM.
Все тренировки проводились с использованием NVIDIA Megatron-llm Framework с Energon DataLoader, распределенным по кластерам с графическими процессорами A100 и H100.
Контрольные результаты и оценка
Llama Nemotron Nano VL оценивался на Ocrbench v2эталон, предназначенный для оценки понимания зрительного языка на уровне документов, между OCR, анализом таблицы и рассуждениями диаграмм. OCRBENCH включает в себя более 10 000 человек, подтвержденных человеком, охватывающие документы из таких областей, как финансы, здравоохранение, юридическая и научная публикация.
Результаты показывают, что модель достигает современная точность Среди компактных VLM на этом эталоне. Примечательно, что его производительность конкурентоспособна с более крупными, менее эффективными моделями, особенно при извлечении структурированных данных (например, таблиц и пары ключевых значений) и ответа на зависимые от макета запросы.
Модель также обобщает неанглийские документы и деградированное качество сканирования, отражая ее надежность в реальных условиях.
Развертывание, квантование и эффективность
Разработанный для гибкого развертывания, Nemotron Nano VL поддерживает как сервер, так и сценарии сервера. Nvidia предоставляет квантовая 4-битная версия (AWQ) Для эффективного вывода с использованием Tinychat и Tensorrt-llmс совместимостью для Jetson Orin и других ограниченных сред.
Ключевые технические функции включают:
- Модульная нокаупрощение интеграции API
- Поддержка экспорта ONNX и Tensorrtобеспечение совместимости аппаратного ускорения
- Опция предварительно вычисленного зренияобеспечивая уменьшенную задержку для статических документов изображения
Заключение
Llama Nemotron Nano VL представляет собой хорошо спроектированный компромисс между эффективностью, длиной контекста и эффективностью развертывания в области понимания документов. Его архитектура – заканчивается в Llama 3.1 и улучшена с помощью компактного энкодера зрения, – это практическое решение для корпоративных приложений, которые требуют мультимодального понимания при строгой задержке или ограничениях оборудования.
Начиная с OCRBENCH V2, сохраняя при этом развертываемую площадь, Nemotron Nano VL позиционирует себя как жизнеспособную модель для таких задач, как автоматизированный документ QA, интеллектуальный OCR и конвейеры извлечения информации.
Проверьте технические детали и модель на обнимающемся лицеПолем Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 95K+ ML Subreddit и подписаться на Наша информационный бюллетеньПолем

ASIF Razzaq является генеральным директором Marktechpost Media Inc. как дальновидного предпринимателя и инженера, ASIF стремится использовать потенциал искусственного интеллекта для социального блага. Его последнее усилие-запуск медиа-платформы искусственного интеллекта, Marktechpost, которая выделяется благодаря глубокому освещению машинного обучения и новостей о глубоком обучении, которое является технически обоснованным и легко понятным для широкой аудитории. Платформа может похвастаться более чем 2 миллионами ежемесячных просмотров, иллюстрируя свою популярность среди зрителей.