От галлюцинаций до оборудования: уроки из реального проекта компьютерного видения ушли в сторону


Присоединяйтесь к событию, надежно со стороны корпоративных лидеров в течение почти двух десятилетий. VB Transform собирает людей, строящих настоящую корпоративную стратегию ИИ. Узнать больше


Проекты компьютерного зрения редко идут точно так же, как и планировалось, и это не было исключением. Идея была проста: построить модель, которая могла бы посмотреть на фотографию ноутбука и определить любые физические повреждения – такие вещи, как треснутые экраны, отсутствующие ключи или разбитые петли. Это казалось прямым использованием для моделей изображений и больших языковых моделей (LLMS), но это быстро стало чем -то более сложным.

По пути мы столкнулись с проблемами с галлюцинациями, ненадежными результатами и изображениями, которые даже не были ноутбуками. Чтобы разрешить их, мы нетипично применили актерскую структуру – не для автоматизации задач, а для повышения производительности модели.

В этом посте мы будем проходить через то, что мы пробовали, что не сработало, и в качестве комбинации подходов в конечном итоге помогло нам создать что -то надежное.

Где мы начали: монолитная мотивация

Наш первоначальный подход был достаточно стандартным для мультимодальной модели. Мы использовали одно, большое обещание, чтобы пройти через изображение в LLM, способствующем изображению, и попросили его определить видимый урон. Эта монолитная мотивационная стратегия проста для выполнения и работает достойно чистых, хорошо определенных задач. Но реальные данные редко играют вместе.

Мы встретили три важных вещах рано:

  • Галлюцинации: Модель иногда изобретает ущерб, который не существовал или неверно то, что она увидела.
  • Обнаружение мусораУ него не было надежного способа размытия изображений, которые даже не были ноутбуками, такими как картинки столов, стен или людей, которые иногда скользили и получали бессмысленные отчеты о повреждении.
  • Непоследовательная точность: Комбинация этих проблем сделала модель слишком ненадежной для оперативного использования.

Это был тот момент, когда стало ясно, что нам нужно повторить.

Первый ремонт: смешивание разрешений изображения

Мы заметили, что качество изображения повлияло на результат модели. Пользователи загрузили все виды изображений, от резкого и высокого разрешения до размытия. Это привело нас к исследованиям, которое подчеркивает, как разрешение изображения влияет на модели глубокого обучения.

Мы тренировали и протестировали модель сочетанием изображений с высоким и низким разрешением. Идея заключалась в том, чтобы сделать модель более устойчивой к широкому диапазону качеств изображений, с которой он столкнулся на практике. Это помогло улучшить последствия, но основные дела галлюцинации и обработки мусора сохранялись.

Мультимодальная экскурсия: только текстовый LLM Goes MultiModal

Побуждается недавними экспериментами по сочетанию заголовка изображения с текстом только LLM-OJ-подобным методом, охваченной в ЛотТам, где подписи генерируются изображениями, а затем интерпретируются языковой моделью, мы решили попробовать это.

Вот как это работает:

  • LLM начинается с создания нескольких возможных подписей для изображения.
  • Другая модель, называемая мультимодальной входной моделью, контролирует, насколько хорошо каждая подпись подходит для изображения. В этом случае мы использовали Siglip, чтобы отметить сходство между изображением и текстом.
  • Система поддерживает лучшие подписи на основе этих баллов.
  • LLM использует эти лучшие описания, чтобы написать новые, пытаясь приблизиться к тому, что на самом деле показывает изображение.
  • Он повторяет этот процесс до тех пор, пока подписи не перестанут улучшаться, или не влияет на фиксированный предел.

Во время умного теоретически этот подход представил новые проблемы для нашего использования:

  • Постоянные галлюцинации: Сами подписи иногда включали воображаемый ущерб, о котором LLM с уверенно сообщил.
  • Неполное покрытие: Даже с многочисленными подписями некоторые вещи полностью отсутствовали.
  • Увеличение сложности, мало преимуществ: Добавленные шаги более сложны в системе без надежного превышения предыдущего договоренности.

Это был интересный эксперимент, но в конечном итоге не решение.

Творческое использование боевых рамок

Это был поворотный момент. В то время как агентские рамки обычно используются для переходов оркестровых задач (например, агенты координируют приглашения на календарь или действия обслуживания клиентов), мы задавались вопросом, может ли разрушение интерпретируемого изображения задачи для меньших, специальных агентов может помочь.

Мы построили фреймворк -агент, структурированную следующим образом:

  • Оркестровый агентОн проверил изображение и идентифицировано, какие портативные компоненты были видны (экран, клавиатура, шасси, порты).
  • Компонентные агенты: Выделенные агенты осматривали каждый компонент на наличие конкретных типов повреждений; Например, один для треснутых экранов, другой для пропущенных ключей.
  • Обнаружение агента обнаружения: Отдельный агент мерцал, если изображение было даже ноутбуком в первую очередь.

Этот модульный, управляемый задачами подход дал гораздо более точные и объяснительные результаты. Галлюцинации резко упали, мусорные изображения были надежно мерцали, и задача каждого агента была проста и достаточно сфокусирована для управления качеством.

Слепые пятна: компромиссы фактического доступа

Как бы это ни было, это было не идеально. Появились два основных ограничения:

  • Повышенная задержка: Запуск многочисленных последовательных агентов, добавленных ко времени вывода.
  • Покрывать недостатки: Агенты могли обнаружить только то, что они были явно запрограммированы на поиск. Если изображение показало что -то неожиданное, что ни одному агенту не было поручено идентифицировать, оно проходило бы развернутым.

Нам нужен был способ сбалансировать точность с покрытием.

Гибридное решение: объединение действий и монолитных подходов

Чтобы преодолеть пробелы, мы создали гибридную систему:

  1. А Фактическая структура Сначала запустите, обрабатывая точное обнаружение известных типов повреждений и мусорных изображений. Мы ограничили количество агентов наиболее важными для улучшения задержки.
  2. Тогда, а Монолитное изображение LLM Сканировал изображение всего остального, которое агенты могли пропустить.
  3. Наконец мы Хорошо настроенный модель Использование комбинированного набора изображений для вариантов использования случаев, таких как часто сообщаемые поврежденные сцены, для дальнейшего повышения точности и надежности.

Эта комбинация дала нам точность и объяснение активного расположения, широкое охват монолитной мотивации и ускорение доверия предполагаемой конфигурации.

Что мы узнали

Некоторые стали ясны, когда мы завершили этот проект:

  • Агентные рамки более универсальны, чем они получают кредит за: Хотя они обычно связаны с управлением работой, мы обнаружили, что они могут значительно ускорить производительность модели при применении структурированным, модульным способом.
  • Смешайте разные подходы, избивая только один: Комбинация точного, агентского обнаружения на основе наряду с широким охватом LLMS, плюс некоторая тонкая конфигурация, где она была наиболее важной, дала нам гораздо более надежные результаты, чем любой сам отдельный метод.
  • Визуальные модели склонны к галлюцинациям: Даже более продвинутые договоренности могут приступить к выводам или увидеть вещи, которых не существует. Это нуждается в продуманном систематическом проекте, чтобы сохранить эти ошибки.
  • Разнообразие качества изображения имеет значение: Обучение и тестирование как с четкими изображениями высокого разрешения, так и с ежедневным, более низкое качество помогло модели оставаться устойчивой, когда они сталкиваются с непредсказуемыми, реальными фотографиями.
  • Вам нужен способ поймать картинки мусора: Выделенный чек на мусор или не связанные изображения была одним из самых простых изменений, которые мы внесли, и это оказало необычайное влияние на общую надежность системы.

Последние мысли

Что началось как простая идея, используя подсказку LLM для обнаружения физического повреждения на изображениях ноутбуков, быстро превратилось в гораздо более глубокий эксперимент в сочетании различных методов ИИ для решения непредсказуемых, реальных проблем. Попутно мы поняли, что некоторые из самых полезных инструментов изначально не были разработаны для такого рода работы.

Агентные рамки, часто рассматриваемые как утилиты рабочих процессов, оказались на удивление эффективными, когда они отталкивали для таких задач, как структурированное вредное обнаружение и фильтрация изображений. С некоторым творчеством они помогли нам создать систему, которая была не просто более правильной, но и легче понять и управлять на практике.

Шрути Тивари является менеджером по производству ИИ в Dell Technologies.

Вадирадж Кулкарни – ученый для данных Dell Technologies.


Source link
Scroll to Top