Обучение ИИ моделирует широкие мазки, чтобы наброски больше, как люди, которые делают | MIT News

Когда вы пытаетесь общаться или понимать идеи, слова не всегда делают свое дело. Иногда более эффективный подход заключается в том, чтобы сделать простой набросок этой концепции – например, диаграмма схемы может помочь понять, как работает система.

Но что, если искусственный интеллект может помочь нам изучить эти визуализации? В то время как эти системы обычно опытны в создании реалистичных картин и мультипликационных рисунков, многие модели не могут отражать сущность набросков: его инсульт, итеративный процесс, который помогает человеку мозговой штурм и редактирует, как они хотят представлять свои идеи.

Новая система рисования из лаборатории компьютерных наук и искусственного интеллекта MIT (CSAIL) и Стэнфордского университета может нарисовать больше, как мы. В их методе, называемом «Sketchagent», используется мультимодальная языковая модель – системы ИИ, которые обучаются тексту и изображениям, такие как сонет Claude 3.5 от Anpropic, – чтобы превратить подсказки естественного языка в эскизы за несколько секунд. Например, он может рисовать дом самостоятельно или через сотрудничество, рисовать с человеком или включать ввод текстового ввода, чтобы набросать каждую часть отдельно.

Исследователи показали, что Sketchagent может создавать абстрактные чертежи разнообразных концепций, таких как робот, бабочка, ДНК -спираль, блок -схема и даже Сиднейский оперный театр. Однажды инструмент может быть расширен в интерактивную художественную игру, которая помогает учителям и исследователям диаграммы сложных концепций или дать пользователям быстрый урок рисования.

CSAIL Postdoc Yael Vinker, который является ведущим автором статьи, представляющей SketchAgent, отмечает, что система вводит для людей более естественный способ общения с ИИ.

«Не все знают о том, сколько они рисуют в своей повседневной жизни. Мы можем нарисовать наши мысли или идеи мастерской с помощью эскизов», – говорит она. «Наш инструмент направлен на эмулирование этого процесса, делая модели мультимодальных языков более полезными, помогая нам визуально выражать идеи».

Sketchagent учит, что эти модели проводят инсульт, без обучения по каким-либо данным. Системе был приведен пример того, как будет нарисовано такие вещи, как дом, причем каждый удар был помечен в соответствии с тем, что он представлял, таким как седьмой удар, является прямоугольником, помеченным как «входная дверь», чтобы помочь модели обобщить в новые концепции.

Винкер написал статью вместе с тремя филиалами CSAIL – Postdoc Тамар Ротт Шахам, исследователь бакалавриата Алекс Чжао и профессор MIT Антонио Торралба – а также исследовательский научный сотрудник Стэнфордского университета Кристина Чжэн и доцент Джудит Эллен Фан. В этом месяце они представит свою работу на конференции 2025 года по компьютерному видению и распознаванию образцов (CVPR).

Оценка набросков ИИ

В то время как модели текста до изображения, такие как Dall-E 3, могут создавать интригующие чертежи, им не хватает критического компонента набросков: спонтанного, творческого процесса, где каждый удар может повлиять на общий дизайн. С другой стороны, рисунки SketchAgent смоделированы как последовательность инсультов, которые кажутся более естественными и плавными, как человеческие эскизы.

Предыдущие работы также имитировали этот процесс, но они обучали свои модели на наборе данных, насыщенных человеком, которые часто ограничены по масштабу и разнообразию. Вместо этого Sketchagent использует предварительно обученные языковые модели, которые знают о многих концепциях, но не знают, как наброски. Когда исследователи преподавали языковые модели этого процесса, Sketchagent начал набросать различные концепции, на которые он явно не обучался.

Тем не менее, Винкер и ее коллеги хотели посмотреть, активно ли Sketchagent активно работает с людьми над процессом наброска, или он работал независимо от своего партнера по рисованию. Команда проверила свою систему в режиме сотрудничества, где человеческая и языковая модель работают, чтобы привлечь конкретную концепцию в тандеме. Удаление вклада SketchAgent показало, что удары их инструмента были необходимы для окончательного рисунка. Например, в рисунке парусной лодки удаление искусственных ударов, представляющих мачту, сделало общий эскиз неузнаваемым.

В другом эксперименте исследователи CSAIL и Stanford подключили различные мультимодальные языковые модели к SketchAgent, чтобы увидеть, что может создать наиболее узнаваемые наброски. Их модель по умолчанию, Claude 3.5 Sonnet, создала наиболее человеческую векторную графику (по сути, текстовые файлы, которые могут быть преобразованы в изображения с высоким разрешением). Он превзошел модели, такие как GPT-4O и Claude 3 Opus.

«Тот факт, что Sonnet Claude 3.5 превзошел другие модели, такие как GPT-4O и Claude 3 Opus, предполагает, что эта модель обрабатывает и генерирует информацию, связанную с визуальной, по-разному»,-говорит соавтор Тамар Ротт Шахам.

Она добавляет, что SketchAgent может стать полезным интерфейсом для сотрудничества с моделями ИИ помимо стандартной текстовой связи. «Поскольку модели продвигаются в понимании и генерировании других методов, таких как эскизы, они открывают новые способы для пользователей, чтобы выразить идеи и получать ответы, которые кажутся более интуитивными и похожими на человека»,-говорит Шахам. «Это может значительно обогатить взаимодействие, делая ИИ более доступным и универсальным».

В то время как мастерство рисования Sketchagent является многообещающим, оно пока не может сделать профессиональные наброски. Он делает простые представления концепций, использующих фигурные фигуры и рисования, но изо всех сил пытается рисовать такие вещи, как логотипы, предложения, сложные существа, такие как единороги и коровы, и конкретные человеческие фигуры.

Время от времени их модель также неправильно поняла намерения пользователей в совместных чертежах, например, когда Sketchagent привлек кролика с двумя головами. Согласно Винкере, это может быть связано с тем, что модель разбивает каждую задачу на более мелкие шаги (также называемая «цепью мышления»). Работая с людьми, модель создает план рисования, потенциально неверно истолковывая, какую часть этого контура способствует человеку. Исследователи могут усовершенствовать эти навыки рисования, обучаясь синтетическим данным из диффузионных моделей.

Кроме того, Sketchagent часто требует нескольких раундов, побуждающих к созданию человеческих рисунков. В будущем команда стремится облегчить взаимодействие и наброски с мультимодальными языковыми моделями, включая уточнение их интерфейса.

Тем не менее, инструмент предполагает, что ИИ может привлечь разнообразные концепции, как это делают люди, с пошаговым сотрудничеством человека-аи, что приводит к более выровненным окончательным дизайнам.

Эта работа была частично поддержана Национальным научным фондом США, грантом Hoffman-Yee от Стэнфордского института ИИ, ориентированного на человека, Hyundai Motor Co., исследовательской лаборатории армии США, программы лидерства Zuckerman STEM и стипендии Viterbi.

Source link

Scroll to Top