На пути к видео генеративным моделям молекулярного мира | MIT News

По мере роста возможностей генеративных моделей ИИ вы, вероятно, видели, как они могут преобразовать простые текстовые подсказки в гиперреалистические изображения и даже расширенные видеоклипы.

Совсем недавно генеративный ИИ показал потенциал в оказании помощи химикам и биологам исследовать статические молекулы, такие как белки и ДНК. Такие модели, как Alphafold, могут предсказать молекулярные структуры для ускорения обнаружения лекарств, и, например, «Rfdiffusion» с помощью MIT может помочь в разработке новых белков. Одна из проблем, однако, заключается в том, что молекулы постоянно движутся и колеблются, что важно для моделирования при построении новых белков и лекарств. Моделирование этих движений на компьютере с использованием физики – методика, известной как молекулярная динамика, – может быть очень дорогим, что требует миллиардов временных шагов на суперкомпьютерах.

В качестве шага к более эффективному моделированию этого поведения, лаборатории компьютерных наук и искусственного интеллекта MIT (CSAIL) и департамента математики, исследователи разработали генеративную модель, которая учится на предыдущих данных. Система команды, называемая MDGEN, может взять рамку 3D -молекулы и имитировать, что будет дальше, как видео, подключить отдельные кадры и даже заполнять недостающие рамки. Нажав «кнопку воспроизведения» по молекулам, инструмент может потенциально помочь химикам разрабатывать новые молекулы и внимательно изучить, насколько хорошо их прототипы лекарственного средства для рака и других заболеваний будут взаимодействовать с молекулярной структурой, на которую он намерен влиять.

Автор со-ведущего Боуэн Цзин С.М.22 говорит, что Mdgen является ранним доказательством концепции, но это предполагает начало захватывающего нового направления исследования. «В начале генеративных моделей ИИ производили несколько простых видео, таких как мигающий человек или собака, виляющая хвостом», – говорит Джин, аспирант в CSAIL. «Перенесемся на несколько лет, и теперь у нас есть удивительные модели, такие как Сора или Veo, которые могут быть полезны во всех интересных способах. Мы надеемся привить аналогичное видение молекулярного мира, где динамические траектории являются видео. Например, вы можете дать модели первый и 10 -й кадр, и она будет анимировать то, что находится между ними, или может удалить шум из молекулярного видео и угадать, что было скрыто ».

Исследователи говорят, что MDGEN представляет собой сдвиг парадигмы от предыдущих сопоставимых работ с генеративным ИИ таким образом, чтобы обеспечить гораздо более широкие варианты использования. Предыдущие подходы были «авторегрессивными», что означает, что они полагались на предыдущий неподвижный кадр, чтобы построить следующий, начиная с самого первого кадра для создания последовательности видео. Напротив, MDGen генерирует кадры параллельно с диффузией. Это означает, что MDGen может использоваться, например, подключить кадры в конечных точках или «upsAmple» низкую траекторию каркаса в дополнение к нажатию воспроизведения на начальном кадре.

Эта работа была представлена ​​в статье, показанной на конференции по системам обработки нейронной информации (Neurips) в декабре этого года. Прошлым летом он был награжден за его потенциальное коммерческое влияние на Международную конференцию по мастерской MLA4LMS Machine Learning.

Некоторые маленькие шаги вперед для молекулярной динамики

В экспериментах Цзин и его коллеги обнаружили, что моделирование MDGEN было аналогично управлению физическим моделированием напрямую, одновременно продуцируя траектории в 10-100 раз быстрее.

Команда впервые проверила способность своей модели принять 3D -кадр молекулы и генерировать следующие 100 наносекунд. Их система соединила последовательные 10-наносекундные блоки для этих поколений, чтобы достичь этой продолжительности. Команда обнаружила, что MDGEN смог конкурировать с точностью базовой модели, одновременно завершив процесс генерации видео примерно за минуту – всего лишь доля из трех часов, в которой потребовалась базовая модель для моделирования той же динамики.

Когда он получил первую и последнюю кадр одной наносекундной последовательности, MDGEN также смоделировал шаги между ними. Система исследователей продемонстрировала степень реализма в более чем 100 000 различных прогнозов: она моделировала более вероятные молекулярные траектории, чем ее базовые показатели на клипах короче 100 наносекунд. В этих тестах MDGEN также указал на способность обобщать пептиды, которых раньше не видел.

Возможности MDGEN также включают в себя моделирование кадров в рамках, «поднимаясь», шаги между каждой наносекундой, чтобы более адекватно улавливать более быстрые молекулярные явления. Это может даже «непредвзято» структуры молекул, восстанавливая информацию о них, которая была удалена. Эти особенности в конечном итоге могут быть использованы исследователями для проектирования белков на основе спецификации того, как должны двигаться разные части молекулы.

Играя с динамикой белка

Цзин и автор соавтора Ханнес Старк говорят, что MDGen является ранним признаком прогресса в достижении более эффективной генерации молекулярной динамики. Тем не менее, им не хватает данных, чтобы сделать эти модели непосредственно эффективными в проектировании лекарств или молекул, которые вызывают движения, которые химики захотят видеть в целевой структуре.

Исследователи стремятся масштабировать MDGen от моделирования молекул до прогнозирования того, как белки будут изменяться с течением времени. «В настоящее время мы используем игрушечные системы», – говорит Старк, также аспирант в CSAIL. «Чтобы улучшить прогнозирующие возможности MDGEN для моделирования белков, нам нужно опираться на текущую архитектуру и доступные данные. У нас пока нет репозитория масштаба на YouTube для этих типов симуляций, поэтому мы надеемся разработать отдельный метод машинного обучения, который может ускорить процесс сбора данных для нашей модели ».

На данный момент MDGEN представляет обнадеживающий путь вперед в моделировании молекулярных изменений, невидимых для невооруженного глаза. Химики могут также использовать эти моделирование, чтобы углубиться в поведение медицины прототипов таких заболеваний, как рак или туберкулез.

«Методы машинного обучения, которые учится на физическом моделировании, представляют собой растущую новую границу в искусственном интеллекте для науки», – говорит Бонни Бергер, профессор математики MIT Simons, главный следователь CSAIL и старший автор в статье. «MDGen – это универсальная, многоцелевая структура моделирования, которая соединяет эти два домена, и мы очень рады делиться нашими ранними моделями в этом направлении».

«Отбор реалистичных путей перехода между молекулярными государствами является серьезной проблемой», – говорит коллега по старшему питанию Томми Джаккола, который является профессором электротехники и компьютерных наук и Института данных, систем и общества, и Института данных, систем и общества и Полем «Эта ранняя работа показывает, как мы могли бы начать решать такие проблемы, переведя генеративное моделирование на полные прогоны симуляции».

Исследователи по всей области биоинформатики ознаменовали эту систему для ее способности имитировать молекулярные преобразования. «Моделирование молекулярной динамики MDGEN как совместное распределение структурных встраиваний, захватывая молекулярные движения между дискретными временными шагами», – говорит доцент Технологического университета Чалмерса Саймон Олссон, который не участвовал в исследовании. «Используя цель обучения в масках, MDGEN позволяет инновационным случаям использования, таких как выборка пути перехода, проведение аналогий для траекторий внедрения, соединяющих метастабильные фазы».

Работа исследователей над MDGEN была частично поддержана Национальным институтом общих медицинских наук, Министерство энергетики США, Национального научного фонда, машинного обучения для фармацевтического открытия и консорциума синтеза Абдул Латиф Джамель для машинного обучения в области здравоохранения, агентства по снижению угроз оборонной угрозы и Агентству по продвинутым исследованиям в области обороны.

Source link

Scroll to Top