Google DeepMind выпускает альфагеном: модель глубокого обучения, которая может более всесторонне предсказать влияние отдельных вариантов или мутаций в ДНК

Единая модель глубокого обучения, чтобы понять геном

Google DeepMind обнародовал Альфагеномновая структура глубокого обучения, предназначенная для прогнозирования регуляторных последствий изменений последовательностей ДНК в широком спектре биологических модальностей. Альфагеном выделяется путем принятия длинных последовательностей ДНК-до 1 мегабазы-и вывода прогнозов высокого разрешения, таких как события сплайсинга на уровне базового уровня, доступность хроматина, экспрессия генов и связывание фактора транскрипции.

Построенный для устранения ограничений в более ранних моделях, альфагеном соединяет разрыв между давней входной обработкой и точностью на уровне нуклеотидов. Он объединяет прогнозирующие задачи по 11 модальностям выхода и обрабатывает более 5000 геномных треков человека и 1000+ мышей. Этот уровень мультимодальной способности позиционирует альфагеном как одну из наиболее полных моделей последовательности к функции в геномике.

Техническая архитектура и методология обучения

Альфагеном принимает А архитектура в стиле U-Net с ядром трансформатора. Он обрабатывает последовательности ДНК в параллелизированных кусках 131 КБ в устройствах TPUV3, что позволяет с учетом контекстных предсказаний, разрешенных базовых пар. Архитектура использует двумерные встраивания для моделирования пространственного взаимодействия (например, контактных карт) и одномерные встроения для линейных геномных задач.

Обучение включало два этапа:

  1. Предварительное обучение: Использование специфичных для сгиба и всех моделей для прогнозирования наблюдаемых экспериментальных треков.
  2. Дистилляция: Студенческая модель учится на моделях учителей, чтобы обеспечить последовательные и эффективные прогнозы, обеспечивая быстрый вывод (~ 1 секунду на вариант) на графических процессорах, таких как NVIDIA H100.

Производительность между тестами

Альфагеном был строго сравнивается с специализированными и мультимодальными моделями в 24 генома -треке и 26 задачах прогнозирования эффекта. Он превзошел или соответствует современным моделям в оценках 22/24 и 24/26 соответственно. В сплайсингах, экспрессии генов и связанных с хроматином задач он последовательно превзошел специализированные модели, такие как Spliceai, Borzoi и Chrombpnet.

Например:

  • Сплайсинг: Альфагеном является первым, кто одновременно моделирует сайты сплайсинга, использование сайта сплайсинга и соединения сплайсинга с разрешением 1 п.н. Он превзошел панголин и сплициай на 6 из 7 тестов.
  • EQTL прогноз: Модель достигла 25,5% относительного улучшения в прогнозировании направления эффекта по сравнению с Borzoi.
  • Доступность хроматина: Он продемонстрировал сильную корреляцию с экспериментальными данными DNASE-Seq и ATAC-Seq, опередив Chrombpnet на 8-19%.

Прогноз эффекта варианта только от последовательности

Одна из ключевых сильных сторон альфагенома заключается в Прогноз эффекта варианта (VEP)Полем Он обрабатывает нулевые и контролируемые задачи VEP, не полагаясь на данные об генетике популяции, что делает его надежным для редких вариантов и дистальных регуляторных регионов. При едином выводе альфагеном оценивает, как мутация может влиять на паттерны сплайсинга, уровни экспрессии и состояние хроматина – все в мультимодальном способе.

Способность модели воспроизвести клинически наблюдаемые сплайсингинапример, пропуск экзона или новое образование соединения, иллюстрирует его полезность в диагностике редких генетических заболеваний. Он точно смоделировал эффекты делеции 4BP в гене DLG1, наблюдаемое в образцах GTEX.

Применение в анализе варианта интерпретации и заболеваний GWAS

Альфагеном способствует интерпретации сигналов GWAS путем назначения направленности влияния варианта на экспрессию генов. По сравнению с методами колокализации, такими как Coloc, альфагеном обеспечивал комплементарный и более широкий охват, что требует в 4 раза больше локусов в самом низком квинтиле MAF.

Это также продемонстрировало полезность в геномике рака. При анализе некодирующих мутаций вверх по течению от онкогена TAL1 (связанный с T-ALL) предсказания альфагенома соответствовали известным эпигеномным изменениям и механизмам активации экспрессии, подтверждая его способность оценивать мутации усиления функции в регуляторных элементах.

TL; DR

Альфагеном от Google DeepMind-мощная модель глубокого обучения, которая предсказывает влияние мутаций ДНК на множественные регуляторные методы при разрешении базовой пары. Он сочетает в себе моделирование последовательностей дальнего действия, мультимодальный прогноз и выход высокого разрешения в единой архитектуре. Охихая специализированные и универсальные модели по 50 критериям, альфагеном значительно улучшает интерпретацию некодирующих генетических вариантов и теперь доступен в предварительном просмотре для поддержки исследований геномики по всему миру.


Проверьте Документ, технические детали и страница GitHub. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 100K+ ML Subreddit и подписаться на Наша информационный бюллетеньПолем


ASIF Razzaq является генеральным директором Marktechpost Media Inc. как дальновидного предпринимателя и инженера, ASIF стремится использовать потенциал искусственного интеллекта для социального блага. Его последнее усилие-запуск медиа-платформы искусственного интеллекта, Marktechpost, которая выделяется благодаря глубокому освещению машинного обучения и новостей о глубоком обучении, которое является технически обоснованным и легко понятным для широкой аудитории. Платформа может похвастаться более чем 2 миллионами ежемесячных просмотров, иллюстрируя свою популярность среди зрителей.

Source link

Scroll to Top