想像一個世界,我們只能通過分析一系列字母來預測生活的行為。這不是科幻世界或魔術世界,而是科學家多年來一直在努力實現這一目標的現實世界。這些序列由四個核苷酸(A,T,C和G)組成,其中包含地球上生命的基本指令,從最小的微生物到最大的哺乳動物。解碼這些序列有可能解開復雜的生物過程,從而改變了個性化醫學和環境可持續性等領域。
但是,儘管潛力巨大,但即使是最簡單的微生物基因組也是一項高度複雜的任務。這些基因組由數百萬個DNA鹼基對組成,這些DNA鹼基對調節了DNA,RNA和蛋白質之間的相互作用,這是分子生物學中心教條中的三個關鍵要素。從單個分子到整個基因組,這種複雜性存在於多個層次上,創造了廣泛的遺傳信息領域,這些信息在數十億年的範圍內進化出來。
傳統的計算工具一直在努力處理生物序列的複雜性。但是,隨著生成AI的興起,現在可以擴展數万億個序列,並了解跨令牌序列的複雜關係。在這一進步的基礎上,ARC Institute,Stanford University和Nvidia的研究人員一直在努力構建一個可以理解生物學序列的AI系統,例如大語言模型,可以理解人類文本。現在,他們通過創建一個模型來捕捉中心教條的多模式性質和進化的複雜性,從而做出了開創性的發展。從單個分子到整個基因組,這種創新可能導致預測和設計新的生物序列。在本文中,我們將探討該技術如何運作,其潛在應用,面臨的挑戰以及基因組建模的未來。
EVO 1:基因組建模的開創性模型
這項研究在2024年末引起了人們的關注,當時NVIDIA及其合作者引入了EVO 1,EVO 1是一種開創性的模型,用於分析和生成跨DNA,RNA和蛋白質的生物學序列。該模型接受了270萬個原核生物和噬菌體基因組的培訓,總共有3000億個核苷酸令牌,該模型著重於整合分子生物學的中心教條,對遺傳信息從DNA到RNA到RNA到蛋白質的流動進行了建模。它的條紋架構是一種使用卷積過濾器和門的混合模型,有效地處理了高達131,072個令牌的長篇小說。該設計使EVO 1可以將小序列變化與更廣泛的系統範圍和生物層面的效果聯繫起來,從而彌合了分子生物學和進化基因組學之間的差距。
EVO 1是生物進化計算建模的第一步。它通過分析遺傳序列中的進化模式成功地預測了分子相互作用和遺傳變異。但是,由於科學家旨在將其應用於更複雜的真核基因組,因此該模型的局限性變得很明顯。 EVO 1在長DNA序列上與單核苷酸分辨率鬥爭,並且對於較大的基因組而言,計算量昂貴。這些挑戰導致需要更先進的模型,能夠跨多個尺度整合生物學數據。
EVO 2:基因組建模的基礎模型
在從EVO-1中學到的教訓的基礎上,研究人員於2025年2月推出了EVO 2,推動了生物序列建模領域。該模型受過驚人的9.3萬億DNA鹼基對訓練,已經學會了理解和預測生命所有領域的遺傳變異的功能後果,包括細菌,古細菌,植物,植物,真菌和動物。 EVO-2的模型具有超過400億個參數,可以處理前所未有的序列長度,最高為100萬個鹼基對,這是以前的模型,包括EVO-1,無法管理。
EVO 2與其前身區別開來的是,它不僅可以對DNA序列進行建模,還可以對DNA,RNA和蛋白質之間的相互作用進行建模,即分子生物學的整個中心教條。這使EVO 2可以準確地預測遺傳突變的影響,這是從最小的核苷酸變化到更大的結構變化的影響,以前是不可能的。
EVO 2的一個關鍵特徵是其強零預測能力,它使其能夠預測突變的功能效應而無需特定於任務的微調。例如,它通過單獨分析DNA序列來準確地對臨床上顯著的BRCA1變體進行分類,這是乳腺癌研究中的關鍵因素。
生物分子科學的潛在應用
EVO 2的功能開放了基因組學,分子生物學和生物技術方面的新領域。一些最有前途的應用程序包括:
- 醫療保健和藥物發現: EVO 2可以預測哪些基因變異與特定疾病有關,從而有助於靶向療法的發展。例如,在具有與乳腺癌相關的基因BRCA1變異的測試中,EVO 2在預測哪些突變是良性與潛在的病原體方面的精度超過90%。這種見解可以加快新藥物和個性化治療的開發。
- 合成生物學和基因工程: EVO 2產生整個基因組的能力為設計具有所需特徵的合成生物提供了新的途徑。研究人員可以將EVO 2利用為具有特定功能的工程基因,推進生物燃料,環保化學物質和新型治療學的發展。
- 農業生物技術:它可用於設計具有改善的特徵(例如耐旱或有害生物彈性)的轉基因作物,有助於全球糧食安全和農業可持續性。
- 環境科學: EVO 2可以應用於設計生物燃料或工程師蛋白質,這些蛋白質破壞了油或塑料等環境污染物,從而有助於可持續性。
挑戰和未來的方向
儘管具有令人印象深刻的功能,EVO 2仍面臨挑戰。一個關鍵的障礙是培訓和運行模型所涉及的計算複雜性。有一個上下文窗口為100萬個基對和400億個參數,EVO 2需要有效運行的大量計算資源。這使得較小的研究團隊很難完全利用其潛力,而無需獲得高性能計算基礎架構。
此外,儘管EVO 2在預測遺傳突變效應方面表現出色,但仍有很多需要了解如何將其從頭開始設計新型生物系統的知識。產生現實的生物序列只是第一步。真正的挑戰在於了解如何利用這種能力來創建功能可持續的生物系統。
AI基因組學的可訪問性和民主化
EVO 2最令人興奮的方面之一是其開源可用性。為了使對高級基因組建模工具的訪問民主化,NVIDIA已公開提供了模型參數,培訓代碼和數據集。這種開放訪問的方法使來自世界各地的研究人員可以探索和擴展EVO 2的能力,從而加速整個科學界的創新。
底線
EVO 2是基因組建模的重大進步,使用AI解碼複雜的生命遺傳語言。它的DNA序列建模及其與RNA和蛋白質的相互作用的能力為醫療保健,藥物發現,合成生物學和環境科學的新可能性開闢了可能性。 EVO 2可以預測遺傳突變並設計新的生物學序列,從而為個性化醫學和可持續解決方案提供變革性的潛力。但是,其計算複雜性帶來了挑戰,尤其是對於較小的研究團隊。通過製作EVO 2開源,NVIDIA使全世界的研究人員能夠探索和擴展其能力,從而推動基因組學和生物技術的創新。隨著技術的不斷發展,它具有重塑生物科學和環境可持續性的未來的潛力。