微軟研究人員介紹了BioEMU-1:一種深度學習模型,可以在單個GPU上每小時產生數千種蛋白質結構

蛋白質是幾乎所有生物過程的基本組成部分,從催化反應到細胞內傳輸信號。儘管諸如Alphafold之類的進步改變了我們預測靜態蛋白質結構的能力,但仍然存在一個基本挑戰:了解蛋白質的動態行為。蛋白質自然存在是基於其功能的互換構象的合奏。傳統的實驗技術,例如冷凍電子顯微鏡或單分子研究,僅對這些動作的快照進行捕捉,並且通常需要大量的時間和資源。同樣,分子動力學(MD)模擬隨著時間的推移提供了對蛋白質行為的詳細見解,但計算成本高。因此,需要一種高效,準確的方法來建模蛋白質動力學,這是至關重要的,尤其是在諸如了解這些運動可以帶來更好設計策略的藥物發現和蛋白質工程等領域。

微軟研究人員推出了BioEMU-1,這是一種深度學習模型,旨在每小時產生數千種蛋白質結構。 BioeMu-1不僅依靠傳統的MD模擬,而是採用基於擴散的生成框架來模仿蛋白質構象的平衡集合。該模型結合了來自靜態結構數據庫,廣泛的MD模擬的數據以及蛋白質穩定性的實驗測量。這種方法使生物EMU-1可以產生各種蛋白質結構,從而捕獲大規模重排和微妙的構象轉移。重要的是,該模型以計算效率生成這些結構,使其可用於日常使用,從而提供一種新工具來研究蛋白質動力學,而無需壓倒性的計算需求。

技術細節

BioEMU-1的核心在於它將先進的深度學習技術與蛋白質生物物理學的完善原理整合在一起。它首先使用源自AlphaFold Evoformer的方法編碼蛋白質的序列。然後,通過“逆轉”受控的噪聲過程的脫氧擴散模型來處理該編碼,從而產生一系列合理的蛋白質構象。一個關鍵的技術改進是使用二階集成方案,該方案允許模型以更少的步驟達到高保真輸出。這種效率意味著,在單個GPU上,根據蛋白質大小,可以在幾分鐘到幾個小時內產生多達10,000個獨立的蛋白質結構。

使用異質數據源的組合仔細校準該模型。通過對MD仿真數據和蛋白質穩定性的實驗測量進行微調,BioEMU-1能夠以接近實驗精度的精度來估計不同構型的相對自由能。這種周到的不同數據類型的整合不僅可以提高模型的可靠性,而且還可以適應多種蛋白質和條件。

結果和見解

已經通過與傳統的MD模擬和實驗基准進行了比較來評估BioEMU-1。該模型證明了其捕獲各種蛋白質構象變化的能力。例如,它準確地重現了酶等酶激酶等酶的開放性轉變,其中蛋白質在不同的功能態之間移動。它還有效地模擬了更多微妙的變化,例如Ras P21等蛋白質中的局部展開事件,該事件在細胞信號中起著關鍵作用。此外,BioEMU-1可以揭示短暫的“隱秘”結合口袋,這些口袋通常很難用常規方法檢測到,從而提供了細微的蛋白質表面圖片,可以為藥物設計提供信息。

與廣泛的MD模擬相比,生物EMU-1產生的自由能景觀的平均絕對誤差小於1 kcal/mol。此外,計算成本大大降低 – 通常需要小於單個GPU小時的典型實驗,這與MD模擬有時需要數千個GPU小時相關。這些結果表明,生物EMU-1可以作為探索蛋白質動力學的有效,有效的工具,提供既精確又易於獲取的見解。

結論

BioEMU-1標誌著蛋白質動力學計算研究中的有意義的進步。通過將各種數據源與深度學習框架相結合,它提供了一種實用方法,可以以傳統MD模擬的成本和時間的一小部分生成詳細的蛋白質合奏。該模型不僅增強了我們對蛋白質如何響應各種條件的變化的理解,而且還支持藥物發現和蛋白質工程中更明智的決策。

儘管BioEMU-1目前專注於在特定條件下的單蛋白鏈,但其設計為將來的擴展奠定了基礎。借助其他數據和進一步的改進,該模型最終可以適應更複雜的系統,例如膜蛋白或多蛋白質複合物,並結合其他環境參數。 Bioemu-1以目前的形式為研究人員提供了平衡,有效的工具,可更深入地了解控制蛋白質功能的微妙動力學。

總而言之,BioeMu-1是現代深度學習與傳統生物物理方法的周到整合。它反映了一種仔細,測量的方法來應對蛋白質科學中長期存在的挑戰,並為未來的研究和實際應用提供了有希望的途徑。


查看 論文和技術細節。 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 80k+ ml子列數

🚨 推薦的讀取LG AI研究釋放Nexus:高級系統集成代理AI系統和數據合規性標準,以解決AI數據集中的法律問題


Aswin AK是Marktechpost的諮詢實習生。他正在印度科技學院哈拉格布爾(Kharagpur)攻讀雙重學位。他對數據科學和機器學習充滿熱情,為解決現實生活中的跨域挑戰帶來了強大的學術背景和動手經驗。

🚨推薦開源AI平台:“ Intellagent是一個開源的多代理框架,可評估複雜的對話AI系統”(已晉升)

Source link

Scroll to Top