使用AI,研究人員可以預測人類細胞中任何蛋白質的位置|麻省理工學院新聞

位於細胞錯誤部分的蛋白質可導致多種疾病,例如阿爾茨海默氏症,囊性纖維化和癌症。但是,單個人類細胞中大約有70,000種不同的蛋白質和蛋白質變體,並且由於科學家通常只能在一個實驗中測試少數幾個,因此手動識別蛋白質的位置非常昂貴且耗時。

新一代的計算技術試圖使用機器學習模型來簡化該過程,這些模型通常利用包含數千種蛋白質及其位置的數據集,這些模型通過多個細胞系進行了測量。此類數據集之一是人類蛋白質地圖集,該地圖集在40多個細胞系中分類了13,000多種蛋白質的亞細胞行為。但是,儘管如此,人類蛋白質地圖集僅探索了數據庫中所有蛋白質和細胞系的所有可能配對的0.25%。

現在,麻省理工學院,哈佛大學和麻省理工學院和哈佛大學的廣泛研究所的研究人員開發了一種新的計算方法,可以有效地探索其餘未知的空間。他們的方法可以預測任何蛋白質在任何人類細胞系中的位置,即使蛋白質和細胞從未進行過測試。

通過將蛋白質定位在單細胞水平上,而不是作為特定類型的所有細胞中的平均估計值,他們的技術比許多基於AI的方法更進一步。例如,這種單細胞定位可以在治療後在特定癌細胞中查明蛋白質的位置。

研究人員將蛋白質語言模型與一種特殊類型的計算機視覺模型相結合,以捕獲有關蛋白質和細胞的豐富細節。最後,用戶接收一個帶有突出顯示部分的單元格的圖像,指示該模型對蛋白質所在的位置的預測。由於蛋白質的定位表明其功能狀態,因此該技術可以幫助研究人員和臨床醫生更有效地診斷疾病或識別藥物靶標,同時還使生物學家能夠更好地了解複雜的生物學過程與蛋白質定位如何相關。

“您可以在計算機上進行這些蛋白質定位實驗,而無需觸摸任何實驗室的台,希望能節省數月的努力。雖然您仍然需要驗證預測,但這種技術可能像對實驗測試的最初篩選。”

TSEO由電氣工程和計算機科學系研究生(EEC)以及Broad Institute的Eric和Wendy Schmidt中心加入了紙上的紙張。寬開研究所的Yunhao Bai;以及高級研究所的助理教授,廣泛研究所的成員以及Caroline Uhler,Andrew和Erna Viterbi工程教授以及MIT數據,系統和社會(IDSS)的高級作者Fei Chen,也是ERIC和Wendys Schmidt Center和Wendys Schmidt中心的負責人,以及MIT數據,系統和社會(IDSS)的董事以及MIT和Wendy Schmidt Center的Dikistss(MIT和Wendy Schmidt Center)。該研究今天出現在 自然方法

協作模型

許多現有的蛋白質預測模型只能根據受過訓練的蛋白質和細胞數據進行預測,或者無法查明單個細胞中蛋白質的位置。

為了克服這些局限性,研究人員創建了一種兩部分的方法,用於預測未見蛋白質的亞細胞位置,稱為幼崽。

第一部分利用蛋白質序列模型來捕獲基於形成IT的氨基酸鏈的蛋白質及其3D結構的定位確定特性。

第二部分結合了圖像介紹模型,該模型旨在填充圖像的缺失部分。該計算機視覺模型著眼於三個單元格的染色圖像,以收集有關該單元格的信息,例如其類型,個體特徵以及是否處於壓力下。

PUPS使用圖像解碼器輸出顯示預測位置的突出顯示圖像,以預測每個模型創建的表示蛋白質所在的位置,以預測蛋白質在單個單元中的位置。

Tseo說:“細胞系中的不同細胞表現出不同的特徵,我們的模型能夠理解這種細微差別。”

用戶輸入形成蛋白質和三個細胞染色圖像的氨基酸的序列 – 一個用於核,一個用於微管,一個用於內質網。然後幼崽剩下的。

更深入的理解

研究人員在培訓過程中採用了一些技巧來教幼崽如何以每種模型的方式組合信息,以使其可以對蛋白質的位置進行有根據的猜測,即使它以前從未見過該蛋白質。

例如,他們在訓練期間為模型分配了一個次要任務:要明確命名定位室,例如細胞核。這是與主要的介紹任務一起完成的,以幫助模型更有效地學習。

一個很好的比喻可能是一位老師,要求他們的學生除了寫名字外還要畫花的所有部分。發現此額外的步驟可幫助該模型改善其對可能的細胞隔室的一般理解。

此外,對幼崽進行培訓的蛋白質和細胞系訓練的事實有助於它對細胞圖像蛋白中傾向於定位的位置進行更深入的了解。

幼崽甚至可以自己理解蛋白質序列的不同部分如何分別貢獻其整體定位。

張說:“大多數其他方法通常都要求您首先對蛋白質染色,因此您已經在訓練數據中看到了它。我們的方法是獨一無二的,因為它可以同時跨越蛋白質和細胞系。”

由於幼崽可以概括為看不見的蛋白質,因此它可以捕獲由不包含在人類蛋白質圖集中的獨特蛋白質突變驅動的定位變化。

研究人員證實,幼崽可以通過進行實驗室實驗並比較結果來預測未見細胞系中新蛋白的亞細胞位置。另外,與基線AI方法相比,幼崽在測試的蛋白質中平均表現出較少的預測誤差。

將來,研究人員希望增強幼犬,以便模型可以理解蛋白質 – 蛋白質相互作用,並對細胞內多種蛋白質進行定位預測。從長遠來看,他們希望使幼崽在生存的人體組織中做出預測,而不是培養的細胞。

這項研究由布羅德研究所的Eric和Wendy Schmidt中心,美國國立衛生研究院,國家科學基金會,Burroughs Welcome Fund,Searle Scholars Fund,Searle Scholars基金會,哈佛幹細胞研究所,梅爾金研究所,海軍研究所,海軍研究所和能源部。

Source link

Scroll to Top