編輯 | 蘿卜皮
淀粉樣蛋白的蛋白質(zhì)聚集是 50 多種臨床疾病的主要特征,影響著超過 5 億人的生活。這些疾病包括常見的神經(jīng)退行性疾病和最常見的癡呆癥等等。
同時,蛋白質(zhì)聚集也是生物技術(shù)中的一個重要問題,例如在酶、抗體和其他蛋白質(zhì)治療劑的生產(chǎn)中。淀粉樣蛋白在生物功能和疾病中的重要性促使人們投入了大量的研究,但其形成的決定因素和機制仍然知之甚少。
當前已知的根據(jù)序列預測聚集的方法都是在規(guī)模較小且存在偏差的實驗數(shù)據(jù)集上進行訓練和評估的。
在最新的研究中,西班牙 BIST(Barcelona Institute of Science and Technology)的研究人員通過實驗量化超過 10 萬條蛋白質(zhì)序列的聚集情況,直接解決了數(shù)據(jù)短缺的問題。
這個前所未有的數(shù)據(jù)集揭示了現(xiàn)有計算方法性能的局限性。
同時,他們用這個數(shù)據(jù)集訓練了 CANYA,一個能夠準確預測序列聚集情況的卷積-注意力混合神經(jīng)網(wǎng)絡。
研究人員采用基因組神經(jīng)網(wǎng)絡可解釋性分析,來揭示 CANYA 的決策過程和學習語法。分析結(jié)果表明,CANYA 擁有對隨機序列空間進行大規(guī)模實驗分析的強大能力,能夠可解釋且穩(wěn)健地預測聚集現(xiàn)象。
該研究以「Massive experimental quantification allows interpretable deep learning of protein aggregation」為題,于 2025 年 4 月 30 日發(fā)布在《Science Advances》。
為了直接彌補蛋白質(zhì)聚集相關(guān)的數(shù)據(jù)缺口,BIST 的研究團隊曾經(jīng)開發(fā)了一種大規(guī)模并行選擇分析方法,能夠在一次實驗中檢測和量化數(shù)千種不同的蛋白質(zhì)聚集情況。
這使研究人員能夠量化淀粉樣 β 肽(該肽的聚集是阿爾茨海默病的標志)中所有可能的替換、插入和缺失所導致的聚集速率變化。所得測量結(jié)果與體外成核動力學速率常數(shù)高度吻合。
然而,這些數(shù)據(jù)集僅限于測試單個序列細微變化的影響,限制了其用于通用模型構(gòu)建的實用性。
在最新的研究中,BIST 的研究人員將這種方法應用于更大規(guī)模,并量化了超過 100,000 個完全隨機序列肽段的聚集情況。他們使用由此產(chǎn)生的海量數(shù)據(jù)集來評估現(xiàn)有的聚集預測方法,發(fā)現(xiàn)與之前在可能存在偏差的數(shù)據(jù)集上的表現(xiàn)不同,這些方法在更廣闊的序列空間中僅具有中等程度的預測能力。
圖示:量化 >100,000 個隨機肽的聚集。(來源:論文)
鑒于先前的方法無法準確預測數(shù)據(jù)集內(nèi)的聚集狀態(tài),研究人員構(gòu)建了一個新模型來捕捉序列-聚集評分格局。
具體來說,他們開發(fā)了一個混合神經(jīng)網(wǎng)絡,稱為 CANYA(Convolution Attention Network for amYloid Aggregation,即淀粉樣蛋白聚集的卷積注意力網(wǎng)絡)。
圖示:CANYA。(來源:論文)
雖然該神經(jīng)網(wǎng)絡的解釋性不如之前的模型,但是 CANYA 的架構(gòu)不僅簡單,而且具有生物學上的啟發(fā)性。
CANYA 基于這樣的觀察:已知淀粉樣蛋白由相互作用的短序列(例如堆疊的 β 折疊)組成,并將此信息視為模型的歸納偏差。首先,將序列傳遞到卷積層以找到「基序」,然后這些基序通過注意層以了解基序的位置效應并鼓勵這些基序相互作用。
此外,研究人員根據(jù) 80 種已知淀粉樣蛋白原纖維結(jié)構(gòu)中二級結(jié)構(gòu)長度的分布來設置卷積層的濾波器長度。雖然這類模型在蛋白質(zhì)研究中不太常用,但卷積-注意力混合模型已在基因組學中得到應用,并被發(fā)現(xiàn)在尋找基序及其相互作用方面具有良好的歸納偏差。
研究人員對 CANYA 進行了 100 次訓練,使用了超過 100,000 個合成序列及其各自的聚集狀態(tài),從而了解序列聚集概況。與大規(guī)模計算密集型神經(jīng)網(wǎng)絡不同,CANYA 僅包含三層(涵蓋 17,491 個參數(shù)),在普通的 CPU 上訓練只需不到一小時。
圖示:CANYA 在各種預測任務中性能穩(wěn)定。(來源:論文)
盡管很簡單,并且只觀察到了可能序列空間的一小部分,CANYA 還是顯著改善了對保留測試序列聚集狀態(tài)的預測(NNK 實驗 1 至 3 的平均 AUROC 分別為 = 0.710、0.650、0.769),優(yōu)于之前的方法(最大 AUROC CamSol、NNK1 = 0.617、NNK2 = 0.537 和 NNK3 = 0.673)。并且 CANYA 的預測準確度明顯高于僅使用氨基酸組成或計數(shù)在同一數(shù)據(jù)集上訓練的簡單線性模型。
為了了解不同方法的性能差異,研究人員檢查了性能次佳的方法(CamSol)和 CANYA 之間的序列得分。結(jié)果表明,非聚集序列的最大差異出現(xiàn)在含有色氨酸的疏水序列中,而聚集序列的最大差異出現(xiàn)在富含半胱氨酸或天冬酰胺且脂肪族殘基較少的序列中。
這說明了探索廣闊序列空間的實用性,也表明 CANYA 能夠?qū)⑿蛄袃?nèi)的物理化學特性情境化(例如,在疏水序列中,CANYA 會在存在大分子或破壞性殘基的情況下調(diào)整其分數(shù))。
圖示:計算機實驗揭示了 CANYA 的聚集語法。(來源:論文)
至關(guān)重要的是,該團隊開發(fā) CANYA 的目標是解釋聚集語法,而非最大化預測能力。為了選擇一個能夠揭示這種習得語法的模型,研究人員使用最近開發(fā)的可解釋性指標對每個經(jīng)過訓練的 CANYA 實例進行評分。
簡而言之,該指標考察了訓練模型時使用的模體豐富度,并將其與訓練序列中所有等長 k 聚體(k=3)的集合進行比較。強富集(即與背景訓練序列的差異)表明模型可能在后續(xù)的可解釋性分析中產(chǎn)生更清晰的分辨率。
雖然測試序列的精確召回曲線下面積 (AUPR) 在實驗間比 AUROC 更一致(平均 AUPR NNK1 = 0.434,NNK2 = 0.452,NNK3 = 0.415),但是沒有發(fā)現(xiàn)預測性能與該可解釋性指標之間存在相關(guān)性(平均 AUPR 與可解釋性得分的相關(guān)性 r = ?0.059,P 值 = 0.6847)。因此,研究人員選擇了使用可解釋性得分最高的訓練模型。
圖示:CANYA 發(fā)現(xiàn)物理化學聚集基序。(來源:論文)
總體而言,CANYA 提供了一個穩(wěn)健且可解釋的神經(jīng)網(wǎng)絡模型,用于理解和預測淀粉樣蛋白形成蛋白。更廣泛地說,該研究結(jié)果不僅提供了一個非常龐大且經(jīng)過良好校準的數(shù)據(jù)集來訓練和評估 CANYA 以外的模型,而且還展示了對隨機蛋白質(zhì)序列空間進行大規(guī)模實驗分析的實用性。
論文鏈接:https://www.science.org/doi/10.1126/sciadv.adt5111
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.