編輯 | 白菜葉
近期,美國(guó)西北大學(xué)(Northwestern University)生物物理學(xué)家開發(fā)了一種新的計(jì)算工具,用于識(shí)別糖尿病、癌癥和哮喘等復(fù)雜疾病背后的基因組合。
與單基因疾病不同,這些疾病受多個(gè)基因共同作用的網(wǎng)絡(luò)影響。然而,可以探索的基因組合數(shù)量極其龐大,這使得研究人員難以確定導(dǎo)致疾病的準(zhǔn)確基因組合。
新方法利用生成式人工智能(AI)模型,放大有限的基因表達(dá)數(shù)據(jù),使研究人員能夠解析有引起復(fù)雜性狀的基因活動(dòng)模式。這些信息有望帶來新的、更有效的多基因疾病治療方法。
該研究以「Generative prediction of causal gene sets responsible for complex traits」為題,于 2025 年 6 月 12 日發(fā)布在《PNAS》。
「許多疾病都是由多個(gè)基因組合決定的,而不僅僅是一個(gè)基因。」該研究的通訊作者 Adilson Motter 教授說,「你可以把癌癥之類的疾病比作飛機(jī)失事。在大多數(shù)情況下,飛機(jī)墜毀需要發(fā)生多次故障,而不同的故障組合可能會(huì)導(dǎo)致類似的結(jié)果。這使得查明原因變得復(fù)雜。我們的模型通過識(shí)別關(guān)鍵因素及其共同影響來幫助簡(jiǎn)化問題。」
幾十年來,科學(xué)家一直在努力揭示人類復(fù)雜特征和疾病的遺傳基礎(chǔ)。即使是身高、智力和頭發(fā)顏色等非疾病特征也依賴于多個(gè)基因的組合表達(dá)。
現(xiàn)有的方法,例如全基因組關(guān)聯(lián)研究,試圖找到與某一性狀相關(guān)的單個(gè)基因,但它們?nèi)狈z測(cè)基因群體集體效應(yīng)的統(tǒng)計(jì)能力。
「人類基因組計(jì)劃表明,我們的基因數(shù)量?jī)H為單細(xì)胞細(xì)菌的六倍。」Motter 說道,「但人類比細(xì)菌復(fù)雜得多,單憑基因數(shù)量無法解釋這一點(diǎn)。這說明了多基因關(guān)系的普遍性,以及基因之間的相互作用必然與復(fù)雜生命的產(chǎn)生有關(guān)。」
當(dāng)然,「識(shí)別單個(gè)基因仍然很有價(jià)值。」論文的作者之一 Thomas Wytock 補(bǔ)充道,「但只有極小一部分可觀察到的性狀或表型可以用單個(gè)基因的變化來解釋。相反,我們知道的大部分表型是多個(gè)基因共同作用的結(jié)果。同時(shí),多個(gè)基因控制則增大了引起性狀改變的可能性。」調(diào)控環(huán)節(jié)越多,可變的概率也就越大,形成的表型也就更加多樣化。
這會(huì)導(dǎo)致基因型-表型映射的可能性激增。為了幫助彌合基因組成(基因型)和可觀察性狀(表型)之間長(zhǎng)期存在的知識(shí)差距,研究團(tuán)隊(duì)開發(fā)了一種將機(jī)器學(xué)習(xí)與優(yōu)化相結(jié)合的復(fù)雜方法。
圖示:新方法示意圖。(來源:論文)
該模型被稱為 transcriptome-wide conditional variational autoencoder(TWAVE),它包括一個(gè)基于人類轉(zhuǎn)錄數(shù)據(jù)訓(xùn)練的變分自編碼器,并將其整合到一個(gè)優(yōu)化框架中。
給定一個(gè)性狀表型,TWAVE 會(huì)生成表達(dá)譜,然后它通過識(shí)別獨(dú)立變化的廣義通路(特征基因)來對(duì)其進(jìn)行降維。接著,它進(jìn)行約束優(yōu)化,從而找到致病基因集,這些基因擾動(dòng)的測(cè)量轉(zhuǎn)錄組響應(yīng)能夠最好地解釋性狀表型差異。
總之,它可以模擬疾病和健康狀態(tài),從而找到「基因表達(dá)變化」與「表型變化」之間的關(guān)聯(lián)。
圖示:針對(duì)炎癥性腸病特征提出的 TWAVE 構(gòu)建和驗(yàn)證。(來源:論文)
「我們關(guān)注的不是基因序列,而是基因表達(dá)。」Wytock 解釋道,「我們利用臨床試驗(yàn)數(shù)據(jù)訓(xùn)練模型,因此我們知道哪些表達(dá)譜代表健康或患病。對(duì)于少數(shù)基因,我們也有實(shí)驗(yàn)數(shù)據(jù)可以告訴我們網(wǎng)絡(luò)在基因開啟或關(guān)閉時(shí)的反應(yīng),我們可以將這些數(shù)據(jù)與表達(dá)數(shù)據(jù)進(jìn)行匹配,從而找到與疾病相關(guān)的基因。」
關(guān)注基因表達(dá)有多重好處。
首先,它繞過了患者的隱私問題。基因的原始數(shù)據(jù)——一個(gè)人真實(shí)的 DNA 序列——本質(zhì)上是個(gè)人獨(dú)有的,它提供了高度個(gè)性化的健康藍(lán)圖、遺傳傾向和家族關(guān)系。另一方面,而基因的表達(dá)數(shù)據(jù)則更像是細(xì)胞活動(dòng)的動(dòng)態(tài)快照。
其次,基因表達(dá)數(shù)據(jù)隱含地考慮了環(huán)境因素,這些因素可以「上調(diào)」或「下調(diào)」基因表達(dá),從而執(zhí)行各種功能。
「環(huán)境因素可能不會(huì)影響 DNA,但它們肯定會(huì)影響基因表達(dá)。」Motter 說,「因此,我們的模型的優(yōu)勢(shì)在于可以間接地考慮環(huán)境因素。」
圖示:將復(fù)雜性狀表型歸因于一組基因。(來源:論文)
為了驗(yàn)證 TWAVE 的有效性,該團(tuán)隊(duì)在幾種復(fù)雜疾病(例如,過敏性哮喘、癌癥、糖尿病、炎癥性腸病)中對(duì)其進(jìn)行了測(cè)試。該方法成功識(shí)別出導(dǎo)致這些疾病的基因,并發(fā)現(xiàn)其中一些基因被當(dāng)前的方法所遺漏了。
TWAVE 還揭示了不同的基因組合可以在不同的人群中導(dǎo)致同一種復(fù)雜疾病。這一發(fā)現(xiàn)表明,可以根據(jù)患者特定的疾病遺傳驅(qū)動(dòng)因素制定個(gè)性化治療方案。
「同一種疾病在兩個(gè)不同的個(gè)體身上可能表現(xiàn)相似。」Motter 說,「但原則上,由于遺傳、環(huán)境和生活方式的差異,每個(gè)人可能都涉及一組不同的基因。這些信息可以指導(dǎo)個(gè)性化治療。」
論文鏈接:https://www.pnas.org/doi/10.1073/pnas.2415071122
相關(guān)內(nèi)容:https://medicalxpress.com/news/2025-06-ai-key-gene-complex-diseases.html
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.