癌癥的發(fā)生與驅(qū)動(dòng)基因突變密切相關(guān),精準(zhǔn)識(shí)別這些基因是理解癌癥機(jī)制和開(kāi)發(fā)靶向治療的關(guān)鍵。然而,由于癌癥成因復(fù)雜,現(xiàn)有的基因目錄遠(yuǎn)遠(yuǎn)不夠完善,現(xiàn)有預(yù)測(cè)方法在泛化性和可解釋性方面仍存在諸多挑戰(zhàn)。
近日,中國(guó)科學(xué)院新疆理化技術(shù)研究所與合作者,提出了人工智能(AI)可用于癌癥驅(qū)動(dòng)基因識(shí)別的圖機(jī)器學(xué)習(xí)模型——TREE,通過(guò)創(chuàng)新性整合多組學(xué)數(shù)據(jù),和同質(zhì)/異質(zhì)生物網(wǎng)絡(luò)拓?fù)湫畔?,在癌癥驅(qū)動(dòng)基因預(yù)測(cè)的準(zhǔn)確性、泛化性和可解釋性方面取得進(jìn)展。
01
模型突破傳統(tǒng)局限
識(shí)別癌癥驅(qū)動(dòng)基因能夠?yàn)榛颊叩膫€(gè)性化精準(zhǔn)治療提供策略,但至今仍存在大量功能未知、未被標(biāo)記的癌癥基因。
目前,癌癥基因預(yù)測(cè)有兩種主流方法:一是基于多組學(xué)的統(tǒng)計(jì)方法,二是基于網(wǎng)絡(luò)的人工智能方法。雖然兩種方法各有優(yōu)勢(shì),但也都存在局限性,比如無(wú)法全面捕捉基因間的互動(dòng),或者難以處理復(fù)雜基因網(wǎng)絡(luò)等。
TREE模型的誕生,突破了這些局限。TREE模型是一種基于Transformer的圖表示學(xué)習(xí)AI模型,能夠處理同質(zhì)和異質(zhì)網(wǎng)絡(luò),其中同質(zhì)網(wǎng)絡(luò)僅包含基因,而異質(zhì)網(wǎng)絡(luò)包含轉(zhuǎn)錄因子(TF)、miRNA和IncRNA等多種節(jié)點(diǎn)類(lèi)型。
▲(a)多組學(xué)數(shù)據(jù)收集及同質(zhì)/異質(zhì)網(wǎng)絡(luò)構(gòu)建;(b)癌癥基因預(yù)測(cè)整體模型流程圖;(c)模型的基因表示學(xué)習(xí)層;(d)多通道整合模塊。
02
TREE的“超能力”
研究表明,TREE在8個(gè)生物泛癌網(wǎng)絡(luò)和31個(gè)癌癥特異性網(wǎng)絡(luò)上表現(xiàn)出優(yōu)越的性能,與5種基于網(wǎng)絡(luò)的AI方法相比,TREE的AUC與AUPR指標(biāo)均表現(xiàn)最佳,平均AUC提升5.91%,AUPR提升9.87%,這都體現(xiàn)出模型的泛化性和魯棒性。
同時(shí),在可解釋性方面,TREE同樣表現(xiàn)出色。突變?cè)诎┌Y基因鑒定中至關(guān)重要,而TREE在精確定位罕見(jiàn)突變基因方面具有優(yōu)勢(shì),異質(zhì)信息允許TREE通過(guò)網(wǎng)絡(luò)路徑驗(yàn)證顯著的癌癥基因調(diào)控機(jī)制。
▲通過(guò)所有方法鑒定的癌癥候選基因構(gòu)成的韋恩圖
TREE在對(duì)網(wǎng)絡(luò)中所有常見(jiàn)的未標(biāo)記基因進(jìn)行評(píng)分后,推薦了57個(gè)潛在的癌癥候選基因,認(rèn)為它們有可能是與癌癥相關(guān)的候選基因。隨后,科研人員用全部的數(shù)據(jù)集來(lái)測(cè)試模型的性能,結(jié)果顯示,模型給出的評(píng)估結(jié)果都很穩(wěn)定且一致,這表明TREE是識(shí)別新的癌癥候選基因的可靠工具。
在這57個(gè)潛在的癌癥候選基因中,有21個(gè)也被其他方法鑒定,這些重疊基因獲得了較高的排名。所有這些觀測(cè)結(jié)果都在相當(dāng)程度上強(qiáng)調(diào)了TREE的可靠性。
03
精準(zhǔn)診療“利器”
科研人員選擇了潛在癌癥候選基因中的前三名(RYR2,SYNE1和LRP2)進(jìn)行研究,與相關(guān)文獻(xiàn)的結(jié)果一致,說(shuō)明前三名可能參與了癌癥的發(fā)生和進(jìn)展。
TREE模型突破了傳統(tǒng)方法在復(fù)雜生物網(wǎng)絡(luò)解析中的局限性,為揭示癌癥基因的分子調(diào)控規(guī)律建立了新范式。這種融合多組學(xué)分析、圖神經(jīng)網(wǎng)絡(luò)與Transformer架構(gòu)的跨學(xué)科創(chuàng)新,為精準(zhǔn)醫(yī)療提供了可靠的計(jì)算工具。
未來(lái),隨著更多生物數(shù)據(jù)的積累和算法迭代,TREE有望成為連接基礎(chǔ)研究與臨床轉(zhuǎn)化的重要橋梁。其在罕見(jiàn)突變識(shí)別、聯(lián)合療法靶點(diǎn)發(fā)現(xiàn)、癌癥早篩等領(lǐng)域的應(yīng)用潛力,將推動(dòng)腫瘤診療的發(fā)展。
來(lái)源:中國(guó)科學(xué)院新疆理化技術(shù)研究所
責(zé)任編輯:曹旸
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.