編輯 | ScienceAI
一款新藥從設(shè)計(jì)、研發(fā)、臨床試驗(yàn)到走向市場(chǎng),通常需耗費(fèi)超過(guò)26億美元的資金與10至15年的時(shí)間,而且越往后期成本越高。
比如,不適當(dāng)?shù)乃幬锶绻M(jìn)入臨床試驗(yàn),除了因?yàn)闆](méi)有期望的治療效果而浪費(fèi)醫(yī)護(hù)和病人的大量時(shí)間和精力,更可能因?yàn)槠錆撛诘母弊饔枚鴮?duì)病人的生命安全產(chǎn)生威脅。
如何在研發(fā)早期快速、精準(zhǔn)地判定藥物的潛在治療屬性,成為當(dāng)前藥物設(shè)計(jì)與篩選中的關(guān)鍵問(wèn)題。
近期,香港理工大學(xué)、四川大學(xué)、鵬城實(shí)驗(yàn)室的聯(lián)合研究團(tuán)隊(duì)在《Briefings in Bioinformatics》期刊上發(fā)表了最新研究成果 GraphATC。
該方法借助原子級(jí)圖神經(jīng)網(wǎng)絡(luò),僅需 1.53 毫秒,即可完成一種藥物ATC藥性進(jìn)行預(yù)判(如:該藥物是否可以治療呼吸系統(tǒng)疾病、心腦血管疾病等),為藥物篩選與開(kāi)發(fā)提供了一種高效的技術(shù)路徑,從而規(guī)避因盲目進(jìn)入臨床試驗(yàn)而帶來(lái)的各種風(fēng)險(xiǎn)。數(shù)據(jù)集和代碼都已開(kāi)源!
文章作者包括來(lái)自 3 所高校或研究機(jī)構(gòu)的張翁漁,田奇,曹溢,范文琦,蔣冬梅,王耀威,李青,魏驍勇。魏驍勇教授為本文通訊作者。
期刊主頁(yè):https://doi.org/10.1093/bib/bbaf194
數(shù)據(jù)集和代碼:https://github.com/lookwei/GraphATC
文章PDF:https://academic.oup.com/bib/article-pdf/26/2/bbaf194/63012495/bbaf194.pdf
PaperWithCode:https://paperswithcode.com/dataset/atc-graph
ATC藥物分類(lèi)系統(tǒng)簡(jiǎn)介
ATC(Anatomical Therapeutic Chemical)分類(lèi)系統(tǒng)是由世界衛(wèi)生組織(WHO)制定的全球通用藥物分類(lèi)標(biāo)準(zhǔn)。該系統(tǒng)根據(jù)藥物的作用器官或系統(tǒng)、治療用途、藥理機(jī)制及化學(xué)特性,將藥物的活性成分劃分為五個(gè)層級(jí),其中從第一級(jí)到第五級(jí)分別表示解剖學(xué),治療學(xué),藥理學(xué),化學(xué),以及化合物上的分類(lèi)。
例如,在新冠期間,對(duì)乙酰氨基酚(泰諾、撲熱息痛的主要成分)是一種常用的退熱藥,能夠有效緩解新冠癥狀。對(duì)乙酰氨基酚的ATC代碼是N02BE01,第一級(jí)N表示神經(jīng)系統(tǒng),第二級(jí)02表示止痛藥,第三級(jí)B表示其他止痛退藥及退熱藥,第四級(jí)E表示苯胺類(lèi),第五級(jí)01表示乙酰氨基酚。
當(dāng)前藥物分類(lèi)方法面臨的挑戰(zhàn)
1.數(shù)據(jù)集陳舊與覆蓋有限:主流藥物分類(lèi)數(shù)據(jù)集未能覆蓋近年新上市的藥物,且多數(shù)僅含ATC系統(tǒng)的第一級(jí)標(biāo)簽,難以滿足精細(xì)化研發(fā)所需。
2.深層分類(lèi)樣本稀缺:ATC系統(tǒng)中更細(xì)粒度的第二至五級(jí),因數(shù)據(jù)稀缺難以訓(xùn)練有效模型,成為藥物建模中的瓶頸。
3.表示方法能力不足:傳統(tǒng)方法依賴(lài)SMILES等線性字符串或預(yù)定義分子指紋,難以捕捉復(fù)雜結(jié)構(gòu)間的拓?fù)渑c相互作用。
圖1:GraphATC框架圖
GraphATC
GraphATC的核心創(chuàng)新在于將藥物結(jié)構(gòu)建模為圖結(jié)構(gòu),利用圖神經(jīng)網(wǎng)絡(luò)來(lái)捕捉原子與鍵之間的高階關(guān)聯(lián)關(guān)系。具體而言,該研究在兩大關(guān)鍵方向進(jìn)行了系統(tǒng)性改進(jìn):
1.構(gòu)建更全面的ATC分類(lèi)數(shù)據(jù)集
團(tuán)隊(duì)首先全面整合并擴(kuò)充了現(xiàn)有的ATC藥物數(shù)據(jù)集。為此,團(tuán)隊(duì)從多個(gè)國(guó)際權(quán)威數(shù)據(jù)庫(kù)(如KEGG、PubChem、ChEMBL等)中收集了最新的藥物信息,通過(guò)嚴(yán)格的清洗、校驗(yàn)和數(shù)據(jù)融合,構(gòu)建出一個(gè)覆蓋最廣、數(shù)據(jù)最全的ATC-GRAPH數(shù)據(jù)集,如圖1A所示。
如圖2所示,這一數(shù)據(jù)集不僅顯著擴(kuò)大了藥物種類(lèi)和數(shù)量,還首次覆蓋了世界衛(wèi)生組織ATC體系的五個(gè)層級(jí),從廣義的藥物類(lèi)別細(xì)化到具體化學(xué)成分,確保每種藥物都有完整、準(zhǔn)確的多級(jí)標(biāo)簽。
這一全面的數(shù)據(jù)整合過(guò)程,不僅克服了現(xiàn)有數(shù)據(jù)集普遍存在的「數(shù)據(jù)老舊」、「標(biāo)簽缺失」、「覆蓋不足」等問(wèn)題,也極大提升了數(shù)據(jù)集的時(shí)效性和代表性,為后續(xù)的模型訓(xùn)練和高精度藥物分類(lèi)提供了堅(jiān)實(shí)的基礎(chǔ)。
圖2:ATC-GRAPH與現(xiàn)有數(shù)據(jù)集的數(shù)據(jù)對(duì)比
2.構(gòu)造更精確的藥物表示形式
為解決傳統(tǒng)分子序列表示(SMILES)在結(jié)構(gòu)表達(dá)上的局限性,GraphATC采用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行建模(圖1B),同時(shí)針對(duì)特定藥物種類(lèi)引入以下設(shè)計(jì):
·加入虛擬原子與虛擬化學(xué)鍵:如圖1C所示,對(duì)于聚合物,模型在結(jié)構(gòu)連接點(diǎn)引入「虛擬原子」和「虛擬化學(xué)鍵」作為中介,使模型能夠捕捉單體間的交互關(guān)系。實(shí)驗(yàn)顯示該機(jī)制可使聚合物類(lèi)藥物分類(lèi)準(zhǔn)確率提升14.74%。
·引入基于RNN的子圖融合機(jī)制:如圖1D所示,對(duì)于多成分藥物,GraphATC利用RNN對(duì)各組分進(jìn)行加權(quán)聚合,根據(jù)組分分子量與結(jié)構(gòu)復(fù)雜度自適應(yīng)地調(diào)整各組分對(duì)整體分類(lèi)的影響。相比平均融合策略,該方法在多成分分類(lèi)中提升準(zhǔn)確率14.46%。
實(shí)驗(yàn)結(jié)果
團(tuán)隊(duì)在三個(gè)數(shù)據(jù)集、ATC第一級(jí)、ATC第二級(jí)上對(duì)GraphATC進(jìn)行了系統(tǒng)評(píng)估,GraphATC均取得了最優(yōu)性能,如表1、表2所示。
表1:與SOTA方法在ATC第一級(jí)上的性能比較。最佳結(jié)果以粗體顯示。
表2:與SOTA方法在ATC第二級(jí)上的性能比較。最佳結(jié)果以粗體顯示。
此外,模型在復(fù)雜藥物上的結(jié)構(gòu)關(guān)注機(jī)制表現(xiàn)顯著:
·在聚合物藥物中加入虛擬原子與虛擬化學(xué)鍵后,注意力由原先集中于單體中心,拓展至連接位點(diǎn),如圖3所示。
·在多成分藥物中引入子圖融合機(jī)制后,注意力由原先集中于較大子成分,擴(kuò)散至多個(gè)子成分,如圖4所示。
圖3:在聚合物藥物中加入虛擬原子與虛擬化學(xué)鍵后的注意力圖
圖4:在多成分藥物中引入子圖融合機(jī)制后的注意力圖
總結(jié)
GraphATC提出了一種以圖結(jié)構(gòu)為基礎(chǔ)進(jìn)行藥物多級(jí)分類(lèi)的可行框架,顯著提升了分類(lèi)精度與推理效率。其主要貢獻(xiàn)包括:
·構(gòu)建了當(dāng)前覆蓋最廣的ATC-GRAPH多級(jí)分類(lèi)數(shù)據(jù)集;
·首次將ATC分類(lèi)任務(wù)擴(kuò)展至更細(xì)粒度的第二級(jí);
·優(yōu)化模型對(duì)復(fù)雜藥物結(jié)構(gòu)的精確表達(dá)能力;
·實(shí)現(xiàn)了分類(lèi)性能和推理速度的雙重優(yōu)化。
該方法為后續(xù)的藥物發(fā)現(xiàn)、藥效預(yù)測(cè)、以及分子生成等任務(wù)提供了重要參考框架,也為AI輔助藥物研發(fā)建立了更為堅(jiān)實(shí)的技術(shù)基礎(chǔ)。或許未來(lái)某天,當(dāng)一種新型疾病襲來(lái),AI在短時(shí)間內(nèi)就能從海量藥物中鎖定解藥。
GraphATC的數(shù)據(jù)集和代碼均已開(kāi)源,歡迎大家嘗試!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.