編輯 | ScienceAI
一款新藥從設計、研發、臨床試驗到走向市場,通常需耗費超過26億美元的資金與10至15年的時間,而且越往后期成本越高。
比如,不適當的藥物如果進入臨床試驗,除了因為沒有期望的治療效果而浪費醫護和病人的大量時間和精力,更可能因為其潛在的副作用而對病人的生命安全產生威脅。
如何在研發早期快速、精準地判定藥物的潛在治療屬性,成為當前藥物設計與篩選中的關鍵問題。
近期,香港理工大學、四川大學、鵬城實驗室的聯合研究團隊在《Briefings in Bioinformatics》期刊上發表了最新研究成果 GraphATC。
該方法借助原子級圖神經網絡,僅需 1.53 毫秒,即可完成一種藥物ATC藥性進行預判(如:該藥物是否可以治療呼吸系統疾病、心腦血管疾病等),為藥物篩選與開發提供了一種高效的技術路徑,從而規避因盲目進入臨床試驗而帶來的各種風險。數據集和代碼都已開源!
文章作者包括來自 3 所高校或研究機構的張翁漁,田奇,曹溢,范文琦,蔣冬梅,王耀威,李青,魏驍勇。魏驍勇教授為本文通訊作者。
期刊主頁:https://doi.org/10.1093/bib/bbaf194
數據集和代碼:https://github.com/lookwei/GraphATC
文章PDF:https://academic.oup.com/bib/article-pdf/26/2/bbaf194/63012495/bbaf194.pdf
PaperWithCode:https://paperswithcode.com/dataset/atc-graph
ATC藥物分類系統簡介
ATC(Anatomical Therapeutic Chemical)分類系統是由世界衛生組織(WHO)制定的全球通用藥物分類標準。該系統根據藥物的作用器官或系統、治療用途、藥理機制及化學特性,將藥物的活性成分劃分為五個層級,其中從第一級到第五級分別表示解剖學,治療學,藥理學,化學,以及化合物上的分類。
例如,在新冠期間,對乙酰氨基酚(泰諾、撲熱息痛的主要成分)是一種常用的退熱藥,能夠有效緩解新冠癥狀。對乙酰氨基酚的ATC代碼是N02BE01,第一級N表示神經系統,第二級02表示止痛藥,第三級B表示其他止痛退藥及退熱藥,第四級E表示苯胺類,第五級01表示乙酰氨基酚。
當前藥物分類方法面臨的挑戰
1.數據集陳舊與覆蓋有限:主流藥物分類數據集未能覆蓋近年新上市的藥物,且多數僅含ATC系統的第一級標簽,難以滿足精細化研發所需。
2.深層分類樣本稀缺:ATC系統中更細粒度的第二至五級,因數據稀缺難以訓練有效模型,成為藥物建模中的瓶頸。
3.表示方法能力不足:傳統方法依賴SMILES等線性字符串或預定義分子指紋,難以捕捉復雜結構間的拓撲與相互作用。
圖1:GraphATC框架圖
GraphATC
GraphATC的核心創新在于將藥物結構建模為圖結構,利用圖神經網絡來捕捉原子與鍵之間的高階關聯關系。具體而言,該研究在兩大關鍵方向進行了系統性改進:
1.構建更全面的ATC分類數據集
團隊首先全面整合并擴充了現有的ATC藥物數據集。為此,團隊從多個國際權威數據庫(如KEGG、PubChem、ChEMBL等)中收集了最新的藥物信息,通過嚴格的清洗、校驗和數據融合,構建出一個覆蓋最廣、數據最全的ATC-GRAPH數據集,如圖1A所示。
如圖2所示,這一數據集不僅顯著擴大了藥物種類和數量,還首次覆蓋了世界衛生組織ATC體系的五個層級,從廣義的藥物類別細化到具體化學成分,確保每種藥物都有完整、準確的多級標簽。
這一全面的數據整合過程,不僅克服了現有數據集普遍存在的「數據老舊」、「標簽缺失」、「覆蓋不足」等問題,也極大提升了數據集的時效性和代表性,為后續的模型訓練和高精度藥物分類提供了堅實的基礎。
圖2:ATC-GRAPH與現有數據集的數據對比
2.構造更精確的藥物表示形式
為解決傳統分子序列表示(SMILES)在結構表達上的局限性,GraphATC采用圖神經網絡進行建模(圖1B),同時針對特定藥物種類引入以下設計:
·加入虛擬原子與虛擬化學鍵:如圖1C所示,對于聚合物,模型在結構連接點引入「虛擬原子」和「虛擬化學鍵」作為中介,使模型能夠捕捉單體間的交互關系。實驗顯示該機制可使聚合物類藥物分類準確率提升14.74%。
·引入基于RNN的子圖融合機制:如圖1D所示,對于多成分藥物,GraphATC利用RNN對各組分進行加權聚合,根據組分分子量與結構復雜度自適應地調整各組分對整體分類的影響。相比平均融合策略,該方法在多成分分類中提升準確率14.46%。
實驗結果
團隊在三個數據集、ATC第一級、ATC第二級上對GraphATC進行了系統評估,GraphATC均取得了最優性能,如表1、表2所示。
表1:與SOTA方法在ATC第一級上的性能比較。最佳結果以粗體顯示。
表2:與SOTA方法在ATC第二級上的性能比較。最佳結果以粗體顯示。
此外,模型在復雜藥物上的結構關注機制表現顯著:
·在聚合物藥物中加入虛擬原子與虛擬化學鍵后,注意力由原先集中于單體中心,拓展至連接位點,如圖3所示。
·在多成分藥物中引入子圖融合機制后,注意力由原先集中于較大子成分,擴散至多個子成分,如圖4所示。
圖3:在聚合物藥物中加入虛擬原子與虛擬化學鍵后的注意力圖
圖4:在多成分藥物中引入子圖融合機制后的注意力圖
總結
GraphATC提出了一種以圖結構為基礎進行藥物多級分類的可行框架,顯著提升了分類精度與推理效率。其主要貢獻包括:
·構建了當前覆蓋最廣的ATC-GRAPH多級分類數據集;
·首次將ATC分類任務擴展至更細粒度的第二級;
·優化模型對復雜藥物結構的精確表達能力;
·實現了分類性能和推理速度的雙重優化。
該方法為后續的藥物發現、藥效預測、以及分子生成等任務提供了重要參考框架,也為AI輔助藥物研發建立了更為堅實的技術基礎。或許未來某天,當一種新型疾病襲來,AI在短時間內就能從海量藥物中鎖定解藥。
GraphATC的數據集和代碼均已開源,歡迎大家嘗試!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.