生病吃藥的時候,常會在說明書上看到對此藥副作用的說明。對副作用的識別研究有助于藥物開發過程中風險的降低,在優化聯合治療方案中也有著重要地位。
早期的藥物副作用識別研究主要集中在預測藥物與副作用之間的關聯,近年來才逐漸轉向藥物副作用頻率的預測。傳統方法多將副作用頻率預測視為回歸問題,導致離散標簽的邊界模糊,且易受單模態數據限制。
中南大學研究團隊針對這些問題,提出了多源相似性融合模型(MSSF),通過重構預測任務為多分類問題,在基準數據集上實現 72.46% 的準確率,較次優模型HMMF提升 15.9%,為該領域提供了突破性解決方案。
該研究以「A deep learning-based method for predicting the frequency classes of drug side effects based on multi-source similarity fusion」為題,發布在第 41 卷,第 6 期的《Bioinformatics》。
論文鏈接:https://academic.oup.com/bioinformatics/article/41/6/btaf319/8151546
多模態數據到貝葉斯推理
MSSF 的具體研究內容可以如此概括:基于收集到的藥物和副作用的多模態數據生成藥物相似矩陣與副作用相似矩陣,生成對應的特征向量及三種組合向量。
這三個組合向量經三模塊處理 ——EN-con 自編碼器通過特征拼接捕捉顯式關聯,EN-add 自編碼器以加和操作挖掘隱含交互,CNN-im 卷積網絡解析空間特征 —— 實現多維度信息的深度融合。
圖 1:MSSF 概述。
為了降低過擬合的風險并提高泛化性,團隊在模型中引入了 BVI 模塊。產生定點估計的確定性模型不同,BVI 提供了一個概率框架,用于通過近似模型參數的后驗分布來學習潛在表示。
在藥物安全等高風險生物醫學應用中,這種不確定性意識對于下游決策和互作性至關重要。
此外,團隊在實驗中還引進了了基于 SIDER 數據庫構建的 Zhao 的數據集進行獨立測試,然后從基準數據集中收集這些藥物的副作用頻率類別,構建訓練數據集。
表 1:使用 10 倍交叉驗證在基準數據集上不同方法的性能比較。
為了評估 MSSF 預測新藥副作用頻率類別的能力,團隊設計了一個冷啟動實驗和一個獨立測試,將所有藥物分為 10 個部分,并進行 10 倍交叉驗證實驗。
在交叉驗證的結果圖表中,MSSF 在基準數據集的 ACC 為 0.7246,較次優模型 HMMF(0.6254)提升 15.9%。
在冷啟動實驗中,當測試集包含新藥物時,MSSF 的準確率達 56.01%,較 HMMF(42.82%)提升 13.19%;獨立測試基于 SIDER 數據庫驗證,準確率仍保持 56.06%,充分驗證了模型的泛化能力。
表 2:冷啟動條件下不同方法的性能比較。
此外,MSSF 計算了 10 種不同的藥物相似性和 4 種不同的副作用相似性,團隊在每次實驗中依次排除一個相似性特性,并根據十倍交叉驗證重新訓練模型。最差的結果顯示準確率僅比使用所有相似性特征的結果低 1.2%,這表明 MSSF 仍然可以在相似性特征較少的情況下保持良好的性能。
小結
在這項工作中,研究團隊將頻率預測任務從回歸問題重新表述為多類分類問題,使建模方法與基準數據集中頻率標簽的離散性質保持一致。
MSSF 模型通過三種互補的特征提取策略整合了各種類型的藥物和副作用信息。這些特征使用多頭自注意力機制進行融合,使模型能夠捕獲復雜的跨特征依賴關系。實驗表明,MSSF 在各種評估指標上明顯優于現有的最先進方法,尤其是在以前看不到藥物副作用對的冷啟動場景中。
未來的工作里,團隊將探索整合其他數據源和改進的泛化策略,可能包括解決數據稀缺問題的小樣本學習技術,以及集成其他模態以增強特征表示和泛化能力。
模型開源:https://github.com/dingxlcse/MSSF.git
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.