一、背景
藥物開發是一個耗時且昂貴的過程,通常需要超過 10 年時間和平均高達 26 億美元的投資才能將一種藥物從初步發現推向市場。這些高昂成本主要歸因于候選藥物試驗的高失敗率。盡管在從數百或數千種化合物中選擇候選分子上投入了大量資金,但新候選藥物最終成功上市的比例僅約為 10%。因此,選擇最有前途的候選分子將有助于加速研究過程并減少最終階段的失敗,從而最大限度地降低藥物開發成本。
機器智能(MI),包括機器學習和深度學習,已成功應用于藥物發現,并被視為候選藥物選擇的有前途方法。然而,MI 內部存在性能與可解釋性之間的困境,這限制了其應用范圍:
? "深度學習模型在分類上表現優于機器學習模型,但更難以解釋。深度學習模型更難解釋的原因是,很難找到模型在分類中使用的特征與輸出預測之間的直接可靠相關性。"
這些限制在藥物開發中不利,因為該領域的研究人員不僅希望獲得預測能力,還希望獲得模型提供的知識。
開發解釋深度學習模型結果的方法并非易事。相反,提高機器學習模型的性能可能提供更快、更簡單的解決方案來緩解預測性和可解釋性的困境。例如,自動機器學習(AutoML)是增強藥物開發過程的一種有前途的策略。
二、方法 2.1 CILBO 管道概述
為了提高易于解釋的機器學習模型在藥物發現中的分類性能,作者提出了一種稱為"使用貝葉斯優化的類不平衡學習"(CILBO)的管道。該管道使用貝葉斯優化來建議機器學習模型的最佳超參數組合,包括模型變量、訓練和處理不平衡數據集的策略。
圖 1. 最終模型構建工作流程
2.2 類不平衡問題
藥物發現數據集通常高度不平衡,包含極少數功能性候選物(感興趣類別)和數百或數千倍更多的非功能性分子(非感興趣類別)。少數感興趣類別更可能被預測為罕見事件,被完全忽略,或被假定為噪聲或異常值,這會導致偏差并導致泛化性能不佳。
? "雖然在疾病和藥物相關領域的幾項先前研究證明,適當解決類不平衡問題將提高模型的性能,但這個問題仍然經常被忽視。"
一旦機器學習模型應用策略來最小化不平衡數據集造成的分類偏差,它可能會進一步受益于 AutoML 算法改進的性能。
2.3 貝葉斯優化
貝葉斯優化是一種用于黑盒函數全局優化的順序設計策略,不假設任何函數形式,特別適合藥物開發等應用領域。這里使用的優化與常用的超參數優化不同,它解決了類不平衡問題。
2.4 模型選擇與特征提取
作者選擇了隨機森林作為分類器,因為它能夠限制過擬合并且易于解釋。
? "隨機森林模型對過擬合具有魯棒性,并且易于解釋,因為可以使用常規方法來估計特征的重要性和特征之間的交互作用。"
可選的分子特征包括描述符、RDK 指紋、MACCS 鍵、Avalon 指紋、ECFP4 和 ECFP6,這些都是由 RDKit 2020.09.1.0 計算的。所有這些特征在模型的訓練階段都被單獨測試,但不是特征的復雜組合。最終模型選擇了 RDK 指紋作為分子特征,因為它提供了分子拓撲結構表示的描述,對于解釋模型非常有用。
2.5 超參數優化
貝葉斯優化用于找到模型的最佳超參數。在這項工作中,貝葉斯優化不僅用于分類器,還用于專門處理不平衡數據集的策略。訓練數據集高度不平衡,這可能會引入分類偏差。貝葉斯優化旨在為分類器提供最佳超參數組合,并緩解類不平衡問題。
需要優化的超參數包括:
Hyperparameters
Value type (range)
n_estimators
Integer (5, 5000)
Criterion
Categorical ([“gini”, “entropy”])
max_depth
Integer (1, 6000)
min_samples_split
Integer (2, 200)
min_samples_leaf
Integer (1, 200)
Bootstrap
Categorical ([True, False])
class_weight
Categorical ([“balanced”, “balanced_subsample”, None])
sampling_strategy
Categorical ([‘majority’, ‘not minority’, ‘not majority’])
最后兩個超參數"class_weight"和"sampling_strategy"專門用于處理不平衡數據集。
2.6 數據集
訓練模型使用的數據集與 Stokes 等人論文中描述的數據集相同,該數據集結合了來自 USFDA 批準藥物庫和從天然產物中分離出的分子。它包含 2335 個唯一化合物,其中 120 個對大腸桿菌有生長抑制活性。該數據集高度不平衡。
用于候選預測的數據集也是 Stokes 等人描述的相同數據集,來自 Drug Repurposing Hub,包含 6111 個處于人類疾病研究各個階段的分子。通過移除訓練集和 Drug Repurposing Hub 之間分子圖譜相同的化合物,剩余的 4496 個分子用于兩個模型的預測。
三、實驗與結果 3.1 模型訓練階段性能評估
貝葉斯優化建議的最佳超參數列于表 1 中。最后兩個超參數"class_weight"和"sampling_strategy"用于最小化數據集不平衡引起的偏差并提高整體模型性能。
表 1. 貝葉斯優化建議的最佳超參數
框架表示用于處理不平衡數據集的超參數。
使用這些最佳超參數和特征,模型在訓練階段經過 30 次五折交叉驗證后的平均接收者操作特性曲線下面積(ROC-AUC)約為 0.917,高于 Stokes 模型的 0.896。在使用上述最佳超參數和分子特征增強后,并使用更多訓練樣本(訓練集包括 90% 的分子),最終模型實現了 0.99 的 ROC-AUC(圖 2)。
圖 2. 最終模型的 ROC-AUC*
基于最終模型測試集的混淆矩陣如表 2 所示。根據該矩陣,模型沒有將任何非抗菌分子歸類為抗菌分子,這表明該模型在識別候選化合物方面具有較低的假陽性率。
表 2. 最終模型的混淆矩陣
實際
預測
非抗菌
抗菌
非抗菌
221
0
抗菌
5
7
此混淆矩陣基于最終模型的測試集,預測分數高于 0.5 的分子被視為預測抗菌。
3.2 與 Stokes 模型在抗菌發現中的預測結果比較
最終模型隨后應用于從 Drug Repurposing Hub 記錄的庫中識別具有抗菌特性的候選分子。通過比較兩個模型對 162 個經驗測試分子的預測結果,發現 CILBO 模型在預測抗菌特性方面與 Stokes 的深度學習模型相當有效。
圖 3. 兩個模型的預測結果圖。藍點代表非抗菌;橙點代表抗菌。X 軸(Pred_Score_Forest)是由最終模型(隨機森林分類器)預測的分數;Y 軸(Pred_Score_Net)是由 Stokes 最終模型(圖神經網絡)預測的分數。
具體而言,在 CILBO 模型中預測分數高于 0.5(模型默認閾值分數)的分子中,約 75% 被發現是經驗測試的抗菌分子,而在 Stokes 模型中預測分數高于 0.5 的分子中,74% 是經驗測試的抗菌分子。當在兩個模型中選擇高于 0.5 的閾值分數時,約 80% 滿足條件的分子具有經驗測試的抗菌特性,這高于任何單獨模型的數量。
四、討論與應用
機器智能(MI)被視為幫助緩解藥物發現過程中高昂成本壓力的有前途方法。然而,MI 內部的預測性和可解釋性之間的困境限制了其在藥物發現中的更廣泛應用。因此,作者提出了"使用貝葉斯優化的類不平衡學習"(CILBO)管道來提高機器學習模型的分類性能。
CILBO 模型的一個關鍵自然優勢是它易于解釋。此外,訓練像這里使用的隨機森林模型這樣的機器學習模型所需的時間至少比訓練深度學習模型所需的時間短 100 倍。這提供了足夠的時間自動嘗試各種超參數并確定最佳超參數來增強模型。與普通深度學習模型相比,基于 CILBO 構建的模型的另一個明顯優勢是它對模型設計者和基礎設施的依賴性較低。
特別值得注意的是,不平衡數據集在藥物行業相當常見。它們可能在 MI 輔助藥物開發過程中導致嚴重的分類偏差,但這個問題經常被忽視。作者在構建模型時考慮了這種不平衡問題,并使用特殊超參數來控制這種類型的偏差,旨在增強模型性能。
五、結論
作者構建了一個基于 CILBO(他們提出的管道)的特殊隨機森林模型,并將這個機器學習模型與 Stokes 等人在抗生素發現中創建的深度學習模型進行了比較。比較結果以及模型的其他特性表明:
基于 CILBO 構建的機器學習模型的預測性能至少與深度學習模型一樣好;
它自然更容易解釋,相對更簡單操作,不需要研究人員具有高水平經驗;
包含類不平衡策略以控制分類偏差進一步提高了基于 CILBO 構建的模型的預測性能,并可能擴大其在藥物開發中的適用性。
因此,作者設計的 CILBO 管道為促進藥物開發中的機器智能提供了一種替代和簡單的解決方案。
最后推薦一個我正在學習的AI Agent智能體實戰課
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.