99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

自動機器學習,貝葉斯優化類不平衡學習在藥物發現中的應用

0
分享至

一、背景

藥物開發是一個耗時且昂貴的過程,通常需要超過 10 年時間和平均高達 26 億美元的投資才能將一種藥物從初步發現推向市場。這些高昂成本主要歸因于候選藥物試驗的高失敗率。盡管在從數百或數千種化合物中選擇候選分子上投入了大量資金,但新候選藥物最終成功上市的比例僅約為 10%。因此,選擇最有前途的候選分子將有助于加速研究過程并減少最終階段的失敗,從而最大限度地降低藥物開發成本。

機器智能(MI),包括機器學習和深度學習,已成功應用于藥物發現,并被視為候選藥物選擇的有前途方法。然而,MI 內部存在性能與可解釋性之間的困境,這限制了其應用范圍:

? "深度學習模型在分類上表現優于機器學習模型,但更難以解釋。深度學習模型更難解釋的原因是,很難找到模型在分類中使用的特征與輸出預測之間的直接可靠相關性。"

這些限制在藥物開發中不利,因為該領域的研究人員不僅希望獲得預測能力,還希望獲得模型提供的知識。

開發解釋深度學習模型結果的方法并非易事。相反,提高機器學習模型的性能可能提供更快、更簡單的解決方案來緩解預測性和可解釋性的困境。例如,自動機器學習(AutoML)是增強藥物開發過程的一種有前途的策略。

二、方法 2.1 CILBO 管道概述

為了提高易于解釋的機器學習模型在藥物發現中的分類性能,作者提出了一種稱為"使用貝葉斯優化的類不平衡學習"(CILBO)的管道。該管道使用貝葉斯優化來建議機器學習模型的最佳超參數組合,包括模型變量、訓練和處理不平衡數據集的策略。


圖 1. 最終模型構建工作流程

2.2 類不平衡問題

藥物發現數據集通常高度不平衡,包含極少數功能性候選物(感興趣類別)和數百或數千倍更多的非功能性分子(非感興趣類別)。少數感興趣類別更可能被預測為罕見事件,被完全忽略,或被假定為噪聲或異常值,這會導致偏差并導致泛化性能不佳。

? "雖然在疾病和藥物相關領域的幾項先前研究證明,適當解決類不平衡問題將提高模型的性能,但這個問題仍然經常被忽視。"

一旦機器學習模型應用策略來最小化不平衡數據集造成的分類偏差,它可能會進一步受益于 AutoML 算法改進的性能。

2.3 貝葉斯優化

貝葉斯優化是一種用于黑盒函數全局優化的順序設計策略,不假設任何函數形式,特別適合藥物開發等應用領域。這里使用的優化與常用的超參數優化不同,它解決了類不平衡問題。

2.4 模型選擇與特征提取

作者選擇了隨機森林作為分類器,因為它能夠限制過擬合并且易于解釋。

? "隨機森林模型對過擬合具有魯棒性,并且易于解釋,因為可以使用常規方法來估計特征的重要性和特征之間的交互作用。"

可選的分子特征包括描述符、RDK 指紋、MACCS 鍵、Avalon 指紋、ECFP4 和 ECFP6,這些都是由 RDKit 2020.09.1.0 計算的。所有這些特征在模型的訓練階段都被單獨測試,但不是特征的復雜組合。最終模型選擇了 RDK 指紋作為分子特征,因為它提供了分子拓撲結構表示的描述,對于解釋模型非常有用。

2.5 超參數優化

貝葉斯優化用于找到模型的最佳超參數。在這項工作中,貝葉斯優化不僅用于分類器,還用于專門處理不平衡數據集的策略。訓練數據集高度不平衡,這可能會引入分類偏差。貝葉斯優化旨在為分類器提供最佳超參數組合,并緩解類不平衡問題。

需要優化的超參數包括:

Hyperparameters

Value type (range)

n_estimators

Integer (5, 5000)

Criterion

Categorical ([“gini”, “entropy”])

max_depth

Integer (1, 6000)

min_samples_split

Integer (2, 200)

min_samples_leaf

Integer (1, 200)

Bootstrap

Categorical ([True, False])

class_weight

Categorical ([“balanced”, “balanced_subsample”, None])

sampling_strategy

Categorical ([‘majority’, ‘not minority’, ‘not majority’])

最后兩個超參數"class_weight"和"sampling_strategy"專門用于處理不平衡數據集。

2.6 數據集

訓練模型使用的數據集與 Stokes 等人論文中描述的數據集相同,該數據集結合了來自 USFDA 批準藥物庫和從天然產物中分離出的分子。它包含 2335 個唯一化合物,其中 120 個對大腸桿菌有生長抑制活性。該數據集高度不平衡。

用于候選預測的數據集也是 Stokes 等人描述的相同數據集,來自 Drug Repurposing Hub,包含 6111 個處于人類疾病研究各個階段的分子。通過移除訓練集和 Drug Repurposing Hub 之間分子圖譜相同的化合物,剩余的 4496 個分子用于兩個模型的預測。

三、實驗與結果 3.1 模型訓練階段性能評估

貝葉斯優化建議的最佳超參數列于表 1 中。最后兩個超參數"class_weight"和"sampling_strategy"用于最小化數據集不平衡引起的偏差并提高整體模型性能。

表 1. 貝葉斯優化建議的最佳超參數


框架表示用于處理不平衡數據集的超參數。

使用這些最佳超參數和特征,模型在訓練階段經過 30 次五折交叉驗證后的平均接收者操作特性曲線下面積(ROC-AUC)約為 0.917,高于 Stokes 模型的 0.896。在使用上述最佳超參數和分子特征增強后,并使用更多訓練樣本(訓練集包括 90% 的分子),最終模型實現了 0.99 的 ROC-AUC(圖 2)。


圖 2. 最終模型的 ROC-AUC*

基于最終模型測試集的混淆矩陣如表 2 所示。根據該矩陣,模型沒有將任何非抗菌分子歸類為抗菌分子,這表明該模型在識別候選化合物方面具有較低的假陽性率。

表 2. 最終模型的混淆矩陣

實際

預測

非抗菌

抗菌

非抗菌

221

0

抗菌

5

7

此混淆矩陣基于最終模型的測試集,預測分數高于 0.5 的分子被視為預測抗菌。

3.2 與 Stokes 模型在抗菌發現中的預測結果比較

最終模型隨后應用于從 Drug Repurposing Hub 記錄的庫中識別具有抗菌特性的候選分子。通過比較兩個模型對 162 個經驗測試分子的預測結果,發現 CILBO 模型在預測抗菌特性方面與 Stokes 的深度學習模型相當有效。


圖 3. 兩個模型的預測結果圖。藍點代表非抗菌;橙點代表抗菌。X 軸(Pred_Score_Forest)是由最終模型(隨機森林分類器)預測的分數;Y 軸(Pred_Score_Net)是由 Stokes 最終模型(圖神經網絡)預測的分數。

具體而言,在 CILBO 模型中預測分數高于 0.5(模型默認閾值分數)的分子中,約 75% 被發現是經驗測試的抗菌分子,而在 Stokes 模型中預測分數高于 0.5 的分子中,74% 是經驗測試的抗菌分子。當在兩個模型中選擇高于 0.5 的閾值分數時,約 80% 滿足條件的分子具有經驗測試的抗菌特性,這高于任何單獨模型的數量。

四、討論與應用

機器智能(MI)被視為幫助緩解藥物發現過程中高昂成本壓力的有前途方法。然而,MI 內部的預測性和可解釋性之間的困境限制了其在藥物發現中的更廣泛應用。因此,作者提出了"使用貝葉斯優化的類不平衡學習"(CILBO)管道來提高機器學習模型的分類性能。

CILBO 模型的一個關鍵自然優勢是它易于解釋。此外,訓練像這里使用的隨機森林模型這樣的機器學習模型所需的時間至少比訓練深度學習模型所需的時間短 100 倍。這提供了足夠的時間自動嘗試各種超參數并確定最佳超參數來增強模型。與普通深度學習模型相比,基于 CILBO 構建的模型的另一個明顯優勢是它對模型設計者和基礎設施的依賴性較低。

特別值得注意的是,不平衡數據集在藥物行業相當常見。它們可能在 MI 輔助藥物開發過程中導致嚴重的分類偏差,但這個問題經常被忽視。作者在構建模型時考慮了這種不平衡問題,并使用特殊超參數來控制這種類型的偏差,旨在增強模型性能。

五、結論

作者構建了一個基于 CILBO(他們提出的管道)的特殊隨機森林模型,并將這個機器學習模型與 Stokes 等人在抗生素發現中創建的深度學習模型進行了比較。比較結果以及模型的其他特性表明:

  1. 基于 CILBO 構建的機器學習模型的預測性能至少與深度學習模型一樣好;

  2. 它自然更容易解釋,相對更簡單操作,不需要研究人員具有高水平經驗;

  3. 包含類不平衡策略以控制分類偏差進一步提高了基于 CILBO 構建的模型的預測性能,并可能擴大其在藥物開發中的適用性。

因此,作者設計的 CILBO 管道為促進藥物開發中的機器智能提供了一種替代和簡單的解決方案。

最后推薦一個我正在學習的AI Agent智能體實戰課


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
600415,“大牛股”盤中跌停!發生了什么

600415,“大牛股”盤中跌停!發生了什么

新浪財經
2025-06-27 16:49:07
里夫斯拒四年8920萬續約:明夏可追五年2.46億 湖媒直言該交易他

里夫斯拒四年8920萬續約:明夏可追五年2.46億 湖媒直言該交易他

顏小白的籃球夢
2025-06-27 00:54:08
2025溫網女單簽表公布!鄭欽文首輪遇苦主,王欣瑜首輪穆霍娃

2025溫網女單簽表公布!鄭欽文首輪遇苦主,王欣瑜首輪穆霍娃

女網連連看
2025-06-27 20:30:13
“假球”都解釋不了,中國三人男籃闖進世界杯8強,劇情太狗血

“假球”都解釋不了,中國三人男籃闖進世界杯8強,劇情太狗血

真理是我親戚
2025-06-27 15:27:29
二道販子太可惡!小米yu7閑魚訂單鋪天蓋地,雷總管管吧

二道販子太可惡!小米yu7閑魚訂單鋪天蓋地,雷總管管吧

牛斯克
2025-06-27 09:31:18
張學良兒子張閭琳辭世:9歲赴美,娶陳濟棠侄女,所生兩子皆成才

張學良兒子張閭琳辭世:9歲赴美,娶陳濟棠侄女,所生兩子皆成才

柳絮憶史
2025-06-17 08:35:03
追求標準答案危害無窮

追求標準答案危害無窮

水寒說語文
2025-06-26 17:30:16
緊急避雷!“毒兒童牙膏”相繼曝光,絕非危言聳聽,家長速自查!

緊急避雷!“毒兒童牙膏”相繼曝光,絕非危言聳聽,家長速自查!

阿傖說事
2025-06-26 08:02:00
你上下行速度多少!工信部:1000Mbps及以上接入速率的固網寬帶接入達2.23億戶

你上下行速度多少!工信部:1000Mbps及以上接入速率的固網寬帶接入達2.23億戶

快科技
2025-06-25 16:18:11
這是阿嬌你敢相信嗎?看著也不胖啊!而且非常平板該有的都沒看到

這是阿嬌你敢相信嗎?看著也不胖啊!而且非常平板該有的都沒看到

素衣讀史
2025-06-21 14:13:38
硅谷殺妻案背后:于軒一從沒有被愛過,對方一直與前女友藕斷絲連

硅谷殺妻案背后:于軒一從沒有被愛過,對方一直與前女友藕斷絲連

史行途
2025-06-27 18:32:58
貝佐斯夫婦威尼斯婚禮歡迎晚宴賓客們, 小李子,卡戴珊家族等人

貝佐斯夫婦威尼斯婚禮歡迎晚宴賓客們, 小李子,卡戴珊家族等人

老吳教育課堂
2025-06-27 15:55:43
中國游戲超越日本!來自日本玩家の認可!IGN日本高度評價《歸唐》!甘肅文旅廳宣布支持開發組古跡掃描

中國游戲超越日本!來自日本玩家の認可!IGN日本高度評價《歸唐》!甘肅文旅廳宣布支持開發組古跡掃描

Steam社區
2025-06-26 11:57:21
月薪3萬offer,進去半年就廢了?高薪陷阱,正在毀掉一批年輕人…

月薪3萬offer,進去半年就廢了?高薪陷阱,正在毀掉一批年輕人…

火山詩話
2025-06-26 16:49:29
黃一鳴自曝:王思聰每次約她,車費都給10萬,來給5萬,回再給5萬

黃一鳴自曝:王思聰每次約她,車費都給10萬,來給5萬,回再給5萬

漢史趣聞
2025-06-24 10:07:59
今年養老金調整有點“小意外”,通知要7月公布嗎?誰能漲的多?

今年養老金調整有點“小意外”,通知要7月公布嗎?誰能漲的多?

小舟談歷史
2025-06-26 08:44:01
李湘和16歲女兒回國,直奔商場買鞋買衣服,王詩齡不化妝很清純

李湘和16歲女兒回國,直奔商場買鞋買衣服,王詩齡不化妝很清純

檸檬有娛樂
2025-06-27 10:13:46
補助標準99元/人,今年全國老年人免費健康體檢項目再擴容

補助標準99元/人,今年全國老年人免費健康體檢項目再擴容

每日經濟新聞
2025-06-26 21:32:42
我媽和二嬸不對付,鄰居蓋房占地二嬸吵不贏,我媽擼起袖子沖上去

我媽和二嬸不對付,鄰居蓋房占地二嬸吵不贏,我媽擼起袖子沖上去

多多故事薈
2025-06-10 09:10:03
李月汝首發狂砍15+10,主帥稱贊表現出色

李月汝首發狂砍15+10,主帥稱贊表現出色

發財西瓜
2025-06-27 12:25:38
2025-06-27 21:40:49
機器學習與Python社區 incentive-icons
機器學習與Python社區
機器學習算法與Python
3014文章數 11024關注度
往期回顧 全部

科技要聞

雷軍:小米汽車成功沒靠營銷,靠的是能力

頭條要聞

美國打擊伊朗核設施后 美軍一將領進入特朗普核心圈

頭條要聞

美國打擊伊朗核設施后 美軍一將領進入特朗普核心圈

體育要聞

曼城“庫里”連線,送尤文晚安好夢

娛樂要聞

炸裂!榜一大姐深夜怒錘頂流

財經要聞

合新鐵路建設材料以次充好 多家單位被罰

汽車要聞

配置升級/貴賓座椅 全新GL8陸上公務艙售22.99萬

態度原創

親子
健康
藝術
公開課
軍事航空

親子要聞

無奇不有,龍鳳胎同時出生竟一母雙父,醫生坦言不奇怪,女方全責

呼吸科專家破解呼吸道九大謠言!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美媒揭美軍37小時奔襲伊朗細節

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 兰州市| 崇文区| 呼玛县| 温泉县| 临澧县| 宣城市| 绿春县| 长顺县| 贺州市| 沂南县| 井冈山市| 日喀则市| 唐海县| 霍林郭勒市| 延川县| 盐山县| 鄂托克前旗| 玛纳斯县| 扎鲁特旗| 霍林郭勒市| 尼勒克县| 青川县| 基隆市| 宜兰市| 县级市| 昭平县| 嘉荫县| 新巴尔虎右旗| 河北区| 观塘区| 忻城县| 广水市| 金堂县| 朔州市| 化州市| 许昌县| 安吉县| 海兴县| 黄陵县| 常熟市| 防城港市|