99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

自動機器學習,貝葉斯優化類不平衡學習在藥物發現中的應用

0
分享至

一、背景

藥物開發是一個耗時且昂貴的過程,通常需要超過 10 年時間和平均高達 26 億美元的投資才能將一種藥物從初步發現推向市場。這些高昂成本主要歸因于候選藥物試驗的高失敗率。盡管在從數百或數千種化合物中選擇候選分子上投入了大量資金,但新候選藥物最終成功上市的比例僅約為 10%。因此,選擇最有前途的候選分子將有助于加速研究過程并減少最終階段的失敗,從而最大限度地降低藥物開發成本。

機器智能(MI),包括機器學習和深度學習,已成功應用于藥物發現,并被視為候選藥物選擇的有前途方法。然而,MI 內部存在性能與可解釋性之間的困境,這限制了其應用范圍:

? "深度學習模型在分類上表現優于機器學習模型,但更難以解釋。深度學習模型更難解釋的原因是,很難找到模型在分類中使用的特征與輸出預測之間的直接可靠相關性。"

這些限制在藥物開發中不利,因為該領域的研究人員不僅希望獲得預測能力,還希望獲得模型提供的知識。

開發解釋深度學習模型結果的方法并非易事。相反,提高機器學習模型的性能可能提供更快、更簡單的解決方案來緩解預測性和可解釋性的困境。例如,自動機器學習(AutoML)是增強藥物開發過程的一種有前途的策略。

二、方法 2.1 CILBO 管道概述

為了提高易于解釋的機器學習模型在藥物發現中的分類性能,作者提出了一種稱為"使用貝葉斯優化的類不平衡學習"(CILBO)的管道。該管道使用貝葉斯優化來建議機器學習模型的最佳超參數組合,包括模型變量、訓練和處理不平衡數據集的策略。


圖 1. 最終模型構建工作流程

2.2 類不平衡問題

藥物發現數據集通常高度不平衡,包含極少數功能性候選物(感興趣類別)和數百或數千倍更多的非功能性分子(非感興趣類別)。少數感興趣類別更可能被預測為罕見事件,被完全忽略,或被假定為噪聲或異常值,這會導致偏差并導致泛化性能不佳。

? "雖然在疾病和藥物相關領域的幾項先前研究證明,適當解決類不平衡問題將提高模型的性能,但這個問題仍然經常被忽視。"

一旦機器學習模型應用策略來最小化不平衡數據集造成的分類偏差,它可能會進一步受益于 AutoML 算法改進的性能。

2.3 貝葉斯優化

貝葉斯優化是一種用于黑盒函數全局優化的順序設計策略,不假設任何函數形式,特別適合藥物開發等應用領域。這里使用的優化與常用的超參數優化不同,它解決了類不平衡問題。

2.4 模型選擇與特征提取

作者選擇了隨機森林作為分類器,因為它能夠限制過擬合并且易于解釋。

? "隨機森林模型對過擬合具有魯棒性,并且易于解釋,因為可以使用常規方法來估計特征的重要性和特征之間的交互作用。"

可選的分子特征包括描述符、RDK 指紋、MACCS 鍵、Avalon 指紋、ECFP4 和 ECFP6,這些都是由 RDKit 2020.09.1.0 計算的。所有這些特征在模型的訓練階段都被單獨測試,但不是特征的復雜組合。最終模型選擇了 RDK 指紋作為分子特征,因為它提供了分子拓撲結構表示的描述,對于解釋模型非常有用。

2.5 超參數優化

貝葉斯優化用于找到模型的最佳超參數。在這項工作中,貝葉斯優化不僅用于分類器,還用于專門處理不平衡數據集的策略。訓練數據集高度不平衡,這可能會引入分類偏差。貝葉斯優化旨在為分類器提供最佳超參數組合,并緩解類不平衡問題。

需要優化的超參數包括:

Hyperparameters

Value type (range)

n_estimators

Integer (5, 5000)

Criterion

Categorical ([“gini”, “entropy”])

max_depth

Integer (1, 6000)

min_samples_split

Integer (2, 200)

min_samples_leaf

Integer (1, 200)

Bootstrap

Categorical ([True, False])

class_weight

Categorical ([“balanced”, “balanced_subsample”, None])

sampling_strategy

Categorical ([‘majority’, ‘not minority’, ‘not majority’])

最后兩個超參數"class_weight"和"sampling_strategy"專門用于處理不平衡數據集。

2.6 數據集

訓練模型使用的數據集與 Stokes 等人論文中描述的數據集相同,該數據集結合了來自 USFDA 批準藥物庫和從天然產物中分離出的分子。它包含 2335 個唯一化合物,其中 120 個對大腸桿菌有生長抑制活性。該數據集高度不平衡。

用于候選預測的數據集也是 Stokes 等人描述的相同數據集,來自 Drug Repurposing Hub,包含 6111 個處于人類疾病研究各個階段的分子。通過移除訓練集和 Drug Repurposing Hub 之間分子圖譜相同的化合物,剩余的 4496 個分子用于兩個模型的預測。

三、實驗與結果 3.1 模型訓練階段性能評估

貝葉斯優化建議的最佳超參數列于表 1 中。最后兩個超參數"class_weight"和"sampling_strategy"用于最小化數據集不平衡引起的偏差并提高整體模型性能。

表 1. 貝葉斯優化建議的最佳超參數


框架表示用于處理不平衡數據集的超參數。

使用這些最佳超參數和特征,模型在訓練階段經過 30 次五折交叉驗證后的平均接收者操作特性曲線下面積(ROC-AUC)約為 0.917,高于 Stokes 模型的 0.896。在使用上述最佳超參數和分子特征增強后,并使用更多訓練樣本(訓練集包括 90% 的分子),最終模型實現了 0.99 的 ROC-AUC(圖 2)。


圖 2. 最終模型的 ROC-AUC*

基于最終模型測試集的混淆矩陣如表 2 所示。根據該矩陣,模型沒有將任何非抗菌分子歸類為抗菌分子,這表明該模型在識別候選化合物方面具有較低的假陽性率。

表 2. 最終模型的混淆矩陣

實際

預測

非抗菌

抗菌

非抗菌

221

0

抗菌

5

7

此混淆矩陣基于最終模型的測試集,預測分數高于 0.5 的分子被視為預測抗菌。

3.2 與 Stokes 模型在抗菌發現中的預測結果比較

最終模型隨后應用于從 Drug Repurposing Hub 記錄的庫中識別具有抗菌特性的候選分子。通過比較兩個模型對 162 個經驗測試分子的預測結果,發現 CILBO 模型在預測抗菌特性方面與 Stokes 的深度學習模型相當有效。


圖 3. 兩個模型的預測結果圖。藍點代表非抗菌;橙點代表抗菌。X 軸(Pred_Score_Forest)是由最終模型(隨機森林分類器)預測的分數;Y 軸(Pred_Score_Net)是由 Stokes 最終模型(圖神經網絡)預測的分數。

具體而言,在 CILBO 模型中預測分數高于 0.5(模型默認閾值分數)的分子中,約 75% 被發現是經驗測試的抗菌分子,而在 Stokes 模型中預測分數高于 0.5 的分子中,74% 是經驗測試的抗菌分子。當在兩個模型中選擇高于 0.5 的閾值分數時,約 80% 滿足條件的分子具有經驗測試的抗菌特性,這高于任何單獨模型的數量。

四、討論與應用

機器智能(MI)被視為幫助緩解藥物發現過程中高昂成本壓力的有前途方法。然而,MI 內部的預測性和可解釋性之間的困境限制了其在藥物發現中的更廣泛應用。因此,作者提出了"使用貝葉斯優化的類不平衡學習"(CILBO)管道來提高機器學習模型的分類性能。

CILBO 模型的一個關鍵自然優勢是它易于解釋。此外,訓練像這里使用的隨機森林模型這樣的機器學習模型所需的時間至少比訓練深度學習模型所需的時間短 100 倍。這提供了足夠的時間自動嘗試各種超參數并確定最佳超參數來增強模型。與普通深度學習模型相比,基于 CILBO 構建的模型的另一個明顯優勢是它對模型設計者和基礎設施的依賴性較低。

特別值得注意的是,不平衡數據集在藥物行業相當常見。它們可能在 MI 輔助藥物開發過程中導致嚴重的分類偏差,但這個問題經常被忽視。作者在構建模型時考慮了這種不平衡問題,并使用特殊超參數來控制這種類型的偏差,旨在增強模型性能。

五、結論

作者構建了一個基于 CILBO(他們提出的管道)的特殊隨機森林模型,并將這個機器學習模型與 Stokes 等人在抗生素發現中創建的深度學習模型進行了比較。比較結果以及模型的其他特性表明:

  1. 基于 CILBO 構建的機器學習模型的預測性能至少與深度學習模型一樣好;

  2. 它自然更容易解釋,相對更簡單操作,不需要研究人員具有高水平經驗;

  3. 包含類不平衡策略以控制分類偏差進一步提高了基于 CILBO 構建的模型的預測性能,并可能擴大其在藥物開發中的適用性。

因此,作者設計的 CILBO 管道為促進藥物開發中的機器智能提供了一種替代和簡單的解決方案。

最后推薦一個我正在學習的AI Agent智能體實戰課


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
醫院人妻通奸后續:開房幾十次,多次用咬,人妻美照曝光

醫院人妻通奸后續:開房幾十次,多次用咬,人妻美照曝光

蜉蝣說
2024-10-24 16:07:30
新娘摟席太投入,低領禮服全走光新郎一臉尷尬,網友:姑娘心真大

新娘摟席太投入,低領禮服全走光新郎一臉尷尬,網友:姑娘心真大

梅子的小情緒
2025-05-06 21:12:38
波音給中國回信了!要求中方接收飛機,還聲稱要再給中國一個機會

波音給中國回信了!要求中方接收飛機,還聲稱要再給中國一個機會

歸客歷史
2025-05-08 08:35:08
內地客窮游香港擠麥當勞被批“乞衣襲港”,去食店再拒最低消費大喊“我們不服”!香港商戶抱怨旺丁不旺財!

內地客窮游香港擠麥當勞被批“乞衣襲港”,去食店再拒最低消費大喊“我們不服”!香港商戶抱怨旺丁不旺財!

澳門月刊
2025-05-06 09:18:42
原云南煤礦安全監察局副局長楊學輝被公訴!

原云南煤礦安全監察局副局長楊學輝被公訴!

正義網
2025-05-08 16:07:17
125架戰機激戰1小時后,巴鐵證實殲10立大功,法只好承認不如中國

125架戰機激戰1小時后,巴鐵證實殲10立大功,法只好承認不如中國

說天說地說實事
2025-05-08 14:16:44
這就是中國房地產最后的兩個“堡壘”,似乎即將被攻破。

這就是中國房地產最后的兩個“堡壘”,似乎即將被攻破。

維納斯的眼淚
2025-05-07 20:13:41
李嫣疑亮相謝霆鋒演唱會,和Lucas同框無交流,嘴巴太有辨識度

李嫣疑亮相謝霆鋒演唱會,和Lucas同框無交流,嘴巴太有辨識度

古希臘掌管月桂的神
2025-05-06 09:30:15
A股:不出意外!明天(5月9日)的大盤,會這樣走,上重點

A股:不出意外!明天(5月9日)的大盤,會這樣走,上重點

風風順
2025-05-09 00:09:17
魯迅給報社投稿發現稿費少了,報社稱:“標點符號不算稿費”,魯迅聽后心生一計

魯迅給報社投稿發現稿費少了,報社稱:“標點符號不算稿費”,魯迅聽后心生一計

每日一首古詩詞
2025-05-08 12:07:14
國家要動真格了?社會“新四害”出現,已經影響到老百姓的生活!

國家要動真格了?社會“新四害”出現,已經影響到老百姓的生活!

深析古今
2024-12-27 17:10:32
姜文:我的女兒世界第一美,原以為是吹牛,看到照片后,沒說謊!

姜文:我的女兒世界第一美,原以為是吹牛,看到照片后,沒說謊!

舊時光老師
2025-05-06 21:40:03
黃仁勛的子女臉上已經沒有華人特征?英偉達帝國接班人之謎

黃仁勛的子女臉上已經沒有華人特征?英偉達帝國接班人之謎

近史談
2025-04-27 17:51:21
8萬5買的鉆戒,“中國黃金”說好100%回購,現在卻變卦了,消費者求助

8萬5買的鉆戒,“中國黃金”說好100%回購,現在卻變卦了,消費者求助

中國能源網
2025-05-08 17:50:08
特朗普:我老婆覺得可愛

特朗普:我老婆覺得可愛

觀察者網
2025-05-06 10:25:13
進決賽后,曼聯棄將安東尼掩面哭泣引熱議,球迷:各自安好,勿念

進決賽后,曼聯棄將安東尼掩面哭泣引熱議,球迷:各自安好,勿念

側身凌空斬
2025-05-09 06:55:14
巴基斯坦打不贏與印度的對抗

巴基斯坦打不贏與印度的對抗

張棟偉創業咨詢大學生就業創業
2025-05-08 11:08:50
汪小菲又栽了?前夫哥甩出“核彈級證據”,馬筱梅人設碎成二維碼

汪小菲又栽了?前夫哥甩出“核彈級證據”,馬筱梅人設碎成二維碼

一盅情懷
2025-05-08 12:53:56
現成的廣告來了!7000萬美元中國戰機擊落2.8億美元西方頂級戰機

現成的廣告來了!7000萬美元中國戰機擊落2.8億美元西方頂級戰機

凱撒談兵
2025-05-07 11:19:46
車俊任中央指導組組長:敢于揭短亮丑、清倉見底!

車俊任中央指導組組長:敢于揭短亮丑、清倉見底!

政知新媒體
2025-05-08 19:50:18
2025-05-09 08:19:00
機器學習與Python社區 incentive-icons
機器學習與Python社區
機器學習算法與Python
2949文章數 11008關注度
往期回顧 全部

科技要聞

理想新車打折賣?激光雷達、Thor-U都配上了

頭條要聞

特朗普"暫停征稅90天"已過1/3 宣布與英達成重大協議

頭條要聞

特朗普"暫停征稅90天"已過1/3 宣布與英達成重大協議

體育要聞

面對一群天賦怪,阿森納只能接受失敗

娛樂要聞

劉畊宏老婆補刀 清場風波口碑翻車!

財經要聞

美英達成貿易協議!

汽車要聞

昨天李想點評了AI 今天我讓AI點評了理想

態度原創

手機
時尚
本地
家居
房產

手機要聞

Apple Card 用戶可免費試用六個月 Uber One

學會這5個萬能公式,好看一整個夏天

本地新聞

非遺里的河南|汴梁鳶舞千年韻!宋室風箏藏多少絕活

家居要聞

侘寂美學 樸素而有生機

房產要聞

廣州樓市全線飄紅!二手增長20%,一手暴漲244.7%!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 靖宇县| 焉耆| 泸水县| 纳雍县| 芮城县| 通河县| 锡林浩特市| 安多县| 师宗县| 新余市| 元谋县| 武功县| 扬中市| 武隆县| 潼关县| 舒兰市| 时尚| 贵定县| 延安市| 嘉兴市| 池州市| 天祝| 柳江县| 安丘市| 赞皇县| 岑巩县| 和田市| 闵行区| 桂林市| 景洪市| 徐汇区| 金溪县| 南澳县| 广河县| 兴文县| 宣武区| 于都县| 北碚区| 祁连县| 汉中市| 富宁县|