編輯 | ScienceAI
近日,清華大學智能產業研究院(AIR)-北京智源人工智能研究院「健康計算聯合研究中心」發布 AI 驅動的超高通量藥物虛擬篩選平臺 DrugCLIP, 該平臺系統由 AIR 蘭艷艷教授團隊研發。
DrugCLIP 在篩選速度對比傳統方法實現了百萬倍提升,同時在預測準確率上也取得顯著突破。依托該平臺,團隊打通了從 AlphaFold 結構預測到藥物發現的關鍵通道,首次完成了覆蓋人類基因組規模的藥物虛擬篩選,為后 AlphaFold 時代的創新藥物發現帶來了新的可能性。
DrugCLIP:https://www.drugclip.com
藥物研發長期以來面臨「高風險、高投入、低成功率」的難題,在靶點發現與先導化合物篩選階段,受限于傳統工具的計算能力,絕大多數潛在靶點和化合物仍未被充分探索。
人類基因組編碼 2 萬余個蛋白,每個蛋白可能包含多個結合口袋,然而現有藥物靶點開發只覆蓋其中小部分。另一方面,理論上可合成的小分子數量高達1060,遠超現有藥物化合物庫。
如何在如此浩瀚的生物與化學空間中精準高效地發現活性化合物,是當前創新藥物研發面臨的核心挑戰。以篩選 1 萬個蛋白質靶點、每個靶點面對 10?個候選分?為例,需完成約 1013 次蛋白-配體打分。即便使用當前最先進的分子對接工具,也需數百年才能完成,嚴重制約了新靶點與新分子之間匹配的探索效率。
圖:化學空間大小示意圖(引用:Gastreich, M.BioSolveITDrugSpace2022)
為突破虛擬篩選規模瓶頸,DrugCLIP 創新性地構建了蛋白口袋與小分子的「向量化結合空間」,將傳統基于物理對接的篩選流程轉化為高效的向量檢索問題。該模型結合對比學習、3D 結構預訓練與多模態編碼技術,能在三維結構層?精準建模蛋白-配體間的相互作?。
訓練后的高潛力分子將自然聚集于目標蛋白口袋的向量鄰域,能夠有效支撐快速的大規模虛擬篩選。依托這?機制,DrugCLIP 在 128 核 CPU + 8 張 GPU 的計算節點上,能實現毫秒級打分與萬億級日吞吐能力,篩選 100 萬個候選分子僅需 0.02 秒,日處理能力達 31 萬億次,對比傳統方法實現了百萬倍提升。
圖:DrugCLIP 編碼及檢索流程
DrugCLIP 在多個公開數據集上表現優異。以 DUD-E 與 LIT-PCBA 為例,DrugCLIP 在 BEDROC、EF1%、
AUC 等關鍵指標上均優于傳統對接工具(如 AutoDock Vina)及近年來代表性 AI 方法,展現出在早期藥物發現方面的領先能力。
圖:公共數據集評測效果對比
團隊與清華大學閆創業教授團隊合作,在去甲腎上腺素轉運體(NET)的臨床相關靶點上開展了系列生物實驗驗證。 NET 是抑郁癥、注意缺陷多動癥以及疼痛等疾病的重要靶點,目前雖然有多款抑制劑已經上市,但是在選擇性等方面仍然有巨大的優化空間。團隊使用DrugCLIP 模型從 160 萬個候選分?
中篩選出約 100 個高評分分子,同位素配體轉運實驗檢測顯示其中 15% 為有效抑制劑,其中 12 個分子結合能力優于現有抗抑郁藥物安非他酮。相關復合物結構已通過冷凍電鏡解析,進一步驗證了 DrugCLIP 篩選結果的生物學可信度。
圖:冷凍電鏡解析的 NET 與篩選到的分子復合物結構與對應化合物的 IC50
特別的是,DrugCLIP 支持對 AlphaFold 預測的蛋白結構和apo(無配體)狀態下的蛋白口袋進行篩選,擴大了其在真實藥物發現場景中的適用性。團隊和清華?學劉磊教授團隊合作針對 E3 泛素連接酶 TRIP12(thyroid hormone receptor interactor 12)進行了虛擬篩選與實驗驗證。TRIP12 在腫瘤細胞中促進重要抑癌基因 TP53 的降解,因此其抑制劑可能有抗腫瘤的潛力。
TRIP12 也參與降解葡糖腦苷脂酶(glucocerebrosidase),進而引發α-突觸核蛋白(α-synuclein)的積累和聚積,因此其抑制劑對帕金森綜合征等神經退行性疾病有潛在療效。TRIP12 發揮酶活性的 HETC 結構域目前尚無任何文獻報導的抑制劑與可供虛擬篩選使用的實驗結構。
團隊使用 DrugCLIP 模型從160萬個候選分?中高通量篩選出約 50 個?評分分?,SPR 實驗證實其中 10 個分子與 TRIP12 有結合能力,兩個親和力較高的分子也對 TRIP12 的泛素連接酶活性有一定的抑制活性。
圖:AlphaFold2 預測的 TRIP12 結構與篩選獲得的其中?個化合物的 SPR 曲線
構建人類蛋白組篩選數據庫,推動后 AlphaFold 時代藥物發現新范式依托 DrugCLIP,團隊首次完成了人類基因組規模的虛擬篩選項目,覆蓋約 1 萬個蛋白靶點、2 萬個結合口袋,分析超過 5 億個小分子,富集出 200 萬余個高潛力活性分子,構建了目前已知最大規模的蛋白-配體篩選數據庫。該數據庫已?向全球科研社區開放,為基礎研究與早期藥物發現提供了強大數據支持。
DrugCLIP 平臺現已免費開放,用戶無需本地部署,通過網頁上傳蛋白結構即可啟動篩選任務。平臺集成口袋/分子編碼、向量檢索、可視化與結果分析等功能,支持多種分子庫調用與自定義上傳,廣泛適用于科研機構與企業用戶。
DrugCLIP 鏈接:https://www.drugclip.com
圖:人類基因組規模的蛋白虛擬篩選數據庫
圖:人類基因組規模篩選項目覆蓋的蛋白數目與現有數據庫對比(左:覆蓋的靶蛋白空間,使用 ESM1b 編碼并進行 t-SNE 降維可視化;右:覆蓋的 UniProt ID 數量)
未來,DrugCLIP 將與科研產業生態合作伙伴深度合作,在抗癌、傳染病、罕見病等方向加速新靶點與 First-in-class 藥物的發現。
團隊將持續優化引擎性能、拓展支持模態,助力構建?個更智能、高效與普惠的全球藥物創新生態。
機構介紹
「清華(AIR)- 智源健康計算聯合研究中心」由清華大學智能產業研究院(AIR)與北京智源人工智能研究院于 2021 年聯合成立,致力于應用最前沿的人工智能技術賦能健康管理、精準診療與新藥研發,以數據驅動的全新科研范式突破生命健康領域核心技術,服務人類健康福祉。清華(AIR)首席研究員蘭艷艷、智源健康計算研究中心負責人葉啟威任聯合研究中心主任。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.