99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

浙大侯廷軍開發Token-Mol 1.0:基于LLM的token化藥物設計

0
分享至



編輯 | 蘿卜皮

眾所周知,藥物研發需要經歷一段極其漫長且復雜的過程。好在大型語言模型 (LLM) 在藥物設計中的應用,正逐漸給這一挑戰帶來曙光。不過,現有基于 LLM 的方法往往難以有效地整合三維分子結構。

在最新的研究中,浙江大學侯廷軍團隊提出了 Token-Mol,這是一個僅包含 token 的 3D 藥物設計模型,它將二維和三維結構信息以及分子屬性編碼成離散的 token。

Token-Mol 建立在 Transformer 解碼器之上,并經過因果掩蔽訓練,引入了專為回歸任務定制的高斯交叉熵損失函數,從而在多個下游應用中實現了卓越的性能。

能力方面,該模型超越了現有方法,在兩個數據集上將分子構象生成性能分別提高了 10% 和 20% 以上,同時在性質預測方面比僅使用 token 的模型高出 30%。

在基于口袋的分子生成中,它分別將藥物相似性和合成可及性提高了約 11% 和 14%。并且,Token-Mol 的運行速度比「專家」擴散模型快 35 倍。

該研究以「Token-Mol 1.0: tokenized drug design with large language models」為題,于 2025 年 5 月 13 日發布在《Nature Communications》。



背景與挑戰

在藥物研發中,獲取帶注釋數據集的高成本仍然是該領域發展的重大障礙。近年來,以 BERT 和 GPT 為代表的無監督學習框架的快速發展,為化學和生物等學科引入了無監督化學和生物預訓練模型。

這些模型經過大規模無監督訓練,學習小分子或蛋白質的表征,并隨后針對特定應用進行微調。通過在大規模數據集上進行無監督學習,這些預訓練模型有效地解決了與稀疏標記和分布外泛化能力欠佳相關的挑戰。

大規模分子預訓練模型大致可分為兩大類:基于化學語言的模型和利用分子圖的模型。

化學語言模型使用諸如簡化分子輸入系統 (SMILES) 或自引用嵌入字符串 (SELFIES) 等表示形式對分子結構進行編碼。它們往往采用類似于 BERT 或 GPT 的訓練方法。

基于圖的分子預訓練模型表現出更高的通用性。它們以圖形形式表示分子,節點表示原子,邊表示化學鍵。預訓練方法包括各種技術。與基于語言的模型不同,基于圖的分子預訓練模型本質上包含幾何信息。

但是這里有一個很尷尬的問題,基于化學語言的大規模分子預訓練模型無法處理對分子特性至關重要的3D結構信息,所以它難以勝任相關下游任務;基于圖結構的預訓練模型雖能整合 3D 信息卻僅聚焦性質預測,同時難以與通用 NLP 模型融合。

因此,當前亟需開發能克服這兩類模型局限、適用于所有藥物設計場景并可無縫對接通用大語言模型的新型預訓練模型。

Token-Mol

在本研究中,為了克服現有模型的局限性,浙江大學侯廷軍、康玉、Chang-Yu Hsieh 團隊提出了 Token-Mol,一個用于分子預訓練的大規模語言模型。

為了增強與現有通用模型的兼容性,研究人員采用了僅使用 token 的訓練范式,將所有回歸任務重新定義為概率預測任務。Token-Mol 采用 Transformer 解碼器架構構建,通過 SMILES 和扭轉角 token 整合必要的二維和三維結構信息。

具體來講,Token-Mol 的完整工作流程如下圖所示。初始階段通過隨機因果掩蔽對數據集進行預訓練。隨后,模型在定制數據集上進行微調,以完成特定的下游任務,包括構象生成、基于口袋的分子生成以及多種屬性的預測。對于回歸任務,在微調過程中使用 GCE 損失函數。此外,還可以使用強化學習進一步優化特定下游任務的性能。



圖示:Token-Mol 概述。(來源:論文)

在此背景下,預訓練數據集的預處理至關重要。對標準 SMILES 格式的整個分子進行深度優先搜索(DFS)遍歷,以提取分子結構中嵌入的扭轉角。之后,每個提取出的扭轉角都會被同化為一個 token,并附加到 SMILES 字符串中。

在整個預訓練階段,研究人員會實施基于因果回歸的隨機因果掩蔽。預訓練完成后,研究人員會對下游任務進行微調。值得注意的是,任務提示是專門為構建對話系統而設計的。

這一特性顯示了僅使用 token 的模型相較于其他大規模模型的一個關鍵優勢:它們能夠促進實時交互。

對于基于口袋的分子生成任務,研究人員引入了口袋編碼器和融合模塊,從而更好地將蛋白質口袋信息整合到模型中。同時,他們利用多頭條件注意力機制,將每個自回歸步驟中生成的信息完整地整合到后續迭代中。該機制將自回歸過程中生成的每個 token 視為后續生成的先決條件,從而確保整個查詢、鍵和值矩陣均源自原始序列。

需要注意的是,在實際應用中,先導化合物不僅要對靶標表現出高親和力,還要滿足一系列標準,包括高生物活性和多種良好的藥理特性。這對基于口袋的分子設計任務提出了更高的要求,而訓練數據集中受體-配體分子對的整合存在固有的局限性。

該模型主要利用來自蛋白質口袋的信息來生成配體分子。因此,這些生成分子的性質受到訓練數據的嚴重影響,限制了對其生物物理和化學性質的明確控制。當需要精確調節分子特性時,這些限制尤為明顯。

Token-Mol 建立在自回歸語言模型架構之上,其中 token 的生成與強化學習框架中的動作相一致,從而促進了強化學習的無縫優化,從而保證獲得量身定制的結果。

性能驗證

為了驗證 Token-Mol 的性能,研究人員將它應用于分子構象生成、性質預測和基于口袋的分子生成等任務。



圖示:Token-Mol 和基線模型之間的分子特性分布。(來源:論文)

在分子構象生成任務中,Token-Mol 的表現優于現有的最佳方法,在兩個數據集上的各項指標上分別實現了超過 10% 和 20% 的準確率提升。

在分子屬性預測任務中,Token-Mol 與僅使用 token 的模型相比,在回歸任務中平均提升了 30%。

在基于 Pocket 的分子生成任務中,Token-Mol 不僅生成了與當前最佳模型生成的分子 Vina 得分相當的分子,而且藥物相似性 (QED) 和合成可及性 (SA) 分別提升了約 11% 和 14%。



圖示:真實藥物設計場景評估。(來源:論文)

為了進一步驗證 Token-Mol 的泛化能力,團隊還在真實的藥物設計場景中進行了測試。值得一提的是,Token-Mol 生成的類藥分子在 8 個不同靶點的評估中,平均成功率提高了 1 倍。

此外,將強化學習集成到 Token-Mol 中,能夠有效提升特定下游任務在更現實場景下的性能,使其在 3D 任務上優于基于幾何圖神經網絡的大型模型。

與 Token-Mol 聊天

Token-Mol 的 token-only 框架相較于傳統回歸模型具有顯著優勢,因為它能夠無縫集成前沿的大模型技術,包括快速學習、混合專家(MoE)和檢索增強生成(RAG)。

為了說明此功能,該團隊在論文里展示了幾個簡單的對話用例。通過運用提示學習,研究人員可以控制諸如本研究中提到的屬性預測等任務的執行。

首先,他們插入特定的提示,例如「預測 ESOL」從而微調模型。這使得用戶能夠在提示后與模型直接交互,從而請求預測不同的分子屬性。



圖示:與 Token-Mol 聊天。(來源:論文)

使用時,研究人員查詢了不同分子的各種屬性,Token-Mol 成功地給出了相應的預測。這展現了 Token-Mol 擁有與化學家進行有意義對話的潛力。

用戶可以提供分子構象,但由于 Token-Mol 可以生成相應的構象,因此最終輸出將僅包含預測的目標屬性。

研究人員表示,未來該模型可以整合 RAG。

當向 Token-Mol 查詢分子的特定屬性時,系統會使用基于嵌入的向量搜索,將查詢轉換為向量。然后,該向量會與數據庫中高度相關的向量描述進行匹配,以提供上下文信息。查詢以及檢索到的上下文信息(例如空間結構信息和其他相關屬性)隨后被輸入到 Token-Mol,最終生成答案。

總而言之,Token-Mol 的內在潛力巨大。它的新穎架構也為藥物設計 AI 模型的標準化提供了參考。

論文鏈接:https://www.nature.com/articles/s41467-025-59628-y

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
家長醒醒吧,河北高考600分數段淪落,上211成為歷史

家長醒醒吧,河北高考600分數段淪落,上211成為歷史

解說阿洎
2025-06-26 13:28:27
男子坐了25年牢,出獄后去派出所辦身份證,所長看到他名字竟哭了

男子坐了25年牢,出獄后去派出所辦身份證,所長看到他名字竟哭了

歷史八卦社
2025-06-03 23:05:49
國務院官宣兩個好消息:除閱兵外,四個月后,兩岸同慶一個大日子

國務院官宣兩個好消息:除閱兵外,四個月后,兩岸同慶一個大日子

阿纂看事
2025-06-26 15:50:33
我想回中國!女孩被騙到印度貧民窟,獲救前反悔,老公身份不簡單

我想回中國!女孩被騙到印度貧民窟,獲救前反悔,老公身份不簡單

楊哥歷史
2025-06-25 11:40:15
伊朗防長訪華釋放重磅信號:殲-10CE與052D大單即將敲定?

伊朗防長訪華釋放重磅信號:殲-10CE與052D大單即將敲定?

淡然小司
2025-06-26 07:26:13
為什么近期突然把“干部違規吃喝”查得這么嚴?

為什么近期突然把“干部違規吃喝”查得這么嚴?

帝都觀日記
2025-06-25 14:10:08
1986年,顧城與謝燁在成都公園的留影,最后卻親手殺妻,上吊自盡

1986年,顧城與謝燁在成都公園的留影,最后卻親手殺妻,上吊自盡

歷史偉人錄
2025-06-25 14:08:42
你無意中看到了什么不該看的東西?網友:每一個都是炸裂的存在

你無意中看到了什么不該看的東西?網友:每一個都是炸裂的存在

美好客棧大掌柜
2024-11-03 05:55:57
浙江調整生育津貼發放方式,7月1日起施行!

浙江調整生育津貼發放方式,7月1日起施行!

浙江發布
2025-06-26 10:27:00
男子沉迷修仙,竟前往神農架尋遠古巨蟲煉丹,3個月后異象突生

男子沉迷修仙,竟前往神農架尋遠古巨蟲煉丹,3個月后異象突生

古怪奇談錄
2025-06-23 16:01:11
浙江00后帶飯上班,堅持3天就受不了,網友:沒有對比就沒有傷害

浙江00后帶飯上班,堅持3天就受不了,網友:沒有對比就沒有傷害

阿龍美食記
2025-06-25 22:46:14
以軍對德黑蘭軍事目標展開打擊

以軍對德黑蘭軍事目標展開打擊

新京報
2025-06-23 17:15:02
傾家蕩產也不能治愈?提醒:這五種病根本無法根治,別白花冤枉錢

傾家蕩產也不能治愈?提醒:這五種病根本無法根治,別白花冤枉錢

健康八條
2025-06-25 22:25:56
伊駐華使館稱:特朗普意識到自己是以色列的“玩物”,但為時已晚

伊駐華使館稱:特朗普意識到自己是以色列的“玩物”,但為時已晚

明月聊史
2025-06-26 16:06:44
伊朗外長親口承認:中國不賣一枚導彈,卻給我們最硬的底牌!

伊朗外長親口承認:中國不賣一枚導彈,卻給我們最硬的底牌!

Ck的蜜糖
2025-06-25 06:09:03
中國女排比賽推遲!原因讓人無奈,唯一女教練帶隊,訓練可以暫停

中國女排比賽推遲!原因讓人無奈,唯一女教練帶隊,訓練可以暫停

跑者排球視角
2025-06-25 23:56:08
NASA衛星照片證明美軍空襲炸偏了?

NASA衛星照片證明美軍空襲炸偏了?

樞密院十號
2025-06-22 23:06:01
2025年工齡一旦超過40年,養老金“跳”一檔?每5年“跳”一次?

2025年工齡一旦超過40年,養老金“跳”一檔?每5年“跳”一次?

社保精算師
2025-06-26 13:13:12
特朗普先生可能來華參加中國抗戰勝利80周年大閱兵的三點理由!

特朗普先生可能來華參加中國抗戰勝利80周年大閱兵的三點理由!

爆笑大聰明阿衿
2025-06-26 15:47:40
30歲女子直言:我就喜歡和黑人在一起的感覺,國內男人根本不入眼

30歲女子直言:我就喜歡和黑人在一起的感覺,國內男人根本不入眼

易玄
2025-06-24 19:03:23
2025-06-26 17:03:00
ScienceAI incentive-icons
ScienceAI
關注人工智能與其他前沿技術
983文章數 214關注度
往期回顧 全部

科技要聞

奧特曼剛警告完 Meta就挖走OpenAI三名大將

頭條要聞

媒體:英國公布針對中國的審計報告 對華“既要又要”

頭條要聞

媒體:英國公布針對中國的審計報告 對華“既要又要”

體育要聞

蓄謀已久的開拓者,就是最適合楊瀚森的球隊

娛樂要聞

倪妮,怎么突然下桌了?

財經要聞

免除蘇寧易購5億債務的神秘人是誰?

汽車要聞

奇瑞最大轎車 風云A9L把VIP待遇和續航焦慮一起解決

態度原創

教育
藝術
數碼
手機
公開課

教育要聞

文科沒用?回答一下關于選專業的幾個問題

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數碼要聞

田亮空降TCL奧運中國行重慶站:體驗眾多黑科技

手機要聞

Nothing Phone (3) 手機跑分曝光:驍龍 8s Gen 4芯片、16GB 內存

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 贵州省| 沾化县| 朝阳区| 岚皋县| 随州市| 阿合奇县| 桃江县| 扬州市| 兴城市| 永新县| 沙坪坝区| 曲松县| 平安县| 五寨县| 桐城市| 金溪县| 黄梅县| 彝良县| 盐山县| 广丰县| 客服| 舒兰市| 陈巴尔虎旗| 盐源县| 萨嘎县| 永寿县| 上思县| 怀集县| 渝北区| 秭归县| 婺源县| 邮箱| 新丰县| 屯昌县| 泊头市| 高阳县| 凤庆县| 三原县| 寿光市| 和硕县| 邻水|