99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

諾獎級Nature橫空出世!攻克歷史難題,植物科學領域迎來巔峰時刻!

0
分享至


植物產生復雜而有效的治療分子,但從天然生產商或通過化學合成獲取這些分子很困難,這限制了它們在臨床上的使用。一個突出的例子是抗癌治療性紫杉醇(以紫杉醇品牌出售),它來源于紅豆杉樹(紅豆杉屬)。確定完整的紫杉醇生物合成途徑將使藥物的異源生產成為可能,但盡管進行了半個世紀的研究,但這尚未實現,在 Taxus 的大型、富含酶的基因組中,我們懷疑紫杉醇通路很難使用常規 RNA 測序和共表達分析來解決。在這里,為了提高用于通路鑒定的轉錄分析的分辨率,我們開發了一種我們稱之為單核多重擾動 (mpXsn) ×策略,以轉錄分析跨組織、細胞類型、發育階段和激發條件的細胞狀態。我們的數據表明,紫杉醇生物合成基因分離成不同的表達模塊,這表明連續的亞途徑。這些模塊解析了 7 個新基因,允許在 Nicotiana benthamiana 葉片中從頭 17 基因生物合成和分離 baccatin III(紫杉醇的工業前體),其水平與紅豆杉針葉中的自然豐度相當。值得注意的是,我們發現核轉運因子 2 (NTF2) 樣蛋白 FoTO1 對于在第一次氧化過程中促進所需產物的形成至關重要,解決了紫杉醇途徑重建中長期存在的瓶頸。與一種新的 β-苯丙氨酸-CoA 連接酶一起,這里發現的 8 個基因能夠從 頭生物合成 3'-N-去苯甲酰-2'-脫氧紫杉醇。更廣泛地說,我們建立了一種可推廣的方法,以有效地擴展共表達分析的能力,以匹配大型、未表征基因組的復雜性,從而促進高價值基因集的發現。

隨著高通量生物技術的發展,已經開發了多種組學技術來表征不同但互補的生物信息,包括基因組學、表觀基因組學、轉錄組學蛋白組學代謝組學等。

人工智能組學的研究到底有多熱,以及為何要舉辦培訓,下面的內容給出了答案。

近兩年國內外頂尖課題組MIT、Harvard University、UPenn、清華大學、復旦大學、西湖大學等都在從事人工智能組學的研究,這一研究成果更是多次發表在

Nature、
Nature Biotechnology、
Nature Reviews Genetics
Nature Methods
Science Advances
Cancer Cell
等國際知名學術頂刊上,為我們發表頂刊鑒定了基礎。

由于該項研究資料和學習平臺較少,信息技術不公開,培訓學習迫在眉睫,特此誠摯邀請您參加“機器學習與多組學”線上直播課,參會會員已達7000余名!發頂刊!快上車!

七大課程助力發頂刊

01

深度學習基因組學

02

機器學習代謝組學

03

機器學習微生物多組學聯合分析

04

CRISPR-Cas9基因編輯技術

05

深度學習蛋白質設計

06

CADD計算機輔助藥物設計

07

AIDD人工智能藥物發現與設計頂刊復現

講師介紹

機器學習代謝組學

主講老師來自985高校神經科學博士,主要利用代謝組學、轉錄組學和分子生物學等技術研究神經內科慢性病的發病機制和生物標志物。擅長高效液相色譜-質譜聯用(LC-MS)技術進行非靶向和靶向代謝組學從樣本制備到數據分析的全流程研究,以及多組學大數據的生物信息學整合分析。5年內在J Clin Invest, EBioMedicine, Cell Death Dis, Cell Death Discov, Nanotoxicology等雜志發表SCI論文10篇。

機器學習微生物多組學

主講老師Dr. Li,生物信息學博士,有十余年的測序數據分析經驗。研究領域涉及機器學習,芯片數據分析,核酸及蛋白序列分析,宏基因組學,DNA,RNA,甲基化測序數據分析,單細胞測序數據分析,miRNA及靶基因分析,生存分析及預后模型構建等。具有豐富的培訓經驗,舉辦過線上線下培訓50余場。培訓內容涉及機器學習在生物醫學中的應用,機器學習在微生物學中的應用,機器學習在蛋白組學中的應用,單細胞多組學數據挖掘,WGCNA共表達網絡構建,ceRNA網絡構建,R語言基礎等。發表SCI論文30余篇,其中一作及并列一作15篇,h指數20。

深度學習基因組學

主講老師來自荷蘭在讀博士陳老師授課。在國內外學術刊物發表論文數篇,包括Nature Communications, Cell Regeneration等知名期刊,研究方向主要為染色質三維結構,生物信息學,發育生物學和遺傳學等。利用多組學數據,通過深度學習算法進行數據分析和挖掘,包括ChIP-seq,ATAC-seq,RNA-seq,CNV等,解決并回答領域內多個基礎的生物學機制。

CRISPR-Cas9基因編輯技術

主講老師來自中國農業科學院,有十余年基因編輯研究經驗,熟悉基因編輯在各個領域應用,在基因編輯系統的開發與優化深耕多年,已發表數十篇SCI,有豐富的教學經驗!

深度學習蛋白質設計

主講老師來自北京大學,從事AI for science方向研究,目前的主要研究方向是人工智能輔助的蛋白質等分子體系的采樣,在分子模擬上由豐富的實戰經驗。已在JCIM、communications physics等國際期刊上發表數篇文章,其設計的蛋白質采樣算法UFConf的發表文章,被選為JCIM雜志的當期封面文章以及編輯推薦,具有廣泛的影響力。

AIDD人工智能藥物發現頂刊復現

主講老師來自天津大學,有十余年的計算機算法研究和程序設計經驗。研究方向涉及生物信息學,深度學習,藥物合成路徑設計,藥物不良反應等。發明專利5項,參與國家重點科研項目4項,發表SCI高水平論文10篇,包括BMC Bioinformatics, Journal of Biomedical Informatics, International Journal of Molecular Sciences等知名期刊

CADD計算機輔助藥物設計

主講老師來自協和生物所,老師主要擅長深度學習、機器學習、藥物虛擬篩選、計算機輔助藥物設計、人工智能藥物發現、分子對接、分子動力學等方面的研究,在CNS發表文章數篇,有豐富的培訓經驗,已經培訓學員達5000余人

1

深度學習基因組學課表內容

可滑動查看

第一天

理論部分

深度學習算法介紹

1.有監督學習的神經網絡算法

1.1全連接深度神經網絡DNN在基因組學中的應用舉例

1.2卷積神經網絡CNN在基因組學中的應用舉例

1.3循環神經網絡RNN在基因組學中的應用舉例

1.4圖卷積神經網絡GCN在基因組學中的應用舉例

2.無監督的神經網絡算法

2.1自動編碼器AE在基因組學中的應用舉例

2.2生成對抗網絡GAN在基因組學中的應用舉例

實操內容

1.Linux操作系統

1.1常用的Linux命令

1.2 Vim編輯器

1.3基因組數據文件管理, 修改文件權限

1.4查看探索基因組區域

2.Python語言基礎

2.1.Python包安裝和環境搭建

2.2.常見的數據結構和數據類型

第二天

理論部分

基因組學基礎

1.基因組數據庫

2.表觀基因組

3.轉錄基因組

4.蛋白質組

5.功能基因組

實操內容

基因組常用深度學習框架

1.安裝并介紹深度學習工具包tensorflow, keras,pytorch

2.在工具包中識別深度學習模型要素

2.1.數據表示

2.2.張量運算

2.3.神經網絡中的“層”

2.4.由層構成的模型

2.5.損失函數與優化器

2.6.數據集分割

2.7.過擬合與欠擬合

3.基因組數據處理

3.1安裝并使用keras_dna處理各種基因序列數據如BED、 GFF、GTF、BIGWIG、BEDGRAPH、WIG等

3.2使用keras_dna設計深度學習模型

3.3使用keras_dna分割訓練集、測試集

3.4使用keras_dna選取特定染色體的基因序列等

4.深度神經網絡DNN在識別基序特征中應用

4.1實現單層單過濾器DNN識別基序

4.2實現多層單過濾器DNN識別基序

4.3實現多層多過濾器DNN識別基序

第三天

理論部分

卷積神經網絡CNN在基因調控預測中的應用

1.Chip-Seq中識別基序特征G4,如DeepG4

2.Chip-Seq中預測DNA甲基化,DeepSEA

3.Chip-Seq中預測轉錄調控因子結合,DeepSEA

4.DNase-seq中預測染色體親和性,Basset

5.DNase-seq中預測基因表達eQTL,Enformer

實操內容

復現卷積神經網絡CNN識別基序特征DeepG4、非編碼基因突變DeepSEA,預測染色體親和性Basset,基因表達eQTL

1.復現DeepG4從Chip-Seq中識別G4特征

2.安裝selene_sdk,復現DeepSEA從Chip-Seq中預測DNA甲基化,非編碼基因突變

3.復現Basset,從Chip-Seq中預測染色體親和性

4.復現Enformer,從Chip-Seq中預測基因表達eQTL

第四天

理論部分

深度學習在識別拷貝數變異DeepCNV、調控因子DeepFactor上的應用

1.SNP微陣列中預測拷貝數變異CNV,DeepCNV

2.RNA-Seq中預測premiRNA,dnnMiRPre

3.從蛋白序列中預測調控因子蛋白質,DeepFactor

實操內容

1.復現DeepCNV利用SNP微陣列聯合圖像分析識別拷貝數變異

2.復現循環神經網絡RNN工具 dnnMiRPre,從RNA-Seq中預測premiRNA

3.復現DeepFactor,從蛋白序列中識別轉錄調控因子蛋白質

第五天

理論部分

深度學習在識別及疾病表型及生物標志物上的應用

1.從基因表達數據中識別乳腺癌分型的深度學習工具DeepType

2.從高維多組學數據中識別疾病表型,XOmiVAE

3.基因序列及蛋白質相互作用網絡中識別關鍵基因的深度學習工具DeepHE

實操內容

1.復現DeepType,從METABRIC乳腺癌數據中區分乳腺癌亞型

2.復現XOmiVAE,從TCGA多維數據庫中識別乳腺癌亞型

3.復現DeepHE利用基因序列及蛋白質相互作用網絡識別關鍵基因案例實操圖片:


2

機器學習代謝組學課表內容

可滑動查看

第一天上午

A1 代謝物及代謝組學的發展與應用

(1) 代謝與生理過程;

(2) 代謝與疾?。?/p>

(3) 非靶向與靶向代謝組學;

(4) 空間代謝組學與質譜成像(MSI);

(5) 代謝組學與藥物和生物標志物;

(6) 代謝流與機制研究。

A2 代謝通路及代謝數據庫

(1) 幾種經典代謝通路簡介;

(2) 三大常見代謝物庫:HMDB 、METLIN 和 KEGG;

(3) 代謝組學原始數據庫:Metabolomics Workbench 和 Metabolights. A3 參考資料推薦

第一天下午

A4 代謝組學實驗流程簡介

A5 色譜 、質譜硬件與原理解析

(1) 色譜分析原理與構造;

(2) 色譜儀和色譜柱的選擇;

(3) 色譜的流動相:梯度洗脫法;

(4) 離子源、質量分析器與質量檢測器解析;

(5) 質譜分析原理及動畫演示;

(6) 色譜質譜聯用技術(LC-MS);

第二天上午

B1 代謝物樣本處理與抽提

(1) 各種組織、血液和體液等樣本的提取流程與注意事項;

(2) 代謝物抽提流程與注意事項;

(3) 樣本及代謝物的運輸與保存問題;

B2 LC-MS 數據質控與搜庫

(1) LC-MS 實驗過程中 QC 和 Blank 樣本的設置方法;

(2) LC-MS 上機過程的數據質控監測和分析;

(3) 代謝組學上游分析原理——基于 Compound Discoverer 與 Xcms 軟件;

(4) Xcms 軟件數據轉換、提峰、峰對齊與搜庫;

第二天下午

B3 R 軟件基礎

(1) R 和 Rstudio 的安裝;

(2) Rstudio 的界面配置;

(3) R 中的基礎運算和統計計算;

(4) R 中的包:包,函數與參數的使用;

(5) R 語言語法,數據類型與數據結構;

(6) R 基礎畫圖;

B4 R 語言畫圖利器——ggplot2 包

(1) ggplot2 簡介

(2) ggplot2 的畫圖哲學;

(3) ggplot2 的配色系統;

(4) ggplot2 數據挖掘與作圖實戰;

第三天上午

機器學習

C1 有監督式機器學習在代謝組學數據處理中的應用

(1) 人工智能、機器學習、深度學習的關系;

(2) 回歸算法:從線性回歸、Logistic 回歸與 Cox 回歸講起;

(3) PLS-DA 算法:PCA 降維后沒有差異的數據還有救嗎?

(4) VIP score 的意義及選擇;

(5) 分類算法:決策樹,隨機森林和貝葉斯網絡模型;

C2 一組代謝組學數據的分類算法實現的 R 演練

(1) 數據解讀;

(2) 演練與操作;

第三天下午

C3 無監督式機器學習在代謝組學數據處理中的應用

(1) 大數據處理中的降維;

(2) PCA 分析作圖;

(3) 三種常見的聚類分析:K-means、層次分析與 SOM

(4) 熱圖和 hcluster 圖的 R 語言實現;

C4 一組代謝組學數據的降維與聚類分析的 R 演練

(1) 數據解析;

(2) 演練與操作;

第四天上午

D1 在線代謝組分析網頁 Metaboanalyst 操作

(1) 用 R 將數據清洗成網頁需要的格式;

(2) 獨立組、配對組和多組的數據格式問題;

(3) Metaboanalyst 中的上游分析(原始數據峰提取、峰對齊與搜庫)

(4) Metaboanalyst 的 pipeline 以及參數設置和注意事項;

(5) Metaboanalyst 的結果查看和導出;

(6) Metaboanalyst 的數據編輯;

(7) 全流程演練與操作。

(8) 代謝聯合多組學分析網頁操作。

第四天下午

D2 代謝組學數據清洗與 R 語言進階

(1) 代謝組學中的 t、fold-change 和響應值;

(2) 數據清洗流程;

(3) R 語言 tidyverse;

(4) 數據預處理:數據過濾與數據標準化(樣本的 Normalization 和代謝物的 Scaling);

(5) 代謝組學數據清洗演練;

第五天上午

E1 文獻數據分析部分復現(1 篇)

(1) 文獻深度解讀;

(2) 實操:從原始數據下載到圖片復現;

(3) 學員實操。

第五天下午

E2 機器學習與代謝組學頂刊解讀(3 篇);

(1) Signal Transduction and Targeted Therapy 一篇有關饑餓對不同腦區代謝組學影響變

化的小鼠腦組織代謝圖譜類的文獻;(數據庫型)

(2) Cell 一篇代謝組學孕婦全程血液代謝組學分析得出對孕周和孕產期預測的代謝標志物

的文獻;(生物標志物型)

(3) Nature 一篇對胰腺癌患者腸道菌群的代謝組學分析找到可以提高化療效果的代謝物的

文獻。(機制研究型)

案例實操圖片:



3

機器學習微生物多組學聯合分析 課表內容

可滑動查看

第一天

微生物多組學簡介

1.微生物學基本概念

2.微生物學常用分析介紹

3.代謝組學基本概念及檢測方法

4.轉錄組學基本概念及檢測方法

5.機器學習基本概念介紹

R語言簡介及實操

1.R語言概述

2.R軟件及R包安裝

3.R語言語法及數據類型

4.條件語句

5.循環

6.函數

7.常用的機器學習和微生物多組學數據分析相關R包介紹

第二天

微生物多組學相關數據庫介紹及數據檢索

1.腸道微生物+代謝數據庫

2.Curated Metagenomic Data

3.IBDMDB數據庫

4.GEO數據庫

微生物多組學應用案例分享

1.利用機器學習基于微生物組學+代謝組學數據預測樣本類型

2.整合微生物組學數據和代謝組學數據鑒定疾病相關模塊

3.腫瘤研究中微生物組學+宿主轉錄組學+免疫聯合分析

4.基于微生物組學數據+轉錄組數組+代謝組數據縱向集成分析

第三天(實操)

零代碼微生物多組學整合和網絡可視化分析工具介紹和使用

1.數據上傳(支持8種不同類型的數據,包括微生物,代謝,基因,蛋白等)

2.根據數據類型選擇相應的數據庫

3.構建網絡

4.可視化

零代碼微生物組-代謝組網絡分析工具介紹和使用

1.構建菌群和代謝模型

2.使用代謝模型計算微生物對代謝物的貢獻

3.計算群落水平的代謝潛能分值,使用回歸模型評估潛能分值在不同樣本中的差異

4.可視化特征微生物對特定代謝物的影響,并尋找關鍵微生物

零代碼微生物組學代謝組學相關性分析工具介紹和使用

  1. 1.組學內相關性分析

  2. 2.組學間相關性分析

  3. 3.多組學整合分析

  4. 4.多組學網絡分析

  5. 5.結果可視化

第四天(實操+復現)

利用機器學習基于微生物組學+代謝組學數據預測樣本類型

1.α-diversity,β-diversity分析

2.飲食與代謝物的動態關聯分析

3.微生物組差異與疾病特異性分析

4.多組學因子分析

5.菌群功能與代謝表型關聯分析

6.整合微生物組學數據和代謝組學數據預測樣本類型

整合微生物組學和代謝組學數據鑒定疾病相關模塊

1.微生物組學和代謝組學數據整合

2.鑒定疾病相關的多組學模塊

3.模塊交集分析

4.利用機器學習基于模塊預測疾病狀態

5.重要模塊分析

第五天(實操+復現)

腫瘤研究中微生物組學,宿主轉錄組學和免疫聯合分析

1.微生物組學分析

2.轉錄組學分析,差異表達基因鑒定

3.通過CCA方法對微生物組學數據和宿主轉錄組學數據進行關聯分析

4.微生物免疫關聯分析

基于微生物組學數據,轉錄組數組和代謝組數據縱向集成分析

1.腸道微生物組成分析

2.微生物組和代謝組聯合分析

3.代謝組學和轉錄組學進行整合分析

4.微生物組-宿主互作分析

課程目標

1.了解微生物多組學相關概念

2.了解機器學習相關概念和常用的機器學習模型

3.了解R語言

4.掌握常用的微生物多組學數據分析以及機器學習相關R包的使用

5.掌握微生物組學/代謝組學/宿主轉錄組學聯合分析思路和方法

6.復現SCI文章

案例實操圖片:



4

CRISPR-Cas9基因編輯技術 課表內容

可滑動查看

第一天

一.基因編輯工具介紹

1.正本清源:基因編輯和轉基因

a)解析基因編輯與轉基因的本質區別,討論兩種技術的監管差異

2.基因編輯工具先驅-ZFNs和TALENs

a)早期基因編輯工具的設計原理、優缺點及歷史貢獻

3.CRISPR系統家族介紹

a)從細菌免疫系統到基因編輯工具的演變,各類型Cas蛋白的分類

4.CRISPR-Cas9的工作原理

a)sgRNA與DNA結合機制、PAM識別、雙鏈斷裂修復途徑

5.CRISPR-Cas9介導基因敲除與敲入

a)通過NHEJ和HDR兩種修復途徑實現的不同編輯效果

6.CRISPR-Cas12、13的工作原理

a)RNA靶向編輯與診斷應用潛力

7.新型CRISPR系統

a)CasΦ、小型Cas蛋白CasMINI等

b)高保真Cas9變體SpCas9-HF、eSpCas9等

8.基因克隆相關技術簡介

a)質粒設計、PCR、限制性酶切、連接等基礎技術

9.Snapgene軟件使用實操

a)質粒圖譜設計、引物設計、虛擬克隆與測序分析

第二天

1.CRISPR-Cas9系統敲除載體構建實操

a)sgRNA設計相關注意事項

i. PAM位點選擇、脫靶預測、GC含量考量、二級結構避免

b)輔助工具推薦,CRISPick、CHOPCHOP、基于深度學習的sgRNA預測工具等

c)常規的構建方案

i. 從oligo合成到完整載體的詳細流程,常見問題解決

d)測序原理簡介

i. Sanger測序與高通量測序技術原理,應用選擇

e)測序數據分析

2.多基因編輯原理

a)同時編輯多個基因的策略選擇,提高編輯效率的方法

b)多重靶點設計與互相干擾避免策略

3.多基因編輯載體構建實操

a)多sgRNA串聯策略

b)多啟動子設計策略與表達平衡考量

4.CRISPRa/CRISPRi(基因激活與基因抑制)

a)dCas9-PVPR系統介紹,工作原理詳解

b)dCas9-VP64/GI/SAM基因激活系統介紹

c)基因編輯招募系統介紹(Suntag/Moontag)

5.CRISPR系統的‘另類’應用

第三天

1.CBE系統的原理及其應用

a)CBE系統進化過程總結,從BE1到最新CBE系統的演進歷程與性能提升

b)基因組CBE編輯(植物育種/基因功能研究/臨床治療)

c)細胞器CBE編輯工具介紹,線粒體/葉綠體編輯特殊挑戰與解決方案

d)CBE系統的脫靶效應,RNA脫靶與DNA脫靶檢測與避免策略

e)新型CBE系統,各種改進版本對比與選擇指南

2.ABE系統的原理及其應用

a)PACE和PANCE人工定向蛋白進化系統介紹及其他常規的蛋白進化技術

b)大腸桿菌正交進化系統

c)ABE系統的進化過程總結,ABE1.x到ABE8.x性能參數對比

d)ABE系統的‘另類’應用,ABE系統如何實現C編輯、剪接調控等非常規功能

3.雙堿基編輯系統

a)SWISS/STEME/A&C-BEmax/SPACE/ACBE,各種雙堿基編輯系統的設計原理與適用場景

b)雙堿基編輯系統改造總結

4.其他類型的堿基編輯系統

a)糖基化酶介導堿基編輯,新型編輯機制與應用潛力

b)CGBE、AYBE、gGBE、TSBE

第四天

1.報告系統

a)細胞實驗結合流式分析

b)植物穩轉的抗除草劑、顯色等報告系統

2.原生質體制備與應用實操

3.細胞與基因編輯工具優化實操

4.RNA編輯系統

5.PE系統的原理

a)Prime Editing工作機制:逆轉錄、鏈置換、修復

b)編輯效率影響因素詳解:各參數對編輯效率的影響比較

c)雙pegRNA的原理及其應用(基因組大片段插入)

d)基因組大片段刪除

第五天

1.PE系統的優化案例

a)各領域PE優化成功案例分析:植物、人類細胞

b)特定應用場景的系統改造策略

2.PE系統的構建實操

a)引物設計工具的應用

b)載體構建實操,從基礎載體到成熟系統的實驗流程

3.慢病毒包裝與遞送

4.其他遞送系統

a)納米顆粒遞送:脂質體、聚合物等

b)物理方法:電穿孔、顯微注射、生物彈道技術

5.倫理與安全 案例實操圖片:



5

深度學習蛋白質設計 課表內容

可滑動查看

第一天

蛋白質設計概述與工具準備

1. 為什么要做蛋白質設計?

蛋白質廣闊的可能結構空間

2.蛋白質設計方法分類

目前最佳解決方案:

蛋白質結構預測:Alphafold2,Rosettafold2

固定結構序列預測:ProteinMPNN

從頭設計:RFDiffusion+ProteinMPNN+Alphafold2迭代

3.Vscode的使用,ssh連接超算集群(實操)

VScode的安裝

Remote ssh插件安裝

~/.ssh/config中配置username, ip信息

4.Linux的配置,創建python環境(實操)

Conda create -n env_name python=3.9

5.超算作業提交(實操)

Slurm作業管理系統的教學,sbatch, salloc,scancel的使用

6.生成模型概覽,特別講Diffusion model理論

第二天

深度學習蛋白質結構預測方法

1.基于深度學習的模型--Alphafold2、Rosettafold

AF2成功的原因:

a.利用MSA信息

b.Transformer提取行縱MSA的信息

c.Recycling

d.自蒸餾數據集(pLDDT的引入)

2. AF2 本地運行(實操)

2.1基于Alphafold2的復現工作—Openfold、Unifold

3.Alphafold2上機實操

3.1MSA由mmseqs2 api生成,不需要下載結構和序列的數據集(需要3TB的空間)

4.基于語言模型的模型—ESMfold(實操)

4.1ESMfold的邏輯:用Masked LM替代掉AF2中的MSA模塊

4.2ESMfold安裝:(確保nvcc安裝)

5.蛋白質多鏈結構預測—Alphafold multimer

6.蛋白-核酸復合物預測—RosetaffoldNA(實操)

Add nucleic acid representation

7.蛋白-核酸-小分子復合物預測—Rosetaffold-all atom, Alphafold3

第三天

深度學習蛋白質多構象采樣方法與模型

蛋白質多構象預測(模擬)

1. 基于傳統物理能量的方法—分子動力學MD

2. 基于MSA操縱的方法—MSA subsampling、AF cluster(實操)

MSA subsampling方法子采樣AF2的MSA輸入

MSA subsampling方法

2.1環境配置與AF2一樣

2.2AF_cluster方法

2.3環境配置與AF2一樣運行

2.4生成MSA

2.5模型預測

3.基于生成模型的方法—Alphaflow、UFConf、DiGAlphaflow uses flow matching(實操)

3.1Alphaflow方法

3.2python環境配置運行

3.3input_csv代表蛋白的序列信息

3.4msa_dir代表MSA的路徑

3.5weights代表使用的模型

3.6.samples代表采樣數目

4.UFConf使用Diffusion model(實操)

第四天

深度學習蛋白質數據集挖掘工具與蛋白質口袋搜索工具

1.蛋白質數據集挖掘工具

1.1序列比對和聚類工具

1.2BLAST速度慢

2.序列快速比對工具MMseqs2

2.1.對角線上的k-mer短序列匹配

22.table查找對應target序列上k-mer出現的位置

2.3.target序列和query序列的匹配

3.結構比對和聚類工具

3.1TM-align

4.結構快速比對工具Foldseek

41Foldseek團隊與mmseqs系列對比

5.Foldseek上機實操

6、深度學習蛋白質口袋搜索工具

6.1.蛋白質口袋搜索

6.2Alpha sphere

7.基于結構的蛋白質口袋搜索工具--Fpocket、CavityPlus(實操)

8.基于軌跡(多構象)的蛋白質口袋搜索—Mdpocket(實操)

9.基于深度學習的蛋白質小分子結合位點預測工具—Diffdock

Diffdock上機實操

第五天

深度學習在蛋白質設計中的應用

1.基于深度學習的蛋白質設計概覽

2.結構生成模型--RFDiffusion

3.RFDiffusion是一個conditional的結構生成模型(實操)

3.3.RFDiffusion:基于RosettaFold

3.4.RFDiffusion-All-Atom:基于RosettaFold-All-Atom

3.5.RFDiffusion上機實操

3.6.RFDiffusion設計骨架結構

4.逆折疊模型--ProteinMPNN(實操)

4.1inverse folding模型

4.2ProteinMPNN逆折疊設計序列上機實操

5.利用AF2提高蛋白質設計的成功率(實操)

5.1Alphafold2折疊設計序列

5.2篩選選Alphafold2中pLDDT較高的序列

5.3預測結構作迭代

6.Binder design設計流程

6.1RFDiffusion設計binder

6.2ProteinMPNN-FastRelax Binder Design設計

6.3AF2 complex prediction設計

7.結構序列生成模型--ProteinGenerator

7.1ProteinGenerator是結構和序列的生成

第六天

基于深度學習語言模型的蛋白質設計

1.深度學習酶設計(實操)

11.酶設計基本原理

1.2.酶學性質預測

1.3.RFDiffusionAA模型

1.4RFDiffusionAA與RFDiffusion對比

2.基于語言模型的蛋白質設計

2.1Progen模型(實操)

2.2Progen的訓練

2.3conditional tag下的語言模型訓練

3.ESM2、ESM3(實操)

3.1多模態ESM3語言模型

3.2序列、結構和功能三個模塊的訓練

第七天

深度學習輔助酶設計

1.基礎知識講解

酶的過渡態理論,theozyme,fitness landscape,epistasis

2.從Frances H. Arnold(2018年因在酶的定向進化領域的貢獻獲得諾貝爾化學獎)的工作看酶的定向進化方法的發展

2.1 傳統定向進化實驗流程

2.2 MLDE(Mechine Learning Directed Evolution), 學習序列與酶性能之間的映射關系,推薦新的突變組合(PNAS文章)

2.3 ftMLDE(focused training MLDE),主動學習流程,構建informative的訓練數據(Cell Systems文章)

3.酶的從頭設計

3.1 從頭設計Diels-Alder催化酶

a)基于Rosetta的Inside-out策略(Science文章)

b)通過Foldit蛋白質折疊游戲改善結構問題(Nat. Biotechnol.文章);

c)Foldit蛋白質折疊游戲的實踐*

3.2 從頭設計熒光素酶,Family-wide hallucination,基于該酶家族的結構幻化出新的結構(Nature文章)

3.3 RFdiffusion+PLACER從頭設計絲氨酸水解酶(Science文章)

4.利用預測結構的相似性,挖掘序列的新酶功能(復現高彩霞老師的cell文章)*

4.1 InterPro數據庫中下載數據

4.2 TM-score計算結構距離

4.3 UPGMA結構聚類,畫出進化樹

4.4 挑選序列案例實操圖片:


6

CADD計算機輔助藥物設計 課表內容

可滑動查看

第一天上午

背景與理論知識以及工具準備

1. PDB數據庫的介紹和使用

1.1 數據庫簡介

1.2 靶點蛋白的結構查詢與選取

1.3 靶點蛋白的結構序列下載

1.5 批量下載蛋白晶體結構

2.Pymol的介紹與使用

2.1軟件基本操作及基本知識介紹

2.2蛋白質-配體相互作用圖解

2.3蛋白-配體小分子表面圖、靜電勢表示

2.4蛋白-配體結構疊加與比對

2.5繪制相互作用力

3.notepad的介紹和使用

3.1優勢及主要功能介紹

3.2界面和基本操作介紹

3.3插件安裝使用

下午

一般的蛋白-配體分子對接講解

1.對接的相關理論介紹

1.1分子對接的概念及基本原理

1.2分子對接的基本方法

1.3分子對接的常用軟件

1.4分子對接的一般流程

2.常規的蛋白-配體對接

2.1收集受體與配體分子

2.2復合體預構象的處理

2.3準備受體、配體分子

2.4蛋白-配體對接

2.5對接結果的分析

以新冠病毒蛋白主蛋白酶靶點及相關抑制劑為例

第二天

虛擬篩選

1.小分子數據庫的介紹與下載

2.相關程序的介紹

2.1 openbabel的介紹和使用

2.2 chemdraw的介紹與使用

3.虛擬篩選的前處理

4.虛擬篩選的流程及實戰演示

案例:篩選新冠病毒主蛋白酶抑制劑

5.結果分析與作圖

6.藥物ADME預測

6.1ADME概念介紹

6.2預測相關網站及軟件介紹

6.3預測結果的分析

第三天

拓展對接的使用方法

1.蛋白-蛋白對接

1.1蛋白-蛋白對接的應用場景

1.2相關程序的介紹

1.3目標蛋白的收集以及預處理

1.4使用算例進行運算

1.5關鍵殘基的預設

1.6結果的獲取與文件類型

1.7結果的分析

以目前火熱的靶點PD-1/PD-L1等為例。

2.涉及金屬酶蛋白的對接

2.1金屬酶蛋白-配體的背景介紹

2.2蛋白與配體分子的收集與預處理

2.3金屬離子的處理

2.4金屬輔酶蛋白-配體的對接

2.5結果分析

以人類法尼基轉移酶及其抑制劑為例

3.蛋白-多糖分子對接

3.1蛋白-多糖相互作用

3.2對接處理的要點

3.3蛋白-多糖分子對接的流程

3.4蛋白-多糖分子對接

3.5相關結果分析

以α-糖苷轉移酶和多糖分子對接為例

4.核酸-小分子對接

4.1核酸-小分子的應用現狀

4.2相關的程序介紹

4.3核酸-小分子的結合種類

4.4核酸-小分子對接

4.5相關結果的分析

以人端粒g -四鏈和配體分子對接為例。

操作流程介紹及實戰演示

第四天

拓展對接的使用方法

1.柔性對接

1.1柔性對接的使用場景介紹

1.2柔性對接的優勢

1.3蛋白-配體的柔性對接

重點:柔性殘基的設置方法

1.4相關結果的分析

以周期蛋白依賴性激酶2(CDK2)與配體1CK為例

2.共價對接

2.1兩種共價對接方法的介紹

2.1.1柔性側鏈法

2.1.2兩點吸引子法

2.2蛋白和配體的收集以及預處理

2.3共價藥物分子與靶蛋白的共價對接

2.4結果的對比

以目前火熱的新冠共價藥物為例。

3.蛋白-水合對接

3.1水合作用在蛋白-配體相互作用中的意義及方法介紹

3.2蛋白和配體的收集以及預處理

3.3對接相關參數的準備

重點:水分子的加入和處理

3.4蛋白-水分子-配體對接

3.5結果分析

以乙酰膽堿結合蛋白(AChBP)與尼古丁復合物為例

第五天

分子動力學模擬(linux與gromacs使用安裝)

1. linux系統的介紹和簡單使用

1.1 linux常用命令行

1.2 linux上的常用程序安裝

1.3體驗:如何在linux上進行虛擬篩選

2.分子動力學的理論介紹

2.1分子動力學模擬的原理

2.2分子動力學模擬的方法及相關程序

2.3相關力場的介紹

3.gromacs使用及介紹

重點:主要命令及參數的介紹

4.origin介紹及使用

第六天

溶劑化分子動力學模擬的執行

1.一般的溶劑化蛋白的處理流程

2.蛋白晶體的準備

3.結構的能量最小化

4.對體系的預平衡

5.無限制的分子動力學模擬

6.分子動力學結果展示與解讀

以水中的溶菌酶為例

第七天

蛋白-配體分子動力學模擬的執行

1.蛋白-配體在分子動力學模擬的處理流程

2.蛋白晶體的準備

3.蛋白-配體模擬初始構象的準備

4.配體分子力場拓撲文件的準備

4.1高斯的簡要介紹

4.2 ambertool的簡要介紹

4.3生成小分子的力場參數文件

5.對復合物體系溫度和壓力分別限制的預平衡

6.無限制的分子動力學模擬

7.分子動力學結果展示與解讀

8.軌跡后處理及分析

以新冠病毒蛋白主蛋白酶靶點及相關抑制劑為例案例實操圖片:


7

AIDD人工智能藥物發現頂刊復現 課表內容

可滑動查看

第一天環境搭建與深度學習基本知識講解

1.AIDD概述:從CADD到AIDD

2.軟件安裝與環境搭建

(1)anaconda

(2)vscode

(3)環境變量的配置

(4)切換pip和conda鏡像源

(5)虛擬環境的創建

3.RDKIT工具包的使用

(1)基于RDKit的分子讀寫

(2)基于RDKit的分子繪制

(3)基于RDKit的分子指紋與分子描述符

(4)基于RDKit的化合物相似性與子結構

4.藥物綜合數據庫的獲取方法

(1)基于requests的基本爬蟲操作

(2)小分子數據庫PubChem數據獲?。╬ubchempy / requests)

(3)蛋白質數據庫PDB、UniProt數據獲取

5.深度學習輔助藥物設計

(1)神經網絡基本概念與sklearn工具包介紹

(2)圖神經網絡與消息傳遞機制基本知識

(3)Transformer模型基本知識:分詞、位置編碼、注意力機制、編碼器、解碼器、預訓練-微調框架、huggingface 生態介紹

(4)模型的評估與驗證:準確率、精確率、召回率、F1分數、ROC曲線、AUC計算,平均絕對誤差、均方差、R2分數、可釋方差分數,交叉驗證等

第二天
頂刊復現專題1——分子與生化反應的表示學習與性質預測助力藥物發現

培訓背景:在人工智能輔助藥物發現(AIDD)中,分子與生化反應的表示學習與性質預測是整個研究流程的基石。分子的結構決定其功能,如何將復雜的分子結構和生化反應過程有效地表示為計算模型能夠理解的形式,是實現高效預測和優化的前提。通過構建合理的分子表示(如圖神經網絡、SMILES編碼、指紋等),我們可以讓AI模型捕捉關鍵的化學特征,進而用于預測分子的物理化學性質、生物活性、毒性等,為后續的虛擬篩選、分子生成與反應設計提供可靠基礎。因此,本專題不僅奠定了AIDD中建模與預測能力的核心能力框架,也為整個藥物發現過程中的智能決策打下了堅實基礎。

培訓內容1:

Nature Machine Intelligence|基于注意力的神經網絡在化學反應空間映射中的應用《Mapping the space of chemical reactions using attention-based neural networks》

1.數據集

1.1.Pistachio數據集:包含260萬化學反應,來自專利數據,涵蓋792個反應類別。數據經過去重和有效性過濾(使用RDKit)。

1.2.USPTO 1k TPL數據集:基于USPTO專利數據,包含44.5萬反應,通過原子映射和模板提取生成1,000個反應模板類別。

1.3.Schneider 50k數據集:公開數據集,包含5萬反應,50個類別,用于與傳統指紋方法對比。

2.模型。研究對比了兩種Transformer架構:

2.1.BERT分類器:基于編碼器的模型,通過掩碼語言建模預訓練后,在分類任務上微調,使用[CLS]標記的嵌入作為反應指紋(rxnfp)。

2.2.Seq2Seq模型:編碼器-解碼器結構,將分類任務分解為超類、類別和具體反應的層級預測。兩者均采用簡化版BERT(隱藏層256維),輸入為未標注的SMILES序列,無需反應物-試劑區分或原子映射。

3.訓練。模型訓練分為兩步:

3.1.預訓練:BERT通過掩碼SMILES令牌預測任務進行自監督學習,學習反應通用表示。

3.2.微調:在分類任務上優化模型,使用交叉熵損失,學習率2×10??,序列長度512。評估采用混淆熵(CEN)和馬修斯相關系數(MCC)以處理數據不平衡。

培訓內容2:

TOP期刊|基于深度學習的生化反應產量預測《Prediction of chemical reaction yields using deep learning》

1.數據。研究使用了三類數據:

1.1.Buchwald-Hartwig HTE數據集:包含3955個Pd催化C-N偶聯反應,涵蓋15種鹵化物、4種配體、3種堿和23種添加劑組合,產率通過統一實驗測量,數據質量高。

1.2.Suzuki-Miyaura HTE數據集:包含5760個反應,涉及15對親電/親核試劑、12種配體、8種堿和4種溶劑的組合,產率分布均勻。

1.3.USPTO專利數據集:從公開專利中提取,包含不同規模(克級與亞克級)的反應產率,數據噪聲大且分布不一致,需通過鄰近反應產率平滑處理以提升模型表現。

2.模型。核心模型基于預訓練的rxnfp(反應指紋)BERT架構,新增回歸層構成Yield-BERT。輸入為標準化反應SMILES,通過自注意力機制捕捉反應中心及關鍵試劑的上下文信息。模型無需手工特征(如DFT計算描述符),直接端到端預測產率。實驗表明,其性能優于傳統方法(如隨機森林和分子指紋拼接),尤其在HTE數據上接近化學描述符的預測水平,且參數魯棒性高(超參數調整影響小)。

3.訓練。訓練分為兩步:

3.1.預訓練:BERT通過掩碼語言任務學習SMILES的通用表示。

3.2.微調:采用簡單Transformers庫和PyTorch框架,以MSE損失優化回歸層,學習率(2×10??)和dropout率(0.1–0.8)為主要調參對象。HTE數據采用隨機/時間劃分驗證,USPTO數據通過鄰近反應產率平滑緩解噪聲影響。小樣本實驗(5%訓練數據)顯示模型能快速篩選高產反應,指導合成優化。

培訓內容3:

TOP期刊|基于T5Chem模型的生化反應表示學習與性質預測: 《Unified Deep Learning Model for Multitask Reaction Predictions with Explanation》

1.數據來源和處理。通過自監督預訓練與PubChem分子數據集進行訓練,以實現對四種不同類型的化學反應預測任務的優異性能。模型處理包括反應類型分類、正向反應預測、單步逆合成和反應產率預測。

2.模型架構和原理。T5Chem模型是基于自然語言處理中的“Text-to-Text Transfer Transformer”(T5)框架開發的統一深度學習模型,該模型通過適應T5框架來處理多種化學反應預測任務。T5Chem模型包含編碼器-解碼器結構,并根據任務類型引入了任務特定的提示和不同的輸出層,如分子生成頭、分類頭和回歸頭,以處理序列到序列的任務、反應類型分類和產品產率預測。

3.訓練過程和細節。

3.1.T5Chem模型首先在PubChem的97 million分子上進行自監督預訓練,使用BERT類似的“masked language modeling”目標。

3.2.在預訓練階段,源序列中的tokens被隨機掩蔽,模型的目標是預測被掩蔽的正確的tokens。

3.3.預訓練完成后,模型在下游的監督任務中進行微調,使用不同的任務特定提示和輸出層。

3.4.模型在測試階段通過生成分子token by token的方式進行預測,直到生成“句子結束標記”或達到最大預測長度。

第三天頂刊復現專題2——蛋白質的表示學習與性質預測助力藥物發現

培訓背景在AIDD中,蛋白質是藥物作用的主要靶標,其結構與功能的復雜性決定了藥物設計的成敗。蛋白質的表示學習與性質預測是理解分子-靶點相互作用、發現候選藥物的重要環節。蛋白質,尤其是酶,作為藥物的主要作用靶點,其功能、結構與動力學性質直接影響藥物的設計與效果。本專題通過兩篇前沿研究工作展開講解:*《Enzyme function prediction using contrastive learning》展示了如何利用對比學習從蛋白質序列中提取高質量的功能表征,實現對酶功能的精確預測;《CatPred》*則提出了一個整合性深度學習框架,用于體外酶動力學參數(如Km、kcat等)的預測,這對于建立藥效模型與優化先導化合物至關重要。這些方法顯著提升了蛋白質建模的準確性與泛化能力,為AI驅動的靶點發現、機制理解及候選藥物篩選提供了強有力的支持。

培訓內容1:

Nature Communication|體外酶動力學參數深度學習的綜合框架《CatPred: a comprehensive framework for deep learning in vitro enzyme kinetic parameters》

CatPred 提出了一種全面的深度學習框架,用于預測體外酶動力學參數(kcat、Km、Ki),以解決實驗測定成本高、數據稀疏和泛化能力差的問題。該方法不僅提供了準確的預測,還引入了對預測不確定性的量化,支持對訓練集外(out-of-distribution)酶序列的穩健預測。此外,作者還構建了新的標準化數據集(CatPred-DB),并對多種酶表示方法進行了系統比較。

1.數據:CatPred 使用的數據集來自 BRENDA 和 SABIO-RK 數據庫,作者構建了 CatPred-DB,包括:23197 條 kcat,41174 條 Km和11929 條 Ki 數據,每條記錄都包含酶的氨基酸序列、AlphaFold 或 ESMFold 預測的結構、底物的 SMILES 表達式。數據經過清洗和標準化處理,去除缺失值和重復值,并對參數取對數轉換以符合正態分布。

2.模型:CatPred 采用模塊化設計,酶和底物分別通過不同的神經網絡模塊進行表征學習,并采用 概率回歸 輸出(高斯分布形式的均值和方差),允許進行 不確定性估計(aleatoric + epistemic)。

3.訓練

3.1.所有模型采用負對數似然損失函數(NLL)訓練,以同時預測參數均值和不確定性。

3.2.使用訓練-驗證-測試三分法(80%-10%-10%),并設立“訓練集外”的測試子集用于泛化能力評估。

3.3.為了評估不確定性,CatPred 使用 10個模型的集成,通過不同初始參數訓練,以此量化 epistemic uncertainty。

3.4.模型訓練時考慮了不同相似性(序列identity<99%、80%、60%、40%)的測試集,體現其魯棒性。

培訓內容2:

Science|基于對比學習的蛋白質分類屬性預測Enzyme function prediction using contrastive learning》

1.數據來源和處理:CLEAN模型的訓練基于UniProt數據庫中的高質量數據,該數據庫收錄了約1.9億個蛋白質序列。CLEAN模型以氨基酸序列作為輸入,輸出按可能性排序的酶功能列表(以EC編號為例)。為了驗證CLEAN的準確性和魯棒性,作者進行了廣泛的in silico實驗,并將CLEAN應用于內部收集的未表征的鹵酶數據庫(共36個)進行EC編號注釋,隨后通過案例研究進行體外實驗驗證。

2.模型架構和原理:CLEAN模型采用了對比學習框架,目標是學習一個酶的嵌入空間,其中歐幾里得距離反映了功能相似性。嵌入是指蛋白質序列的數值表示,它由機器可讀,同時保留了酶攜帶的重要特征和信息。在CLEAN的任務中,具有相同EC編號的氨基酸序列具有較小的歐幾里得距離,而具有不同EC編號的序列則具有較大的距離。

3.訓練過程和細節:

3.1.在訓練過程中,CLEAN模型使用對比損失函數進行監督訓練,通過優先選擇與錨點(anchor)嵌入具有小歐幾里得距離的負序列,以提高訓練效率。

3.2.模型使用語言模型ESM1b獲得的蛋白質表示作為前饋神經網絡的輸入,輸出層產生細化的、功能感知的輸入蛋白質嵌入。

3.3.預測時,通過計算查詢序列與所有EC編號聚類中心之間的成對距離來預測輸入蛋白質的EC編號。

3.4.CLEAN還開發了兩種方法來從輸出排名中預測自信的EC編號:一種是貪婪方法,另一種是基于P值的方法。

第四天頂刊復現專題3——基于深度學習的分子生成助力藥物發現培訓背景分子生成是化學、生物學和材料科學等領域的關鍵技術,對于新藥開發、新材料設計和化學反應預測具有重要意義。傳統的分子生成方法依賴于專家知識和試錯實驗,耗時且成本高昂。隨著人工智能技術的發展,特別是自然語言處理和擴散模型在分子生成中的應用,我們現在能夠利用計算模型來加速這一過程。本課程將介紹從NLP到擴散模型的設計模式,這些模型能夠理解和生成分子結構,從而提高分子設計的效率和準確性。通過本課程的學習,參與者將能夠掌握分子生成的最新技術和方法,以及如何將這些技術應用于實際問題。培訓內容1:

Nature Communication基于端到端的圖生成框架的分子生成:《Retrosynthesis prediction using an end-to-end graph generative architecture for molecular graph editing》

1.數據來源和處理:Graph2Edits模型使用了公開可用的基準數據集USPTO-50k,包含50016個反應,這些反應被正確地原子映射并分類為10種不同的反應類型。數據集被分為40k、5k、5k的反應用于訓練、驗證和測試集。

2.模型架構和原理:Graph2Edits模型是一個端到端的圖生成架構,基于圖神經網絡(GNN)預測產品圖的編輯序列,并根據預測的編輯序列順序生成中間體和最終反應物。該模型將半模板方法的兩階段過程(識別反應中心和完成合成子)合并為一鍋學習,提高了在復雜反應中的適用性,并使預測結果更易于解釋。模型的核心是圖編碼器和自回歸模型,用于生成編輯序列,并應用這些編輯來推斷中間體和反應物。

3.訓練過程和細節:

3.1.Graph2Edits模型使用有向消息傳遞神經網絡(D-MPNN)作為圖編碼器,以獲取原子表示和全局圖特征,并預測原子/鍵編輯和終止符號。

3.2.模型訓練使用教師強制策略,即使用真實的編輯序列作為模型輸入。在每個編輯步驟中,模型會計算所有可能的編輯的概率,并選擇最高分的k個編輯,將這些編輯應用于輸入圖以獲得k個中間體。

3.3.在生成過程中,如果達到最大步驟數或圖表示指示終止,則生成分支將停止。

3.4.最終,根據可能性對前k個編輯序列和圖進行排名,收集為最終預測結果。

培訓內容2

Nature Computational Science|基于等變擴散模型的分子生成網絡《Structure-based drug design with equivariant diffusion models》

1.簡單介紹。這篇文獻提出了一種基于結構的藥物設計方法(SBDD),利用SE(3)-等變擴散模型(DiffSBDD)生成與蛋白質結合口條件匹配的新穎小分子配體。該方法通過將SBDD問題建模為三維條件生成任務,能夠一次性生成所有原子位置,克服了傳統自回歸方法因順序生成而丟失全局上下文的局限性。DiffSBDD不僅支持從頭分子設計,還能通過屬性優化、負向設計和分子局部修飾(inpainting)等多種任務靈活應用。

2.數據總結。該研究使用了CrossDocked和Binding MOAD兩個數據集進行訓練和評估。

2.1.CrossDocked數據集包含40,344個訓練蛋白-配體對和130個測試對,驗證集規模為246個,確保不同集合中的蛋白質來自不同的酶分類主類以避免過擬合。

2.2.Binding MOAD數據集經過篩選后用于測試,分析限于所有方法均能生成樣本的78個CrossDocked和119個Binding MOAD目標。此外,數據集處理涉及移除損壞條目,并通過Zenodo公開提供處理后的數據和采樣分子,確保研究可重復性。

3.模型總結。DiffSBDD是一個SE(3)-等變擴散模型,以蛋白質結合口為條件生成三維分子結構,采用3D圖表示(原子坐標和類型),避免了傳統方法中從密度圖回推分子結構的復雜后處理。模型設計尊重三維空間的旋轉和平


第五天頂刊復現專題4: 結合分子動力學的蛋白質-配體復合物相互作用動態預測

培訓背景:蛋白質-配體相互作用的預測是現代藥物發現和生物工程領域的核心任務之一,其重要性不言而喻。在藥物開發過程中,準確預測蛋白質與小分子配體的結合位點、三維結構以及親和力,不僅能夠揭示分子間相互作用的機制,還能顯著加速候選藥物的篩選與優化,降低研發成本和時間。傳統實驗方法如X射線晶體學和核磁共振雖然精確,但耗時長、成本高,且難以應對大規模篩選需求。而隨著深度學習和人工智能技術的快速發展,計算方法在蛋白質-配體預測中展現出巨大潛力。

研究內容1:

Nature Communication|交互作用感知的蛋白質-配體對接和親和力預測模型《Interformer: an interaction-aware model for protein-ligand docking and affinity prediction》

1.簡要介紹:本研究提出了一種名為Interformer的基于Graph-Transformer架構的統一模型,用于蛋白-配體對接和親和力預測。針對現有深度學習模型忽略蛋白與配體原子間非共價相互作用建模的不足,Interformer引入了交互感知混合密度網絡(MDN)來明確捕捉氫鍵和疏水相互作用,并結合負采樣策略和偽Huber損失函數,通過對比學習優化相互作用分布,提升對接姿勢的準確性和親和力預測的魯棒性。

2.數據集:研究使用了PDBBind時間分割測試集(333個樣本)評估對接準確性,Posebusters基準測試驗證物理合理性,以及內部真實世界數據集測試泛化能力。訓練數據來源于PDBBind晶體結構數據庫。

3.模型:Interformer基于Graph-Transformer架構,包括:(1) 圖表示模塊,將原子作為節點、鄰近關系作為邊;(2) 掩碼自注意力(MSA)機制,通過Intra-Blocks和Inter-Blocks分別捕捉配體/蛋白內部及兩者間的相互作用;(3) 交互感知MDN,融合四種高斯分布模擬常規力、疏水作用和氫鍵;(4) 邊緣輸出層整合節點和邊特征預測能量;(5) 姿勢評分和親和力模塊基于虛擬節點預測正確姿勢和實驗親和力值。

4.訓練細節:訓練分兩階段:首先基于晶體結構訓練能量模型生成負樣本,隨后聯合正負樣本訓練姿勢評分和親和力模型。采用負對數似然損失優化MDN,二元交叉熵損失優化姿勢評分,偽Huber損失(σ=4)優化親和力預測(單位IC50、Kd、KI,經負對數歸一化)。蒙特卡洛采樣生成候選姿勢,

研究內容2:

Nature Communication|分子動力學驅動的蛋白質-配體復合物結構動態預測《DynamicBind: predicting ligand-specific protein-ligand complex structure with a deep equivariant generative model》

1.簡單介紹:本研究提出了一種名為DynamicBind的深度學習方法,用于預測配體特異性的蛋白-配體復合物結構。傳統分子對接方法通常將蛋白視為剛性或僅部分柔性,難以處理蛋白的大尺度構象變化,而分子動力學模擬雖然能捕捉動態構象,但計算成本高昂。DynamicBind通過等變幾何擴散網絡構建平滑的能量景觀,高效模擬蛋白從無配體(apo)狀態到配體結合(holo)狀態的構象轉變,無需依賴holo結構或大量采樣。

2.數據集:研究基于PDBbind2020數據庫(19,443個蛋白-配體復合物晶體結構),按時間劃分:2019年前的數據用于訓練和驗證,2019年的數據用于測試。額外構建了Major Drug Targets (MDT)測試集(599對),聚焦激酶、GPCR等主要藥物靶點,要求AlphaFold預測結構與晶體結構的pocket RMSD>2?,確保測試難度。訓練中通過AlphaFold預測結構與晶體結構插值生成蛋白部分的樣本。

3.模型:DynamicBind是一個基于圖神經網絡的等變生成模型,使用粗粒化表示(蛋白以Cα節點和側鏈二面角表示,配體以重原子節點表示),輸出包括蛋白和配體的平移、旋轉、扭轉角更新,以及結合親和力和cLDDT置信度評分。模型通過學習從apo到holo的“morph-like”變換,優化能量景觀,包含63.67百萬參數。

4.訓練細節:訓練在8塊Nvidia A100 80GB GPU上進行5天,輸入為添加morph變換的蛋白decoy構象和加高斯噪聲的配體構象,目標是去噪操作。損失函數包括八項(配體和蛋白的平移、旋轉、扭轉等),通過Kabsch算法對齊apo和holo結構,結合擴散噪聲調整構象過渡。推理時迭代20次更新初始結構。

案例實操圖片:



培訓目標

01.深度學習基因組學:深入學習與了解深度學習基本框架與邏輯,同時掌握基本的生物信息學軟件(Linux、R、python等)的使用,讓學員能更好的應對基因組數據,挖掘出超越已有知識的新知識。而構建好的深度學習模型去探求新的研究思路和尋找新的潛在生物學機制,更好的服務于自身的科學研究和探索的過程中

02.機器學習代謝組學:1. 熟悉代謝組學和機器學習相關背景知識以及硬件和軟件;2. 入門 R 語言和機器學習理論和常規使用;3. 掌握代謝組學從樣本處理到上下游數據分析以及出圖的全流程;4. 能復現 CNS 及其子刊級別雜志中代謝組學相關文章中的圖片;5. 能靈活熟練地分析自己的代謝組數據

03.機器學習微生物多組學聯合分析:AIDD人工智能藥物發現與設計:本課程讓學員了解藥物發現的前沿背景,學習人工智能領域的各類常見算法,熟悉工具包的安裝與使用,掌握一定的算法編程能力,能夠運用計算機方法研究藥物相關問題。通過大量的案例講解和實踐操作,具備一定的AIDD模型構建和數據分析能力

04.CRISPR-Cas9基因編輯技術應用:該課程從全局出發,從CRISPR-Cas9等前沿工具的基本原理,到這些技術在醫學、農業等的實際應用,由淺入深,從最初的原理講解到最后的應用實戰,學完本課程你將掌握基因編輯技術的相關原理及其應用,此外可以學到基因編輯系統的優化策略,可以學到如何操作常用的生物學軟件。無論您是生物學專業的學生,還是對基因編輯感興趣的科研人員,這門課程都將為您提供寶貴的知識和技能,助您在這一革新領域中取得突破

05.深度學習蛋白質設計:課程將詳細講解多種蛋白質結構預測模型,包括Alphafold2、Rosettafold2、ESMfold、RosettafoldNA、Rosettafold All Atom和AlphaFold3讓學員都能夠掌握多種蛋白質結構預測模型的使用并對不同的蛋白質采樣方法作以對比。讓學員都能夠掌握蛋白質多構象采樣方法與模型使用工具,深度學習蛋白質數據集挖掘工具與蛋白質口袋搜索工具并進行上機演示,學員將了解這兩種工具的理論基礎,并通過實際操作演示,掌握如何進行蛋白質口袋的識別與分析?;谏疃葘W習的蛋白RFDiffusion(結構生成模型)、ProteinMPNN(逆折疊模型)、ProteinGenerator(結構與序列生成模型)利用Alphafold2來提升蛋白質設計的成功率;讓學員都能夠掌握david baker 的核心技術

06.CADD計算機輔助藥物設計:本次培訓主要掌握10種對接方法有:金屬酶蛋白對接、蛋白-多糖對接、核酸-小分子對接、柔性對接、共價對接、蛋白-水合對接、蛋白-水分子-配體對接、抗體對接、大分子對接蛋白-多肽對接、大分子蛋白-蛋白對接, 以及虛擬篩選和分子動力學模擬

07.AIDD人工智能藥物發現頂刊復現:本次培訓主要掌握深度學習在化學反應預測中的應用,應用于真實藥物研發場景的思維框架建立從蛋白質建模到下游任務(如藥物篩選、作用機制分析)的系統性理解,增強將AI方法應用于實際生物醫藥問題的能力,自然語言處理(NLP)在分子生成中的應用 ,擴散模型在分子生成中的應用,通過案例分析(如Interformer篩選出高親和力小分子),學習如何將這些預測技術應用于酶工程和藥物發現,加速候選分子的篩選和優化

授課時間

01.深度學習基因組學

2025.07.19-2025.07.20 (09:00-11: 30--13:30-17:00)

2025.07.26-2025.07.27 (09:00-11: 30--13:30-17:00)

2025.08.02 (09:00-11: 30--13:30-17:00)

02.機器學習代謝組學

2025.07.21-2025.07.24 (19:00--22:00)

2025.07.28-07.31 (19:00--22:00)

2025.08.03 (09:00-11: 30--13:30-17:00)

03.機器學習微生物多組學聯合分析

2025.07.19-2025.07.20 (09:00-11: 30--13:30-17:00)

2025.07.26-2025.07.27 (09:00-11: 30--13:30-17:00)

2025.08.02 (09:00-11: 30--13:30-17:00)

04.CRISPR-Cas9基因編輯技術應用

2025.07.19-2025.07.20 (09:00-11: 30--13:30-17:00)

2025.07.26-2025.07.27 (09:00-11: 30--13:30-17:00)

2025.08.02 (09:00-11: 30--13:30-17:00)

05.AI蛋白質設計

2025.07.12-2025.07.13 (09:00-11:30--13:30-17:00)

2025.07.19-2025.07.20 (09:00-11: 30--13:30-17:00)

2025.07.26-2025.07.27 (09:00-11: 30--13:30-17:00)

2025.08.02 (09:00-11: 30--13:30-17:00

06.CADD計算機輔助藥物設計

2025.07.12-2025.07.13 (09:00-11:30--13:30-17:00)

2025.07.19-2025.07.20 (09:00-11: 30--13:30-17:00)

2025.07.26-2025.07.27 (09:00-11: 30--13:30-17:00)

2025.08.02 (09:00-11: 30--13:30-17:00

07.AIDD人工智能藥物發現頂刊復現

2025.07.15-06.07.18 (19:00--22:00)

2025.07.20-06.07.23 (19:00--22:00)

2025.07.28-06.07.29 (19:00--22:00)

騰訊會議直播上課 課后提供直播回放

培訓費用

課程報名費用:

深度學習基因組學、機器學習代謝組學、深度學習解析蛋白質組學、機器學習微生物多組學聯合分析、CRISPR-Cas9基因編輯技術應用

公費價:每人每班¥4980元 (含報名費、培訓費、資料費)

自費價:每人每班¥4680元 (含報名費、培訓費、資料費)

深度學習蛋白質設計:

公費價:每人每班¥6880元 (含報名費、培訓費、資料費)

自費價:每人每班¥6580元 (含報名費、培訓費、資料費)

AIDD與CADD:

公費價:每人每班¥5880元 (含報名費、培訓費、資料費)

自費價:每人每班¥5580元 (含報名費、培訓費、資料費)

重磅優惠:

優惠1:

報二送一(同時報名兩個班免費贈送一個學習名額贈送班任選)

兩班同報:10880元 (可學習三個直播課)

三班同報:14880元 (可學習四個直播課)

四班同報:18880元 (可免費學習一整年本單位舉辦的任意課程)

特惠2:28880元(可免費學習兩整年本單位舉辦的任意課程)

優惠3:提前報名繳費可享受300元優惠(僅限十五名)

特惠福利:報一送一(額外送的回放)(包含全套課程回放和課件資料ppt)

培訓特色及福利

1、課程特色--全面的課程技術應用、原理流程、實例聯系全貫穿

2、學習模式--理論知識與上機操作相結合,讓零基礎學員快速熟練掌握

3、課程服務答疑--主講老師將為您實際工作中遇到的問題提供專業解答

授課方式:通過騰訊會議線上直播,理論+實操的授課模式,老師手把手帶著操作,從零基礎開始講解,電子PPT和教程開課前一周提前發送給學員,所有培訓使用軟件都會發送給學員,有什么疑問采取開麥共享屏幕和微信群解疑,學員和老師交流、學員與學員交流,培訓完畢后老師長期解疑,培訓群不解散,往期培訓學員對于培訓質量和授課方式一致評價極高!

騰訊會議實時直播解答|手把手帶著操作


SIMPLICITY

官方聯系人(請掃碼詳細咨詢)

聯系人:朱老師

報名咨詢電話:13283822597(同V)



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
王毅回京不到2小時,深夜接到中東急電,中方對伊朗已是仁至義盡

王毅回京不到2小時,深夜接到中東急電,中方對伊朗已是仁至義盡

墨印齋
2025-06-22 05:08:39
陳羽凡現狀:低調生活,50歲胖到認不出,17歲兒子1米8長得像媽

陳羽凡現狀:低調生活,50歲胖到認不出,17歲兒子1米8長得像媽

果娛
2025-05-14 12:19:32
《慶余年》男演員轉型拍短劇,演長劇18年無人理,一朝霸總天下知

《慶余年》男演員轉型拍短劇,演長劇18年無人理,一朝霸總天下知

易同學愛談娛樂
2025-06-22 16:10:05
今天這么多預測楊紫榮獲白玉蘭視后,真的是年輕一輩勢不可擋

今天這么多預測楊紫榮獲白玉蘭視后,真的是年輕一輩勢不可擋

動物奇奇怪怪
2025-06-23 00:04:25
哈梅內伊一聲令下,伊朗導彈轟炸美國海軍,將封鎖霍爾木茲海峽?

哈梅內伊一聲令下,伊朗導彈轟炸美國海軍,將封鎖霍爾木茲海峽?

近史博覽
2025-06-22 13:02:49
李雪琴事件升級!舉報人再曬證據實錘,被曝學歷造假只是冰山一角

李雪琴事件升級!舉報人再曬證據實錘,被曝學歷造假只是冰山一角

果娛
2025-06-22 14:36:49
18歲男孩因尿毒癥急需換腎,親媽配型成功,但反應前后判若兩人:換給他,我就死定了!

18歲男孩因尿毒癥急需換腎,親媽配型成功,但反應前后判若兩人:換給他,我就死定了!

坦然風云
2025-06-21 12:47:47
“五物不送人,后代一直富”,這五種東西千萬不要送人!有道理嗎

“五物不送人,后代一直富”,這五種東西千萬不要送人!有道理嗎

聞心品閣
2025-06-17 07:22:54
成交價翻倍!深圳兩套豪宅法拍,公司老板賣房還債?

成交價翻倍!深圳兩套豪宅法拍,公司老板賣房還債?

南方都市報
2025-06-22 12:49:13
荔枝的“死對頭”,醫生提醒:二者萬不可同吃,吃荔枝禁忌要牢記

荔枝的“死對頭”,醫生提醒:二者萬不可同吃,吃荔枝禁忌要牢記

阿龍美食記
2025-06-16 15:19:56
燒烤店贊助蘇超常州比賽,老板娘回應:長期關注常州體育,通過審核很意外

燒烤店贊助蘇超常州比賽,老板娘回應:長期關注常州體育,通過審核很意外

現代快報
2025-06-22 15:12:13
父親扛完大包回家,發現兒子點2頓外賣崩潰:我一小時才賺16塊

父親扛完大包回家,發現兒子點2頓外賣崩潰:我一小時才賺16塊

熙熙說教
2025-06-21 19:33:34
違規吃喝標準確定!杜絕“一刀切”式整治,誰亂加碼誰擔責

違規吃喝標準確定!杜絕“一刀切”式整治,誰亂加碼誰擔責

王五說說看
2025-06-22 16:07:36
湖北小縣城:體制內女教師的貧富差距

湖北小縣城:體制內女教師的貧富差距

英軍眼
2025-06-22 11:59:00
警惕!北京多地出現大蛇!

警惕!北京多地出現大蛇!

美麗大北京
2025-06-22 19:04:44
美國終于明白,當年自己“誤炸”中國大使館,中國為什么不反擊?

美國終于明白,當年自己“誤炸”中國大使館,中國為什么不反擊?

鐘裹雜談歷史
2023-11-22 09:07:16
吃霸王婚宴的錢總“社會性死亡”了,生意被曝,新婚女兒也被連累

吃霸王婚宴的錢總“社會性死亡”了,生意被曝,新婚女兒也被連累

知鑒明史
2025-06-19 16:42:38
即將HWG!羅馬諾:32歲博格巴自由加盟摩納哥,時隔兩年再就業!

即將HWG!羅馬諾:32歲博格巴自由加盟摩納哥,時隔兩年再就業!

直播吧
2025-06-23 02:28:30
吳謙大校警告:人民如果長期歌舞升平、娛樂至死,離危亡就不遠了

吳謙大校警告:人民如果長期歌舞升平、娛樂至死,離危亡就不遠了

boss外傳
2025-05-04 17:20:03
不出意外,7月起,將迎來新一波降價潮,4類商品價格或會“跳水”

不出意外,7月起,將迎來新一波降價潮,4類商品價格或會“跳水”

小談食刻美食
2025-06-20 17:01:49
2025-06-23 02:47:00
植物研究進展 incentive-icons
植物研究進展
關注植物領域最新研究動態。
2246文章數 2669關注度
往期回顧 全部

科技要聞

"你應該靠嘴吃飯",羅永浩自述被梁文鋒勸退

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

體育要聞

中國女排0-3意大利 香港站3勝1負收官

娛樂要聞

離婚四年!趙麗穎被曝新戀情惹爭議

財經要聞

蘋果后院起火

汽車要聞

首搭華為雙王牌/6月24日預售 嵐圖FREE+正式下線

態度原創

健康
教育
房產
藝術
時尚

呼吸科專家破解呼吸道九大謠言!

教育要聞

2026qs排名完整名單公布后,申請難度會暴漲的幾所英國大學!

房產要聞

坑慘2000多人!恒大財富海南高管被曝非吸12.6億元!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

伊姐周日熱推:電視劇《完美的救贖》;電視劇《書卷一夢》......

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 阳原县| 昭觉县| 安新县| 横山县| 泗水县| 沭阳县| 攀枝花市| 辽阳市| 靖西县| 类乌齐县| 通道| 当涂县| 林州市| 岳阳县| 耒阳市| 白玉县| 柳州市| 广州市| 成武县| 聊城市| 磐安县| 五寨县| 健康| 喀什市| 钟山县| 淮北市| 曲麻莱县| 平安县| 盐边县| 济源市| 富阳市| 台东市| 剑阁县| 定南县| 赤峰市| 江川县| 昭平县| 巴林右旗| 兴宁市| 长宁区| 太白县|