色譜技術(shù)自20世紀(jì)初提出以來(lái),已成為化合物分離與分析的核心方法。其基于不同組分在流動(dòng)相與固定相間的親和力差異實(shí)現(xiàn)有效分離。從最初的紙色譜到如今的高效液相色譜(HPLC)和氣相色譜(GC),色譜技術(shù)的每一次進(jìn)步都極大促進(jìn)了化學(xué)、生物學(xué)及環(huán)境科學(xué)等多領(lǐng)域的研究發(fā)展。同時(shí),人工智能(AI)尤其是機(jī)器學(xué)習(xí)(ML),在化學(xué)領(lǐng)域展現(xiàn)出強(qiáng)大的數(shù)據(jù)處理和分析能力,被廣泛應(yīng)用于逆合成分析、反應(yīng)產(chǎn)率預(yù)測(cè)、化學(xué)動(dòng)力學(xué)機(jī)理解析等方面。
色譜分析的核心挑戰(zhàn)在于準(zhǔn)確預(yù)測(cè)和確定色譜條件。傳統(tǒng)方法通常依賴(lài)于經(jīng)驗(yàn)判斷及反復(fù)試驗(yàn),通過(guò)試錯(cuò)過(guò)程逐步積累分析知識(shí)。然而,AI的引入為這一領(lǐng)域帶來(lái)了創(chuàng)新性解決方案,因?yàn)樗鼡碛谢跀?shù)據(jù)學(xué)習(xí)的模型預(yù)測(cè)能力,可以快速進(jìn)行色譜條件的虛擬篩選,從而有效降低試錯(cuò)的頻率和成本。此外,AI在提升分析的準(zhǔn)確性和效率方面展現(xiàn)了明顯的優(yōu)勢(shì),特別是在處理傳統(tǒng)色譜技術(shù)難以應(yīng)對(duì)的復(fù)雜樣本時(shí),其價(jià)值更加顯著。在色譜技術(shù)領(lǐng)域,ML的應(yīng)用主要集中在數(shù)據(jù)的高效處理和精確解析上,包括優(yōu)化色譜峰的識(shí)別、提升分離效率以及精確預(yù)測(cè)色譜條件等方面。色譜技術(shù)的高分辨率與AI的數(shù)據(jù)處理能力的結(jié)合,不僅開(kāi)辟了實(shí)現(xiàn)更快、更準(zhǔn)確、成本效益更高分析方法的新路徑,也滿(mǎn)足了日益增長(zhǎng)的復(fù)雜化合物分析需求。
保留值是由分子與色譜柱固定相及流動(dòng)相之間的相互作用決定的,因此可以依據(jù)分子結(jié)構(gòu)和實(shí)驗(yàn)條件來(lái)預(yù)測(cè)保留值,從而輔助分子鑒定和色譜條件優(yōu)化。近十年來(lái),基于ML的保留值預(yù)測(cè)模型得到廣泛報(bào)道,這些模型通常被稱(chēng)為定量結(jié)構(gòu)保留關(guān)系(quantitative structure-retention relationship,QSRR)模型,開(kāi)發(fā)QSRR模型是AI4Chromatography研究的核心所在。
本文將重點(diǎn)介紹AI4Chromatography研究工作流,并通過(guò)詳述AI算法在各種色譜問(wèn)題中的典型應(yīng)用案例,幫助讀者深入了解這一領(lǐng)域。
PART.01
AI4Chromatography研究的工作流
在AI4Chromatography研究中,研究要素涵蓋數(shù)據(jù)、計(jì)算支持及硬件自動(dòng)化支持三個(gè)方面。其研究流程如 圖1 所示。首先進(jìn)行色譜數(shù)據(jù)的收集,然后對(duì)分子及色譜實(shí)驗(yàn)條件進(jìn)行詳盡的特征工程處理。接著,使用機(jī)器學(xué)習(xí)框架構(gòu)建并訓(xùn)練模型。最后,通過(guò)特征重要性分析和相關(guān)性分析等方法進(jìn)行模型的可解釋性研究,以提出新的化學(xué)見(jiàn)解。
圖1 AI4Chromatography研究流程示意圖
PART.02
AI在色譜研究中的應(yīng)用
2.1
AI在TLC中的應(yīng)用
薄層色譜法(thin layer chromatography,TLC)是一種分離混合物中各組分的有效技術(shù)。在此方法中,待分離組分在流動(dòng)相(即溶劑)的作用下,沿固定相表面移動(dòng)。由于組分與固定相的親和力差異,各組分的移動(dòng)速度不同,進(jìn)而實(shí)現(xiàn)分離。
圖2 結(jié)合機(jī)器人技術(shù)和ML模型進(jìn)行Rf值預(yù)測(cè). (a) 開(kāi)發(fā)的自動(dòng)化TLC平臺(tái)有助于高通量實(shí)驗(yàn)從而產(chǎn)生標(biāo)準(zhǔn)化的TLC數(shù)據(jù); (b) 使用分子指紋、分子描述符和溶劑特征來(lái)表示TLC 過(guò)程; (c) Ensemble模型在訓(xùn)練集未見(jiàn)化合物上預(yù)測(cè)的R2為0.887,通過(guò)特征重要性分析發(fā)現(xiàn)對(duì)Rf值影響最大的分子描述符為T(mén)PSA
2.2
AI在液相色譜中的應(yīng)用
液相色譜法(LC)是利用液態(tài)流動(dòng)相在固定相中的流動(dòng)來(lái)分析和分離化合物的技術(shù),適用于極性和非極性化合物的鑒定與定量。
圖3 使用 QGeoGNN 預(yù)測(cè) HPLC的RT. (a)通過(guò)NLP 批量提取 644 篇論文的RT數(shù)據(jù),以及分子信息和色譜條件; (b) 將分子表示為原子-鍵圖和鍵-角圖,并且嵌入實(shí)驗(yàn)條件和MD,用以全面表示分子的三維信息,從而實(shí)現(xiàn)對(duì)手性對(duì)映體的區(qū)分. (c) 手性固定相填充物的粒徑、基體、取代基和連接類(lèi)型(固定化或涂覆)都會(huì)影響HPLC柱的手性識(shí)別能力,需在ML建模過(guò)程中考慮。內(nèi)徑和柱長(zhǎng)也會(huì)影響手性識(shí)別能力,但在商業(yè)HPLC柱中這些參數(shù)是保持不變的
2.3
AI在氣相色譜中的應(yīng)用
GC是一種用于分析和分離易揮發(fā)化合物的色譜技術(shù),其通過(guò)控制氣體流動(dòng)相在固定相(即色譜柱)內(nèi)的流動(dòng)實(shí)現(xiàn)分離。
圖4 RI預(yù)測(cè)模型的架構(gòu). (a)模型示意圖 首先將分子的SMILES表示為one-hot矩陣,其次使用CNN進(jìn)行特征提取,池化后的特征輸入到全連接層進(jìn)行RI預(yù)測(cè); (b)模型參數(shù)設(shè)定方案
2.4
AI在其他色譜中的應(yīng)用
疏水相互作用色譜(hydrophobic interaction chromatography,HIC)是一種基于分析物與色譜介質(zhì)疏水性區(qū)域的相互作用進(jìn)行分離的技術(shù)。固定相通常含有疏水基團(tuán),流動(dòng)相則為水溶性緩沖液。通過(guò)調(diào)整流動(dòng)相的離子強(qiáng)度或加入有機(jī)溶劑,可控制分析物與固定相的相互作用,進(jìn)而調(diào)節(jié)分析物的RT。
凝膠滲透色譜(gel permeation chromatography,GPC)是一種專(zhuān)門(mén)用于測(cè)定高分子物質(zhì)分子量分布的技術(shù)。其工作原理依賴(lài)于分子尺寸的分離,而非分子間的相互作用力。Nagy等人開(kāi)發(fā)了兩種ANN模型,成功地從GPC數(shù)據(jù)中提取共聚物的詳細(xì)信息,包括分子量和組成。
離子交換色譜技術(shù)(ion exchange chromatography,IEC)基于分析物離子與色譜柱填料上離子交換基團(tuán)之間的親和力差異進(jìn)行分離,被廣泛應(yīng)用于蛋白質(zhì)、肽、核酸等生物大分子的分離與純化。Giese等人應(yīng)用線性回歸(linear regression,LR)、ANN等模型預(yù)測(cè)親水性強(qiáng)陰離子交換色譜中肽的RT,并通過(guò)特征重要性分析發(fā)現(xiàn)帶電殘基是RT的主要影響因素。Nikita等人采用強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)優(yōu)化陽(yáng)離子交換色譜的工藝流速,設(shè)定獎(jiǎng)勵(lì)函數(shù)后,RL能推薦最優(yōu)流速以實(shí)現(xiàn)產(chǎn)量最大化。
PART.03
展望
盡管AI4Chromatography研究已得到了初步的發(fā)展,但仍然存在著許多問(wèn)題亟待解決,下面將從3個(gè)方面分析AI4Chromatography研究的挑戰(zhàn)與未來(lái)發(fā)展方向:
(1)數(shù)據(jù)困境. 高質(zhì)量、大數(shù)據(jù)是AI4Chromatography研究的根本。目前,大部分QSRR研究依賴(lài)于數(shù)據(jù)庫(kù)和文獻(xiàn),但部分?jǐn)?shù)據(jù)庫(kù)的不開(kāi)源性和文獻(xiàn)中色譜條件描述的不一致性,加之?dāng)?shù)據(jù)分布的不均勻性,給ML研究帶來(lái)了困難。因此,未來(lái)應(yīng)當(dāng)著力推進(jìn)實(shí)驗(yàn)室自動(dòng)化技術(shù),以實(shí)現(xiàn)高通量的標(biāo)準(zhǔn)化數(shù)據(jù)采集。例如,我們課題組已在自動(dòng)化TLC分析平臺(tái)結(jié)合AI應(yīng)用方面進(jìn)行了初步研究。同時(shí),亦應(yīng)致力于開(kāi)發(fā)課題組色譜數(shù)據(jù)共享平臺(tái),建設(shè)AI4Chromatography研究社區(qū)和開(kāi)源色譜數(shù)據(jù)庫(kù),以形成健康的研究生態(tài)環(huán)境,匯聚眾智。
(2)AI4Chromatography模型的發(fā)展方向. AI4Chromatography研究已逐漸發(fā)展為硬編碼與軟編碼相結(jié)合的方式。硬編碼即在模型中直接應(yīng)用預(yù)設(shè)的固定特征,如MD計(jì)算就屬于此范疇。目前,主流特征篩選算法包括卡方/方差過(guò)濾、PCA、GA、蒙特卡洛方法等,未來(lái)需開(kāi)發(fā)更高效的特征篩選算法。軟編碼則指模型訓(xùn)練過(guò)程中自動(dòng)從數(shù)據(jù)學(xué)習(xí)和提取特征的方法,例如CNN自動(dòng)提取SMILES特征、GNN提取圖特征等。當(dāng)前,隨著ChatGPT的發(fā)展,基于注意力機(jī)制的Transformer模型已經(jīng)吸引了化學(xué)研究者的關(guān)注,它是一種軟編碼解決方案,在處理序列數(shù)據(jù)方面展現(xiàn)出顯著優(yōu)勢(shì)。然而,利用Transformer的AI4Chromatography研究尚少,這將是未來(lái)重點(diǎn)發(fā)展方向之一,目標(biāo)是開(kāi)發(fā)適用于色譜領(lǐng)域的大模型。此外,未來(lái)的主要發(fā)展方向還應(yīng)包括半監(jiān)督學(xué)習(xí)(如偽標(biāo)記技術(shù)等)、多模態(tài)學(xué)習(xí)、遷移學(xué)習(xí),這些方法可最大限度地利用有限的色譜數(shù)據(jù),并實(shí)現(xiàn)模型在不同色譜系統(tǒng)中的有效應(yīng)用。
(3)應(yīng)大力發(fā)展色譜知識(shí)嵌入和知識(shí)發(fā)現(xiàn)技術(shù). 目前的AI4Chromatography算法普遍缺少對(duì)物理概念的整合,主要依賴(lài)于從數(shù)據(jù)中識(shí)別模式或規(guī)律。這種方法可能導(dǎo)致得出的結(jié)果違背物理定律,進(jìn)而影響模型的收斂性和穩(wěn)定性。因此,如何將色譜領(lǐng)域知識(shí)嵌入到AI算法中,構(gòu)建物理合理、數(shù)學(xué)精確、計(jì)算高效的模型,是未來(lái)的重大挑戰(zhàn)。例如,我們課題組構(gòu)建了一個(gè)物理約束神經(jīng)網(wǎng)絡(luò)(physics-informed neural network,PINN),將TLC的單調(diào)規(guī)則納入損失函數(shù),同時(shí)還構(gòu)建了一個(gè)硬約束,通過(guò) sigmoid 激活函數(shù)將輸出限制為 (0,1),使得與Rf 值的現(xiàn)實(shí)世界行為保持一致。
另外,AI4Chromatography研究的最終目標(biāo)是通過(guò)QSRR模型學(xué)習(xí)新知識(shí)和規(guī)則,以促進(jìn)科學(xué)發(fā)現(xiàn)。然而,神經(jīng)網(wǎng)絡(luò)因其“黑箱”特性而經(jīng)常受到詬病,其模型可解釋性方面的研究仍然不足。未來(lái)研究的重點(diǎn)應(yīng)是發(fā)展基于AI算法的知識(shí)發(fā)現(xiàn)技術(shù),從數(shù)據(jù)中挖掘尚未被發(fā)現(xiàn)的知識(shí),以突破現(xiàn)有的認(rèn)知限制。其中主要的策略包括稀疏回歸、符號(hào)數(shù)學(xué)等。例如,Jiang等人利用SISSO方法獲得了譜構(gòu)效關(guān)系的簡(jiǎn)明數(shù)學(xué)公式,該公式具有較強(qiáng)的可解釋性,實(shí)現(xiàn)了跨不同系統(tǒng)的知識(shí)遷移。
我們對(duì)未來(lái)的愿景是:通過(guò)實(shí)驗(yàn)室自動(dòng)化快速獲取色譜數(shù)據(jù),研究人員利用這些高質(zhì)量的數(shù)據(jù)構(gòu)建具有知識(shí)嵌入的AI算法,并通過(guò)知識(shí)發(fā)現(xiàn)技術(shù),發(fā)現(xiàn)新的色譜知識(shí)和規(guī)則,進(jìn)而進(jìn)一步指導(dǎo)算法設(shè)計(jì),形成閉環(huán)。AI4Chromatography研究領(lǐng)域蘊(yùn)含著豐富的探索潛力,我們期望本文分享的洞見(jiàn)與觀點(diǎn)能激發(fā)研究人員的靈感,共同推動(dòng)該領(lǐng)域的進(jìn)步與發(fā)展。
林京龍, 莫凡洋*. 人工智能賦能色譜技術(shù)研究. 科學(xué)通報(bào), 2025, 70(4-5): 481–491
https://doi.org/10.1360/TB-2024-0184
轉(zhuǎn)載、投稿請(qǐng)留言
| 關(guān)注科學(xué)通報(bào) | 了解科學(xué)前沿
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.