編輯 | 蘿卜皮
聽(tīng)到基因組、蛋白質(zhì)組等詞匯,大家首先想到的是什么?龐雜的數(shù)據(jù)?得出的結(jié)論解釋性差?
雖然 DNA 基礎(chǔ)模型擁有強(qiáng)大的序列表征能力,但是難以進(jìn)行多步推理,并且缺乏內(nèi)在透明、生物學(xué)直觀的解釋。
在這里,來(lái)自多倫多大學(xué)(University of Toronto)、Vector Institute、DeepMind 的研究團(tuán)隊(duì)推出了 BioReason,這是一種開(kāi)創(chuàng)性的架構(gòu),它首次將 DNA 基礎(chǔ)模型(Evo2)與 LLM (Qwen3)深度集成。
這種新穎的連接方式使 LLM 能夠直接處理基因組信息并將其作為基本輸入進(jìn)行推理,從而形成一種全新的多模態(tài)生物學(xué)理解形式。
該研究以「BioReason:Incentivizing Multimodal Biological Reasoning within a DNA-LLM Model」為題,于 2025 年 5 月 29 日發(fā)布在arXiv預(yù)印平臺(tái)。
論文鏈接:https://arxiv.org/abs/2505.23579
具體來(lái)講,BioReason 運(yùn)行在兩個(gè)主要輸入流上:(i) 一個(gè)或多個(gè)基因組序列,以及 (ii) 文本查詢。
圖示:BioReason 的架構(gòu)。(來(lái)源:論文)
性能評(píng)估
研究人員精心挑選了三個(gè)全面的數(shù)據(jù)集用于訓(xùn)練和評(píng)估:一個(gè)基于 KEGG 的全新生物推理數(shù)據(jù)集(1,449 條條目),用于闡明遺傳變異與疾病表型之間的機(jī)制聯(lián)系;一個(gè)針對(duì)編碼序列的變異效應(yīng)預(yù)測(cè)數(shù)據(jù)集(50,083 條條目);一個(gè)用于編碼非 SNV 的數(shù)據(jù)集(36,088 條條目)。
圖示:BioReason 數(shù)據(jù)集管理和組成。(來(lái)源:論文)
KEGG 數(shù)據(jù)集使用標(biāo)準(zhǔn)化符號(hào)表示分子網(wǎng)絡(luò),包括激活、抑制和調(diào)控相互作用;而 VEP 數(shù)據(jù)集則側(cè)重于跨不同基因組變異的致病/良性分類和疾病表型預(yù)測(cè)。
圖示:基于三個(gè)數(shù)據(jù)集對(duì) BioReason 的性能進(jìn)行評(píng)估。(來(lái)源:論文)
在 KEGG 衍生的推理基準(zhǔn)測(cè)試中,Evo2+Qwen3-4B 模型的準(zhǔn)確率達(dá)到 97.24%,F(xiàn)1 得分達(dá)到 86.30%。在變異效應(yīng)預(yù)測(cè) (VEP) 任務(wù)中,Evo2+Qwen3-4B 模型的編碼變異準(zhǔn)確率達(dá)到 80.21%,非 SNV 分類準(zhǔn)確率達(dá)到 88.20%,在所有任務(wù)中均顯著優(yōu)于僅基于 DNA 和 LLM 的基線模型。
案例研究
為了測(cè)試 BioReason 的可解釋推理能力,研究人員提出一個(gè)假想案例,假設(shè)通路上下文為「肌動(dòng)蛋白(單體)//PFN1*//肌動(dòng)蛋白(絲狀)」,則詢問(wèn) PFN1 等位基因?qū)?17 號(hào)染色體的生物學(xué)效應(yīng)。最終,它正確預(yù)測(cè)了這些情況會(huì)引發(fā)肌萎縮側(cè)索硬化癥 (ALS) 。
圖示:案例研究示意。(來(lái)源:論文)
值得注意的是,BioReason 生成了一個(gè)合理的 10 步機(jī)制原理,首先識(shí)別出 PFN1 基因中特定的 C>G 替換。隨后,該模型的推理將該變異與 profilin-1 功能障礙、對(duì)細(xì)胞骨架完整性至關(guān)重要的肌動(dòng)蛋白動(dòng)力學(xué)受損、隨后運(yùn)動(dòng)神經(jīng)元軸突運(yùn)輸中斷以及最終 ALS 特有的運(yùn)動(dòng)神經(jīng)元變性聯(lián)系起來(lái)。
結(jié)語(yǔ)
總而言之,BioReason 通過(guò)將高容量 DNA 序列編碼器與大型語(yǔ)言模型的靈活推理能力無(wú)縫集成,推動(dòng)計(jì)算生物學(xué)的發(fā)展,從而構(gòu)建一個(gè)在機(jī)制通路推斷和變異致病性預(yù)測(cè)方面均表現(xiàn)卓越的統(tǒng)一框架。DNA-LLM 混合模型的多模態(tài)融合,通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)一步完善,不僅提高了準(zhǔn)確性,也為可解釋的基因組分析開(kāi)辟了新的途徑。
BioReason:https://github.com/bowang-lab/BioReason
相關(guān)內(nèi)容:https://x.com/adibvafa/status/1929578567114854702
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.