編輯 | 白菜葉
由于植物基因組的多樣性和復(fù)雜性,跨物種基因注釋和適應(yīng)度建模在植物基因組學(xué)中仍然是一項(xiàng)重大挑戰(zhàn),尤其是在非模式生物中。
為了解決這一問題,康奈爾大學(xué)的研究人員推出了 PlantCaduceus,這是一個(gè)利用獨(dú)特架構(gòu)并在多種被子植物基因組上進(jìn)行預(yù)訓(xùn)練的 DNA 語言模型。
該模型跨物種移植性極強(qiáng),用擬南芥數(shù)據(jù)微調(diào)后,在進(jìn)化差異近 1.6 億年的玉米的預(yù)測(cè)中表現(xiàn)出極強(qiáng)性能:剪接供體預(yù)測(cè)比現(xiàn)有最佳 DNA 語言模型高 1.45 倍,翻譯起始位點(diǎn)預(yù)測(cè)高 7.23 倍。
PlantCaduceus 擁有捕捉跨植物物種保守序列模式的能力,從而能夠?qū)幕蚪M注釋到復(fù)雜的適應(yīng)度分析等各種基于序列的任務(wù)進(jìn)行精準(zhǔn)預(yù)測(cè)。
總而言之,它有望成為推進(jìn)基礎(chǔ)植物基因組學(xué)研究和作物改良的重要變革工具。
該研究以「Cross-species modeling of plant genomes at single-nucleotide resolution using a pretrained DNA language model」為題,于 2025 年 6 月 9 日發(fā)布在《PNAS》。
過去 20 年,有超過 1000 個(gè)植物基因組被發(fā)表,未來幾十年這一數(shù)字還將繼續(xù)大幅增長。解析這些基因組在轉(zhuǎn)錄和翻譯水平上的功能元件及其適應(yīng)性效應(yīng),對(duì)于推進(jìn)植物基因組學(xué)和作物育種至關(guān)重要。
植物基因組在大小、組成和復(fù)雜性方面表現(xiàn)出極大的多樣性,即使在近緣物種之間也存在顯著差異。
并且,通過實(shí)驗(yàn)方法生成所有植物基因組的類似基因組資源,既耗時(shí)又昂貴,非常不切實(shí)際。目前,科學(xué)家只在擬南芥、水稻和玉米等模式植物身上獲得了大量基因組資源。所以,有效利用已有的數(shù)據(jù)信息訓(xùn)練人工智能來完成解析任務(wù)是當(dāng)下的最佳方案。
DNA 語言模型內(nèi)在挑戰(zhàn)
這種方案已經(jīng)在蛋白質(zhì)領(lǐng)域得到廣泛應(yīng)用。但是,與蛋白質(zhì)語言模型相比,DNA 語言模型面臨著巨大的挑戰(zhàn)。
在 AI 模型中,DNA 序列往往被分解成稱為標(biāo)記(token)的單個(gè)單元,這些標(biāo)記可以是單個(gè)核苷酸或 k-mer。但是,包括植物在內(nèi)的真核生物含有不同比例的重復(fù)序列,這使得預(yù)訓(xùn)練任務(wù)變得復(fù)雜。
考慮到語言模型預(yù)先訓(xùn)練的目的是預(yù)測(cè)下一個(gè)標(biāo)記,或者標(biāo)記在序列中被任意屏蔽,因此更容易預(yù)測(cè)但不一定能改善下游應(yīng)用的重復(fù)序列可能會(huì)降低模型的整體質(zhì)量。
此外,非編碼區(qū)域的保守性低于編碼區(qū)域,如果將整個(gè)基因組納入預(yù)訓(xùn)練,則可能導(dǎo)致偏差。
與蛋白質(zhì)序列不同,雙鏈 DNA 建模需要考慮反向互補(bǔ)堿基配對(duì),以及同時(shí)考慮上游和下游序列的雙向模型。
PlantCaduceus
為了應(yīng)對(duì)這些挑戰(zhàn),康奈爾大學(xué)的研究人員推出了 PlantCaduceus,這是一個(gè)基于 Caduceus 架構(gòu)預(yù)訓(xùn)練的 DNA 語言模型,該架構(gòu)基于 16 個(gè)被子植物基因組進(jìn)行訓(xùn)練。
Caduceus 是一個(gè)基于Mamba架構(gòu)并支持反向互補(bǔ) (RC) 等變的 DNA 特異性模型。受 GPN(基因組預(yù)訓(xùn)練網(wǎng)絡(luò)) 的啟發(fā),Caduceus 能夠有效預(yù)測(cè)擬南芥的全基因組變異效應(yīng)。
PlantCaduceus 采用單核苷酸標(biāo)記,能夠在不同植物基因組中以堿基對(duì)分辨率進(jìn)行精確建模。類似地,研究人員遵循 GPN 的數(shù)據(jù)處理策略,通過下采樣非編碼區(qū)域和降低重復(fù)序列的權(quán)重,生成了一個(gè)用于預(yù)訓(xùn)練的無偏基因組數(shù)據(jù)集。
相比之下,其他公開的 DNA 語言模型(例如 AgroNT 和 Nucleotide Transformer)使用整個(gè)基因組進(jìn)行預(yù)訓(xùn)練,這可能會(huì)引起對(duì)某些基因組和重復(fù)序列的偏向。
圖示:PlantCaduceus 概述。(來源:論文)
性能評(píng)估
研究人員在涉及轉(zhuǎn)錄、翻譯和進(jìn)化約束建模的多項(xiàng)任務(wù)中評(píng)估了 PlantCaduceus 卓越的跨物種性能。
例如,即便擬南芥與玉米存在 1.6 億年的進(jìn)化分歧,研究人員用擬南芥數(shù)據(jù)對(duì)它微調(diào)后,在玉米的預(yù)測(cè)中卻表現(xiàn)出了最佳性能:在玉米剪接供體預(yù)測(cè)方面比現(xiàn)有最佳 DNA 語言模型高出 1.45 倍,在玉米翻譯起始位點(diǎn)預(yù)測(cè)方面比現(xiàn)有最佳 DNA 語言模型高出 7.23 倍。這表明 PlantCaduceus 擁有成為全面理解植物基因組基礎(chǔ)模型的潛力。
PlantCaduceus 有潛力準(zhǔn)確注釋任何新測(cè)序的被子植物基因組。與在有限的標(biāo)記數(shù)據(jù)上容易過擬合的監(jiān)督深度學(xué)習(xí)模型不同,PlantCaduceus 在轉(zhuǎn)錄、翻譯和進(jìn)化約束建模方面表現(xiàn)出強(qiáng)大的跨物種性能,即使對(duì)于預(yù)訓(xùn)練中未包含的物種也是如此。
這說明,通過在大規(guī)模基因組數(shù)據(jù)集上進(jìn)行自監(jiān)督預(yù)訓(xùn)練,PlantCaduceus 已捕獲廣泛的進(jìn)化保守性和 DNA 序列語法。PlantCaduceus 的跨物種預(yù)測(cè)能力可以顯著加速植物基因組學(xué)研究,并通過提供跨不同植物物種的準(zhǔn)確注釋和洞察,助力「千種植物基因組計(jì)劃」等項(xiàng)目。
結(jié)語
在探索階段,研究人員還預(yù)訓(xùn)練了一個(gè)精簡(jiǎn)版的 PlantCaduceus(4M 參數(shù)),并通過變異掩蔽的計(jì)算機(jī)模擬誘變,評(píng)估了其使用模擬變異的參考等位基因預(yù)測(cè)準(zhǔn)確率。結(jié)果顯示,在變異效應(yīng)預(yù)測(cè)任務(wù)中,影響性能的主要因素是模型容量,而非上下文窗口大小。
此外,512 bp 的上下文長度使 PlantCaduceus 能夠在 NVIDIA 3090 等廣泛使用的 GPU 上高效運(yùn)行,從而使更多的研究人員能夠輕松地使用它。
在未來的工作中,該團(tuán)隊(duì)計(jì)劃整合來自不同譜系(例如裸子植物)的更多植物基因組,從而捕捉更廣泛的進(jìn)化保守性。
他們準(zhǔn)備使用更長的上下文窗口對(duì) PlantCaduceus 進(jìn)行預(yù)訓(xùn)練,使其能夠捕獲長距離 DNA 相互作用,并更好地處理受益于長距離順式效應(yīng)的任務(wù),例如等位基因特異性表達(dá)、染色質(zhì)狀態(tài)預(yù)測(cè)和染色質(zhì)相互作用圖譜。此外,探索如何更好地標(biāo)記植物基因組中的重復(fù)序列也同樣很有意義。
研究人員在論文結(jié)尾寫道:「這些方法將使我們能夠突破 PlantCaduceus 的極限,使其成為推進(jìn)基因組研究和促進(jìn)作物改良的更強(qiáng)大、更通用的基礎(chǔ)模型。」
預(yù)訓(xùn)練基因組:https://huggingface.co/datasets/kuleshov-group/Angiosperm_16_genomes
用于微調(diào)的數(shù)據(jù)集:https://huggingface.co/datasets/kuleshov-group/cross-species-single-nucleo-annotation
預(yù)訓(xùn)練模型:https://huggingface.co/collections/kuleshov-group/plantcaduceus-512bp-len-665a229ee098db706a55e44a
預(yù)訓(xùn)練和微調(diào)代碼:https://github.com/kuleshov-group/PlantCaduceus
論文鏈接:https://www.pnas.org/doi/10.1073/pnas.2421738122
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.