經(jīng)過近 20 年的技術(shù)積累,RNA 測序領(lǐng)域迎來了一項(xiàng)重要突破。近日,美國密歇根大學(xué)區(qū)健輝(Kin Fai Au)教授團(tuán)隊(duì)在Nature Biotechnology發(fā)表論文,提出了一種名為 miniQuant 的新算法,有效解決了困擾科學(xué)界十多年的基因異構(gòu)體(gene isoform)定量難題。
“這個(gè)問題大家已經(jīng)討論了十幾年了,但沒有一個(gè)數(shù)學(xué)的、具有數(shù)據(jù)科學(xué)的定義。”區(qū)健輝向 Deeptech 表示。這一突破性工作不僅提供了嚴(yán)謹(jǐn)?shù)睦碚摶A(chǔ),還開發(fā)出實(shí)用的軟件工具,為 RNA 測序數(shù)據(jù)分析帶來了新的標(biāo)準(zhǔn)。
圖丨區(qū)健輝(來源:區(qū)健輝)
在我們的認(rèn)知中,一個(gè)基因往往對(duì)應(yīng)一個(gè)蛋白質(zhì),但實(shí)際上,一個(gè)基因可以通過可變剪接(alternative splicing)產(chǎn)生多種被稱為基因異構(gòu)體的信使 RNA(mRNA)版本。這些異構(gòu)體極大地豐富了生命的復(fù)雜性,但要準(zhǔn)確地定量分析它們的表達(dá)水平,卻一直是生物信息學(xué)領(lǐng)域的一大挑戰(zhàn)。
目前主流的測序技術(shù)分為二代和三代。二代測序如 Illumina 平臺(tái)讀長較短,通常為 150 個(gè)堿基對(duì)(base pair),但通量高、成本低;而三代測序如 PacBio 和 ONT(Oxford Nanopore Technologies)平臺(tái)讀長可達(dá)幾萬個(gè)堿基對(duì),能夠覆蓋完整的 RNA 分子,但通量相對(duì)較低、成本較高。因此,研究者們常常面臨一個(gè)兩難的選擇:究竟何時(shí)該用哪種技術(shù)?
這種技術(shù)選擇的困難源于一個(gè)根本問題:由于基因的不同異構(gòu)體(isoform)之間共享外顯子序列,許多短讀段無法明確分配給其來源異構(gòu)體,導(dǎo)致定量分析存在不確定性。而長讀段雖然能夠跨越完整轉(zhuǎn)錄本,但較低的測序深度又會(huì)影響低表達(dá)基因的檢測精度。
為了科學(xué)地解決這一問題,研究團(tuán)隊(duì)提出了 K 值(K-value)概念——一個(gè)基于廣義條件數(shù)(generalized condition number)的基因特異性指標(biāo),用于量化基因異構(gòu)體定量過程中的不確定性。具體而言,K 值定義為讀段類-異構(gòu)體比對(duì)概率矩陣 A 的最大和最小正奇異值的比值。研究團(tuán)隊(duì)通過嚴(yán)格的數(shù)學(xué)推導(dǎo)證明,在觀測誤差相對(duì)較小的情況下,相對(duì)定量誤差的上界與 K 值近似成正相關(guān),K 值越高的基因越容易在異構(gòu)體定量中出現(xiàn)誤差。
(來源:Nature Biotechnology)
這一理論框架的重要性在于,它首次為基因異構(gòu)體復(fù)雜度的評(píng)估提供了數(shù)學(xué)上嚴(yán)格的定義。過去雖然有一些研究嘗試用異構(gòu)體數(shù)量或外顯子數(shù)量來定義基因復(fù)雜度,但這些方法缺乏嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)科學(xué)基礎(chǔ)。而 K 值的提出填補(bǔ)了這一理論空白,使得研究人員能夠在數(shù)據(jù)收集和分析之前就評(píng)估基因異構(gòu)體定量的可靠性。
為了驗(yàn)證 K 值理論的有效性,研究團(tuán)隊(duì)對(duì)超過 17,000 個(gè)來自 GTEx、TCGA 和 ENCODE 聯(lián)盟的公共數(shù)據(jù)集進(jìn)行了大規(guī)模分析。結(jié)果顯示,當(dāng) K 值從 1 增加到 25 以上時(shí),平均絕對(duì)相對(duì)差異(MARD,Mean Absolute Relative Difference)的中位數(shù)在 GTEx、TCGA 和 ENCODE 數(shù)據(jù)集中分別增加了 0.1830、0.1559 和 0.1721。更重要的是,這種關(guān)聯(lián)性在不同的生物學(xué)背景、樣本資源、測序平臺(tái)和數(shù)據(jù)質(zhì)量條件下都保持一致,證明了 K 值作為內(nèi)在定量誤差指標(biāo)的穩(wěn)健性。
(來源:Nature Biotechnology)
基于 K 值理論,研究團(tuán)隊(duì)開發(fā)了 miniQuant 軟件,這是一個(gè)能夠智能整合長短讀段優(yōu)勢的創(chuàng)新工具。miniQuant 包含兩個(gè)模式:miniQuant-L 僅使用長讀段進(jìn)行定量,而 miniQuant-H 則是核心創(chuàng)新的混合模式,能夠整合長短讀段數(shù)據(jù)。
區(qū)健輝介紹說:“我們可以用 K 值來幫助研究人員設(shè)計(jì)數(shù)據(jù)收集方案,指導(dǎo)他們應(yīng)該選擇二代測序還是三代測序。”miniQuant-H 采用機(jī)器學(xué)習(xí)方法,根據(jù)基因結(jié)構(gòu)特征(包括 K 值)和數(shù)據(jù)特征,為每個(gè)基因群體(gene community)確定最優(yōu)的長短讀段權(quán)重組合。
該算法的智能之處在于,能夠針對(duì)不同的誤差來源采取相應(yīng)的應(yīng)對(duì)策略。對(duì)于結(jié)構(gòu)復(fù)雜的基因(高 K 值),算法會(huì)更傾向于使用長讀段來減少解卷積誤差;而對(duì)于表達(dá)量較低的基因,則會(huì)增加短讀段的權(quán)重以減少采樣誤差造成的影響。例如,對(duì)于 K 值高達(dá) 82.26 且相對(duì)高表達(dá)的基因VPS13D,miniQuant-H 分配了 0.75 的長讀段權(quán)重;而對(duì)于 K 值較低(5.37)且表達(dá)量相對(duì)較低的基因TCP11L2,最優(yōu)長讀段權(quán)重僅為 0.25。
(來源:Nature Biotechnology)
在多項(xiàng)基準(zhǔn)測試中,miniQuant-H 展現(xiàn)出顯著優(yōu)勢。在模擬數(shù)據(jù)測試中,該算法在多種測序深度組合下的平均中位數(shù) MARD 為 0.1249,顯著優(yōu)于現(xiàn)有的短讀段工具(0.1505-0.3555)和長讀段工具(0.2515-0.9394)。在真實(shí)數(shù)據(jù)驗(yàn)證方面,研究團(tuán)隊(duì)使用了來自 LRGASP 聯(lián)盟的合成加標(biāo)轉(zhuǎn)錄本數(shù)據(jù)。對(duì)于 ERCC 加標(biāo)轉(zhuǎn)錄本,由于都是單異構(gòu)體基因不存在解卷積誤差,長讀段工具由于采樣誤差普遍表現(xiàn)不如短讀段工具,而 miniQuant-H 達(dá)到了與短讀段工具相當(dāng)?shù)木取?duì)于結(jié)構(gòu)復(fù)雜的 SIRV 加標(biāo)轉(zhuǎn)錄本,長讀段工具表現(xiàn)更優(yōu),miniQuant-H 則取得了最低的平均誤差。
研究團(tuán)隊(duì)進(jìn)一步將 miniQuant 應(yīng)用于人類胚胎干細(xì)胞(ESC,Embryonic stem cell)分化研究中,揭示了干細(xì)胞分化過程中的異構(gòu)體轉(zhuǎn)換事件。通過分析 ESC 分化為咽內(nèi)胚層(PE,Pharyngeal Endoderm)和原始生殖細(xì)胞樣細(xì)胞(PGC,Primordial Germ Cell-like Cells)的過程,研究人員成功鑒定出 151 個(gè)(ESC 到 PE)和 161 個(gè)(ESC 到 PGC)發(fā)生異構(gòu)體轉(zhuǎn)換的基因。這些發(fā)現(xiàn)具有重要的生物學(xué)意義,例如MAT2B基因雖然整體表達(dá)水平保持穩(wěn)定,但其異構(gòu)體使用模式發(fā)生了顯著變化,這種轉(zhuǎn)換可能影響細(xì)胞的凋亡調(diào)控能力。
值得注意的是,這些已識(shí)別的重要異構(gòu)體轉(zhuǎn)換事件很多發(fā)生在高表達(dá)基因中(第 82-99 百分位,TPM 從 30.60 到 1,077.09),如果僅依靠長讀段測序,在典型的測序深度下(如 600 萬條 cDNA-ONT 讀段),當(dāng)這些基因的表達(dá)水平被下采樣至第 75 百分位豐度時(shí),長讀段工具的定量結(jié)果就會(huì)因?yàn)椴蓸诱`差而變得不可靠。相比之下,miniQuant-H 通過整合短讀段數(shù)據(jù),能夠在更大的基因表達(dá)范圍內(nèi)穩(wěn)定地檢測異構(gòu)體轉(zhuǎn)換模式。
與現(xiàn)有的整合方法相比,miniQuant 展現(xiàn)出明顯的技術(shù)優(yōu)勢。例如,StringTieMix 采用相對(duì)簡單的讀段分配策略,將每個(gè)短讀段分配給最多長讀段支持的兼容異構(gòu)體,在模擬數(shù)據(jù)中的表現(xiàn)有限。而 miniQuant-H 通過復(fù)雜的機(jī)器學(xué)習(xí)模型和聯(lián)合似然函數(shù),實(shí)現(xiàn)了更精確和自適應(yīng)的數(shù)據(jù)整合。
這項(xiàng)研究從兩個(gè)方面推動(dòng)了 RNA 測序技術(shù)的發(fā)展:一方面,從理論上建立了評(píng)估基因異構(gòu)體定量可靠性的數(shù)學(xué)框架;另一方面,在實(shí)踐上提供了能夠根據(jù)具體數(shù)據(jù)特征和基因結(jié)構(gòu)自適應(yīng)選擇最優(yōu)策略的軟件工具。
區(qū)健輝總結(jié)道:“這是首次以嚴(yán)謹(jǐn)?shù)目茖W(xué)方法告訴研究人員哪些基因復(fù)雜、哪些基因簡單,以及何時(shí)應(yīng)該選擇不同的測序技術(shù)。以前大家都是憑感覺和經(jīng)驗(yàn)來判斷,現(xiàn)在我們提供了科學(xué)的標(biāo)準(zhǔn)。”審稿人也評(píng)價(jià)該研究“回答了領(lǐng)域內(nèi)長久以來懸而未決的問題”。
目前,miniQuant 軟件已在 GitHub 平臺(tái)(https://github.com/Augroup/miniQuant)開源發(fā)布,并提供了針對(duì)不同測序平臺(tái)和深度組合的預(yù)訓(xùn)練模型,包括 cDNA-PacBio、cDNA-ONT 和 dRNA-ONT 等協(xié)議。隨著長讀段測序技術(shù)成本的持續(xù)下降和精度的不斷提升,這種智能整合長短讀段優(yōu)勢的方法有望為轉(zhuǎn)錄組研究提供更加精確和經(jīng)濟(jì)的解決方案,推動(dòng)基因異構(gòu)體功能研究向更深層次發(fā)展。
圖丨相關(guān)論文(來源:Nature Biotechnology)
相關(guān)論文以《基于 miniQuant 的基因異構(gòu)體定量優(yōu)化方法》(Improving gene isoform quantification with miniQuant)為題發(fā)表在Nature Biotechnology上 [1]。密歇根大學(xué)博士研究生李浩然、 王定杰、高琦、譚普文、王運(yùn)浩和蔡曉羽博士是共同第一作者,區(qū)健輝教授擔(dān)任通訊作者。
參考資料:
1.Li, H., Wang, D., Gao, Q. et al. Improving gene isoform quantification with miniQuant.Nature Biotechnology(2025). https://doi.org/10.1038/s41587-025-02633-9
運(yùn)營/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.