網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

科學(xué)家提出新算法miniQuant，破解基因異構(gòu)體定量難題

2025-07-05 20:04:35　來源: DeepTech深科技

北京舉報(bào)

分享至

經(jīng)過近 20 年的技術(shù)積累，RNA 測序領(lǐng)域迎來了一項(xiàng)重要突破。近日，美國密歇根大學(xué)區(qū)健輝（Kin Fai Au）教授團(tuán)隊(duì)在Nature Biotechnology發(fā)表論文，提出了一種名為 miniQuant 的新算法，有效解決了困擾科學(xué)界十多年的基因異構(gòu)體（gene isoform）定量難題。

“這個(gè)問題大家已經(jīng)討論了十幾年了，但沒有一個(gè)數(shù)學(xué)的、具有數(shù)據(jù)科學(xué)的定義。”區(qū)健輝向 Deeptech 表示。這一突破性工作不僅提供了嚴(yán)謹(jǐn)?shù)睦碚摶A(chǔ)，還開發(fā)出實(shí)用的軟件工具，為 RNA 測序數(shù)據(jù)分析帶來了新的標(biāo)準(zhǔn)。

圖丨區(qū)健輝（來源：區(qū)健輝）

在我們的認(rèn)知中，一個(gè)基因往往對(duì)應(yīng)一個(gè)蛋白質(zhì)，但實(shí)際上，一個(gè)基因可以通過可變剪接（alternative splicing）產(chǎn)生多種被稱為基因異構(gòu)體的信使 RNA（mRNA）版本。這些異構(gòu)體極大地豐富了生命的復(fù)雜性，但要準(zhǔn)確地定量分析它們的表達(dá)水平，卻一直是生物信息學(xué)領(lǐng)域的一大挑戰(zhàn)。

目前主流的測序技術(shù)分為二代和三代。二代測序如 Illumina 平臺(tái)讀長較短，通常為 150 個(gè)堿基對(duì)（base pair），但通量高、成本低；而三代測序如 PacBio 和 ONT（Oxford Nanopore Technologies）平臺(tái)讀長可達(dá)幾萬個(gè)堿基對(duì)，能夠覆蓋完整的 RNA 分子，但通量相對(duì)較低、成本較高。因此，研究者們常常面臨一個(gè)兩難的選擇：究竟何時(shí)該用哪種技術(shù)？

這種技術(shù)選擇的困難源于一個(gè)根本問題：由于基因的不同異構(gòu)體（isoform）之間共享外顯子序列，許多短讀段無法明確分配給其來源異構(gòu)體，導(dǎo)致定量分析存在不確定性。而長讀段雖然能夠跨越完整轉(zhuǎn)錄本，但較低的測序深度又會(huì)影響低表達(dá)基因的檢測精度。

為了科學(xué)地解決這一問題，研究團(tuán)隊(duì)提出了 K 值（K-value）概念——一個(gè)基于廣義條件數(shù)（generalized condition number）的基因特異性指標(biāo)，用于量化基因異構(gòu)體定量過程中的不確定性。具體而言，K 值定義為讀段類-異構(gòu)體比對(duì)概率矩陣 A 的最大和最小正奇異值的比值。研究團(tuán)隊(duì)通過嚴(yán)格的數(shù)學(xué)推導(dǎo)證明，在觀測誤差相對(duì)較小的情況下，相對(duì)定量誤差的上界與 K 值近似成正相關(guān)，K 值越高的基因越容易在異構(gòu)體定量中出現(xiàn)誤差。

（來源：Nature Biotechnology）

這一理論框架的重要性在于，它首次為基因異構(gòu)體復(fù)雜度的評(píng)估提供了數(shù)學(xué)上嚴(yán)格的定義。過去雖然有一些研究嘗試用異構(gòu)體數(shù)量或外顯子數(shù)量來定義基因復(fù)雜度，但這些方法缺乏嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)科學(xué)基礎(chǔ)。而 K 值的提出填補(bǔ)了這一理論空白，使得研究人員能夠在數(shù)據(jù)收集和分析之前就評(píng)估基因異構(gòu)體定量的可靠性。

為了驗(yàn)證 K 值理論的有效性，研究團(tuán)隊(duì)對(duì)超過 17,000 個(gè)來自 GTEx、TCGA 和 ENCODE 聯(lián)盟的公共數(shù)據(jù)集進(jìn)行了大規(guī)模分析。結(jié)果顯示，當(dāng) K 值從 1 增加到 25 以上時(shí)，平均絕對(duì)相對(duì)差異（MARD，Mean Absolute Relative Difference）的中位數(shù)在 GTEx、TCGA 和 ENCODE 數(shù)據(jù)集中分別增加了 0.1830、0.1559 和 0.1721。更重要的是，這種關(guān)聯(lián)性在不同的生物學(xué)背景、樣本資源、測序平臺(tái)和數(shù)據(jù)質(zhì)量條件下都保持一致，證明了 K 值作為內(nèi)在定量誤差指標(biāo)的穩(wěn)健性。

（來源：Nature Biotechnology）

基于 K 值理論，研究團(tuán)隊(duì)開發(fā)了 miniQuant 軟件，這是一個(gè)能夠智能整合長短讀段優(yōu)勢的創(chuàng)新工具。miniQuant 包含兩個(gè)模式：miniQuant-L 僅使用長讀段進(jìn)行定量，而 miniQuant-H 則是核心創(chuàng)新的混合模式，能夠整合長短讀段數(shù)據(jù)。

區(qū)健輝介紹說：“我們可以用 K 值來幫助研究人員設(shè)計(jì)數(shù)據(jù)收集方案，指導(dǎo)他們應(yīng)該選擇二代測序還是三代測序。”miniQuant-H 采用機(jī)器學(xué)習(xí)方法，根據(jù)基因結(jié)構(gòu)特征（包括 K 值）和數(shù)據(jù)特征，為每個(gè)基因群體（gene community）確定最優(yōu)的長短讀段權(quán)重組合。

該算法的智能之處在于，能夠針對(duì)不同的誤差來源采取相應(yīng)的應(yīng)對(duì)策略。對(duì)于結(jié)構(gòu)復(fù)雜的基因（高 K 值），算法會(huì)更傾向于使用長讀段來減少解卷積誤差；而對(duì)于表達(dá)量較低的基因，則會(huì)增加短讀段的權(quán)重以減少采樣誤差造成的影響。例如，對(duì)于 K 值高達(dá) 82.26 且相對(duì)高表達(dá)的基因VPS13D，miniQuant-H 分配了 0.75 的長讀段權(quán)重；而對(duì)于 K 值較低（5.37）且表達(dá)量相對(duì)較低的基因TCP11L2，最優(yōu)長讀段權(quán)重僅為 0.25。

（來源：Nature Biotechnology）

在多項(xiàng)基準(zhǔn)測試中，miniQuant-H 展現(xiàn)出顯著優(yōu)勢。在模擬數(shù)據(jù)測試中，該算法在多種測序深度組合下的平均中位數(shù) MARD 為 0.1249，顯著優(yōu)于現(xiàn)有的短讀段工具（0.1505-0.3555）和長讀段工具（0.2515-0.9394）。在真實(shí)數(shù)據(jù)驗(yàn)證方面，研究團(tuán)隊(duì)使用了來自 LRGASP 聯(lián)盟的合成加標(biāo)轉(zhuǎn)錄本數(shù)據(jù)。對(duì)于 ERCC 加標(biāo)轉(zhuǎn)錄本，由于都是單異構(gòu)體基因不存在解卷積誤差，長讀段工具由于采樣誤差普遍表現(xiàn)不如短讀段工具，而 miniQuant-H 達(dá)到了與短讀段工具相當(dāng)?shù)木取?duì)于結(jié)構(gòu)復(fù)雜的 SIRV 加標(biāo)轉(zhuǎn)錄本，長讀段工具表現(xiàn)更優(yōu)，miniQuant-H 則取得了最低的平均誤差。

研究團(tuán)隊(duì)進(jìn)一步將 miniQuant 應(yīng)用于人類胚胎干細(xì)胞（ESC，Embryonic stem cell）分化研究中，揭示了干細(xì)胞分化過程中的異構(gòu)體轉(zhuǎn)換事件。通過分析 ESC 分化為咽內(nèi)胚層（PE，Pharyngeal Endoderm）和原始生殖細(xì)胞樣細(xì)胞（PGC，Primordial Germ Cell-like Cells）的過程，研究人員成功鑒定出 151 個(gè)（ESC 到 PE）和 161 個(gè)（ESC 到 PGC）發(fā)生異構(gòu)體轉(zhuǎn)換的基因。這些發(fā)現(xiàn)具有重要的生物學(xué)意義，例如MAT2B基因雖然整體表達(dá)水平保持穩(wěn)定，但其異構(gòu)體使用模式發(fā)生了顯著變化，這種轉(zhuǎn)換可能影響細(xì)胞的凋亡調(diào)控能力。

值得注意的是，這些已識(shí)別的重要異構(gòu)體轉(zhuǎn)換事件很多發(fā)生在高表達(dá)基因中（第 82-99 百分位，TPM 從 30.60 到 1,077.09），如果僅依靠長讀段測序，在典型的測序深度下（如 600 萬條 cDNA-ONT 讀段），當(dāng)這些基因的表達(dá)水平被下采樣至第 75 百分位豐度時(shí)，長讀段工具的定量結(jié)果就會(huì)因?yàn)椴蓸诱`差而變得不可靠。相比之下，miniQuant-H 通過整合短讀段數(shù)據(jù)，能夠在更大的基因表達(dá)范圍內(nèi)穩(wěn)定地檢測異構(gòu)體轉(zhuǎn)換模式。

與現(xiàn)有的整合方法相比，miniQuant 展現(xiàn)出明顯的技術(shù)優(yōu)勢。例如，StringTieMix 采用相對(duì)簡單的讀段分配策略，將每個(gè)短讀段分配給最多長讀段支持的兼容異構(gòu)體，在模擬數(shù)據(jù)中的表現(xiàn)有限。而 miniQuant-H 通過復(fù)雜的機(jī)器學(xué)習(xí)模型和聯(lián)合似然函數(shù)，實(shí)現(xiàn)了更精確和自適應(yīng)的數(shù)據(jù)整合。

這項(xiàng)研究從兩個(gè)方面推動(dòng)了 RNA 測序技術(shù)的發(fā)展：一方面，從理論上建立了評(píng)估基因異構(gòu)體定量可靠性的數(shù)學(xué)框架；另一方面，在實(shí)踐上提供了能夠根據(jù)具體數(shù)據(jù)特征和基因結(jié)構(gòu)自適應(yīng)選擇最優(yōu)策略的軟件工具。

區(qū)健輝總結(jié)道：“這是首次以嚴(yán)謹(jǐn)?shù)目茖W(xué)方法告訴研究人員哪些基因復(fù)雜、哪些基因簡單，以及何時(shí)應(yīng)該選擇不同的測序技術(shù)。以前大家都是憑感覺和經(jīng)驗(yàn)來判斷，現(xiàn)在我們提供了科學(xué)的標(biāo)準(zhǔn)。”審稿人也評(píng)價(jià)該研究“回答了領(lǐng)域內(nèi)長久以來懸而未決的問題”。

目前，miniQuant 軟件已在 GitHub 平臺(tái)（https://github.com/Augroup/miniQuant）開源發(fā)布，并提供了針對(duì)不同測序平臺(tái)和深度組合的預(yù)訓(xùn)練模型，包括 cDNA-PacBio、cDNA-ONT 和 dRNA-ONT 等協(xié)議。隨著長讀段測序技術(shù)成本的持續(xù)下降和精度的不斷提升，這種智能整合長短讀段優(yōu)勢的方法有望為轉(zhuǎn)錄組研究提供更加精確和經(jīng)濟(jì)的解決方案，推動(dòng)基因異構(gòu)體功能研究向更深層次發(fā)展。

圖丨相關(guān)論文（來源：Nature Biotechnology）

相關(guān)論文以《基于 miniQuant 的基因異構(gòu)體定量優(yōu)化方法》（Improving gene isoform quantification with miniQuant）為題發(fā)表在Nature Biotechnology上 [1]。密歇根大學(xué)博士研究生李浩然、王定杰、高琦、譚普文、王運(yùn)浩和蔡曉羽博士是共同第一作者，區(qū)健輝教授擔(dān)任通訊作者。

參考資料：

1.Li, H., Wang, D., Gao, Q. et al. Improving gene isoform quantification with miniQuant.Nature Biotechnology(2025). https://doi.org/10.1038/s41587-025-02633-9

運(yùn)營/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.