近日,復(fù)旦大學(xué)生物醫(yī)學(xué)研究院楊力研究員團(tuán)隊(duì)在《科學(xué)通報(bào)》發(fā)表題為“轉(zhuǎn)錄組生物信息學(xué): 從數(shù)據(jù)生成到分析框架”的評(píng)述文章,系統(tǒng)梳理轉(zhuǎn)錄組研究中高通量測(cè)序數(shù)據(jù)的獲得與分析的核心原理,概述了機(jī)器學(xué)習(xí)技術(shù)在轉(zhuǎn)錄組研究的應(yīng)用,為轉(zhuǎn)錄組生物信息學(xué)研究提供理論參考與技術(shù)啟示。
文章以轉(zhuǎn)錄組的復(fù)雜性作為切入點(diǎn),從轉(zhuǎn)錄產(chǎn)物和調(diào)控方式兩個(gè)方面簡(jiǎn)要闡述了轉(zhuǎn)錄組的特征:一方面,除了mRNA外還存在多種類型的非編碼RNA發(fā)揮不同的生物學(xué)功能;另一方面,RNA還經(jīng)過(guò)不同的加工發(fā)揮生物學(xué)作用,包括但不限于選擇性加尾、可變(反向)剪接、RNA編輯、RNA修飾等,展現(xiàn)了轉(zhuǎn)錄組在生命活動(dòng)中的豐富功能。
文中根據(jù)轉(zhuǎn)錄組測(cè)序/分析技術(shù)特點(diǎn)進(jìn)行系統(tǒng)性分類總結(jié)。轉(zhuǎn)錄組數(shù)據(jù)可以根據(jù)測(cè)序技術(shù)平臺(tái)分為二代短讀長(zhǎng)測(cè)序和三代長(zhǎng)讀長(zhǎng)測(cè)序技術(shù),二代測(cè)序可以根據(jù)數(shù)據(jù)富集/分析目標(biāo)的差異分為三類:1)轉(zhuǎn)錄本全序列富集;2)轉(zhuǎn)錄本目標(biāo)片段富集;3)引入突變的轉(zhuǎn)錄本片段富集。另外得益于技術(shù)突破,二代測(cè)序數(shù)據(jù)的分辨率從細(xì)胞群均值提升到單細(xì)胞精度。
針對(duì)不同測(cè)序數(shù)據(jù),文章概述了其技術(shù)原理和配套分析方法,并列舉了在轉(zhuǎn)錄組研究中的多種應(yīng)用場(chǎng)景。轉(zhuǎn)錄本全序列富集測(cè)序技術(shù)在RNA富集過(guò)程中不進(jìn)行打斷,理論上可以獲取轉(zhuǎn)錄本全序列的測(cè)序數(shù)據(jù),通過(guò)測(cè)序讀序比對(duì)工具及定量分析方法,可應(yīng)用于基因差異表達(dá)、可變(反向)剪接、新型RNA分子鑒定、新生轉(zhuǎn)錄本等方面的研究;轉(zhuǎn)錄本目標(biāo)片段富集測(cè)序技術(shù)僅對(duì)目標(biāo)片段進(jìn)行富集建庫(kù),經(jīng)過(guò)數(shù)據(jù)比對(duì)確定富集片段或者反轉(zhuǎn)錄停止位點(diǎn)坐標(biāo),實(shí)現(xiàn)區(qū)間精度或單堿基精度的數(shù)據(jù)分析,被廣泛用于RNA可變加尾、RNA修飾、RNA-蛋白互作、RNA-RNA互作、RNA二級(jí)結(jié)構(gòu)等多個(gè)轉(zhuǎn)錄組調(diào)控機(jī)制的研究;引入突變的轉(zhuǎn)錄本片段富集測(cè)序利用人為造成的堿基突變指示RNA上的修飾或特定位點(diǎn)結(jié)構(gòu),得益于序列比對(duì)工具的進(jìn)步,研究者可以準(zhǔn)確快速地識(shí)別突變位點(diǎn),在單堿基精度實(shí)現(xiàn)對(duì)RNA-蛋白結(jié)合、RNA修飾、RNA結(jié)構(gòu)等轉(zhuǎn)錄調(diào)控的研究。基于微流控液滴/微孔板技術(shù)的單細(xì)胞轉(zhuǎn)錄組測(cè)序?qū)⑥D(zhuǎn)錄組研究從群體平均定量提升到單個(gè)細(xì)胞水平定量,為解析細(xì)胞異質(zhì)性、構(gòu)建發(fā)育軌跡、鑒定稀有細(xì)胞亞群提供有效技術(shù)手段,在腫瘤微環(huán)境、胚胎發(fā)育和免疫細(xì)胞分型等領(lǐng)域具有突破性應(yīng)用。同時(shí)三代長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)克服了二代測(cè)序讀序短、無(wú)法區(qū)分重復(fù)序列的缺點(diǎn),實(shí)現(xiàn)無(wú)拼接的全長(zhǎng)轉(zhuǎn)錄本捕獲,實(shí)現(xiàn)單分子水平轉(zhuǎn)錄本研究,還可與單細(xì)胞測(cè)序技術(shù)結(jié)合,顯著提升復(fù)雜轉(zhuǎn)錄組的解析精度。
圖1 轉(zhuǎn)錄組研究相關(guān)測(cè)序技術(shù)及分析方法
除了傳統(tǒng)的生物信息學(xué)方法,文章還概括了機(jī)器學(xué)習(xí)技術(shù)在轉(zhuǎn)錄組研究的發(fā)展歷程,介紹了近年來(lái)快速發(fā)展的深度學(xué)習(xí)技術(shù)在生命科學(xué)研究中的應(yīng)用實(shí)例,并討論了訓(xùn)練數(shù)據(jù)對(duì)模型性能的影響和常見(jiàn)的數(shù)據(jù)處理手段。隨后以發(fā)表的模型為例,從訓(xùn)練數(shù)據(jù)集的構(gòu)建和編碼方式兩方面介紹了常見(jiàn)的數(shù)據(jù)處理方法,并展示數(shù)據(jù)的篩選以及編碼方式對(duì)模型性能的影響,為研究者利用深度學(xué)習(xí)技術(shù)深入研究轉(zhuǎn)錄組提供一些啟發(fā)。
最后,文章討論了轉(zhuǎn)錄組研究的發(fā)展趨勢(shì)。隨著單細(xì)胞測(cè)序、空間轉(zhuǎn)錄組學(xué)和長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)的突破,研究從傳統(tǒng)批量分析向多時(shí)空動(dòng)態(tài)解析推進(jìn),也為轉(zhuǎn)錄組在臨床疾病診療的應(yīng)用提供了更多的技術(shù)手段。雖然目前深度學(xué)習(xí)技術(shù)在生物研究中得到了廣泛應(yīng)用,但有限的訓(xùn)練數(shù)據(jù)和模型可解釋性也阻礙了模型在轉(zhuǎn)錄組研究的使用效果,這也是研究人員目前努力突破的方向。相信隨著數(shù)據(jù)與算法的協(xié)同發(fā)展,未來(lái)轉(zhuǎn)錄組學(xué)研究有望建立轉(zhuǎn)錄組調(diào)控的精細(xì)時(shí)空網(wǎng)絡(luò)模型,為理解復(fù)雜疾病發(fā)生機(jī)制和開(kāi)發(fā)靶向治療策略提供全新視角。
復(fù)旦大學(xué)生物醫(yī)學(xué)研究院楊力研究員為本文的通訊作者,南芳博士為本文的第一作者。
文章信息
南芳, 馬旭凱, 楊力, 轉(zhuǎn)錄組生物信息學(xué): 從數(shù)據(jù)生成到分析框架, 科學(xué)通報(bào), 2025, 70(15): 2356-2374
https://doi.org/10.1360/TB-2025-0160.
轉(zhuǎn)載、投稿請(qǐng)留言
| 關(guān)注科學(xué)通報(bào) | 了解科學(xué)前沿
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.