大規(guī)模群體遺傳圖譜的構(gòu)建離不開群體聯(lián)合變異檢測技術(shù),其中結(jié)構(gòu)變異( SV)基因型重分型的準(zhǔn)確性至關(guān)重要,直接影響群體SV頻率的精確構(gòu)建。然而,現(xiàn)有方法在 多等位基因區(qū)域識別能力不足 , 且 面臨測序錯誤、有效特征信息捕獲不充分 以及 計算效率瓶頸 等挑戰(zhàn),嚴(yán)重制約了大規(guī)模人群SV研究的進展。
近日,哈爾濱工業(yè)大學(xué) 王亞東、汪國華、姜濤團隊 在Genome Biology期刊發(fā)表題為cuteFC:regenotypingstructural variants through an accurate and efficient force-calling method的研究論文,提出了一種基于強制調(diào)用(force-calling)的SV基因型重分型新方法cuteFC(圖1)。
該方法創(chuàng)新性地采用了 自主感知聚類策略 ,能根據(jù)多態(tài)性智能選擇“ 自適應(yīng)聚類” 或 “多等位基因感知聚類” 模式,顯著提升SV信號識別精度。同 時,團隊設(shè)計了一種 高效的基因組位置掃描算法( GPS) ,使測序片段統(tǒng)計能在線性時間復(fù)雜度內(nèi)完成。 cuteFC 兼具準(zhǔn)確性與高效性,為大規(guī)模人群基因組研究提供了有力工具,有望推動群體遺傳學(xué)和精準(zhǔn)醫(yī)學(xué)研究的深入發(fā)展。
圖 1 cuteFC 方法的示意圖
研究團隊利用國際人類金標(biāo)準(zhǔn)數(shù)據(jù)集 HG002進行個體樣本測試。結(jié)果顯示, cuteFC 在所有測序技術(shù)( PacBio HiFi, PacBio CLR, ONT, ULONT)下均取得 最高F1分?jǐn)?shù) (分別為95.77%、92.85%、95.31%、94.36%),平均比次優(yōu)方法( cuteSV 和Sniffles2) 高出2% ,較其他方法優(yōu)勢 超過10% 。即使在基因組重復(fù)區(qū)域(如STR、VNTR和 SegDup )的挑戰(zhàn)下, cuteFC 性能依然 顯著優(yōu)于 其他工具。在針對復(fù)雜醫(yī)學(xué)相關(guān)基因區(qū)域(采用GIAB CMRG基準(zhǔn))的評估中, cuteFC 憑借其多等位基因感知聚類算法, 所有測試均獲最優(yōu)F1分?jǐn)?shù) ,并能 精準(zhǔn)識別雙雜合SV 。 特別是在采用 PacBio HiFi測序數(shù)據(jù)(具有高堿基識別率)和基于最新納米孔設(shè)計的ONT測序數(shù)據(jù)時 , cuteFC 表現(xiàn)尤為卓越。
在 100名中國人群樣本的大規(guī)模隊列分析中,團隊運用 cuteFC 進行聯(lián)合SV檢測,并通過變異等位基因頻率(VAF)評估。經(jīng)哈代-溫伯格平衡(HWE)與過量雜合性( ExcHet )質(zhì)控, cuteFC 精準(zhǔn)分型了最多數(shù)量的SV ,有效保留了包括常見插入、缺失以及不常見 的 反轉(zhuǎn)、重復(fù)、易位在內(nèi)的高質(zhì)量變異位點(HWE通過率94.93%, ExcHet 通過率97.19%)。為驗證稀有變異分型準(zhǔn)確性,團隊隨機選取兩樣本,結(jié)合PacBio HiFi測序和單倍型組裝真值集評估。結(jié)果顯示, cuteFC 不僅能 分型更多稀有變異 (singleton/doubleton),且 與真值集一致性更高 ,在保證低錯誤發(fā)現(xiàn)率的同時實現(xiàn)了 更優(yōu)的檢測靈敏度 ,是構(gòu)建高一致性群體SV數(shù)據(jù)集的可靠工具。
cuteFC 在運行效率和資源消耗上優(yōu)勢顯著。在HG002數(shù)據(jù)集上,其運行時間隨線程增加呈現(xiàn) 近乎線性提升 。使用16線程時, cuteFC 與Sniffles2并列成為 最快工具 (處理 PacBio HiFi、 PacBio CLR、ONT、ULONT數(shù)據(jù)分別僅需2.95、7.08、2.23、5.95分鐘 , 圖4A)。在大規(guī)模隊列分析中, cuteFC 展現(xiàn)出 卓越的并行能力 ,平均每個樣本 僅需約3分鐘 即可完成SV基因型重分型。
在內(nèi)存使用方面, cuteFC 同樣高效。16線程處理單個HG002樣本時,內(nèi)存占用 穩(wěn)定在約5GB ;處理大規(guī)模群體樣本時,平均內(nèi)存消耗 僅為4.84GB 。這種穩(wěn)定 的 低內(nèi)存占用特性,結(jié)合其快速運行速度,充分證明了 cuteFC 在大規(guī)模人群基因組學(xué)研究中的 高效性和可擴展性 。
cuteFC 是一種基于長讀長測序的高效基因型重分型方法,能精準(zhǔn)為群體結(jié)構(gòu)變異分配基因型。與現(xiàn)有最先進方法相比, cuteFC 在各項評估指標(biāo)上均表現(xiàn) 更優(yōu)異 ,其在大規(guī)模人群隊列研究中的應(yīng)用也充分驗證了其在群體SV高質(zhì)量分析方面的 可靠性 。我們預(yù)期 cuteFC 將助力研究人員獲取更準(zhǔn)確的群體SV等位基因頻率,為群體遺傳學(xué)研究和多組學(xué)整合分析等前沿領(lǐng)域提供重要支持。
論文鏈接:https://doi.org/10.1186/s13059-025-03642-2
相關(guān)代碼與數(shù)據(jù):https://github.com/Meltpinkg/cuteFC
制版人:十一
BioArt
Med
Plants
人才招聘
學(xué)術(shù)合作組織
(*排名不分先后)
戰(zhàn)略合作伙伴
(*排名不分先后)
轉(zhuǎn)載須知
【非原創(chuàng)文章】本文著作權(quán)歸文章作者所有,歡迎個人轉(zhuǎn)發(fā)分享,未經(jīng)作者的允許禁止轉(zhuǎn)載,作者擁有所有法定權(quán)利,違者必究。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.