在生殖醫學領域,輔助生殖技術( A ssisted R eproductive T echnology , ART )經過半個世紀的發展已取得突破性進展,迄今 已助力全球超 1200 萬名嬰兒誕生。胚胎著床前遺傳學檢測( P reimplantation G enetic T esting , PGT )作為 ART 成功實施的重要保障,通過精準識別染色體非整倍體、單基因遺傳病等遺傳缺陷,為優質胚胎篩選提供了科學依據。然而,傳統基于滋養層活檢的 PGT 方法因其侵入性操作可能導致胚胎 損傷 ,這一技術瓶頸亟待突破。在此背景下,無創胚胎遺傳檢測技術( noninvasive PGT , niPGT )應運而生,其創新性地利用胚胎培養液 ( S pent E mbryo C ulture M edium , SECM ) 中游離 DNA ( cell-free DNA , cfDNA )作為檢測靶標,實現了真正意義上的 " 零接 觸 " 胚胎遺傳分析,為生殖醫學領 域帶來了革命性的檢測新范式 。然而 團隊先前 的研究發現 培養液中 cfDNA 的來源復雜,約三分之一樣本存在顯著干擾因素, 這使得培養液中 cfDNA 的分子特征分析面臨重大技術挑戰。特別是如何從復雜的 DNA 混合物中準確解析 胚胎特異性 遺傳信息,已成為提升 niPGT 檢測精準度和臨床應用價值的關鍵所在 。
近日,北京大學國際機器學習中心周沛劼團隊聯合北京大學第三醫院陳依東團隊 在Advanced Science上發表了題為Genetic deconvolution of embryonic and maternal cell-free DNA in spent culture medium of human preimplantation embryo through deep learning的 研究論文。該研究開發了一個算法DECENT( de ep c opy number variation r e co n s t ruction )用于解決上述挑戰。DECENT通過對培養液中游離DNA的甲基化與序列信息進行分析,使用深度學習算法提取特征,實現了胚胎培養液中母源和胚胎游離DNA的精準分離和胚胎拷貝數變異( Copy Number V ariations , CNVs) 的重建 ,去除了培養液中的母源 干擾因素(圖1)。該方法有助于提升基于游離 DNA 無創胚胎 著床 前遺傳學非整倍體檢測的準確性,為其在生殖醫學領域的臨床應用奠定了基礎。
圖1DECENT算法流程圖
1. 深度學習模型的選擇與構建
在模型構建和訓練階段, 該 研究 依據 DNA 甲基化標記,隨機挑選 6 個污染程度超過 95% 的 SECM 樣本作為母源 cf DNA 的代表,以及 3 個無污染樣本作為胚胎 cf DNA 的代表。構建了包含 1500 萬讀段的訓練數據集,每個類別各貢獻 750 萬讀段。其中, 1200 萬讀段被用于訓練模型,而剩余的 300 萬讀段被保留作為驗證集。所有讀段均被處理成 相同的 堿基對的長度,提取序列信息和甲基化譜,作為模型輸入。模型架構中,卷積神經網絡用于提取序列特征,多頭注意力機制用于捕獲序列中的深層語義信息,雙向長短期記憶層則用于增強對序列的分析能力。輸出轉換為 0 到 1 范圍內的概率值,以此表示 cf DNA 來源于 母源 細胞的可能性,其中 1 代表完全源自母體細胞, 0 代表完全源自胚胎細胞 。
2. 深度學習模型計算培養液母源污染比例
該 研究 利 用構建的深度學習模型, 構建了極大后驗估計算法用于 計 算培養液中母源污染的比例, 并 將使用深度學習計算出的比例與用甲基化水平推斷的比例進行了比較,發現這兩個比例之間存在強烈的相關性,表明了高度的一致性。盡管使用了不同的特征,結果的相似性 側面反映 了構建的深度學習模型的魯棒性。為了進一步驗證模型的準確性, 該研究 通過生成一系列不同比例的顆粒細胞和胚胎混合物的合成數據集進行了模擬分析。模型推斷的百分比與 DNA 混合物的輸入百分比顯示出強烈的相關性,進一步驗證了模型的準確性。
3. 深度學習模型去除培養液母源污染和重建胚胎 拷貝數變異
為了評估深度學習模型重建胚胎 非整倍體變異 的能力, 該研究 首先 使 用計算機合成數據集來重建胚胎 非整倍體變異 。 該研究 隨機挑選了 2 個母源污染比例為 0 的非整倍體培養液樣本,代表完全來源于胚胎的 cfDNA ,和多個母源污染比例超過 95% 的整倍體培養液樣本 , 代表完全來源于母體細胞的 cfDNA 。隨后 , 該研究 用前兩組數據,隨機合成了母源污染比例為 60% 、 65% 、 70% 和 75% 的模擬數據,進行胚胎 非整倍體變異 計算。結果表明,隨著母源污染的引入,原本存在于胚胎中的 非整倍體變異 ,特別是 -16 、 +18 變異和 XY 性別,被母源污染所掩蓋。此外,隨著污染比例的升高,變異的掩蓋效應也隨之增強。值得強調的是,即便在高達 60% 、 65% 、 70% 和 75% 的污染比例下,模型依然能夠成功地識別至少一個變異,并且在污染比例低于 70% 時準確地鑒定性別。同樣地, 該研究 隨機挑選了另外一個無母源污染的非整倍體培養液樣本重復上述操作。結果顯示,模型依然能在 60% 、 65% 、 70% 和 75% 的污染比例下成功重建 -13 變異,并準確識別了性別。
該研究 之后在真實的臨床數據上樣本驗證了該算法,研究發現在一個真實污染比例 6 4% 的樣本成功恢復了 + 19 , XY 的非整倍體變異與性別,這與通過侵入性檢測方法的結果保持一致。此外,研究在一個污染比例高達 8 9% 的樣本中恢復了 - 18 的非整倍體變異,以及 在一個樣本中恢復了 1 號染色體長臂缺失 ( -1q ) 的拷貝數變異 ,進一步說明了算法的魯棒性。最后該研究提供了一個用于實際臨床使用該算法的流程圖。
4. 可解釋性分析揭示了胚胎發育過程中的潛在甲基化特征
為了理解算法的生物學機理,該研究對 該 深度學習模型進行了可解釋性分析。 基序( motif ) 特征可視化 結果表明 甲基化信息和序列信息都對模型的表現貢獻了作用 。此外,進一步將這些基序比對到基因進而進行通路的富集分析,發現了一些與胚胎發育, 細胞命運 決定 等相關的通路。同時該研究可視化了算法讀段每一個堿基對最后分類結果的重要性貢獻,發現母源的序列可能更依賴于甲基化信息,這可能揭示了母源與胚胎序列甲基化水平的差異。
綜上所述, 該 研究 提出的 DECENT 算法可以精準識別 SECM 中游離 DNA 甲基化數據中的 胚胎特異性 DNA 。 該方法有助于提升基于游離 DNA 無創胚胎 著床 前遺傳學非整倍體檢測的準確性 ,在 無創 胚胎 著床 前 胚胎 遺傳 學 檢測 中具有廣闊的應用前景 。
北京大學 數學科學學院博士生張振毅 為該研究論文的第一作者。 北京大學國際機器學習中心周沛 劼 研究員 與北京大學第三醫院陳依東副研究員 為該論文的共同通訊作者 。 該研究得到了 北京大學第三醫院喬杰院士 和 北京大學 數學科學學院李鐵軍教授 的悉心指導與大力支持 ,并感謝北京大學高性能計算平臺和生命科學中心計算平臺的助力 。
論文鏈接:https://advanced.onlinelibrary.wiley.com/doi/full/10.1002/advs.202412660
喬杰教授,中國工程院院士。喬杰院士從遺傳學、表觀遺傳學角度對人類早期胚胎發育調控機制進行深入研究。以通訊 / 第一 作者在 Lancet 、 JAMA 、 Science 、 Cell 、 Nature 等國際知名學術期刊上發表 SCI 論文 200 余篇。 陳依東,北京大學第三醫院生殖中心副研究員。主要研究方向為生殖醫學和遺傳診斷。 以第一 / 通訊 作者在 Cell Stem Cell 、 The Journal of Clinical Investigation 、 Science Advances 、 Advanced Science 、 Cell Reports 等發表 SCI 論文 10 余 篇 。課題組長期招聘博士后,歡迎擁有實驗或計算背景、且對 生殖醫學 前沿方向有熱情的青年才俊加盟。應聘理由 請注明 “ 博士后 申請 + 姓名 ” 。
簡歷投遞( 有意者請將個人簡歷等材料發至 ):
https://jinshuju.net/f/ZqXwZt或掃描二維碼投遞簡歷
制版人:十一
BioArt
Med
Plants
人才招聘
學術合作組織
(*排名不分先后)
戰略合作伙伴
(*排名不分先后)
轉載須知
【非原創文章】本文著作權歸文章作者所有,歡迎個人轉發分享,未經作者的允許禁止轉載,作者擁有所有法定權利,違者必究。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.