長非編碼 RNA ( Long non-c oding RNA, lncRNA ) 作為腫瘤診斷和治療的新型生物標志物,其研究價值日益凸顯,亟需開發生物信息學工具以實現腫瘤 lncRNA 的系統性識別。現有研究方法多聚焦于基因突變特征,而利用表觀基因組等其他組學特征的研究較少 。同時,使用突變特征對于識別腫瘤 lncRNA 是否仍然有效,且 不同 組 學特征對于識別腫瘤 lncRNA 的貢獻程度如何尚不明晰。
針對這一現狀, 該 研究創新性地整合了表觀基因組、基因組、轉錄組、表型、網絡和突變六大類共 44 個多組學特征,開發出具有可解釋性的機器學習方法 POCALI(圖1)。 該方法不僅能全面預測腫瘤 lncRNA ,更能深入解析 lncRNA 在腫瘤中的潛在作用機制。相關代碼已開源發布于 https://github.com/starrzy/POCALI 。
圖1POCALI方法流程圖
近日, 北京大學基礎醫學院醫學生物信息學系趙東宇研究員團隊 在SmallMethods期刊發表了題為POCALI: Prediction and Insight onCAncerLncRNAsby Integrating Multi-Omics Data with Machine Learning的研究論文。
POCALI 采用 LightGBM 框架結合 EasyEnsemble 方法構建預測模型,并創新性地引入 SHAP 方法實現全局和局部雙維度的結果解釋。 研究 發現 : 二級結構和基因表達相關特征是腫瘤 lncRNA 的強預測因子,表觀基因組特征 為 中等預測因子 , 突變特征的預測貢獻相對有限(圖2)。 該方法 還 可 良好地 解析 每個特征對于預測單個腫瘤 lncRNA 的貢獻程度(圖3),并 提供在線 分析 工具( https://huggingface.co/spaces/rzy99/POCALI_feature_analysis ) , 支持用戶深入探索特定 腫瘤 lncRNA 的潛在作用機制。與現有方法相比, POCALI 展現出更優的性能表現(尤其在敏感性指標上),并成功鑒定出更多潛在腫瘤 lncRNA 。值得注意的是,這些新發現的 腫瘤 lncRNA 與已知腫瘤 lncRNA 具有相似的特征譜,均表現出 明顯 的腫瘤相關表型。
圖 2 全局角度特征重要性分析
圖 3 局部角度特征重要性分析
綜上所述 ,POCALI作為預測和理解腫瘤lncRNA的新方法,為全面預測腫瘤lncRNA提供了新工具,同時為探究lncRNA在腫瘤中的潛在機制提供了新的角度。通過整合六大類共44個多組學特征,POCALI能夠揭示不同組學對于預測腫瘤lncRNA的貢獻程度,對于理解lncRNA在腫瘤中的潛在機制具有重要意義,其新發現的腫瘤lncRNA為腫瘤診療提供了新的潛在靶點。
北京大學基礎醫學院醫學生物信息學系趙東宇研究員為本文的 獨立 通訊作者 ,北京大學基礎醫學院醫學生物信息學系博士研究生饒紫嫣為本文的 唯一 第一作者 。
論文鏈接:https://onlinelibrary.wiley.com/doi/10.1002/smtd.202401987
制版人:十一
BioArt
Med
Plants
人才招聘
會議資訊
學術合作組織
(*排名不分先后)
戰略合作伙伴
(*排名不分先后)
轉載須知
【非原創文章】本文著作權歸文章作者所有,歡迎個人轉發分享,未經作者的允許禁止轉載,作者擁有所有法定權利,違者必究。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.