近日,天津大學教授吳華明團隊開發了專為生物醫學圖像設計的 DNA 數據編解碼方案——HELIX。在生物醫學圖像讀取中,HELIX 方案的解碼速度可達到每秒 100,000 條,顯著改善了目前 DNA 數據存儲在讀取帶寬方面的缺陷。
圖 | 吳華明(來源:吳華明)
在濕實驗中,研究團隊將兩張共 60MB 的時空組學圖像編碼為 13 萬條、每條 183 個堿基的 DNA 序列。通過 DNA 合成與測序技術,他們成功恢復了圖像數據。
實驗結果表明,HELIX 系統具備強大的魯棒性,甚至在約 5.8 倍的測序深度下,也能夠恢復圖像的絕大部分信息。
能更高效、更穩定地將圖像數據存儲于 DNA 介質中
與現有的 DNA 數據存儲方案相比,HELIX 在設計時充分考慮了長期存儲過程中可能發生的解碼失敗問題。針對這一挑戰,研究團隊為 HELIX 引入了先進的容錯機制,確保即使在存在錯誤信息的情況下,仍能恢復圖像的部分內容,從而有效規避了 DNA 數據存儲在長期保存中的信息完全損壞的風險。
該系統能夠更高效、更穩定地將圖像數據存儲于 DNA 介質中,具有顯著的技術優勢。未來,醫療數據中心及生物信息領域可以利用 HELIX 方案,以低成本、高穩定的方式存儲海量的生物醫學圖像,為醫學研究提供長期可靠的數據支持。
一方面,隨著醫療技術的不斷進步,醫學影像存儲的需求將持續增長,特別是在長期保存方面的需求尤為迫切。另一方面,醫學影像的存儲需求與 DNA 存儲的特點高度契合。醫學影像通常需要長期保存,并在必要時隨時恢復以便觀察患者病情的變化。
然而,由于 DNA 分子的合成和測序涉及復雜的生化過程,個人用戶很難獨立完成這一過程。因此,醫學影像更可能作為大規模數據中心的冷數據存儲,利用 HELIX 技術實現高效、長期的存儲和管理。
(來源:Nature Computational Science)
從 DNA 信息存儲技術的極高存儲密度說起
DNA 信息存儲技術是將信息編碼為四進制(A、T、C、G)形式,并通過合成 DNA 分子來實現數據的存儲。相較于傳統存儲方式,DNA 存儲具有顯著優勢,最為突出的是其極高的存儲密度。
按照理論計算,1 克 DNA 可以存儲數百艾字節的數據,這使得 DNA 存儲在未來的數據存儲領域具有無可比擬的潛力。此外,DNA 存儲的另一個顯著優點是其極長的存儲壽命,能夠在數百甚至數千年內穩定保存數據。
然而,盡管 DNA 信息存儲在理論上具有如此強大的潛力,但在實際應用中仍然面臨許多挑戰,尤其是同步性錯誤問題。DNA 在合成和測序階段可能會出現堿基的插入、刪除和替換等同步性錯誤,這些錯誤嚴重影響數據的正確讀取和存取。
與在傳統信息通訊中常遇到的替換性錯誤不同的是,DNA 存儲中的同步性錯誤會對信息的恢復造成更為復雜的影響,從而影響其應用的可靠性。
基于上述背景,本研究旨在探索并解決 DNA 存儲中的同步性錯誤問題,提出一種可靠的 DNA 存儲方案。
具體來說,研究團隊的研究目標是開發一套能夠有效識別、糾正 DNA 存儲中的常見同步性錯誤的技術,確保數據在讀取過程中的準確性和穩定性。
同時,研究團隊還希望能夠設計出專門針對潛在應用場景的 DNA 存儲方案,尤其是針對特定數據類型或應用需求的定制化存儲解決方案。
其認為,盡管 DNA 存儲在未來擁有巨大的潛力,但由于其現有的技術缺陷,未來的實際應用可能仍需依賴于針對特定數據或應用需求的專用 DNA 存儲方案。這些專用方案可以在保證存儲高效性的同時,更好地適應不同類型的數據特性和錯誤容忍度,從而為 DNA 存儲的實際應用奠定堅實的基礎。
HELIX:針對生物醫學圖像的專用 DNA 存儲系統
據介紹,研究團隊希望能夠開展一些具有開創性的工作,而不僅僅是單純的算法改進。因此,他們決定專注于開發基于特定領域的 DNA 存儲系統,而非通用的 DNA 存儲解決方案。
其認為,DNA 存儲的未來發展不應僅限于通用數據存儲,而應更多地聚焦于特定領域的應用。在此基礎上,研究團隊提出了專用 DNA 存儲標準的概念,這將比傳統的通用糾錯碼具有更好的效果。
經過一系列討論和調研后,他們最終選擇了生物醫學數據作為本次課題的研究方向。其認為,生物醫學數據尤其是醫學影像數據,在長期存儲和精確恢復方面有著獨特的需求,而 DNA 存儲技術非常適合這一應用場景。
在明確研究方向后,接下來便是算法的設計與開發。研究團隊首先明確了算法的基本特性。吳華明對 DeepTech 表示:“我們并不僅僅追求提升性能,而是希望開發出一種在某些特定方面具有獨特優勢的算法,這些優勢是現有技術無法實現的。”
通過研究與討論后,他們決定創造一種新的圖像壓縮算法,這種算法不僅能夠高效地壓縮醫學圖像,而且特別針對 DNA 存儲中常見的錯誤特性進行了優化,具備良好的容錯能力。這一獨特的容錯特性成為了研究團隊后續工作的指導思想。
在算法確定后,他們開始進行系統設計與優化。期間,研究團隊圍繞著如何確保圖像數據在 DNA 存儲中能夠高效且穩定地恢復,進行了大量實驗與調試。同時,他們還考慮到解碼速度在醫學圖像讀取中的重要性,努力提升系統的解碼效率,以解決現有 DNA 存儲技術在讀取帶寬方面的不足。
最后,研究團隊進行了多次濕實驗以驗證所提出方案的實際效果。通過將圖像數據編碼為 DNA 序列,并通過 DNA 合成與測序技術恢復圖像數據,研究團隊成功驗證了 HELIX 系統在存儲、恢復及解碼速度方面的優越性。實驗結果表明,該系統具備強大的魯棒性和較高的容錯性,能夠有效應對 DNA 存儲中的錯誤問題。
通過這幾個階段的深入研究和不斷優化,研究團隊成功研發出了針對生物醫學圖像的專用 DNA 存儲系統 HELIX。這一成果不僅為 DNA 存儲的應用提供了新的思路,還解決了在實際應用中遇到的一些關鍵技術難題。
接著,論文被原則性接收。對于他們所從事的計算機領域的研究,通常來說一旦論文被接收,修改的內容不會太多,往往很快就能出版。然而,這次的期刊編輯對論文討論部分提出了很高的要求。
與研究團隊以往經驗不同的是,期刊不僅要求他們針對成果進行總結,還特別強調必須深入挖掘這項研究的意義和潛在影響。為此,他們反復修改了大約五版討論部分,最終才完成了出版版本。
這個過程非常辛苦,但也讓吳華明深刻體會到跨學科研究的挑戰,尤其是在不同學科領域中,期刊的要求和審稿標準可能會有顯著差異。通過這次經歷,吳華明更加意識到,了解并適應各領域的不同要求,不僅能幫助研究團隊在具體的學術寫作中取得成功,也能為跨學科合作提供寶貴的經驗。
日前,相關論文以《使用 HELIX 進行生物醫學圖像的 DNA 數據存儲》(DNA data storage for biomedical images using HELIX)為題發在Nature Computational Science(IF 12),Guanjin Qu 是第一作者,吳華明擔任通訊作者 [1]。
圖 | 相關論文(來源:Nature Computational Science)
未來,研究團隊相信 HELIX 將在醫學影像和其他生物醫學數據存儲領域發揮重要作用。HELIX 系統具備出色的擴展性,因此研究團隊的下一步計劃是將其應用于更多領域的數據存儲。
具體來說,他們打算將 HELIX 擴展到深空圖像存儲以及顯微圖像存儲等其他應用場景。深空探測和顯微成像等領域生成的數據量巨大且需要長時間保存,而 DNA 存儲的高密度特性使其在這些領域的應用具有巨大的潛力。
此外,他們認為,DNA 存儲技術的落地化并不僅僅依賴于編碼系統本身,合成和測序等關鍵環節的優化也同樣至關重要。因此,未來他們將著重于基于數學優化方法,進一步提升這些環節的效率與準確性,以降低成本并提高系統的整體性能。
總的來說,接下來的研究不僅會拓展 HELIX 的應用范圍,還將針對 DNA 存儲技術的各個環節進行優化,推動其更廣泛地應用于實際場景中。
參考資料:
1.Qu, G., Yan, Z., Chen, X. et al. DNA data storage for biomedical images using HELIX.Nature Computational Science5, 397–404 (2025). https://doi.org/10.1038/s43588-025-00793-x
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.