近日,天津大學(xué)教授吳華明團(tuán)隊(duì)開發(fā)了專為生物醫(yī)學(xué)圖像設(shè)計(jì)的 DNA 數(shù)據(jù)編解碼方案——HELIX。在生物醫(yī)學(xué)圖像讀取中,HELIX 方案的解碼速度可達(dá)到每秒 100,000 條,顯著改善了目前 DNA 數(shù)據(jù)存儲(chǔ)在讀取帶寬方面的缺陷。
圖 | 吳華明(來源:吳華明)
在濕實(shí)驗(yàn)中,研究團(tuán)隊(duì)將兩張共 60MB 的時(shí)空組學(xué)圖像編碼為 13 萬條、每條 183 個(gè)堿基的 DNA 序列。通過 DNA 合成與測序技術(shù),他們成功恢復(fù)了圖像數(shù)據(jù)。
實(shí)驗(yàn)結(jié)果表明,HELIX 系統(tǒng)具備強(qiáng)大的魯棒性,甚至在約 5.8 倍的測序深度下,也能夠恢復(fù)圖像的絕大部分信息。
能更高效、更穩(wěn)定地將圖像數(shù)據(jù)存儲(chǔ)于 DNA 介質(zhì)中
與現(xiàn)有的 DNA 數(shù)據(jù)存儲(chǔ)方案相比,HELIX 在設(shè)計(jì)時(shí)充分考慮了長期存儲(chǔ)過程中可能發(fā)生的解碼失敗問題。針對(duì)這一挑戰(zhàn),研究團(tuán)隊(duì)為 HELIX 引入了先進(jìn)的容錯(cuò)機(jī)制,確保即使在存在錯(cuò)誤信息的情況下,仍能恢復(fù)圖像的部分內(nèi)容,從而有效規(guī)避了 DNA 數(shù)據(jù)存儲(chǔ)在長期保存中的信息完全損壞的風(fēng)險(xiǎn)。
該系統(tǒng)能夠更高效、更穩(wěn)定地將圖像數(shù)據(jù)存儲(chǔ)于 DNA 介質(zhì)中,具有顯著的技術(shù)優(yōu)勢(shì)。未來,醫(yī)療數(shù)據(jù)中心及生物信息領(lǐng)域可以利用 HELIX 方案,以低成本、高穩(wěn)定的方式存儲(chǔ)海量的生物醫(yī)學(xué)圖像,為醫(yī)學(xué)研究提供長期可靠的數(shù)據(jù)支持。
一方面,隨著醫(yī)療技術(shù)的不斷進(jìn)步,醫(yī)學(xué)影像存儲(chǔ)的需求將持續(xù)增長,特別是在長期保存方面的需求尤為迫切。另一方面,醫(yī)學(xué)影像的存儲(chǔ)需求與 DNA 存儲(chǔ)的特點(diǎn)高度契合。醫(yī)學(xué)影像通常需要長期保存,并在必要時(shí)隨時(shí)恢復(fù)以便觀察患者病情的變化。
然而,由于 DNA 分子的合成和測序涉及復(fù)雜的生化過程,個(gè)人用戶很難獨(dú)立完成這一過程。因此,醫(yī)學(xué)影像更可能作為大規(guī)模數(shù)據(jù)中心的冷數(shù)據(jù)存儲(chǔ),利用 HELIX 技術(shù)實(shí)現(xiàn)高效、長期的存儲(chǔ)和管理。
(來源:Nature Computational Science)
從 DNA 信息存儲(chǔ)技術(shù)的極高存儲(chǔ)密度說起
DNA 信息存儲(chǔ)技術(shù)是將信息編碼為四進(jìn)制(A、T、C、G)形式,并通過合成 DNA 分子來實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ)。相較于傳統(tǒng)存儲(chǔ)方式,DNA 存儲(chǔ)具有顯著優(yōu)勢(shì),最為突出的是其極高的存儲(chǔ)密度。
按照理論計(jì)算,1 克 DNA 可以存儲(chǔ)數(shù)百艾字節(jié)的數(shù)據(jù),這使得 DNA 存儲(chǔ)在未來的數(shù)據(jù)存儲(chǔ)領(lǐng)域具有無可比擬的潛力。此外,DNA 存儲(chǔ)的另一個(gè)顯著優(yōu)點(diǎn)是其極長的存儲(chǔ)壽命,能夠在數(shù)百甚至數(shù)千年內(nèi)穩(wěn)定保存數(shù)據(jù)。
然而,盡管 DNA 信息存儲(chǔ)在理論上具有如此強(qiáng)大的潛力,但在實(shí)際應(yīng)用中仍然面臨許多挑戰(zhàn),尤其是同步性錯(cuò)誤問題。DNA 在合成和測序階段可能會(huì)出現(xiàn)堿基的插入、刪除和替換等同步性錯(cuò)誤,這些錯(cuò)誤嚴(yán)重影響數(shù)據(jù)的正確讀取和存取。
與在傳統(tǒng)信息通訊中常遇到的替換性錯(cuò)誤不同的是,DNA 存儲(chǔ)中的同步性錯(cuò)誤會(huì)對(duì)信息的恢復(fù)造成更為復(fù)雜的影響,從而影響其應(yīng)用的可靠性。
基于上述背景,本研究旨在探索并解決 DNA 存儲(chǔ)中的同步性錯(cuò)誤問題,提出一種可靠的 DNA 存儲(chǔ)方案。
具體來說,研究團(tuán)隊(duì)的研究目標(biāo)是開發(fā)一套能夠有效識(shí)別、糾正 DNA 存儲(chǔ)中的常見同步性錯(cuò)誤的技術(shù),確保數(shù)據(jù)在讀取過程中的準(zhǔn)確性和穩(wěn)定性。
同時(shí),研究團(tuán)隊(duì)還希望能夠設(shè)計(jì)出專門針對(duì)潛在應(yīng)用場景的 DNA 存儲(chǔ)方案,尤其是針對(duì)特定數(shù)據(jù)類型或應(yīng)用需求的定制化存儲(chǔ)解決方案。
其認(rèn)為,盡管 DNA 存儲(chǔ)在未來擁有巨大的潛力,但由于其現(xiàn)有的技術(shù)缺陷,未來的實(shí)際應(yīng)用可能仍需依賴于針對(duì)特定數(shù)據(jù)或應(yīng)用需求的專用 DNA 存儲(chǔ)方案。這些專用方案可以在保證存儲(chǔ)高效性的同時(shí),更好地適應(yīng)不同類型的數(shù)據(jù)特性和錯(cuò)誤容忍度,從而為 DNA 存儲(chǔ)的實(shí)際應(yīng)用奠定堅(jiān)實(shí)的基礎(chǔ)。
HELIX:針對(duì)生物醫(yī)學(xué)圖像的專用 DNA 存儲(chǔ)系統(tǒng)
據(jù)介紹,研究團(tuán)隊(duì)希望能夠開展一些具有開創(chuàng)性的工作,而不僅僅是單純的算法改進(jìn)。因此,他們決定專注于開發(fā)基于特定領(lǐng)域的 DNA 存儲(chǔ)系統(tǒng),而非通用的 DNA 存儲(chǔ)解決方案。
其認(rèn)為,DNA 存儲(chǔ)的未來發(fā)展不應(yīng)僅限于通用數(shù)據(jù)存儲(chǔ),而應(yīng)更多地聚焦于特定領(lǐng)域的應(yīng)用。在此基礎(chǔ)上,研究團(tuán)隊(duì)提出了專用 DNA 存儲(chǔ)標(biāo)準(zhǔn)的概念,這將比傳統(tǒng)的通用糾錯(cuò)碼具有更好的效果。
經(jīng)過一系列討論和調(diào)研后,他們最終選擇了生物醫(yī)學(xué)數(shù)據(jù)作為本次課題的研究方向。其認(rèn)為,生物醫(yī)學(xué)數(shù)據(jù)尤其是醫(yī)學(xué)影像數(shù)據(jù),在長期存儲(chǔ)和精確恢復(fù)方面有著獨(dú)特的需求,而 DNA 存儲(chǔ)技術(shù)非常適合這一應(yīng)用場景。
在明確研究方向后,接下來便是算法的設(shè)計(jì)與開發(fā)。研究團(tuán)隊(duì)首先明確了算法的基本特性。吳華明對(duì) DeepTech 表示:“我們并不僅僅追求提升性能,而是希望開發(fā)出一種在某些特定方面具有獨(dú)特優(yōu)勢(shì)的算法,這些優(yōu)勢(shì)是現(xiàn)有技術(shù)無法實(shí)現(xiàn)的。”
通過研究與討論后,他們決定創(chuàng)造一種新的圖像壓縮算法,這種算法不僅能夠高效地壓縮醫(yī)學(xué)圖像,而且特別針對(duì) DNA 存儲(chǔ)中常見的錯(cuò)誤特性進(jìn)行了優(yōu)化,具備良好的容錯(cuò)能力。這一獨(dú)特的容錯(cuò)特性成為了研究團(tuán)隊(duì)后續(xù)工作的指導(dǎo)思想。
在算法確定后,他們開始進(jìn)行系統(tǒng)設(shè)計(jì)與優(yōu)化。期間,研究團(tuán)隊(duì)圍繞著如何確保圖像數(shù)據(jù)在 DNA 存儲(chǔ)中能夠高效且穩(wěn)定地恢復(fù),進(jìn)行了大量實(shí)驗(yàn)與調(diào)試。同時(shí),他們還考慮到解碼速度在醫(yī)學(xué)圖像讀取中的重要性,努力提升系統(tǒng)的解碼效率,以解決現(xiàn)有 DNA 存儲(chǔ)技術(shù)在讀取帶寬方面的不足。
最后,研究團(tuán)隊(duì)進(jìn)行了多次濕實(shí)驗(yàn)以驗(yàn)證所提出方案的實(shí)際效果。通過將圖像數(shù)據(jù)編碼為 DNA 序列,并通過 DNA 合成與測序技術(shù)恢復(fù)圖像數(shù)據(jù),研究團(tuán)隊(duì)成功驗(yàn)證了 HELIX 系統(tǒng)在存儲(chǔ)、恢復(fù)及解碼速度方面的優(yōu)越性。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)具備強(qiáng)大的魯棒性和較高的容錯(cuò)性,能夠有效應(yīng)對(duì) DNA 存儲(chǔ)中的錯(cuò)誤問題。
通過這幾個(gè)階段的深入研究和不斷優(yōu)化,研究團(tuán)隊(duì)成功研發(fā)出了針對(duì)生物醫(yī)學(xué)圖像的專用 DNA 存儲(chǔ)系統(tǒng) HELIX。這一成果不僅為 DNA 存儲(chǔ)的應(yīng)用提供了新的思路,還解決了在實(shí)際應(yīng)用中遇到的一些關(guān)鍵技術(shù)難題。
接著,論文被原則性接收。對(duì)于他們所從事的計(jì)算機(jī)領(lǐng)域的研究,通常來說一旦論文被接收,修改的內(nèi)容不會(huì)太多,往往很快就能出版。然而,這次的期刊編輯對(duì)論文討論部分提出了很高的要求。
與研究團(tuán)隊(duì)以往經(jīng)驗(yàn)不同的是,期刊不僅要求他們針對(duì)成果進(jìn)行總結(jié),還特別強(qiáng)調(diào)必須深入挖掘這項(xiàng)研究的意義和潛在影響。為此,他們反復(fù)修改了大約五版討論部分,最終才完成了出版版本。
這個(gè)過程非常辛苦,但也讓吳華明深刻體會(huì)到跨學(xué)科研究的挑戰(zhàn),尤其是在不同學(xué)科領(lǐng)域中,期刊的要求和審稿標(biāo)準(zhǔn)可能會(huì)有顯著差異。通過這次經(jīng)歷,吳華明更加意識(shí)到,了解并適應(yīng)各領(lǐng)域的不同要求,不僅能幫助研究團(tuán)隊(duì)在具體的學(xué)術(shù)寫作中取得成功,也能為跨學(xué)科合作提供寶貴的經(jīng)驗(yàn)。
日前,相關(guān)論文以《使用 HELIX 進(jìn)行生物醫(yī)學(xué)圖像的 DNA 數(shù)據(jù)存儲(chǔ)》(DNA data storage for biomedical images using HELIX)為題發(fā)在Nature Computational Science(IF 12),Guanjin Qu 是第一作者,吳華明擔(dān)任通訊作者 [1]。
圖 | 相關(guān)論文(來源:Nature Computational Science)
未來,研究團(tuán)隊(duì)相信 HELIX 將在醫(yī)學(xué)影像和其他生物醫(yī)學(xué)數(shù)據(jù)存儲(chǔ)領(lǐng)域發(fā)揮重要作用。HELIX 系統(tǒng)具備出色的擴(kuò)展性,因此研究團(tuán)隊(duì)的下一步計(jì)劃是將其應(yīng)用于更多領(lǐng)域的數(shù)據(jù)存儲(chǔ)。
具體來說,他們打算將 HELIX 擴(kuò)展到深空?qǐng)D像存儲(chǔ)以及顯微圖像存儲(chǔ)等其他應(yīng)用場景。深空探測和顯微成像等領(lǐng)域生成的數(shù)據(jù)量巨大且需要長時(shí)間保存,而 DNA 存儲(chǔ)的高密度特性使其在這些領(lǐng)域的應(yīng)用具有巨大的潛力。
此外,他們認(rèn)為,DNA 存儲(chǔ)技術(shù)的落地化并不僅僅依賴于編碼系統(tǒng)本身,合成和測序等關(guān)鍵環(huán)節(jié)的優(yōu)化也同樣至關(guān)重要。因此,未來他們將著重于基于數(shù)學(xué)優(yōu)化方法,進(jìn)一步提升這些環(huán)節(jié)的效率與準(zhǔn)確性,以降低成本并提高系統(tǒng)的整體性能。
總的來說,接下來的研究不僅會(huì)拓展 HELIX 的應(yīng)用范圍,還將針對(duì) DNA 存儲(chǔ)技術(shù)的各個(gè)環(huán)節(jié)進(jìn)行優(yōu)化,推動(dòng)其更廣泛地應(yīng)用于實(shí)際場景中。
參考資料:
1.Qu, G., Yan, Z., Chen, X. et al. DNA data storage for biomedical images using HELIX.Nature Computational Science5, 397–404 (2025). https://doi.org/10.1038/s43588-025-00793-x
運(yùn)營/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.