(記者 林碧涓)近日,中國(guó)電信在多媒體與人工智能交叉領(lǐng)域取得具有國(guó)際影響力的技術(shù)突破。中國(guó)電信云計(jì)算研究院常建慧博士的論文《Generative Image Coding with Diffusion Prior》在IEEE國(guó)際多媒體與博覽會(huì)議(IEEE International Conference on Multimedia and Expo,ICME 2025)上榮獲“最佳論文獎(jiǎng)”(Best Paper Award)。該篇論文創(chuàng)新性地將擴(kuò)散模型(Diffusion Model)引入生成式圖像編碼領(lǐng)域,有效突破傳統(tǒng)方法在壓縮效率與重建質(zhì)量之間的權(quán)衡瓶頸。
(圖片來(lái)源:攝圖網(wǎng))
“生成式圖像和視頻編碼的突破,正在推動(dòng)通信系統(tǒng)從‘傳輸數(shù)據(jù)’向‘重建體驗(yàn)’轉(zhuǎn)型。它的意義不止在于壓縮率的提升,更在于我們能夠以極小的傳輸負(fù)載,還原出感知質(zhì)量很高的視覺(jué)內(nèi)容。”在本次采訪中,中國(guó)電信云計(jì)算研究院常建慧博士深入解讀了此次中國(guó)電信生成式圖像編碼技術(shù)突破的應(yīng)用價(jià)值與前景。
痛點(diǎn)突圍:圖片“壓縮”和“生成”關(guān)系的重構(gòu)
想象一下,你在家戴著一副輕便的AR眼鏡,和遠(yuǎn)在國(guó)外的家人“面對(duì)面”聊天,他們的表情、動(dòng)作、甚至身后的環(huán)境,都在你眼前栩栩如生。這些高清畫(huà)面并不是完整傳過(guò)來(lái)的,而是眼鏡收集了動(dòng)作、語(yǔ)義、結(jié)構(gòu)等關(guān)鍵信息,通過(guò)本地生成模型快速還原畫(huà)面。這背后起關(guān)鍵作用的底層技術(shù),就是生成式編碼。
隨著生成技術(shù)的進(jìn)步,視覺(jué)內(nèi)容已從自然圖像為主,演變?yōu)樽匀粓D像與AI生成圖像的復(fù)雜混合,這推動(dòng)了對(duì)優(yōu)先考慮感知質(zhì)量的高效編碼技術(shù)的需求。
早期生成式編碼技術(shù)多基于 GAN(生成對(duì)抗網(wǎng)絡(luò))和 VAE(變分自編碼器)模型,在控制力、穩(wěn)定性及重建質(zhì)量方面仍有一定限制。近年來(lái)在圖像生成領(lǐng)域,擴(kuò)散模型展現(xiàn)出了可控生成高質(zhì)量圖像的強(qiáng)大能力,為圖像壓縮任務(wù)帶來(lái)了新的可能性。然而現(xiàn)有基于生成擴(kuò)散模型的方法則多由文本引導(dǎo),雖然能夠生成高質(zhì)量圖像,但保真度有限,容易出現(xiàn)偏色、變形、語(yǔ)義偏移等問(wèn)題,難以滿足通信系統(tǒng)對(duì)“可控、穩(wěn)定、可還原”的編碼要求。
研究提出的基于擴(kuò)散模型先驗(yàn)的生成式編碼框架,核心突破在于:將“生成能力”轉(zhuǎn)化為“可控的壓縮系統(tǒng)”,使模型在低碼率下依然能夠傳達(dá)明確而有效的控制信號(hào),確保重建結(jié)果聽(tīng)從壓縮器“指令”,該框架在低碼率區(qū)間顯著提升了感知保真度。
整體采用通用編碼器與插件式適配器相結(jié)合的架構(gòu),引入變碼率機(jī)制,以支持多碼率壓縮與靈活對(duì)接多種預(yù)訓(xùn)練擴(kuò)散模型,從AIGC到自然圖像再到垂類內(nèi)容,適配性強(qiáng),同時(shí)也降低了訓(xùn)練與遷移成本。
技術(shù)突破:“99次失敗后的成功”
科研往往是在對(duì)的方向中,螺旋上升的一個(gè)過(guò)程。這項(xiàng)技術(shù)的萌芽,始于常建慧求學(xué)期間的思考與探索。“那時(shí)候就一直在探索‘能不能讓生成模型參與圖像壓縮’,也做出過(guò)一些成果,但在細(xì)節(jié)保真和泛化能力上仍存在瓶頸。”擴(kuò)散模型的發(fā)展為這一難題提供了新的解法。其在稀疏條件引導(dǎo)下所展現(xiàn)的高質(zhì)量重建能力,使其成為構(gòu)建新型編碼系統(tǒng)的理想基座。
然而,從想法走向可用方案的過(guò)程中,仍面臨諸多挑戰(zhàn)。其中最核心的挑戰(zhàn),是如何同時(shí)解決壓縮器的表達(dá)能力與生成器的可控性問(wèn)題。一方面,壓縮端需要在極低比特率下仍能提取出對(duì)生成過(guò)程有引導(dǎo)力的關(guān)鍵信息;另一方面,擴(kuò)散模型本身的生成過(guò)程復(fù)雜,如何讓其“聽(tīng)懂”來(lái)自編碼器的控制信號(hào),也需要精細(xì)設(shè)計(jì)結(jié)構(gòu)與融合方式。早期的探索中,在編碼結(jié)構(gòu)、壓縮粒度、控制接口等方面都經(jīng)歷了多輪嘗試與調(diào)整。直到引入“變碼率編碼器+適配器+融合引導(dǎo)”的結(jié)構(gòu),才逐步建立起壓縮–生成之間的協(xié)同機(jī)制。
去年7月加入中國(guó)電信云計(jì)算研究院之后,研究院提供了強(qiáng)大算力與實(shí)驗(yàn)條件支持。算力是AI生成研究的重要底座,持續(xù)的算力資源投入讓復(fù)雜模型訓(xùn)練與海量實(shí)驗(yàn)成為可能。經(jīng)過(guò)反復(fù)實(shí)驗(yàn)與模型優(yōu)化,該方案逐步趨于穩(wěn)定。“實(shí)驗(yàn)不是一蹴而就的,成功背后需要足夠多的積累?!?/p>
“因?yàn)槭强蚣苄缘墓ぷ鳎胍M(jìn)一步提升并拓展到更多場(chǎng)景中,從而驗(yàn)證其可用性、可行性。”在有了會(huì)議版本后,常建慧開(kāi)始思考如何進(jìn)一步擴(kuò)展這個(gè)工作。項(xiàng)目成員也從最初的“單打獨(dú)斗”,發(fā)展到今年有實(shí)習(xí)生加入。為幫助新人快速上手,她整理了詳盡的技術(shù)文檔,常陪實(shí)習(xí)生一起調(diào)試代碼、討論方案。“有次他卡了一周沒(méi)跑通實(shí)驗(yàn),最后終于啃下來(lái)了,那一刻比自己成功還有成就感?!?/p>
這種“敢啃硬骨頭”科研氛圍,植根于研究院獨(dú)特的土壤?!坝锌臻g、有活力”是常建慧對(duì)這里的評(píng)價(jià),也是她選擇加入的重要原因?!耙粋€(gè)關(guān)鍵契機(jī)是吳杰院長(zhǎng)的邀請(qǐng)。他作為資深教授,學(xué)術(shù)視野非常寬廣,且一直保持著對(duì)科研的熱情,對(duì)根技術(shù)的關(guān)注、對(duì)原理的執(zhí)著,給我很大的感染。這次ICME的投稿能夠脫穎而出,離不開(kāi)他的強(qiáng)烈推薦與信任?!?/p>
該項(xiàng)技術(shù)在去年年底完成早期版本,今年年初投稿ICME2025,并從3737 篇論文中脫穎而出,成為本屆大會(huì)唯一的最佳論文獎(jiǎng)。
這不僅是常建慧個(gè)人的里程碑,更是研究院在圖像編碼這一傳統(tǒng)而前沿的領(lǐng)域,探索出一條極具創(chuàng)新價(jià)值的新路徑?!半m然目前技術(shù)還處在研究成果初步成型、持續(xù)工程驗(yàn)證的階段,但我已經(jīng)切實(shí)感受到了‘從想法走向成果’的路徑正在打通。能在這樣的平臺(tái)上做研究,我感到很幸運(yùn),也很有動(dòng)力把這項(xiàng)工作繼續(xù)推進(jìn)下去。”
未來(lái)已來(lái):從圖像到多模態(tài),構(gòu)筑通信新生態(tài)
從產(chǎn)業(yè)發(fā)展趨勢(shì)上看,生成式壓縮正好契合AI原生通信、AIGC存儲(chǔ)優(yōu)化、邊端協(xié)同等新興需求,是一個(gè)“技術(shù)領(lǐng)先+需求拉動(dòng)”的方向。
當(dāng)前,基于擴(kuò)散模型的生成式編碼新框架展現(xiàn)出廣闊的應(yīng)用前景,從能力特點(diǎn)來(lái)看,它適合應(yīng)用在帶寬敏感或存儲(chǔ)成本高的場(chǎng)景。例如醫(yī)療影像等冷數(shù)據(jù)圖像的長(zhǎng)期備份,這類內(nèi)容對(duì)訪問(wèn)頻率要求不高,但對(duì)還原質(zhì)量仍有基本保障需求,生成式編碼可以在極低碼率下保留結(jié)構(gòu)與感知細(xì)節(jié),有望大幅降低存儲(chǔ)開(kāi)銷。
但要實(shí)現(xiàn)規(guī)模化落地,還需重點(diǎn)突破三大核心內(nèi)容:一是提升推理效率,進(jìn)一步優(yōu)化擴(kuò)散模型的采樣流程與部署性能;二是提高系統(tǒng)集成能力,解決現(xiàn)有平臺(tái)中生成式解碼的接入問(wèn)題;三是推進(jìn)生態(tài)標(biāo)準(zhǔn)建設(shè),推動(dòng)上下游接口規(guī)范、格式統(tǒng)一等工作。
“我們認(rèn)為,生成式編碼是一項(xiàng)面向未來(lái)的‘通用視覺(jué)通信能力’,它將支撐泛在云向更智能、更高效、更感知驅(qū)動(dòng)的方向演進(jìn),也是研究院接下來(lái)重點(diǎn)方向之一。”常建慧介紹道,在邊緣端,生成式圖像編碼技術(shù)可以降低圖像/視頻的回傳成本,提升算網(wǎng)協(xié)同效率;在中心云,能夠支持大規(guī)模感知優(yōu)先型視覺(jué)內(nèi)容的托管、分發(fā)與歸檔,節(jié)省存儲(chǔ)空間;在泛在場(chǎng)景中,可以構(gòu)建出“生成驅(qū)動(dòng)”的新型通信機(jī)制,兼顧質(zhì)量與效率。下一步,中國(guó)電信云計(jì)算研究院計(jì)劃將該技術(shù)拓展到視頻編碼中,并面向多模態(tài)任務(wù)、多模態(tài)模型進(jìn)行探索。
中國(guó)電信董事長(zhǎng)柯瑞文曾強(qiáng)調(diào),“科技成果只有通過(guò)規(guī)模應(yīng)用,才能促進(jìn)技術(shù)不斷迭代完善,形成成熟的商業(yè)模式,實(shí)現(xiàn)技術(shù)和市場(chǎng)雙輪驅(qū)動(dòng)產(chǎn)業(yè)發(fā)展,并進(jìn)一步反哺科技創(chuàng)新?!?/p>
應(yīng)用落地是檢驗(yàn)技術(shù)創(chuàng)新的“驗(yàn)金石”。作為中國(guó)電信面向未來(lái)科技創(chuàng)新的核心力量之一,云計(jì)算研究院堅(jiān)持“以科技驅(qū)動(dòng)引領(lǐng)未來(lái)、以創(chuàng)新賦能產(chǎn)業(yè)升級(jí)”發(fā)展宗旨,深耕前沿技術(shù)研究;同時(shí),與天翼云聯(lián)系緊密,在實(shí)際運(yùn)行中,其承接天翼云提出的實(shí)際業(yè)務(wù)痛點(diǎn),攻關(guān)核心技術(shù)后再通過(guò)天翼云完成落地驗(yàn)證,實(shí)現(xiàn)產(chǎn)學(xué)研深度咬合閉環(huán)?;诖?,“我們也將與天翼云公司探討可能落地應(yīng)用場(chǎng)景。針對(duì)落地應(yīng)用需求,在目前基礎(chǔ)上進(jìn)一步迭代升級(jí)。在升級(jí)過(guò)程中,還可以應(yīng)用一些新的技術(shù)去設(shè)計(jì),降低推理實(shí)驗(yàn)?!睋?jù)中國(guó)電信云計(jì)算研究院院長(zhǎng)吳杰透露,當(dāng)前,云計(jì)算研究院已與天翼云、天翼視聯(lián)公司進(jìn)行初步溝通,未來(lái)應(yīng)用場(chǎng)景將不止于“云”,還將延伸至視聯(lián)網(wǎng)領(lǐng)域。
當(dāng)靈感遇見(jiàn)堅(jiān)定支持,當(dāng)個(gè)人探索匯入團(tuán)隊(duì)使命,那些曾經(jīng)制約實(shí)踐的“不可能”,終將被一一擊破。在“AI+通信”的融合浪潮中,中國(guó)電信創(chuàng)新者正以扎實(shí)的根技術(shù),實(shí)踐著從“0”到“1”的突破。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.