99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

《現(xiàn)代電影技術(shù)》|劉達(dá)等:智能計(jì)算時(shí)代深化電影科技創(chuàng)新和推進(jìn)電影強(qiáng)國(guó)建設(shè)的思考與啟示

0
分享至


本文刊發(fā)于《現(xiàn)代電影技術(shù)》2024年第9期

專(zhuān)家點(diǎn)評(píng)

當(dāng)前,我們正處于第三次技術(shù)革命浪潮中,人工智能應(yīng)用前景日趨清晰,人工智能應(yīng)用場(chǎng)景日益廣泛。特別是在電影文化領(lǐng)域,生成式人工智能更是具有大規(guī)模提高生產(chǎn)效率的潛能。在此背景下,中國(guó)電影科學(xué)技術(shù)研究所(中央宣傳部電影技術(shù)質(zhì)量檢測(cè)所)總工程師劉達(dá)率團(tuán)參加了人工智能領(lǐng)域國(guó)際頂級(jí)學(xué)術(shù)會(huì)議,并開(kāi)展了技術(shù)調(diào)研和考察交流,在此基礎(chǔ)上撰寫(xiě)完成《智能計(jì)算時(shí)代深化電影科技創(chuàng)新和推進(jìn)電影強(qiáng)國(guó)建設(shè)的思考與啟示》一文。文章在簡(jiǎn)明扼要介紹歐洲高新技術(shù)格式電影制作播映發(fā)展與應(yīng)用最新成果的基礎(chǔ)上,針對(duì)電影產(chǎn)業(yè)、現(xiàn)代影院和沉浸式視聽(tīng)技術(shù)的發(fā)展與應(yīng)用,提出把電影級(jí)主動(dòng)發(fā)光顯示技術(shù)和沉浸式視聽(tīng)技術(shù)作為重要抓手,以有效提升影院視聽(tīng)品質(zhì)和觀影體驗(yàn)。此外,適應(yīng)智能計(jì)算時(shí)代發(fā)展特征和生成式人工智能演進(jìn)趨勢(shì),提出了電影行業(yè)要統(tǒng)籌推進(jìn)模型自主研發(fā)與行業(yè)定制改造的技術(shù)思路,同時(shí)探討了電影行業(yè)在積極探索人工智能應(yīng)用中強(qiáng)化人工智能安全治理和版權(quán)保護(hù)的方式。文中提出我國(guó)要加快構(gòu)建完善以“文生電影”為核心的電影智能化創(chuàng)作生產(chǎn)技術(shù)體系,發(fā)展完善以現(xiàn)代智能科技為核心支撐的電影新質(zhì)生產(chǎn)力,推進(jìn)電影攝制播映向高品質(zhì)沉浸式多元化升級(jí),構(gòu)建發(fā)展新型視聽(tīng)文化業(yè)態(tài),優(yōu)化升級(jí)視聽(tīng)文化服務(wù),為新時(shí)代新征程推進(jìn)我國(guó)電影科技創(chuàng)新升級(jí)和高水平自立自強(qiáng)提供了富有前瞻性、建設(shè)性和可實(shí)施性的思考啟示與發(fā)展建議。

——徐進(jìn)

中央廣播電視總臺(tái)技術(shù)局局長(zhǎng)

中國(guó)電影電視技術(shù)學(xué)會(huì)理事長(zhǎng)

作 者 簡(jiǎn) 介

劉 達(dá)

中國(guó)電影科學(xué)技術(shù)研究所(中央宣傳部電影技術(shù)質(zhì)量檢測(cè)所)總工程師,主要研究方向:電影科技與產(chǎn)業(yè)智能化升級(jí)。

中國(guó)電影科學(xué)技術(shù)研究所(中央宣傳部電影技術(shù)質(zhì)量檢測(cè)所)高新技術(shù)研究處副處長(zhǎng),主要研究方向:數(shù)字電影技術(shù)。

王 萃

高 峰

中國(guó)電影科學(xué)技術(shù)研究所(中央宣傳部電影技術(shù)質(zhì)量檢測(cè)所)檢測(cè)認(rèn)證北方中心副主任,主要研究方向:電影技術(shù)質(zhì)量檢測(cè)認(rèn)證。

中國(guó)電影科學(xué)技術(shù)研究所(中央宣傳部電影技術(shù)質(zhì)量檢測(cè)所)助理工程師,主要研究方向:數(shù)字電影技術(shù)。

馬鴻悅

張海悅

中國(guó)電影科學(xué)技術(shù)研究所(中央宣傳部電影技術(shù)質(zhì)量檢測(cè)所)工程師,主要研究方向:數(shù)字電影技術(shù)。

中國(guó)電影科學(xué)技術(shù)研究所(中央宣傳部電影技術(shù)質(zhì)量檢測(cè)所)工程師,主要研究方向:數(shù)字電影技術(shù)。

王 健

摘要

人類(lèi)社會(huì)正加快步入智能計(jì)算時(shí)代,現(xiàn)代智能科技對(duì)電影產(chǎn)業(yè)的影響持續(xù)深化和不斷泛化,機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、人工智能生成內(nèi)容(AIGC)、大語(yǔ)言模型(LLM)、多模態(tài)模型等技術(shù)正在深刻影響和重構(gòu)優(yōu)化電影全產(chǎn)業(yè)鏈全價(jià)值鏈。伴隨電影科技創(chuàng)新進(jìn)入攻堅(jiān)期和深水區(qū),電影產(chǎn)業(yè)發(fā)展面臨新形勢(shì)新要求,我們要深化電影科技自主創(chuàng)新,積極推進(jìn)電影行業(yè)的智能化升級(jí),推進(jìn)生成式人工智能、人工智能大模型、沉浸式視聽(tīng)等技術(shù)在我國(guó)電影行業(yè)的定制設(shè)計(jì)、自主研制與科學(xué)應(yīng)用,有力支撐和服務(wù)社會(huì)主義電影強(qiáng)國(guó)建設(shè)。

關(guān)鍵詞

電影科技;自主創(chuàng)新;智能科技;人工智能大模型;人工智能生成內(nèi)容;沉浸式視聽(tīng)

1引言

2024年7月,我們一行6人赴德國(guó)、奧地利開(kāi)展業(yè)務(wù)訪問(wèn)與技術(shù)交流,先后在德國(guó)訪問(wèn)了HOLOPLOT音頻科技公司和德國(guó)電影資料館,在奧地利參加了全球人工智能(AI)領(lǐng)域的頂級(jí)學(xué)術(shù)會(huì)議——國(guó)際機(jī)器學(xué)習(xí)大會(huì)(International Conference on Machine Learning, ICML)。代表團(tuán)深入了解了電影沉浸式音頻技術(shù)的發(fā)展與應(yīng)用情況,細(xì)致了解了德國(guó)電影產(chǎn)業(yè)與現(xiàn)代影院的發(fā)展建設(shè)情況,積極研究探索我國(guó)電影產(chǎn)業(yè)高品質(zhì)多元化放映應(yīng)用場(chǎng)景。特別是,適應(yīng)智能計(jì)算時(shí)代(Age of Intelligent Computing)發(fā)展特征和電影產(chǎn)業(yè)智能化升級(jí)不斷提速要求,我所首次組織實(shí)施“人工智能?chē)?guó)際學(xué)術(shù)會(huì)議團(tuán)組”計(jì)劃,參加全球AI領(lǐng)域頂級(jí)學(xué)術(shù)會(huì)議,密切跟蹤現(xiàn)代智能科技發(fā)展趨勢(shì)、最新研究與應(yīng)用成果,探索推進(jìn)人工智能(AI)大模型和人工智能生成內(nèi)容(AIGC)等技術(shù)在電影行業(yè)的定制化、科學(xué)化應(yīng)用。

此次業(yè)務(wù)訪問(wèn)與技術(shù)交流不僅內(nèi)容充實(shí)、系統(tǒng)全面,而且細(xì)致深入、針對(duì)性強(qiáng),進(jìn)一步深化了我們對(duì)于智能計(jì)算時(shí)代推進(jìn)電影科技自主創(chuàng)新、高水平自立自強(qiáng)與電影產(chǎn)業(yè)智能化升級(jí)的思考和認(rèn)識(shí),對(duì)于推動(dòng)人工智能大語(yǔ)言模型(LLM)、多模態(tài)大模型、人工智能生成內(nèi)容(AIGC)、沉浸式視聽(tīng)(Immersive Audio?Visual)等技術(shù)在我國(guó)電影行業(yè)的定制化設(shè)計(jì)、科學(xué)化應(yīng)用以及電影行業(yè)垂直AI大模型自主研制均具有一定的指導(dǎo)意義和應(yīng)用價(jià)值。

2收獲與思考

2.1 深入細(xì)致了解歐洲高新技術(shù)格式電影制作播映技術(shù)發(fā)展與應(yīng)用的最新成果,深刻感受到全球電影行業(yè)正融合運(yùn)用傳統(tǒng)與新興視聽(tīng)技術(shù),不斷拓展創(chuàng)新觀影場(chǎng)景,有效提升電影視聽(tīng)品質(zhì)、觀影體驗(yàn)和產(chǎn)業(yè)效能,持續(xù)增強(qiáng)電影在現(xiàn)代視聽(tīng)媒體中的競(jìng)爭(zhēng)力影響力引領(lǐng)力

德國(guó)HOLOPLOT是全球領(lǐng)先的空間聲學(xué)技術(shù)研究與應(yīng)用服務(wù)公司,致力于基于波場(chǎng)合成(Wave Field Synthesis, WFS)和3D音頻波束成形(Beamforming)技術(shù)的沉浸式音頻產(chǎn)品與應(yīng)用研究,其沉浸式音頻技術(shù)解決方案已成功應(yīng)用于美國(guó)拉斯維加斯MSG Sphere LED球幕影院,以及美國(guó)紐約Atlantic Theatre、英國(guó)倫敦Lightroom的LED展示場(chǎng)館等多元化展示和放映場(chǎng)景。HOLOPLOT沉浸式音頻解決方案的突出特點(diǎn)在于,其支持同一場(chǎng)所內(nèi)聽(tīng)眾區(qū)域、聆聽(tīng)內(nèi)容、音頻強(qiáng)度(聲壓級(jí))等靈活配置,既可讓不同區(qū)域的聽(tīng)眾聆聽(tīng)不同音頻內(nèi)容,也可讓不同區(qū)域的聽(tīng)眾聆聽(tīng)不同強(qiáng)度或相等強(qiáng)度的聲音。

HOLOPLOT設(shè)計(jì)研制了配有高性能服務(wù)器的沉浸式音頻揚(yáng)聲器模組,針對(duì)現(xiàn)場(chǎng)自動(dòng)化測(cè)試的場(chǎng)館聲音傳播特點(diǎn),采用波場(chǎng)合成(Wave Field Synthesis, WFS)與波束成形(Beamforming)技術(shù),通過(guò)組合配置揚(yáng)聲器模組,構(gòu)建虛擬聲源,控制聲音波束匯聚的方向和強(qiáng)度,以實(shí)現(xiàn)覆蓋各聽(tīng)眾區(qū)域的聲場(chǎng)。其揚(yáng)聲器模組分為X1和X2兩個(gè)系列,其中X1系列模組有包含96個(gè)兩分頻(高音和中低音)揚(yáng)聲器的MD96矩陣陣列和包含80個(gè)三分頻(高音、中音和低音)揚(yáng)聲器的MD80?S矩陣陣列;X2系列模組有包含30個(gè)揚(yáng)聲器的MD30矩陣陣列。

代表團(tuán)在HOLOPLOT實(shí)驗(yàn)室現(xiàn)場(chǎng)體驗(yàn)了波場(chǎng)合成(Wave Field Synthesis, WFS)和波束成形(Beamforming)技術(shù)的實(shí)現(xiàn)效果,可明顯感受到在同一場(chǎng)館內(nèi),距音源不同距離等強(qiáng)度覆蓋、不同區(qū)域不同音頻內(nèi)容覆蓋、覆蓋區(qū)域外強(qiáng)度快速衰減等效果。代表團(tuán)還參觀了產(chǎn)品研發(fā)生產(chǎn)線,以及HOLOPLOT最新發(fā)布的適用于演講和多媒體應(yīng)用的X2系列。位于美國(guó)拉斯維加斯著名的MSG Sphere LED球幕影院即采用HOLOPLOT音頻解決方案實(shí)現(xiàn)電影級(jí)沉浸式音頻播放。該場(chǎng)館從LED屏幕到最后一排觀眾的距離長(zhǎng)達(dá)110米,且弧形屏幕和球形場(chǎng)館對(duì)聲音傳播形成了非常規(guī)的球面反射。HOLOPLOT在LED透聲屏后安裝約1600個(gè)X1矩陣陣列模組,共計(jì)約160000個(gè)揚(yáng)聲器實(shí)現(xiàn)音頻播放。

此外,代表團(tuán)還訪問(wèn)了德國(guó)電影資料館(Deutsche Kinemathek)和柏林CinemaxX影院,重點(diǎn)了解德國(guó)電影科技與產(chǎn)業(yè)發(fā)展歷程、影院發(fā)展建設(shè)情況以及高新技術(shù)格式電影應(yīng)用情況。德國(guó)電影資料館于1963年2月正式開(kāi)放,自2000年9月開(kāi)始作為柏林電影博物館,收藏了大約26 000部德國(guó)本土和其他國(guó)家的無(wú)聲電影、有聲電影及拍攝放映設(shè)備、電影劇照、肖像、制作照片、劇本、海報(bào)、電影節(jié)目、電影票和傳記材料等。在現(xiàn)場(chǎng),我們近距離觀察體驗(yàn)了膠片放映機(jī)、老式攝像機(jī)、老式售票機(jī)等工作原理,通過(guò)還原的微型拍攝老場(chǎng)景研究傳統(tǒng)拍攝技術(shù)的應(yīng)用,并了解第二次世界大戰(zhàn)對(duì)于德國(guó)電影進(jìn)程的影響,現(xiàn)場(chǎng)領(lǐng)略德國(guó)電影的展現(xiàn)方式。

作為柏林大型現(xiàn)代化影院,CinemaxX影院擁有19個(gè)影廳,均支持DCI 4K數(shù)字放映技術(shù)和杜比 7.1 環(huán)繞聲,其中8個(gè)影廳支持3D數(shù)字放映、2個(gè)影廳同時(shí)支持高幀率(HFR)和3D數(shù)字放映,還有2個(gè)影廳仍支持16 mm和35 mm膠片放映。該影院在2023年實(shí)施改造升級(jí),為所有影廳安裝電動(dòng)可調(diào)節(jié)豪華皮質(zhì)座椅。改造升級(jí)后影院總座位數(shù)減少至原來(lái)的40%左右,約有一半影廳的座位數(shù)不到30個(gè)。該影院目前上映影片以美國(guó)好萊塢影片為主,票價(jià)為8~11歐元(人民幣約64~88元)。CinemaxX影院由Vue院線管理運(yùn)營(yíng),Vue院線在德國(guó)擁有30個(gè)影院,257塊銀幕,除電影放映外,影院還開(kāi)展音樂(lè)會(huì)、歌劇、芭蕾舞表演等現(xiàn)場(chǎng)直播業(yè)務(wù)。

通過(guò)訪問(wèn)交流,我們對(duì)于電影產(chǎn)業(yè)、現(xiàn)代影院和沉浸式視聽(tīng)技術(shù)的發(fā)展與應(yīng)用趨勢(shì),形成以下基本共識(shí):

(1)電影產(chǎn)業(yè)高質(zhì)量可持續(xù)發(fā)展的基石始終是視聽(tīng)品質(zhì)和觀影體驗(yàn)。作為電影產(chǎn)業(yè)終端的影院,要加快成為高品質(zhì)、專(zhuān)業(yè)化、融合型業(yè)務(wù)的高端文化消費(fèi)體驗(yàn)場(chǎng)所,要為促進(jìn)電影產(chǎn)業(yè)、文化產(chǎn)業(yè)和視聽(tīng)產(chǎn)業(yè)提質(zhì)增效作出積極貢獻(xiàn)。電影級(jí)主動(dòng)發(fā)光顯示技術(shù)和沉浸式視聽(tīng)技術(shù)將是有效提升影院視聽(tīng)品質(zhì)和觀影體驗(yàn)的重要抓手,必須積極充分運(yùn)用和大力推廣應(yīng)用。

(2)我國(guó)要實(shí)現(xiàn)電影大國(guó)向電影強(qiáng)國(guó)的歷史性跨越,電影科技發(fā)展必須立足自主創(chuàng)新,積極融合應(yīng)用傳統(tǒng)技術(shù)與新興技術(shù),加快推進(jìn)高水平自立自強(qiáng)。針對(duì)不同尺寸LED顯示屏和不同影廳建筑聲學(xué)環(huán)境,應(yīng)綜合利用LED透聲顯示屏、電影沉浸式音頻等自主技術(shù),融合相關(guān)行業(yè)領(lǐng)域共性技術(shù),形成最優(yōu)定制化整體解決方案,加快推進(jìn)國(guó)產(chǎn)數(shù)字電影LED放映顯示系統(tǒng)在我國(guó)影院的部署應(yīng)用,并制定完善相關(guān)技術(shù)規(guī)范與技術(shù)標(biāo)準(zhǔn),保障LED放映業(yè)務(wù)健康有序發(fā)展。

2.2 人工智能生成內(nèi)容(AIGC)技術(shù)發(fā)展迅猛,內(nèi)容質(zhì)量與生成效率持續(xù)提升,我國(guó)電影行業(yè)要順應(yīng)生成式人工智能發(fā)展演進(jìn)趨勢(shì),統(tǒng)籌推進(jìn)模型自主研發(fā)與行業(yè)定制改造,推動(dòng)技術(shù)研發(fā)與行業(yè)應(yīng)用不斷實(shí)現(xiàn)新突破,積極服務(wù)電影內(nèi)容生產(chǎn)與產(chǎn)業(yè)鏈提質(zhì)優(yōu)化

國(guó)際機(jī)器學(xué)習(xí)大會(huì)(ICML)由國(guó)際機(jī)器學(xué)習(xí)學(xué)會(huì)(IMLS)主辦,是國(guó)際公認(rèn)的人工智能(AI)領(lǐng)域的頂級(jí)學(xué)術(shù)會(huì)議。2024年度ICML設(shè)置了30余個(gè)專(zhuān)題論壇,包括6個(gè)特邀演講和140余個(gè)主題演講,并有2610篇論文現(xiàn)場(chǎng)展示,參會(huì)人數(shù)多達(dá)8000余人。會(huì)議內(nèi)容涵蓋人工智能預(yù)訓(xùn)練大模型、生成式人工智能、多模態(tài)大模型、具身智能(Embodied Artificial Intelligence, EAI)、人工智能安全治理等學(xué)術(shù)研討和行業(yè)應(yīng)用案例交流,代表了當(dāng)今人工智能研究的最高學(xué)術(shù)水平與前沿方向。

人工智能生成內(nèi)容(AIGC)是本次ICML會(huì)議的熱點(diǎn)與焦點(diǎn),多個(gè)專(zhuān)題論壇和技術(shù)演講均以此為主題。代表團(tuán)重點(diǎn)關(guān)注與電影行業(yè)密切相關(guān)的圖像與視頻生成、3D模型生成、具身智能等領(lǐng)域,參加了“視頻”“強(qiáng)化學(xué)習(xí)”“大語(yǔ)言模型:代碼和算法”“結(jié)構(gòu)化概率推理與生成式模型”“智能體和世界模型”“多模態(tài)基礎(chǔ)模型與具身智能”等多個(gè)論文專(zhuān)題報(bào)告和學(xué)術(shù)研討會(huì)。下面重點(diǎn)闡述AI視頻生成、3D智能生成和具身智能。

2.2.1 AI視頻生成

AI視頻生成是備受學(xué)術(shù)界和產(chǎn)業(yè)界關(guān)注的研究領(lǐng)域。視頻生成技術(shù)發(fā)展迅速,其實(shí)現(xiàn)路徑從基于生成式對(duì)抗網(wǎng)絡(luò)(GAN)與變分自編碼器(VAE)生成,發(fā)展到基于Transformer架構(gòu)生成,并不斷演進(jìn)至當(dāng)前主流的基于擴(kuò)散模型(Diffusion Model)和DiT(Diffusion Transformer)架構(gòu)。由美國(guó)OpenAI科技公司研發(fā)的Sora視頻生成模型即基于DiT架構(gòu),可生成60秒時(shí)長(zhǎng)、多鏡頭一致性、遵循一定物理規(guī)律的視頻。自2024年2月發(fā)布以來(lái),Sora視頻生成質(zhì)量仍然是領(lǐng)域標(biāo)桿。國(guó)內(nèi)外其他開(kāi)閉源視頻生成模型也在快速發(fā)展,如國(guó)外Pika、Runway Gen?3、Stable Video Diffusion,國(guó)內(nèi)快手可靈、潞晨科技Open?Sora、生數(shù)科技Vidu等,在視頻時(shí)長(zhǎng)、幀率、圖像分辨率、生成效果等方面取得了顯著進(jìn)展。目前,AI視頻生成領(lǐng)域正向提升復(fù)雜場(chǎng)景/動(dòng)作生成、時(shí)間一致性、保真度、訓(xùn)練推理效率、音視頻同步等質(zhì)量和性能方面持續(xù)進(jìn)步。

本次會(huì)議論文與學(xué)術(shù)研討覆蓋多模態(tài)視頻生成、視頻理解、視頻編輯控制和視頻生成質(zhì)量評(píng)估等領(lǐng)域。谷歌研究團(tuán)隊(duì)提出Genie[1]、VideoPoet[2]等模型,實(shí)現(xiàn)文本、圖像、音頻、視頻等多種模態(tài)作為模型輸入生成相應(yīng)視頻,并支持視頻風(fēng)格化和擴(kuò)展等功能。新加坡國(guó)立大學(xué)[3]基于思維鏈(Chain?of?Thought, CoT)技術(shù),將復(fù)雜的問(wèn)題拆分為更簡(jiǎn)單的問(wèn)題,提高模型對(duì)視頻問(wèn)答任務(wù)的性能。北京大學(xué)和快手科技公司聯(lián)合提出Video?LaVIT模型[4],支持圖像/視頻理解、文本到圖像以及文本到視頻生成。巴黎文理研究大學(xué)[5]提出一種基于文本提示的視頻編輯方法,利用預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型來(lái)處理時(shí)間和空間信息,可替換原始視頻的主體角色,并能保留原始視頻的結(jié)構(gòu)和運(yùn)動(dòng)。在視頻生成質(zhì)量評(píng)估方面,現(xiàn)階段主要側(cè)重于對(duì)音視頻同步性[6]和視頻運(yùn)動(dòng)一致性[7]的評(píng)估。

2.2.2 3D智能生成

3D模型不同于文字、圖像、視頻等數(shù)據(jù),存在天然稀缺性,后者可在日常生活中產(chǎn)生,因而極大地制約了3D智能生成模型算法的發(fā)展,因此3D智能生成相較于其他AIGC技術(shù)仍處于發(fā)展起步階段,其生成質(zhì)量、效果與效率距離實(shí)際應(yīng)用,特別是距離電影行業(yè)應(yīng)用尚有較大差距。當(dāng)前,3D智能生成領(lǐng)域的熱點(diǎn)方向是文本生成3D模型,采用的3D表征方式多為高斯濺射(Gaussian Splatting)和神經(jīng)輻射場(chǎng)(Neural Radiance Fields, NeRF),其不同于電影制作流程通用的網(wǎng)格(Mesh)表征方式。

本次ICML會(huì)議聚焦3D模型生成質(zhì)量、生成效率和數(shù)據(jù)集三個(gè)方向。一方面,基于現(xiàn)有算法,通過(guò)改進(jìn)方法或模型表征方式,提升生成3D模型的幾何一致性與保真度。如美國(guó)Meta公司研究團(tuán)隊(duì)[8]針對(duì)目前文生3D領(lǐng)域主流技術(shù)方法的問(wèn)題,即在大規(guī)模訓(xùn)練的文生圖模型基礎(chǔ)上使用分?jǐn)?shù)蒸餾采樣(Score Distillation Sampling, SDS)或其變體訓(xùn)練模型,存在速度慢、不穩(wěn)定且易于出現(xiàn)偽影等問(wèn)題,提出一種改善方法IM?3D,將原有文生圖模型變?yōu)槲纳曨l模型,并采用高斯濺射替換原有基于神經(jīng)輻射場(chǎng)(NeRF)的3D重建,在3D生成效率、質(zhì)量和幾何一致性等方面實(shí)現(xiàn)提升。另一方面,提出全新的生成框架,以提升生成質(zhì)量與效率。如香港中文大學(xué)聯(lián)合Autodesk AI實(shí)驗(yàn)室[9]提出一種全新的3D生成模型框架Make?A?Shape,通過(guò)引入小波樹(shù)作為3D表示、制定子帶系數(shù)濾波/打包方案以及自適應(yīng)訓(xùn)練策略,實(shí)現(xiàn)對(duì)3D形狀緊湊編碼。該框架在大多數(shù)情況下生成3D模型僅需2秒。此外,3D生成領(lǐng)域積極利用成熟的大語(yǔ)言模型(LLM)和多模態(tài)大模型來(lái)提升數(shù)據(jù)集標(biāo)注的可靠性,生成渲染Python腳本實(shí)現(xiàn)自動(dòng)化渲染。

2.2.3 具身智能(Embodied AI)

伴隨大語(yǔ)言模型(LLM)、多模態(tài)模型和世界模型快速發(fā)展,智能體(Agent)對(duì)文本、視覺(jué)、聽(tīng)覺(jué)等綜合信息的處理能力同步提升,在與機(jī)器人、傳感器等技術(shù)融合后,可實(shí)現(xiàn)物理實(shí)體與環(huán)境交互獲取信息、理解問(wèn)題、做出決策并實(shí)現(xiàn)行動(dòng),進(jìn)而產(chǎn)生智能行為,即具身智能。簡(jiǎn)言之,具身智能是一種基于物理實(shí)體進(jìn)行感知和行動(dòng)的智能系統(tǒng),其通過(guò)智能體與環(huán)境的交互獲取信息、理解問(wèn)題、做出決策并實(shí)現(xiàn)行動(dòng),進(jìn)而產(chǎn)生智能行為和適應(yīng)性。近兩年隨著AI技術(shù)的發(fā)展與進(jìn)步,特別是生成式AI和AI大模型的快速發(fā)展,具身智能落地應(yīng)用的可能性持續(xù)增強(qiáng),越來(lái)越多的企業(yè)開(kāi)始布局和投身具身智能領(lǐng)域,其已成為AI領(lǐng)域的研究與應(yīng)用熱點(diǎn)。

本屆ICML會(huì)議主要針對(duì)具身智能對(duì)任務(wù)和環(huán)境的處理能力、決策能力和泛化能力,采用在線強(qiáng)化學(xué)習(xí)、多模態(tài)強(qiáng)化學(xué)習(xí)、數(shù)據(jù)采集等方式提升智能體性能,進(jìn)而提升具身智能行為能力。清華大學(xué)[10]、加州大學(xué)伯克利分校[11]、卡內(nèi)基梅隆大學(xué)[12]等學(xué)術(shù)機(jī)構(gòu)分別在策略學(xué)習(xí)、策略更新與優(yōu)化、有效訓(xùn)練等研究領(lǐng)域提出有效算法,提升強(qiáng)化學(xué)習(xí)智能體在實(shí)際應(yīng)用中的性能與表現(xiàn)。清華大學(xué)[13]、紐約大學(xué)[14]和根特大學(xué)[15]分別對(duì)多模態(tài)統(tǒng)一表征學(xué)習(xí)、多模態(tài)環(huán)境下智能體復(fù)雜行為生成、多模態(tài)基礎(chǔ)世界模型進(jìn)行研究,致力于解決智能體在復(fù)雜任務(wù)中的挑戰(zhàn)。麻省理工學(xué)院?[16]研究人員提出環(huán)境自動(dòng)化塑造方法,以解決機(jī)器人學(xué)習(xí)中環(huán)境設(shè)計(jì)需要大量人工干預(yù)、數(shù)據(jù)采集效率低下等問(wèn)題。

本屆ICML會(huì)議盡管會(huì)期長(zhǎng)達(dá)一周,但因技術(shù)方向和內(nèi)容主題較多,會(huì)議日程安排極其緊湊,每天多個(gè)專(zhuān)題報(bào)告和研討會(huì)并行舉行。代表團(tuán)通過(guò)連續(xù)幾日參會(huì),深刻感受到大語(yǔ)言模型(LLM)、多模態(tài)大模型等技術(shù)突破和飛速進(jìn)步已帶動(dòng)AIGC各個(gè)分支領(lǐng)域快速發(fā)展,并通過(guò)垂直應(yīng)用推動(dòng)技術(shù)進(jìn)一步發(fā)展深化,進(jìn)而形成AIGC領(lǐng)域全面加速提升的發(fā)展態(tài)勢(shì)。我國(guó)電影科技應(yīng)緊跟AIGC發(fā)展趨勢(shì),充分挖掘行業(yè)高質(zhì)量數(shù)據(jù)資源,堅(jiān)持模型自主研發(fā)與行業(yè)定制改造統(tǒng)籌推進(jìn),積極推進(jìn)電影攝制播映裝備智能化升級(jí),有效提升電影攝制質(zhì)量與效率,優(yōu)化影院運(yùn)營(yíng)服務(wù)管理水平效率,促進(jìn)行業(yè)整體效能提升。

2.3 AI技術(shù)應(yīng)用的安全與版權(quán)風(fēng)險(xiǎn)日益凸顯,我國(guó)電影行業(yè)要統(tǒng)籌并重AI發(fā)展與安全,強(qiáng)化AI安全治理與版權(quán)保護(hù),積極推進(jìn)AI領(lǐng)域安全與版權(quán)保護(hù)技術(shù)研究應(yīng)用,服務(wù)行業(yè)健康有序發(fā)展

代表團(tuán)參加了ICML會(huì)議“安全與控制”“魯棒性與安全”“新一代AI安全”等多個(gè)相關(guān)主題報(bào)告與專(zhuān)題論壇,并與論文作者進(jìn)行了交流與探討。廣義上的AI安全涵蓋AI安全和版權(quán),目前主要研究方向涉及訓(xùn)練數(shù)據(jù)、模型和生成內(nèi)容三方面。其中,數(shù)據(jù)安全問(wèn)題涉及數(shù)據(jù)授權(quán)、數(shù)據(jù)隱私、涉密數(shù)據(jù)、數(shù)據(jù)污染、數(shù)據(jù)泄露等;模型安全問(wèn)題包括越獄、濫用、竊取攻擊等;生成結(jié)果安全問(wèn)題則包括生成有害內(nèi)容、誘導(dǎo)生成帶有版權(quán)的內(nèi)容、AI生成內(nèi)容識(shí)別等。

針對(duì)以上問(wèn)題,本屆ICML會(huì)議聚焦攻擊手段、保護(hù)方法、版權(quán)標(biāo)識(shí)與識(shí)別等三類(lèi)研究成果。

2.3.1 攻擊手段

致力于研究針對(duì)訓(xùn)練數(shù)據(jù)和模型的攻擊方法,以找到安全與版權(quán)隱患,特別是低成本、高效率的攻擊手段。其中包括被評(píng)為此次會(huì)議最佳論文之一,由谷歌公司[17]牽頭實(shí)現(xiàn)的《竊取語(yǔ)言生成模型的部分內(nèi)容》(Stealing Part of a Production Language Model),以不到2000美元的成本成功竊取GPT?3.5 Turbo模型的確切隱藏維度大??;新加坡國(guó)立大學(xué)[18]提出一種后門(mén)攻擊方式,以誘使模型生成帶有版權(quán)的內(nèi)容。

2.3.2 保護(hù)手段

主要針對(duì)已發(fā)現(xiàn)的安全漏洞,探索如何以更高效的方式調(diào)整提高生成內(nèi)容的正確性與安全性。例如上海交通大學(xué)[19]提出Ethical?Lens框架,可在不更改內(nèi)部模型的情況下避免惡意使用文本到圖像模型;谷歌DeepMind[20]提出Doubly?Efficient Debate理論框架,在此框架下,兩個(gè)模型通過(guò)辯論競(jìng)爭(zhēng)取勝,盡可能精簡(jiǎn)而充分地展示任務(wù)執(zhí)行過(guò)程的正確性,以提高生成內(nèi)容的安全性;美國(guó)馬里蘭大學(xué)[21]證明帶有水印的大語(yǔ)言模型可有效避免生成帶有版權(quán)的內(nèi)容,也可減少成員推理攻擊的成功率。

2.3.3 版權(quán)標(biāo)識(shí)與識(shí)別手段

主要聚焦AI生成內(nèi)容檢測(cè)以及數(shù)字水印的智能添加與檢測(cè),其中包括德國(guó)亥姆霍茲信息安全中心(CISPA Helmholtz Center for Information Security)[22]經(jīng)過(guò)測(cè)試證實(shí),在噪聲、編碼、傳輸衰減等真實(shí)環(huán)境產(chǎn)生的干擾下,現(xiàn)有檢測(cè)手段對(duì)于檢出是否為AI生成音頻并不具備較強(qiáng)魯棒性;美國(guó)Meta公司[23]提出利用AI生成本地化水印檢測(cè)語(yǔ)音克隆等多篇論文。

綜上所述,伴隨AI技術(shù)飛速發(fā)展,AI安全受到廣泛關(guān)注和高度重視,研究方向攻防并重,不僅聚焦安全防范和保護(hù)技術(shù),也注重對(duì)攻擊方法與手段的研究試驗(yàn),以研發(fā)對(duì)應(yīng)防御辦法。電影行業(yè)在積極探索AI技術(shù)落地應(yīng)用的同時(shí),也應(yīng)高度重視AI安全與版權(quán)問(wèn)題,統(tǒng)籌AI發(fā)展與安全,確保AI發(fā)展與應(yīng)用向上向善和服務(wù)行業(yè)。

2.4 歐盟積極謀劃和全面推進(jìn)AI基礎(chǔ)設(shè)施建設(shè)、模型研發(fā)、落地應(yīng)用與安全法案實(shí)施,努力追趕世界AI先進(jìn)水平,我國(guó)電影行業(yè)要充分利用相關(guān)新型基礎(chǔ)設(shè)施建設(shè)優(yōu)勢(shì),加強(qiáng)頂層設(shè)計(jì)、統(tǒng)籌規(guī)劃和項(xiàng)目推進(jìn),以AI技術(shù)深度應(yīng)用支撐服務(wù)行業(yè)提質(zhì)升級(jí)

本屆ICML會(huì)議邀請(qǐng)歐洲人工智能辦公室(European Artificial Intelligence Office)主任Lucilla Sioli女士作題為《歐盟委員會(huì)AI見(jiàn)解》的特別演講,演講主要涵蓋以下內(nèi)容:

2.4.1 關(guān)于歐盟《人工智能法案》

歐盟已制定發(fā)布《人工智能法案》(Artificial Intelligence Act),并在法案中將AI系統(tǒng)和通用AI模型按照風(fēng)險(xiǎn)程度分為不可接受風(fēng)險(xiǎn)、高風(fēng)險(xiǎn)、透明度風(fēng)險(xiǎn)、風(fēng)險(xiǎn)極小/無(wú)風(fēng)險(xiǎn)等四個(gè)等級(jí)。其中,不可接受風(fēng)險(xiǎn)等級(jí)模型將被嚴(yán)格禁止,如社會(huì)評(píng)分、無(wú)目標(biāo)的數(shù)據(jù)采集等;高風(fēng)險(xiǎn)等級(jí)模型,如涉及招聘、醫(yī)學(xué)設(shè)備等,需符合AI相關(guān)要求和事前一致性評(píng)估才可使用;透明度風(fēng)險(xiǎn)等級(jí)模型需符合透明度要求才可使用,如人機(jī)對(duì)話、圖像修改等;風(fēng)險(xiǎn)極小/無(wú)風(fēng)險(xiǎn)等級(jí)模型則無(wú)額外使用限制。此外,法案還對(duì)通用AI模型進(jìn)行了透明度規(guī)定,要求模型提供方提交技術(shù)文檔和使用說(shuō)明,公布訓(xùn)練數(shù)據(jù)摘要信息,并在此基礎(chǔ)上針對(duì)具有系統(tǒng)風(fēng)險(xiǎn)的模型(計(jì)算量超過(guò)1025 FLOPs)增加了額外要求,包括模型評(píng)測(cè)、對(duì)抗測(cè)試、系統(tǒng)風(fēng)險(xiǎn)評(píng)估與避免、事故跟蹤報(bào)告、網(wǎng)絡(luò)安全保障等。該法案已于2024年8月1日正式生效,相關(guān)規(guī)則將分階段在6個(gè)月或12個(gè)月后生效,大部分規(guī)則將于2026年8月2日生效。

2.4.2 關(guān)于歐盟AI機(jī)構(gòu)與團(tuán)隊(duì)設(shè)置

歐盟委員會(huì)于2024年5月底成立內(nèi)設(shè)機(jī)構(gòu)歐洲人工智能辦公室,負(fù)責(zé)AI法案實(shí)施、孵化AI研究創(chuàng)新項(xiàng)目和參與全球?qū)υ?,旨在推?dòng)歐洲人工智能未來(lái)發(fā)展、部署和應(yīng)用,促進(jìn)社會(huì)效益和經(jīng)濟(jì)效益提升,推進(jìn)AI創(chuàng)新和降低AI風(fēng)險(xiǎn)。此外,針對(duì)法案的制定和實(shí)施,歐盟還設(shè)立了咨詢(xún)團(tuán)隊(duì),包括AI董事會(huì)、科學(xué)小組和咨詢(xún)團(tuán)隊(duì)。其中,AI董事會(huì)由來(lái)自歐盟各成員國(guó)的高級(jí)代表和專(zhuān)家組成,負(fù)責(zé)法案實(shí)施協(xié)調(diào)工作;科學(xué)小組成員為具有專(zhuān)業(yè)知識(shí)的專(zhuān)家,負(fù)責(zé)在法案實(shí)施過(guò)程中對(duì)潛在系統(tǒng)風(fēng)險(xiǎn)提出預(yù)警;咨詢(xún)團(tuán)隊(duì)主要負(fù)責(zé)協(xié)調(diào)平衡各方利益。

2.4.3 關(guān)于歐盟政府AI投資發(fā)展計(jì)劃

歐洲目前開(kāi)展AI技術(shù)業(yè)務(wù)的主要為6300余家初創(chuàng)公司,其中10%與生成式AI相關(guān),而大型企業(yè)則較為保守,幾乎不涉足AI領(lǐng)域。初創(chuàng)公司在開(kāi)展AI相關(guān)業(yè)務(wù)時(shí)面臨投資不足、監(jiān)管負(fù)擔(dān)重、缺乏充足算力、數(shù)據(jù)和人才資源。針對(duì)上述情況,歐盟啟動(dòng)了“歐盟AI創(chuàng)新包”項(xiàng)目,將投資40億歐元用于AI算力設(shè)施建設(shè)、模型研發(fā)、推動(dòng)成果向市場(chǎng)轉(zhuǎn)化。其中,25億歐元用于AI算力設(shè)施建設(shè),5億歐元用于生成式AI模型研發(fā),涵蓋戰(zhàn)略工業(yè)產(chǎn)業(yè)、科學(xué)研究、公共事務(wù)等領(lǐng)域,包括機(jī)器人/制造業(yè)、汽車(chē)、網(wǎng)絡(luò)安全、能源、藥品等行業(yè)。在推動(dòng)AI研究成果轉(zhuǎn)化應(yīng)用方面,歐盟已啟動(dòng)歐洲地平線(Horizon Europe)、數(shù)字歐洲(Digital Europe)和歐洲創(chuàng)新委員會(huì)(European Innovation Council, EIC)加速器3個(gè)項(xiàng)目供申報(bào),總預(yù)算約1.6億歐元,涵蓋AI大模型、模型可解釋性與魯棒性、高性能開(kāi)源基礎(chǔ)模型、生成式AI模型研發(fā)等。

綜上所述,歐洲AI技術(shù)研發(fā)、創(chuàng)新應(yīng)用和相關(guān)算力基礎(chǔ)設(shè)施建設(shè)起步較晚且發(fā)展緩慢,與美國(guó)、中國(guó)等AI領(lǐng)先國(guó)家已有較大差距。歐盟已充分認(rèn)識(shí)到該問(wèn)題,正根據(jù)歐洲AI領(lǐng)域?qū)嶋H情況,集中成員國(guó)力量,全力開(kāi)展算力基礎(chǔ)設(shè)施建設(shè),啟動(dòng)AI技術(shù)研發(fā)和市場(chǎng)應(yīng)用項(xiàng)目,并以推動(dòng)技術(shù)創(chuàng)新與應(yīng)用為前提,率先頒布AI安全法案,全面推進(jìn)AI基礎(chǔ)研究與落地應(yīng)用。

當(dāng)前,我國(guó)算力基礎(chǔ)設(shè)施建設(shè)已達(dá)世界領(lǐng)先水平,且具有海量數(shù)據(jù)資源等優(yōu)勢(shì)。作為數(shù)字視聽(tīng)領(lǐng)域的技術(shù)引領(lǐng)者與發(fā)展制高點(diǎn),電影行業(yè)應(yīng)適應(yīng)AI技術(shù)迅猛發(fā)展的新形勢(shì)新需求新特點(diǎn),加強(qiáng)AI技術(shù)研發(fā)與行業(yè)應(yīng)用的頂層設(shè)計(jì)、統(tǒng)籌規(guī)劃和項(xiàng)目推進(jìn),聯(lián)合行業(yè)內(nèi)外形成強(qiáng)大合力,加快推動(dòng)以深度學(xué)習(xí)和生成式人工智能大模型引領(lǐng)的智能計(jì)算新發(fā)展與電影行業(yè)的深度融合,積極推進(jìn)電影全產(chǎn)業(yè)鏈全價(jià)值鏈智能化升級(jí),有力支撐和服務(wù)新時(shí)代社會(huì)主義電影強(qiáng)國(guó)建設(shè)。

3啟示及建議

2024年7月召開(kāi)的黨的二十屆三中全會(huì)審議通過(guò)了《中共中央關(guān)于進(jìn)一步全面深化改革、推進(jìn)中國(guó)式現(xiàn)代化的決定》,深入分析了新時(shí)代新征程推進(jìn)中國(guó)式現(xiàn)代化面臨的新形勢(shì)新要求,強(qiáng)調(diào)要“優(yōu)化重大科技創(chuàng)新組織機(jī)制,統(tǒng)籌強(qiáng)化關(guān)鍵核心技術(shù)攻關(guān)”“完善推動(dòng)新一代信息技術(shù)、人工智能等戰(zhàn)略性產(chǎn)業(yè)發(fā)展政策和治理體系”“推動(dòng)科技創(chuàng)新和產(chǎn)業(yè)創(chuàng)新融合發(fā)展”“探索文化和科技融合的有效機(jī)制,加快發(fā)展新型文化業(yè)態(tài)”,為推進(jìn)社會(huì)主義電影強(qiáng)國(guó)、文化強(qiáng)國(guó)和科技強(qiáng)國(guó)建設(shè)提供了發(fā)展方向和重要遵循。

電影是文化與科技的有機(jī)融合體,兼具文化屬性與科技屬性,在新興視聽(tīng)技術(shù)、新一代信息通信技術(shù)和現(xiàn)代智能科學(xué)技術(shù)的廣泛應(yīng)用與深刻影響下,電影產(chǎn)業(yè)與高新技術(shù)的融合進(jìn)程持續(xù)深化,電影產(chǎn)業(yè)加快由傳統(tǒng)視聽(tīng)產(chǎn)業(yè)向高新技術(shù)產(chǎn)業(yè)轉(zhuǎn)型升級(jí),其兼具文化創(chuàng)意產(chǎn)業(yè)和戰(zhàn)略性新興產(chǎn)業(yè)雙重內(nèi)涵的特征愈加凸顯?;诖舜胃暗聡?guó)、奧地利開(kāi)展業(yè)務(wù)訪問(wèn)和技術(shù)交流的收獲與思考,我們立足進(jìn)一步全面深化改革、推進(jìn)中國(guó)式現(xiàn)代化國(guó)家戰(zhàn)略,智能計(jì)算時(shí)代電影行業(yè)發(fā)展需求以及新一代信息通信技術(shù)與現(xiàn)代智能科學(xué)技術(shù)演進(jìn)趨勢(shì),經(jīng)認(rèn)真研究分析,提出以下啟示及發(fā)展建議:

3.1 運(yùn)用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、生成式AI、AI預(yù)訓(xùn)練大模型等發(fā)展成果,構(gòu)建完善以“文生電影”為核心的電影智能化創(chuàng)作生產(chǎn)技術(shù)體系,推進(jìn)電影攝制生產(chǎn)播映系統(tǒng)智能化升級(jí)改造,發(fā)展完善以現(xiàn)代智能科技為核心支撐的電影新質(zhì)生產(chǎn)力,科學(xué)精準(zhǔn)高效服務(wù)行業(yè)

智能經(jīng)濟(jì)與智能社會(huì)已成為經(jīng)濟(jì)與社會(huì)發(fā)展演進(jìn)的基本趨勢(shì)和必然要求。智能化升級(jí)是電影產(chǎn)業(yè)高質(zhì)量可持續(xù)發(fā)展的必由之路,是一項(xiàng)極其復(fù)雜、龐大的系統(tǒng)工程,必須強(qiáng)化頂層設(shè)計(jì)、立足自主創(chuàng)新和注重有序推進(jìn)。一方面,在電影行業(yè)大力發(fā)展人工智能生成內(nèi)容(AIGC),探索生成式AI技術(shù)、AI大模型、具身智能等在電影創(chuàng)作攝制等環(huán)節(jié)的應(yīng)用,結(jié)合電影視聽(tīng)技術(shù)指標(biāo)開(kāi)展定制化研發(fā),實(shí)現(xiàn)文生圖像、文生視頻、文生3D、文生音頻、文生電影等多元化電影級(jí)智能應(yīng)用,并探索推進(jìn)國(guó)產(chǎn)電影系統(tǒng)向智能化升級(jí)改造,提升電影攝制水平、能力和效率。另一方面,統(tǒng)籌AI發(fā)展與安全,開(kāi)展電影行業(yè)AI安全治理與版權(quán)保護(hù)研究,加強(qiáng)AI領(lǐng)域技術(shù)風(fēng)險(xiǎn)管控,科學(xué)合理安全使用生成式AI和AI預(yù)訓(xùn)練大模型,確保關(guān)鍵核心技術(shù)自主安全可控,加快研究制定AI相關(guān)安全秩序準(zhǔn)則和技術(shù)標(biāo)準(zhǔn)規(guī)范,保障電影行業(yè)智能化升級(jí)健康有序推進(jìn)。

3.2 適應(yīng)大視聽(tīng)、大科學(xué)和大文化時(shí)代發(fā)展要求,充分借鑒和融合應(yīng)用數(shù)字視聽(tīng)技術(shù)領(lǐng)域發(fā)展成果,推進(jìn)高品質(zhì)沉浸式多元化攝制播映創(chuàng)新升級(jí),加快構(gòu)建發(fā)展新型視聽(tīng)文化業(yè)態(tài),持續(xù)優(yōu)化升級(jí)視聽(tīng)文化業(yè)務(wù)服務(wù)和產(chǎn)品供給

電影行業(yè)已經(jīng)步入大視聽(tīng)(Great Audio?Visual)、大科學(xué)(Great Science)和大文化(Big Culture)時(shí)代。一方面,學(xué)科、技術(shù)、業(yè)務(wù)、服務(wù)、產(chǎn)業(yè)、行業(yè)深度交叉和融合并進(jìn),科學(xué)研究和技術(shù)應(yīng)用的復(fù)雜性、系統(tǒng)性、協(xié)同性顯著增強(qiáng);另一方面,在媒體融合持續(xù)深化的背景下,視聽(tīng)產(chǎn)業(yè)和文化產(chǎn)業(yè)發(fā)展格局重構(gòu)優(yōu)化,視聽(tīng)文化業(yè)務(wù)服務(wù)模式創(chuàng)新升級(jí)和拓展延伸,覆蓋電影、電視、計(jì)算機(jī)、移動(dòng)終端、手機(jī)等多元媒體的廣義大視聽(tīng)和大文化產(chǎn)業(yè)構(gòu)建形成并不斷提質(zhì)升級(jí)。因此,融合應(yīng)用數(shù)字視聽(tīng)領(lǐng)域成熟視音頻技術(shù)和解決方案,針對(duì)影院增值業(yè)務(wù)、特種電影、特種影院、沉浸式視聽(tīng)體驗(yàn)等場(chǎng)景,探索實(shí)踐高品質(zhì)、多元化、差異化發(fā)展模式,同時(shí)發(fā)揮我國(guó)制造領(lǐng)域優(yōu)勢(shì),加快攝制播映端國(guó)產(chǎn)核心關(guān)鍵技術(shù)與系統(tǒng)設(shè)備的研發(fā)應(yīng)用,推進(jìn)攝制播映工藝流程創(chuàng)新升級(jí),全方位多維度提升文化產(chǎn)品質(zhì)量和視聽(tīng)體驗(yàn)。

注釋、參考文獻(xiàn)

(向下滑動(dòng)閱讀)

[1] Bruce J, Dennis M D, Edwards A, et al. Genie: Generative Interactive Environments[EB/OL].(2024?05?02)[2024?09?02]. https://openreview.net/pdf?id=bJbSbJskOS.

[2] Kondratyuk D, Yu L, Gu X, et al. Videopoet: A large language model for zero?shot video generation[EB/OL].(2024?06?04)[2024?09?02]. https://arxiv.org/pdf/2312.14125.

[3] Fei H, Wu S, Ji W, et al. Video?of?thought: Step?by?step video reasoning from perception to cognition[EB/OL].(2024?05?02)[2024?09?02]. https://openreview.net/pdf?id=fO31YAyNbI.

[4] Jin Y, Sun Z C, Xu K, et al. Video?lavit: Unified video?language pre?training with decoupled visual?motional tokenization[EB/OL].(2024?06?03)[2024?09?02].https://arxiv.org/pdf/2402.03161.

[5] Cohen N, Kulikov V, Kleiner M, et al. Slicedit: Zero?Shot Video Editing With Text?to?Image Diffusion Models Using Spatio?Temporal Slices[EB/OL].(2024?05?20)[2024?09?02]. https://arxiv.org/pdf/2405.12211.

[6] Yariv G, Gat I, Benaim S, et al. Diverse and Aligned Audio?to?Video Generation via Text?to?Video Model Adaptation[C]//Proceedings of the AAAI Conference on Artificial Intelligence 2024, 38(07):6639?6647.

[7] Liu J H, Qu Y R, Yan Q, et al. Fréchet Video Motion Distance: A Metric for Evaluating Motion Consistency in Videos[EB/OL].(2024?07?23)[2024?09?02]. https://arxiv.org/pdf/2407.16124.

[8] Melas?Kyriazi L, Laina I, Rupprecht C, et al. IM?3D: Iterative Multiview Diffusion and Reconstruction for High?Quality 3D Generation[EB/OL].(2024?02?13)[2024?09?02]. https://arxiv.org/pdf/2402.08682.

[9] Hui K H, Sanghi A, Rampini A, et al. Make?A?Shape: a Ten?Million?scale 3D Shape Model[EB/OL].(2024?05?02)[2024?09?02]. https://openreview.net/pdf?id=8l1KYguM4w.

[10] Luo Y, Ji T Y, Sun F C, et al. OMPO: A Unified Framework for RL under Policy and Dynamics Shifts[EB/OL].(2024?05?29)[2024?09?02]. https://arxiv.org/pdf/2405.19080.

[11] Lee H, Jin M, Lavaei J, et al. Pausing Policy Learning in Non?stationary Reinforcement Learning[EB/OL].(2024?05?25)[2024?09?02]. https://arxiv.org/pdf/2405.16053.

[12] Singla J, Agarwal A, Pathak D. SAPG: Split and Aggregate Policy Gradients[EB/OL].(2024?07?29)[2024?09?02]. https://arxiv.org/pdf/2407.20230.

[13] Li J X, Zheng J L, Zheng Y N, et al. Decisionnce: Embodied multimodal representations via implicit preference learning[EB/OL].(2024?05?24)[2024?09?02]. https://arxiv.org/pdf/2402.18137.

[14] Lee S, Wang Y B, Etukuru H, et al. Behavior generation with latent actions[EB/OL].(2024?06?28)[2024?09?02]. https://arxiv.org/pdf/2403.03181.

[15] Mazzaglia P, Verbelen T, Dhoedt B, et al. Multimodal foundation world models for generalist embodied agents[EB/OL].(2024?06?26)[2024?09?02]. https://arxiv.org/pdf/2406.18043.

[16] Park Y, Margolis G B, Agrawal P. Automatic Environment Shaping is the Next Frontier in RL[EB/OL].(2024?07?23)[2024?09?02]. https://arxiv.org/pdf/2407.16186.

[17] Carlini N, Paleka D, Dvijotham K, et al. Stealing Part of a Production Language Model[EB/OL].(2024?07?09)[2024?09?02]. https://arxiv.org/pdf/2403.06634.

[18] Wang H N, Shen Q L, Tong Y, et al. The Stronger the Diffusion Model, the Easier the Backdoor: Data Poisoning to Induce Copyright Breaches Without Adjusting Finetuning Pipeline[EB/OL].(2024?05?26)[2024?09?02]. https://arxiv.org/pdf/2401.04136.

[19] Cai Y Z, Yin S, Wei Y X, et al. Ethical?Lens: Curbing Malicious Usages of Open?Source Text?to?Image Models[EB/OL].(2024?04?18)[2024?09?02]. https://arxiv.org/pdf/2404.12104.

[20] Brown?Cohen J, Irving G, Piliouras G, et al. Scalable AI Safety via Doubly?Efficient Debate[EB/OL].(2023?11?23)[2024?09?02]. https://arxiv.org/pdf/2311.14125.

[21] Panaitescu?Liess M A, Che Z, An B, et al. Can Watermarking Large Language Models Prevent Copyrighted Text Generation and Hide Training Data?[EB/OL].(2024?07?24)[2024?09?02]. https://arxiv.org/pdf/2407.17417.

[22] Shaw S, Nassi B, Sch?nherr L. Generated Audio Detectors are Not Robust in Real?World Conditions[EB/OL].(2024?06?29)[2024?09?02]. https://openreview.net/forum?id=1R7RD1dfcC.

[23] San Roman R, Fernandez P, Elsahar H, et al. Proactive Detection of Voice Cloning with Localized Watermarking[EB/OL].(2024?06?06)[2024?09?02]. https://arxiv.org/pdf/2401.17264.


主管單位:國(guó)家電影局

主辦單位:電影技術(shù)質(zhì)量檢測(cè)所

標(biāo)準(zhǔn)國(guó)際刊號(hào):ISSN 1673-3215

國(guó)內(nèi)統(tǒng)一刊號(hào):CN 11-5336/TB

投稿系統(tǒng):ampt.crifst.ac.cn

官方網(wǎng)站:www.crifst.ac.cn

期刊發(fā)行:010-63245081

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

電影技術(shù)微刊 incentive-icons
電影技術(shù)微刊
電影技術(shù)微刊
579文章數(shù) 208關(guān)注度
往期回顧 全部

專(zhuān)題推薦

洞天福地 花海畢節(jié) 山水饋贈(zèng)里的“詩(shī)與遠(yuǎn)方

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 灵丘县| 东至县| 讷河市| 喀喇沁旗| 金堂县| 都安| 弋阳县| 河源市| 尚义县| 常州市| 涟源市| 馆陶县| 绥棱县| 镶黄旗| 辽中县| 班戈县| 衡阳市| 老河口市| 彭山县| 浦县| 邵阳县| 广昌县| 佳木斯市| 东海县| 通榆县| 浦东新区| 河东区| 治多县| 西林县| 庆阳市| 兴义市| 临武县| 华安县| 河曲县| 阿克陶县| 海晏县| 琼海市| 岢岚县| 江北区| 大庆市| 台中县|