99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

《現代電影技術》|劉達等:從全球人工智能頂會ICLR 2025看中國電影產業的智能化演進升級

0
分享至


本文刊發于《現代電影技術》2025年第5期

專家點評

科技是第一生產力,產業是國民經濟基石。推動科技創新和產業創新深度融合,關系新質生產力發展,關系中國式現代化全局。黨的二十屆三中全會對“推動科技創新和產業創新融合發展”作出部署。2025年全國電影工作會提出要聚焦推動電影科技創新,加快培育新質生產力,進一步賦能產業迭代升級。人工智能(AI)作為引領新一輪科技革命和產業變革的通用技術引擎,將為電影行業帶來顛覆性創新和跨領域滲透能力,成為推動新質生產力加快形成的強大力量。人工智能的發展目標是不斷提升自主學習和自主進化能力,向人類智能不斷逼近。深度人工神經網絡和AI大模型的架構升級、算法創新、工程優化以及開放生態構建完善,持續推動數字人建模生成渲染、三維數字內容智能生成、多模態情感識別與理解、高質量成像與圖像重建、場景識別與跨模態學習等諸多領域取得創新成果,為電影行業智能體與大模型的自主定制研發、虛擬現實電影制作生產、電影數字資產制作復用、多元化電影攝制播映、影院智慧運營管理等電影全產業鏈提供了有力支撐。《從全球人工智能頂會ICLR 2025看中國電影產業的智能化演進升級》一文,基于AI語言大模型、視覺大模型、多模態大模型、AIGC、多智能體系統協同、通用人工智能(AGI)、AI安全與版權等ICLR 2025國際會議熱點技術的最新進展,提出“電影行業應積極發展與應用人工智能科學研究與工程應用范式”“在創新升級AGI技術路線中積極貢獻中國智慧和中國力量”等前瞻性思考與分析展望,對于推動人工智能加快向通用人工智能發展演進,具有較高的指導意義和應用價值。該論文文字精煉嚴密、視角新穎前沿、見解獨到深刻,為現代智能科技與文化科技深度融合提供了極具前瞻性的范式指引。當前電影科技創新已步入深水區,電影工業發展正經歷由數字化向智能化的重要躍遷,電影行業應高度重視AI交叉科學研究,統籌AI發展與安全,積極有序推進電影全產業鏈全價值鏈的創新提質和智能升級。

——龔波

正高級工程師

中國電影科學技術研究所(中央宣傳部電影技術質量檢測所)

黨委書記、所長

《現代電影技術》編委會主任

作 者 簡 介

劉 達

中國電影科學技術研究所(中央宣傳部電影技術質量檢測所)總工程師,主要研究方向:電影科技與產業智能化升級。

中國電影科學技術研究所(中央宣傳部電影技術質量檢測所)高新技術研究處副處長,主要研究方向:數字電影技術。

王 萃

常慧琴

中國電影科學技術研究所(中央宣傳部電影技術質量檢測所)電影技術信息中心副主任,主要研究方向:數字電影技術、電影科技期刊。

中國電影科學技術研究所(中央宣傳部電影技術質量檢測所)助理工程師,主要研究方向:數字電影技術。

馬鴻悅

解 沛

中國電影科學技術研究所(中央宣傳部電影技術質量檢測所)工程師,主要研究方向:數字電影技術。

中國電影科學技術研究所(中央宣傳部電影技術質量檢測所)工程師,主要研究方向:數字電影技術。

蔡國鑫

本文系統闡述了2025年度國際學習表征大會(ICLR 2025)的最新研究成果,涵蓋通用人工智能(AGI)、智能體(Agent)技術、AI安全和版權等研究進展,并結合國家戰略和行業需求,提出中國電影行業推進AI技術定制研發和工程化應用的技術路徑與前瞻思考。研究表明,電影行業需在推進產業智能化演進升級中基于國產AI大模型技術體系,融入中華優秀傳統文化的哲學思想和先進理念,統籌可用性、可控性、安全性、復雜度,不斷提升AI技術研發與定制應用的精準性和契合度,有力支撐服務電影強國和文化強國建設。

關鍵詞

電影科技;智能科技;大模型;智能體;通用人工智能

1引言

2025年4月21日至28日,以總工程師劉達為團長的中國電影科學技術研究所(中央宣傳部電影技術質量檢測所)代表團一行6人,赴香港、新加坡開展業務訪問與技術交流。代表團赴香港訪問了香港科技大學、香港電影資料館和香港太古城電影院,赴新加坡參加了全球人工智能領域的頂級學術會議——國際學習表征會議(International Conference on Learning Representations, ICLR)。

代表團細致了解了香港電影產業的發展歷史、發展成就當前影院建設改造情況,針對人工智能生成內容(AIGC)跨模態生成、3D建模與智能生成、AI大模型(AI Large Models)發展演進及視聽行業應用等內容與香港科技大學科研團隊進行了細致深入的研討與交流。特別是,適應電影產業云化與智能化升級進程不斷提速要求,代表團以參加2025年度國際學習表征會議(ICLR)為契機,密切跟蹤和深入了解了現代智能科技發展與應用的新趨勢新特點新需求,了解了AI領域的最新研究與應用成果,并探索在統籌發展與安全的背景下推進生成式AI、多智能體系統(Multi?Agent Systems, MAS)、AI大模型等在電影行業定制設計與落地應用。

此次出訪內容充實、系統全面、細致深入,不僅開展了技術研討與交流,而且建立了業務聯系和交流機制,代表團收獲顯著,達到了預期目標。出訪成果對于推進AI大語言模型(Large Language Model, LLM)、視覺大模型(Large Visual Model, LVM)、多模態大模型(Multi?modal Large Language Models, MLLM)、AIGC、通用人工智能(AGI)發展演進,多智能體協同工作,人工智能安全與版權等技術在我國電影行業的發展應用,推動人工智能科學研究與工程應用范式(AI for Science & AI for Engineering)在電影行業深化應用,均具有較好指導意義和應用價值。

2ICLR 2025最新研究成果及參會主要收獲

2.1 人工智能算法創新、資源優化和數據集擴充優化完善等關鍵領域協同并進,全面提升AI大模型多模態理解和內容生成能力,推動AI技術加速向具備強大自主學習和推理能力的AGI目標發展演進。

2.1.1 AGI總體發展情況

AGI是指具有高效的學習和泛化能力、能夠根據所處的復雜動態環境自主產生并完成任務的通用人工智能體,具備自主的感知、認知、決策、學習、執行和社會協作等能力,且符合人類情感、倫理與道德觀念,是人工智能領域的終極目標。

(1)智能技術發展演進路徑

現代智能科技的發展與應用持續向廣度和深度統籌推進,從傳統淺層機器學習演進至基于多級人工神經網絡(ANN)的深度學習(Deep Learning),從傳統深度學習演進至人工智能預訓練大模型(AI Pre?trained Large Model),從判別式(Discriminative)人工智能演進至生成式(Generative)人工智能,AI的感知、理解與創造能力不斷提升,適應與進化能力持續增強。從傳統機器學習模型、深度學習模型到預訓練大模型,參數量越來越大,計算結構越來越復雜,能力呈跨越式增長。當前,AI大模型成為新一輪科技革命和產業變革的重要驅動力,其行業化、領域化、專業化、輕量級的發展趨勢愈發顯著,不斷向AGI逼近。

AI大模型是具有數百億甚至千億參數的深度學習模型,可采用海量數據進行大規模預訓練,并可適應廣泛的下游任務,包括大語言模型、視覺大模型、多模態大模型等。在各類大模型中,大語言模型的發展最為成熟,成為最接近AGI的技術載體。其發展主要得益于Transformer架構、自注意力機制等架構革新,人類反饋強化學習(RLHF)等訓練范式升級,以及千億級參數訓練帶來的規模效應,推動以GPT?4為代表的模型實現了理解與生成能力的質的飛躍。為突破復雜推理瓶頸并提升資源效率,混合專家模型(MoE)等新技術應運而生,催生出DeepSeek?R1等高性能、低成本的AI大模型。當前大語言模型正朝著構建世界模型的方向演進,通過建立對物理規律的隱式表征,逐步實現跨模態潛意識推理、長周期決策規劃和環境實時適應等能力。

(2)AI大模型通向AGI的發展瓶頸

過去幾年間,大數據、大算力和先進算法協同發展,顯著提升了大模型性能以及多模態多場景應用能力。然而,目前大模型發展速度正在放緩,局限性在實踐中逐漸顯現。

訓練數據接近耗盡,尺度定律(Scaling Law)面臨失效。以Orion大模型為例,即便投入更多算力,延長訓練時間并擴大數據規模,其性能提升卻呈現“收益遞減”(Diminishing Return)現象。現有基于Transformer架構的大語言模型,本質上是“統計建模”技術,即通過概率匹配而非邏輯推理生成內容,其核心機制僅是根據上下文預測最可能的下一個詞,缺乏真正的認知理解能力。

更有研究人員認為其忽視了真實智能的本質需求。東方哲學思想認為智能產生由內在的價值驅動而非外在的數據驅動,智能產生于主觀的、內生的閉環系統,能通過閉環糾錯實現自我學習與改進。而大模型訓練流程通常為開環系統,只是實現了局部記憶功能,在現有資源局限的背景下難以建立起系統完整的人類智能。因此,實現AGI需要突破對大模型的單一依賴。

2.1.2 監督學習、無監督學習和自監督學習

監督學習(Supervised Learning)和無監督學習(Unsupervised Learning)作為人工智能領域的兩種基本方法和核心范式,近年來均取得了突破性進展。監督學習憑借其成熟的算法框架和可預測的性能表現,在數據標注完善的應用場景中表現卓越,能夠訓練AGI完成語言理解以及視覺識別等任務,應用場景廣泛。然而,監督學習過度依賴于人工標注,不僅帶來了高昂成本,更限制了模型在開放環境中的泛化能力和自主探索能力。相比之下,無監督學習和自監督學習(Self?supervised Learning)使用未標記的數據集進行訓練,無需數據標簽,能夠模擬人類自主學習過程,在動態環境中能夠幫助AGI快速適應。近年來,隨著生成式AI的爆發式發展,無監督學習技術在跨模態理解、數據表征學習等領域展現出巨大潛力。

(1)無監督學習與自監督學習

無監督學習與自監督學習適用于數據標注困難或成本高昂的場景,無論是生成對抗網絡(Generative Adversarial Networks, GAN)還是自編碼器(Autoencoder)都有著不俗的表現,也更契合人類學習的本質。在本次ICLR會議上,無監督學習與自監督學習收錄論文共計70余篇,理論研究占比仍然較大,不過已涌現出數篇能夠應用于實際場景的算法。在這些論文中,全局—局部交互、多尺度建模以及大語言模型的視覺任務成為重點。

土耳其科奇大學人工智能實驗室提出一種名為“SlotAdapt”的無監督學習方法,該方法通過引入基于槽(Slot)的適配器,在保留預訓練模型生成能力的同時,顯著提升復雜真實場景下的目標檢測與圖像生成(例如對象的替換、刪除與添加)任務的性能和效率。南加州大學研究團隊通過探討多模態大語言模型(Multi?modal Large Language Models,MLLM)在視覺方面的機制,發現MLLM性能瓶頸并不是其空間定位能力不足,只是缺乏對局部細節的感知能力。對此,團隊提出一種無需訓練的視覺裁剪方法ViCrop,該方法無需額外訓練,也不依賴針對性的數據標注,便可顯著提高模型在細節敏感性數據集上的回答準確率。美國Meta公司提出一種新型自監督視覺特征學習方法,成功構建了無需微調即可跨任務和圖像分布通用的視覺基礎模型。該研究通過結合大規模數據訓練、模型架構優化及高效蒸餾策略,顯著提升自監督學習在計算機視覺中的性能。

(2)監督學習

監督學習在圖像識別和自然語言處理(NLP)等領域已實現廣泛應用。該方法憑借標注數據的明確指導,在分類、回歸等任務目標清晰的場景中表現出較高精度。然而,其性能高度依賴于大量高質量的標注數據,而數據標注成本高昂且耗時,尤其在復雜場景中標注難度進一步加大。在本次ICLR會議中,監督學習論文數量不多,應用方向主要集中于圖像生成、編輯以及多模態模型等領域。

針對傳統擴散變換器(Diffusion Transformer, DiT)雖然能夠生成高質量的圖像內容但計算成本過于高昂的情況,新加坡國立大學、阿里達摩院和清華大學共同研究并提出動態擴散變換器(Dynamic Diffusion Transformer, DyDiT)。該模型通過動態調整計算資源分配,顯著降低DiT計算冗余,在視覺生成任務中減少了51%的推理算力,同時保持生成質量。為保證穩定性,在訓練初期保留由相同擴散目標監督的完整DiT模型參與訓練。目前該代碼已經開源,未來可探索其在視頻生成等任務中的應用。由華東師范大學和小紅書公司聯合完成的Dynamic?LLaVA方法將監督學習與多模態模型結合,提出了一個動態視覺—文本上下文稀疏化推理加速框架,實現多模態大模型的高效推理。多倫多大學的向量研究院提出一種能夠處理7種不同圖像編輯任務且不受比例限制的全能編輯模型,值得注意的是,該團隊利用多個專有模型的監督學習最終實現了通用編輯模型OMNIEDIT。

(3)電影行業應用思考與展望

當前,監督學習在生成模型領域發展迅速,具有生成質量高、算力需求小等特點,能夠契合電影產業高畫質要求。無監督學習更類似于人類自主學習的過程,能夠從無標記數據中挖掘潛在結構,在大語言模型驅動的視覺任務中取得了顯著進展。

隨著技術不斷演進,監督學習與無監督學習正逐漸走向融合發展,呈現出協同進步的良好態勢。監督學習為AGI提供精準的任務先驗,而無監督學習賦予其開放世界的泛化能力。通過二者的協同運用,未來將發展出可解釋性強、藝術創作力豐富的算法模型,并在電影劇本生成、影像風格遷移與模仿、3D數字資產與場景建模、內容剪輯以及后期特效合成等領域有效落地。如果可以進一步泛化模型與算法,將有望形成實用的電影通用人工智能系統,進而開啟電影發展新篇章。

2.1.3 合成數據

合成數據是指通過計算機算法和模型生成的數據,這些數據在結構和統計特性上與真實數據相似,但并非直接從現實世界中采集。合成數據可以是完全由算法生成的,也可以是基于真實數據進行修改和擴展而來的,對缺乏真實數據的領域具有重要意義。一般來說,完全使用合成數據訓練模型可能導致模型偏差和過擬合(Overfitting),但DeepMind研究者在論文中提出結合少量真實人類數據與大規模合成數據,可以提升模型對人類價值觀的對齊能力,緩解合成數據偏差,同時有效降低生成成本。

本次ICLR會議,美國威斯康星大學麥迪遜分校與微軟(Microsoft)的研究者提出了一種在合成數據集微調大語言模型的方法,能顯著提升大語言模型對長上下文的信息檢索和推理能力;來自新加坡國立大學的研究者系統評估了4種基于合成數據的機器學習訓練方法對隱私保護的實際效果,發現即使合成圖像數據與原始圖像數據存在視覺差異,也并不能完全保障隱私安全。

此外,上海人工智能實驗室2025年發布的生成式世界模型AETHER全部使用合成數據訓練,在傳統重建與生成任務中表現領先。目前電影行業也正在面臨訓練數據缺乏的挑戰,基于少量真實影片數據生成或擴展大規模合成數據用于模型訓練,有望成為AI技術應用于電影領域的下一個突破口。

2.2 通用智能體能力持續提升,多智能體系統從基礎通信協作優化向大規模協同與動態優化演進,通過低耦合架構設計和多智能體協作框架,為電影創作生產流程的智能化升級提供可行有效路徑。

代表團在此次會議中針對智能體系統的構建與應用技術,參加了多個相關主題報告,涵蓋通用智能體、多智能體協作等多個研究領域,現從智能體技術機理、智能體研究進展、智能體在電影行業應用等方面進行說明。

2.2.1 智能體(Agent)技術機理

智能體發展經歷了從符號邏輯到數據驅動,再向認知智能的范式躍遷。早期符號主義智能體依賴人工編碼規則與有限知識庫,雖能完成專業領域推理,卻因僵化的邏輯鏈難以處理自然語言理解等開放性問題。2012年,依托GPU算力與ImageNet大規模數據訓練的卷積神經網絡模型AlexNet成為智能體發展的關鍵轉折,其以超越傳統方法10%的圖像識別準確率開啟深度學習時代,推動智能體進入數據驅動階段。AlphaGo、BERT等模型通過海量數據學習實現圍棋博弈、語義理解等能力跨越,但“黑箱決策”缺陷與物理世界交互的缺失仍限制其應用廣度。2017年Transformer架構的提出徹底重構智能體的認知范式。其自注意力機制使模型能動態捕捉跨模態關聯,為智能體賦予接近人類的綜合認知框架。

現階段智能體系統不再局限于單一模態,通過結合多模態大模型實現文本、圖像、語音的協同分析,并利用工具調用、記憶機制和強化學習實現閉環決策,其應用場景從早期的問答助手擴展到自動編程、數據分析等復雜領域。同時,智能體系統也不再僅由單一智能體構成,通過多智能體協作簡化單個智能體的工具選擇與上下文構成。這種演進使得智能體系統在開放動態環境中具備更強的適應性、可擴展性和任務分解能力,逐步逼近AGI的雛形。

2.2.2 智能體(Agent)研究進展

當前智能體研究以通用智能體系統和多智能體系統為主導,前者聚焦個體智能的深度,后者拓展群體智能的廣度,結合具身智能(Embodied Intelligence)、因果推理等研究方向,共同推進通用人工智能(AGI)向實用化邁進。本次ICLR會議共收錄智能體相關論文97篇,涵蓋零樣本規劃、自動化工作流編排、多智能體通信與協作優化等方向。

(1)通用智能體(Generalist Agents)

通用智能體是AI邁向AGI的重要一步,旨在跨多個領域執行多樣化任務,依賴強大的計算資源和一個復雜模型實現多任務處理。隨著大模型從單模態向多模態轉變,通用智能體能處理跨模態任務。但通用智能體仍面臨開放環境下任務規劃、動態工作流生成等問題。

本次ICLR會議的研究方向主要集中在通過優化任務規劃、工具使用和自我改進機制提升通用智能體能力。麻省理工學院(MIT)的研究者針對復雜、多約束、長時序的規劃問題提出了一種通用規劃框架,將自然語言描述的規劃問題轉化為優化問題,結合形式化求解器,使大語言模型能夠為多約束或長時程任務生成可執行計劃,增強智能體規劃能力,該框架無需任務特定示例,顯著提高了零樣本規劃的成功率;阿聯酋人工智能大學研究者提出了一種創新框架ToolGen,將工具調用能力嵌入LLM參數中,使其能夠直接生成工具調用序列,從而統一工具檢索和執行,顯著提升智能體在處理大規模工具集時的效率和性能;亞馬遜AI實驗室的研究者提出了DoT(Diversity of Thoughts)框架,通過增強大語言模型智能體的思維多樣性和跨任務知識遷移能力,解決現有方法在決策空間探索和記憶機制上的不足。

總體來看,當前通用智能體的研究均以大語言模型為核心展開:一方面通過外圍架構創新持續擴展大語言模型能力邊界,另一方面將智能體在復雜環境中習得的工具使用能力反哺大模型訓練。這種雙向賦能機制正推動通用智能體與大語言模型的技術融合,二者的界限日益模糊,最終可能演變為統一的智能范式。

(2)多智能體系統

多智能體系統通過多個自主智能體間的協同交互實現復雜任務求解,其核心特征在于智能體間的通信機制與協作策略的優化設計。相較于單一智能體系統,多智能體系統更強調分布式決策過程中的信息共享、策略博弈以及動態協調能力。本次ICLR會議研究呈現出從基礎通信協作優化向大規模協同與動態優化的趨勢。

同濟大學研究學者首次正式定義了當前基于大語言模型的多智能體系統通信冗余問題,并通過實驗驗證了通信冗余現象的存在,同時提出了一個高效、簡單且魯棒的多智能體通信框架AgentPrune。該框架能夠無縫集成到主流的多智能體系統中,并修剪通信中的冗余甚至惡意內容,在降低token消耗和經濟成本的同時,保持較高的性能;針對大語言模型在推理過程中由固定思維模式導致的錯誤,中國科學院自動化研究所研究團隊提出了多樣化多智能體辯論(Diverse Multi?Agent Debate,DMAD)框架,引導多個智能體采用不同的推理方法進行辯論,使每個智能體能夠從不同視角獲得洞察,進而精煉自身回答,從而打破固定思維模式,提升推理性能。

目前,大部分多智能體系統的研究局限于小規模系統,其智能體數量通常不超過10個,而來自清華大學的研究者將智能體的拓撲結構構建為有向無環圖(DAG),通過圖結構組織智能體間的協作交互通信,創新性地提出了支持超千個智能體協作的MACNET框架,并揭示了協作擴展定律,即隨著智能體數量的增加,整體性能呈現出邏輯增長模式,且協作涌現現象比傳統神經涌現更早發生。這一現象表明智能體協作可通過增加智能體數量來提升性能,而無需依賴大規模的模型再訓練。

此外,上海交通大學研究團隊借鑒神經網絡訓練中的反向傳播(Back Propagation)思想,通過環境反饋分析每個智能體對最終結果的影響,使多智能體系統能夠在測試階段根據任務實時自我進化,智能調整智能體及其協作關系;Mila人工智能研究所利用大語言模型和強化學習(Reinforcement Learning)將自然語言描述的技能直接轉化為可執行的策略代碼,使智能體在沒有額外訓練的情況下,通過組合已有技能來執行新的任務,擴展了智能體的適應性和通用性。

(3)電影行業應用思考與展望

AI大模型作為智能體的核心組件,其語義理解、內容生成與上下文推理能力構成了系統功能的基礎支撐。盡管當前基座大模型在電影行業特定任務上的表現仍有局限,但通過采用低耦合架構設計,智能體系統將任務分解、記憶管理、工具調用等關鍵功能模塊與基座模型解耦。當基座模型升級迭代時,智能體系統可無縫適配新模型,實現性能躍升,同時保持系統整體的穩定性和可擴展性。

電影創作生產作為典型的復雜創意流程,涵蓋劇本創作、場景設計、拍攝執行與后期制作等環節,其復雜程度遠超單一智能體的處理能力。對此,將電影制作流程解構為最小任務單元,為每個細分任務配置具備深度領域知識與優化算法的專用智能體,最后通過構建可擴展的多智能體協作框架,實現各專業模塊的智能協同,是實現電影攝制智能化應用的可行路徑。

2.3 人工智能應用落地進程不斷提速,行業領域賦能效益逐步顯現,電影行業應統籌人工智能發展與安全,推動人工智能科技創新與產業創新深度融合并進,開辟安全有效、可信可控的“人工智能+電影”新賽道。

代表團在此次ICLR會議中圍繞AI應用落地相關研究,參加了“學術界的語言模型訓練”“AI安全與魯棒性”“生成式AI水印”等多個相關主題報告和論壇,與論文作者進行了深入交流與探討。現從低成本模型訓練、AI安全和AI版權三個核心維度展開說明。

2.3.1 低成本模型訓練

AI大模型作為人工智能領域的重要突破,具有參數規模龐大、訓練數據需求大、任務泛化能力強等特點。近年來AI大模型技術快速迭代升級,但面臨著算力成本激增、優質訓練數據稀缺、數據獲取合規性爭議等三重挑戰。隨著相關研究的不斷深入,學術界與產業界逐漸形成共識:模型規模的無限制擴大并不能保證性能的持續提升,這使得大模型研究從參數競賽逐漸轉向質量與資源效能相平衡的發展方向。

本次ICLR會議的研究熱點之一是低成本模型訓練和部署。陳丹琦教授作為特邀演講嘉賓,深度解析了其團隊研發的Sheared LLaMA與SimPO等突破性訓練方法及通過數據整合(Data Curation)實現高效訓練的相關研究,實現了僅需8塊GPU即可在百億級參數量下達到與千億參數開源模型相當的性能指標。美國東北大學研究者聚焦視覺基礎模型訓練,僅需120萬規模訓練數據就可在多項視覺任務中實現與基于億級數據訓練的模型相當的精度水平。清華大學、北京大學聯合微軟亞洲研究院提出了一種全新的預訓練數據選擇范式,可在不修改訓練框架的前提下實現2倍加速,減少1.8倍數據需求,有效提升數據利用率。

2.3.2 AI安全

AI安全包括AI可信安全(AI Safety)和AI防御安全(AI Security),是人工智能技術落地進程中面臨的關鍵性挑戰,構建兼顧穩健性(Safety)與防御能力(Security)的AI系統,可確保其潛在效益得以有序實現,增進社會福祉。因此,AI安全成為本次ICLR會議的重點關注方向之一。會議設置了2個AI安全主題特邀演講,并錄用了70余篇相關領域論文,其中1篇研究成果榮獲杰出論文獎。會議展示了AI安全領域的最新研究成果,討論了AI安全研究路線和現階段研究瓶頸,并對未來科研與政策發展方向進行了展望。

普林斯頓大學的研究者分析了淺層安全對齊問題,給出了數據增強、約束優化兩種改進方法;Virtue AI的研究者構建了首個基于政府法規和公司政策的AI安全基準測試,提出了AI安全評價工具;特邀嘉賓宋曉冬教授分析了AI安全研究的風險與挑戰,指出AI攻擊手段與保護手段研究的不對稱性,提出深入了解AI風險、增加AI研究透明度、加強早期風險監測機制、加強AI保護手段研究、構建可靠AI研究社區等五點建議。

2.3.3 AI版權

隨著生成式人工智能(Generative AI)的發展,AI版權問題日漸凸顯:一方面生成式人工智能在訓練階段內化吸收了大量版權作品,從而導致其很容易在惡意用戶的誘導下生成帶有版權的內容,侵犯他人版權;另一方面,AI生成物的獨創性難以界定,存在濫用風險,從而引發虛假傳播、詐騙等違法行為。本次ICLR會議顯著加強了對AI版權議題的學術關注,聚焦防止版權內容生成、模型版權溯源、生成式AI水印三個研究方向,梳理版權保護技術研究成果,加強相關領域研究者的討論與合作。值得關注的是,本次ICLR會議首次為生成式AI水印設立了單獨的專題論壇,錄用了51篇相關主題論文,并設置了特邀演講、口頭演講、海報展示等多個環節。

本次ICLR會議上,蘇黎世聯邦理工學院研究者提出了版權保護融合算法,通過模型融合的方式,在不影響生成內容質量的情況下,減少模型對版權內容的記憶;中國科技大學研究團隊針對大型視覺語言模型,提出了參數學習攻擊方法,通過構建對抗性圖像的方式跟蹤模型版權。在生成式AI水印專題論壇中,Scott Aaronson教授梳理了中國、歐洲、美國加利福尼亞州等地的生成式AI版權相關政策法規,并介紹了他在大語言模型水印的研究成果;Furong Huang教授講解了其團隊構建的圖像水印魯棒性評估的基準測試工具WAVES,并對比分析了傳統數字水印和生成式AI水印技術的性能指標;此外還有來自紐約大學、華沙理工大學、香港科技大學、新加坡國立大學等高校機構研究者們展示了其在圖片水印、擴散模型水印、大語言模型水印、水印攻擊方法等方面的研究成果。

2.3.4 電影行業應用思考與展望

綜上所述,實現落地應用已成為驅動人工智能研究的關鍵力量,低成本模型訓練、安全性、版權保護等與人工智能應用生態密切關聯的研究方向正加速成為學術界與產業界的關注焦點。我國電影行業應當把握智能化升級契機,積極響應國家“人工智能+”戰略行動號召,強化應用牽引機制,同步構建戰略性前瞻性風險研判體系,加快推動形成符合國家戰略和行業需求的產學研用深度融合的AI技術創新生態。

3思考與建議

為全面貫徹習近平文化思想和黨的二十大及系列全會精神,進一步深化文化體制機制改革,推動文化高質量發展,國務院辦公廳于2025年1月印發《關于推動文化高質量發展的若干經濟政策》的通知,提出“建設文化領域人工智能高質量數據集,支持文化領域大模型建設”。電影產業的智能化升級和AI工程化應用是一項復雜、龐大的系統工程,必須系統謀劃、整體布局和有序推進。基于此次業務訪問成果和ICLR參會收獲,經認真研究分析,我們提出以下思考與建議:

3.1 適應國家戰略與行業需求,基于國產AI大模型技術體系,聚焦算力數據資源高效優化利用,推動算法模型技術創新升級,拓展深化電影行業應用場景,在攝制播映運營管理智能化升級中推進精準化定制設計與科學化落地應用,服務電影產業提質升級。

當前AI大模型訓練推理仍面臨技術瓶頸,應面向電影級技術品質內容創作生產播映需求,以構建自主安全可控技術體系為目標,以國家電影數字資產平臺建設為抓手,以算力、數據等資源受限條件下進行高效模型訓練為攻堅方向。基于國產算力和創新算法模型,實施并行化設計和工程化優化,突破既有訓練推理模式存在的邊界遞減效益與能耗失控風險,在深度融合國家戰略導向與垂直行業場景需求的基礎上,統籌可用性、可控性、安全性、復雜度,在推進電影產業智能化升級中不斷提升技術研發與定制應用的精準性和契合度,有力支撐服務電影強國和文化強國建設。特別是,國產AI大模型DeepSeek的異軍突起對于AI領域民族工業發展具有重要意義,其突破訓練成本瓶頸,引發業界對低成本大模型的廣泛關注,通過算法創新和工程優化,顯著降低了訓練成本,約為OpenAI GPT?4o的1/20。電影行業應以此為契機,加快開展基于DeepSeek等國產AI大模型的垂直領域研究與落地應用工作。

3.2 適應電影科技創新進入深水區和AI加快向AGI發展演進要求,我們應在科技與文化融合創新中發揮引領示范作用,將中華優秀傳統文化的哲學思想和先進理念融入AGI發展演進中,在創新升級AGI技術路線中貢獻中國智慧和中國力量,有力支撐電影科技自立自強和中華文化自信自強。

中國特色社會主義是馬克思主義中國化、時代化的產物,是馬克思主義基本原理同中國具體實際相結合、同中華優秀傳統文化相結合的偉大成果。電影作為現代視聽傳媒技術發展制高點與文化產業發展龍頭,在推進科技自立自強與文化自信自強中具有示范作用和引領意義。要深刻領會“兩個結合”思想內涵,探索AI時代科技與文化深度融合的創新路線。要聚焦本土化場景需求,植根中國傳統文化中的倫理體系與價值指引,將AI技術同中國電影發展實踐相結合、同中華優秀傳統文化相結合,依托數智化轉型、高水平開放、新發展格局等創新機遇,借助中國文化深厚底蘊突破AI通用大模型的同質化競爭,借鑒中國古代哲學思想規范其自主決策倫理標準,形成與新時代相匹配的中國特色電影智能化演進技術路線。未來要獲得可靠、可信、可控的AGI技術,需要從中華優秀傳統文化,尤其是倡導“和合共生”的中國思想中獲得營養。運用中國思想為人工智能的未來發展提供哲學層面的頂層設計,將中國思想的先進性轉化成智能時代的工程代碼與強大生產力。

參考文獻

(向下滑動閱讀)

[1] 朱松純.為機器立心[M].浙江:浙江科學技術出版社,2024.

[2] 朱松純.為人文賦理[M].浙江:浙江科學技術出版社,2024.

[3] 朱松純.通用人工智能標準、評級、測試與架構[M].浙江:浙江科學技術出版社,2025.

[4] 澎湃新聞.香港大學馬毅談智能本質:現在的大模型只有知識沒有智能[EB/OL].(2024?12?15)[2025?05?19].https://baijiahao.baidu.com/s?id=183144878313

1471493&wfr=spider&for=pc.

[5] 鳳凰衛視.機器掌握知識≠智能,人類距離真正的通用AI還有很遠|專訪馬毅[EB/OL].(2025?05?05)[2025?05?19].https://baijiahao.baidu.com/s?id=1831322524763592627&wfr=spider&for=pc.

[6] AKAN A K, YEMEZ Y. Slot?Guided Adaptation of Pre?trained Diffusion Models for Object?Centric Learning and Compositional Generation[EB/OL].(2025?01?07) [2025?05?19].https://arxiv.org/abs/2501.15878.

[7] ZHANG J, KHAYATKHOEI M, CHHIKARA P, et al. MLLMs Know Where to Look: Training?free Perception of Small Visual Details with Multimodal LLMs [EB/OL].(2025?02?24) [2025?05?19].https://arxiv.org/abs/2502.17422.

[8] OQUAB M, DARCET T, MOUTAKANNI T, et al. DINOv2: Learning Robust Visual Features without Supervision[EB/OL].(2023?08?14) [2025?05?19].https://arxiv.org/abs/2502.17422.

[9] ZHAO W, HAN Y, TANG J, et al. Dynamic Diffusion Transformer[EB/OL].(2024?08?04) [2025?05?19].https://arxiv.org/abs/2410.03456.

[10] HUANG W, ZHAI Z, SHEN Y, et al. Dynamic?LLaVA: Efficient Multimodal Large Language Models via Dynamic Vision?language Context Sparsification[EB/OL].(2024?11?01) [2025?05?19].https://arxiv.org/abs/2412.00876.

[11] WEI C, XIONG Z, REN W, et al. OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision[EB/OL].(2024?11?11) [2025?05?19].https://arxiv.org/abs/2411.07199.

[12] XIA M, GAO T, ZENG Z,et al. Sheared LLaMA: Accelerating Language Model Pre?training via Structured Pruning[EB/OL].(2023?10?10)[2025?05?19]. https://arxiv.org/abs/2310.06694.

[13] MENG Y, XIA M, CHEN D. SimPO: Simple Preference Optimization with a Reference?Free Reward [EB/OL].(2024?05?23)[2025?05?19]. https://arxiv.org/abs/2405.14734.

[14] ZHANG Y, MA X, BAI Y,et al. Accessing Vision Foundation Models via ImageNet?1K [EB/OL].(2024?07?15)[2025?05?19]. https://arxiv.org/abs/2407.10366.

[15] GU Y, DONG L, WANG H, et al. DATA SELECTION VIA OPTIMAL CONTROL FORLANGUAGE MODELS [C]//ICLR 2025,2025.

[16] QI X, PANDA A, LYU K, et al. SAFETY ALIGNMENT SHOULD BE MADE MORE THANJUST A FEW TOKENS DEEP [C]//ICLR 2025,2025.

[17] ZENG Y, YANG Y, ZHOU A, et al. AIR?Bench 2024: A Safety Benchmark Based on Risk Categories from Regulations and Policies [EB/OL].(2024?07?11)[2025?05?19]. https://arxiv.org/abs/2407.17436.

[18] BOMMASANI R, ARORA S, CHOI Y, et al. A Path for Science? and Evidence?based AI Policy [EB/OL]. [2025?05?19].https://understanding-ai-safety.org.

[19] ABAD J, DONHAUSER K, PINTO F, et al. Copyright?Protected Language Generation via Adaptive Model Fusion [EB/OL].(2024?12?09)[2025?05?19]. https://arxiv.org/abs/2412.06619.

[20] WANG Y, TANG J, LIU C, et al. Tracking the Copyright of Large Vision?Language Models through Parameter Learning Adversarial Images[EB/OL].(2025?02?23)[2025?05?19]. https://arxiv.org/abs/2502.16593.

[21] AN B, DING M, RABBANI T, et al. WAVES: Benchmarking the Robustness of Image Watermarks [EB/OL].(2024?01?16)[2025?05?19]. https://arxiv.org/abs/2401.08573.

[22] ARABI K, FEUER B, WITTER R T, et al. HIDDEN IN THE NOISE: TWO?STAGE ROBUST WATERMARKING FOR IMAGES [C]//ICLR 2025,2025.

[23] DUBINSKI J, MEINTZ M, BOENISCH F, et al. ARE WATERMARKS FOR DIFFUSION MODELSRADIOACTIVE? [C]//ICLR 2025,2025.

[24] XU Y, LIU A, HU X, et al. MARK YOUR LLM: DETECTING THE MISUSE OF OPENSOURCE LARGE LANGUAGE MODELS VIA WATERMARKING[C]// ICLR 2025,2025.

[25] CHANG H, HASSANI H, SHOKRI R, et al. WATERMARK SMOOTHING ATTACKS AGAINST LANGUAGE MODELS[C]//ICLR 2025,2025.

[26] HAO Y, ZHANG Y, FAN C. Planning Anything with Rigor: General?Purpose Zero?Shot Planning with LLM?based Formalized Programming [C]//ICLR 2025,2025.

[27] HU Y, CAI Y, DU Y, et al. Self?Evolving Multi?Agent Collaboration Networks for Software Development[C]//ICLR 2025,2025.

[28] KLISSAROV M, MIKAEL H, RAILEANU R, et al. MaestroMotif: Skill Design from Artificial Intelligence Feedback[C]//ICLR 2025,2025.

[29] LINGAM V, TEHRANI B O, SANGHAVI S, et al. Enhancing Language Model Agents using Diversity of Thoughts[C]//ICLR 2025,2025.

[30] LIU R, WEI J, LIU F, et al. Best Practices and Lessons Learned on Synthetic Data[EB/OL].(2024?01?10)[2025?05?19]. https://arxiv.org/abs/2404.07503.

[31] LIU Y, CAO J, LI Z, et al. Breaking Mental Set to Improve Reasoning through Diverse Multi?Agent Debate [C]//ICLR 2025,2025.

[32] QIAN C, XIE Z, WANG Y, et al. Scaling Large Language Model?based Multi?Agent Collaboration [C]//ICLR 2025,2025.

[33] TEAM A, ZHU H, WANG Y, et al. Aether: Geometric?Aware Unified World Modeling[EB/OL].(2025?03?24)[2025?05?19]. http://arxiv.org/abs/2503.18945.

[34] WANG R, HAN X, JI L, et al. ToolGen: Unified Tool Retrieval and Calling via Generation[C]//ICLR 2025,2025.

[35] ZHANG G, YUE Y, LI Z, et al. Cut the Crap: An Economical Communication Pipeline for LLM?based Multi?Agent Systems[C]//ICLR 2025,2025.

【項目信息】中國電影科學技術研究所(中央宣傳部電影技術質量檢測所)基本科研業務費項目“基于《現代電影技術》期刊內容質量及編審能力提升研究”(2024?DKS?11)。


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

電影技術微刊 incentive-icons
電影技術微刊
電影技術微刊
579文章數 208關注度
往期回顧 全部

專題推薦

洞天福地 花海畢節 山水饋贈里的“詩與遠方

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚东县| 安溪县| 平和县| 鄱阳县| 黄骅市| 洛宁县| 凤庆县| 新绛县| 五常市| 思茅市| 无棣县| 陇川县| 临城县| 成武县| 育儿| 凉山| 鸡东县| 那坡县| 乐至县| 南雄市| 裕民县| 三穗县| 新沂市| 专栏| 黑水县| 台州市| 平原县| 金昌市| 墨脱县| 平乡县| 新泰市| 太和县| 明光市| 怀来县| 田林县| 朝阳县| 吉首市| 云龙县| 澳门| 龙南县| 清涧县|