網易首頁 > 網易號 > 正文申請入駐

2025智源大會 · 多模態論壇：認知革命、范式對抗與 AGI 關鍵一躍

2025-05-29 11:16:44　來源: 大數據文摘

北京舉報

分享至

2025年6月7日，第七屆北京智源大會，將在中關村國家自主創新示范區展示中心舉辦“多模態模型論壇”。

這是本屆大會最貼近技術與商業交匯處的一場子議程，也可能成為今年多模態方向最密集、最具對抗性的一次交鋒。

從LumaAI創始人宋佳銘、Sand.AI聯合創始人張拯，到騰訊、字節、智源研究院的模型負責人，多位當前全球范圍內最活躍的視覺生成玩家將同場，共同面對一個問題：多模態大模型，還能帶來什么“突破”？

過去五年，大模型的生成能力幾乎將所有AI任務轉化為“語言問題”：圖像生成變成“圖像是另一種語言”，語音識別也可以是“聲音到文字的映射”。

但今年的多模態不同。

一方面，生成式AI從“做得出”進入“做得好”的新階段；另一方面，產業界開始以“認知效率”而非“圖文對齊”為標尺，評估多模態模型的商業價值。

這一波多模態模型的競爭，不再只是感知層面的融合，而是邁向真正的“建模世界”：讓模型不僅能“理解輸入”，還要能“理解人類的意圖”。

這意味著，多模態模型正成為通往通用人工智能（AGI）路徑上，不可繞開的關鍵拼圖。

學術界期待在它身上復刻“大語言模型”的奇跡，產業界則期待用它帶來新的商業驅動，創業者更視其為“尚未飽和的主戰場”。

正因如此，這場論壇不會只是展示“已有成果”，而更像一次路徑演練：不同范式、不同規模的多模態模型，如何走向生成、理解與落地之間的平衡。

9 位嘉賓，5 場主旨演講，1 場圓桌討論。

邀您在視覺-語言-動作三位一體的新范式里，共同定義一個賽道的下半場。

論壇議程

論壇主席

王井東，百度計算機視覺首席科學家

王井東，百度計算機視覺首席科學家，加拿大工程院外籍院士，IEEE/IAPR 會士，ACM杰出會員。曾任微軟亞洲研究院視覺計算組首席研究員。研究領域為計算機視覺、深度學習及多媒體搜索。代表工作包括高分辨率神經網絡（HRNet）、基于transformer attention的圖像語義分割網絡OCRNet、以及基于近鄰圖的大規模最近鄰搜索等。擔任IEEE TPAMI、IJCV和ACM TOMM的編委會成員，（曾）擔任過許多人工智能會議的領域主席，如 NerIPS、CVPR、ICCV、ECCV、AAAI、IJCAI、ACM MM等，擔任ICCV 2025 程序委員會主席。

王鑫龍，智源研究院多模態大模型研究中心負責人

王鑫龍，智源研究院多模態大模型研究中心負責人。本科畢業于同濟大學，博士畢業于澳大利亞阿德萊德大學，師從沈春華教授。他的研究興趣是計算機視覺和基礎模型，近幾年研究工作包括視覺感知（SOLO, SOLOv2），視覺表征 (DenseCL, EVA, EVA-CLIP)，視覺基礎模型(Painter, SegGPT)，多模態基礎模型(Emu, Emu2, Emu3)。入選Google PhD Fellowship、國家海外高層次青年人才，擔任ICCV、ICLR、NeurIPS等會議領域主席。

演講主題及嘉賓介紹

（按照發言先后順序）

Broadening the scope of autoregressive models in vision and beyond

黎天鴻，MIT CSAIL Kaiming He組博士后研究員

黎天鴻博士是MIT CSAIL Kaiming He組的博士后研究員。他于MIT獲得博士學位，導師為Dina Katabi教授，并在清華大學姚班獲得學士學位。他近期的研究興趣集中在表征學習、生成模型及二者之間的協同作用。長期來看，他致力于構建能夠超越人類感知、深入理解并建模世界的智能視覺系統。他曾于2023年獲得MathWorks獎學金，并擔任過ICLR、ICML和ICCV等國際頂級會議的領域主席。

騰訊混元多模態生成模型實踐

蘆清林丨騰訊混元多模態生成負責人

蘆清林博士聚焦多模態視覺生成領域，負責混元文生圖、文生視頻、及應用模型研發。率先采用雙流DIT架構，帶領團隊研發混元DiT基礎模型、插件模型矩陣和基于驅動的視頻生成模型等，覆蓋人像、建筑、游戲等垂類場景，其成果廣泛應用于騰訊廣告、游戲、云、社交等數十個業務場景；同時持續向業界開源圖/視頻生成模型，推動社區發展。

主題演講

黃偉林，字節跳動Seed圖像&視頻生成負責人

黃偉林，現任字節跳動Seed圖像&視頻生成基礎模型負責人，專注計算機視覺和深度學習相關的研究和應用。曾在牛津大學視覺幾何組（VGG）和中國科學院從事研究工作，有深厚的學術積累和沉淀。工業界方面，曾負責超大規模商業視覺搜索系統，通過重構多模態搜索系統實現千億級GMV增長。

目前，帶領團隊構建行業領先的多模態生成模型（e.g.Seedream/SeedEdit/Seedance等)，并持續探索創新技術，積極推進模型商業化。

從推理優先的角度啟發新的預訓練范式

宋佳銘，LumaAI創始人

宋佳銘 (Jiaming Song) 是美國視頻生成領域創業公司Luma AI的首席科學家。在美國斯坦福大學讀博期間，他開發了去噪擴散隱式模型（DDIM)，這是首個將擴散模型加速到50倍，同時還能夠保持產生多樣化、高保真樣本能力的模型，這項研究代表了擴散模型和生成AI領域的一次重要進步。目前他的研究興趣在多模態生成模型和算法上的突破。

LLaDA：大語言模型新范式

李崇軒丨中國人民大學高瓴人工智能學院準聘副教授

李崇軒，中國人民大學高瓴人工智能學院準聘副教授，主要研究領域為生成模型，領導研發擴散語言模型LLaDA，部分成果部署于DALL·E2、Stable Diffusion、Vidu等行業領先模型。獲ICLR杰出論文獎、吳文俊優秀青年獎、北京市科技新星、吳文俊人工智能自然科學一等獎等，主持國家自然基金重大研究計劃培育項目等。擔任 IEEE TPAMI 編委（AE）和 ICLR、NeurIPS等國際會議的領域主席（AC）。

圓桌討論｜工業界最前沿：多模態大模型的下半場

圓桌討論嘉賓：

張拯丨Sand.AI聯合創始人

宋佳銘｜Luma AI創始人

黃偉林｜字節跳動Seed圖像&視頻生成負責人

李崇軒丨中國人民大學副教授

蘆清林丨騰訊混元多模態生成負責人

黎天鴻丨MIT CSAIL Kaiming He組博士后研究員

李根｜《量子位》總編輯｜主持人

張拯，Sand.AI聯合創始人

張拯，Sand.AI聯合創始人，加入Sand.AI之前，曾在MSRA視覺計算組任職。他是Swin Transformer，SimMiM, RelationNetwork, SoftTeacher, 等工作的主要作者之一。其中Swin Transformer獲得ICCV Best Paper(Marr Prize)。

李根，量子位聯合創始人、總編輯

李根，量子位聯合創始人，現任總編輯，負責量子位、量子位智庫和智能車參考的整體內容。2019年入選福布斯中國30Under30。

即刻掃碼注冊，參與大會報名

本屆大會采用線下與線上模式融合，報名通道已開啟，歡迎掃碼免費注冊。由于線下席位有限，請盡早完成注冊，組委會將根據注冊次序審核，并在會前發送審核結果通知。公開環節將向注冊用戶全程線上直播。

大會合作、咨詢、贊助歡迎聯系：press@baai.ac.cn

大會官網 https://2025.baai.ac.cn/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.