2025年6月7日,第七屆北京智源大會,將在中關村國家自主創新示范區展示中心舉辦“多模態模型論壇”。
這是本屆大會最貼近技術與商業交匯處的一場子議程,也可能成為今年多模態方向最密集、最具對抗性的一次交鋒。
從LumaAI創始人宋佳銘、Sand.AI聯合創始人張拯,到騰訊、字節、智源研究院的模型負責人,多位當前全球范圍內最活躍的視覺生成玩家將同場,共同面對一個問題:多模態大模型,還能帶來什么“突破”?
過去五年,大模型的生成能力幾乎將所有AI任務轉化為“語言問題”:圖像生成變成“圖像是另一種語言”,語音識別也可以是“聲音到文字的映射”。
但今年的多模態不同。
一方面,生成式AI從“做得出”進入“做得好”的新階段;另一方面,產業界開始以“認知效率”而非“圖文對齊”為標尺,評估多模態模型的商業價值。
這一波多模態模型的競爭,不再只是感知層面的融合,而是邁向真正的“建模世界”:讓模型不僅能“理解輸入”,還要能“理解人類的意圖”。
這意味著,多模態模型正成為通往通用人工智能(AGI)路徑上,不可繞開的關鍵拼圖。
學術界期待在它身上復刻“大語言模型”的奇跡,產業界則期待用它帶來新的商業驅動,創業者更視其為“尚未飽和的主戰場”。
正因如此,這場論壇不會只是展示“已有成果”,而更像一次路徑演練:不同范式、不同規模的多模態模型,如何走向生成、理解與落地之間的平衡。
9 位嘉賓,5 場主旨演講,1 場圓桌討論。
邀您在視覺-語言-動作三位一體的新范式里,共同定義一個賽道的下半場。
論壇議程
論壇主席
王井東,百度計算機視覺首席科學家
王井東,百度計算機視覺首席科學家,加拿大工程院外籍院士,IEEE/IAPR 會士,ACM杰出會員。曾任微軟亞洲研究院視覺計算組首席研究員。研究領域為計算機視覺、深度學習及多媒體搜索。代表工作包括高分辨率神經網絡(HRNet)、基于transformer attention的圖像語義分割網絡OCRNet、以及基于近鄰圖的大規模最近鄰搜索等。擔任IEEE TPAMI、IJCV和ACM TOMM的編委會成員,(曾)擔任過許多人工智能會議的領域主席,如 NerIPS、CVPR、ICCV、ECCV、AAAI、IJCAI、ACM MM等,擔任ICCV 2025 程序委員會主席。
王鑫龍,智源研究院多模態大模型研究中心負責人
王鑫龍,智源研究院多模態大模型研究中心負責人。本科畢業于同濟大學,博士畢業于澳大利亞阿德萊德大學,師從沈春華教授。他的研究興趣是計算機視覺和基礎模型,近幾年研究工作包括視覺感知 (SOLO, SOLOv2),視覺表征 (DenseCL, EVA, EVA-CLIP),視覺基礎模型(Painter, SegGPT),多模態基礎模型(Emu, Emu2, Emu3)。入選Google PhD Fellowship、國家海外高層次青年人才,擔任ICCV、ICLR、NeurIPS等會議領域主席。
演講主題及嘉賓介紹
(按照發言先后順序)
Broadening the scope of autoregressive models in vision and beyond
黎天鴻,MIT CSAIL Kaiming He組博士后研究員
黎天鴻博士是MIT CSAIL Kaiming He組的博士后研究員。他于MIT獲得博士學位,導師為Dina Katabi教授,并在清華大學姚班獲得學士學位。他近期的研究興趣集中在表征學習、生成模型及二者之間的協同作用。長期來看,他致力于構建能夠超越人類感知、深入理解并建模世界的智能視覺系統。他曾于2023年獲得MathWorks獎學金,并擔任過ICLR、ICML和ICCV等國際頂級會議的領域主席。
騰訊混元多模態生成模型實踐
蘆清林丨騰訊混元多模態生成負責人
蘆清林博士聚焦多模態視覺生成領域,負責混元文生圖、文生視頻、及應用模型研發。率先采用雙流DIT架構,帶領團隊研發混元DiT基礎模型、插件模型矩陣和基于驅動的視頻生成模型等,覆蓋人像、建筑、游戲等垂類場景,其成果廣泛應用于騰訊廣告、游戲、云、社交等數十個業務場景;同時持續向業界開源圖/視頻生成模型,推動社區發展。
主題演講
黃偉林,字節跳動Seed圖像&視頻生成負責人
黃偉林,現任字節跳動Seed圖像&視頻生成基礎模型負責人,專注計算機視覺和深度學習相關的研究和應用。曾在牛津大學視覺幾何組(VGG)和中國科學院從事研究工作,有深厚的學術積累和沉淀。工業界方面,曾負責超大規模商業視覺搜索系統,通過重構多模態搜索系統實現千億級GMV增長。
目前,帶領團隊構建行業領先的多模態生成模型(e.g.Seedream/SeedEdit/Seedance等),并持續探索創新技術,積極推進模型商業化。
從推理優先的角度啟發新的預訓練范式
宋佳銘,LumaAI創始人
宋佳銘 (Jiaming Song) 是美國視頻生成領域創業公司Luma AI的首席科學家。在美國斯坦福大學讀博期間,他開發了去噪擴散隱式模型(DDIM),這是首個將擴散模型加速到50倍,同時還能夠保持產生多樣化、高保真樣本能力的模型,這項研究代表了擴散模型和生成AI領域的一次重要進步。目前他的研究興趣在多模態生成模型和算法上的突破。
LLaDA:大語言模型新范式
李崇軒丨中國人民大學高瓴人工智能學院準聘副教授
李崇軒,中國人民大學高瓴人工智能學院準聘副教授,主要研究領域為生成模型,領導研發擴散語言模型LLaDA,部分成果部署于DALL·E2、Stable Diffusion、Vidu等行業領先模型。獲ICLR杰出論文獎、吳文俊優秀青年獎、北京市科技新星、吳文俊人工智能自然科學一等獎等,主持國家自然基金重大研究計劃培育項目等。擔任 IEEE TPAMI 編委(AE)和 ICLR、NeurIPS等國際會議的領域主席(AC)。
圓桌討論|工業界最前沿:多模態大模型的下半場
圓桌討論嘉賓:
張 拯丨Sand.AI聯合創始人
宋佳銘|Luma AI創始人
黃偉林|字節跳動Seed圖像&視頻生成負責人
李崇軒丨中國人民大學副教授
蘆清林丨騰訊混元多模態生成負責人
黎天鴻丨MIT CSAIL Kaiming He組博士后研究員
李 根|《量子位》總編輯|主持人
張拯,Sand.AI聯合創始人
張拯,Sand.AI聯合創始人,加入Sand.AI之前,曾在MSRA視覺計算組任職。他是Swin Transformer,SimMiM, RelationNetwork, SoftTeacher, 等工作的主要作者之一。其中Swin Transformer獲得ICCV Best Paper(Marr Prize)。
李根,量子位聯合創始人、總編輯
李根,量子位聯合創始人,現任總編輯,負責量子位、量子位智庫和智能車參考的整體內容。2019年入選福布斯中國30Under30。
即刻掃碼注冊,參與大會報名
本屆大會采用線下與線上模式融合,報名通道已開啟,歡迎掃碼免費注冊。由于線下席位有限,請盡早完成注冊,組委會將根據注冊次序審核,并在會前發送審核結果通知。公開環節將向注冊用戶全程線上直播。
大會合作、咨詢、贊助歡迎聯系:press@baai.ac.cn
大會官網 https://2025.baai.ac.cn/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.