何謂未來?何謂先鋒?
作者|王藝???
編輯|王博
“今天,我代表生數團隊發布我們最新的高可控視頻大模型——Vidu Q1。”
今天下午,在2025年中關村論壇年會“人工智能主題日”主論壇未來人工智能先鋒論壇上,清華大學人工智能研究院副院長、生數科技創始人兼首席科學家朱軍發布了業內首個高可控AI視頻大模型Vidu Q1,其在多主體細節可控(特別是動作、布局可控)、音效同步可控、畫質增強等方面均取得了顯著成效。
視頻來源:生數科技
這不是朱軍第一次給我們帶來驚喜。就在去年的未來人工智能先鋒論壇上,事先沒有一點聲張,他就在現場發布了中國首個長時長、高一致性、高動態性視頻大模型——Vidu。
可以說,中國AI視頻生成模型與OpenAI Sora競爭的第一槍是從2024年未來人工智能先鋒論壇上打響的。而今天,在2025年未來人工智能先鋒論壇上,AI視頻生成模型走向高可控時代的號角吹響了。
在論壇上,還有多項重磅發布:北京前沿算法協同創新矩陣、北京人工智能公共算力平臺生態網絡、法信法律基座大模型、AI100青年先鋒、人工智能創新街區,這些從算法、算力、模型、人才、生態等方面,全面展示了中國人工智能的最新發展。
值得一提的是,北京人工智能公共算力平臺自從2023年底啟動建設以來,持續擴容增效,已建成北京最大、國內領先的超大規模高性能智算集群,同時不斷拓展算力生態伙伴,已匯聚超過8萬P綠色算力資源。
談及中國人工智能的發展,圖靈獎得主,美國國家科學院、工程院院士約瑟夫·斯發基斯(Joseph Sifakis)在論壇上表示:“中國擁有堅實而廣泛的工業基礎和統一的國內市場,非常適合開發更可靠的人工智能,以更好地適應實體經濟的需求。”
斯發基斯認為“中國應發展自己的人工智能愿景”,這將使中國能夠在工業人工智能領域取得領先地位,平衡人工智能的戰略博弈,并與志同道合的國家合作,以一種符合發展和安全利益的方式規范人工智能。
創新工場董事長兼零一萬物CEO李開復在現場分享了“后DeepSeek時代的幾點思考”,他認為“開源力量+中國實力”獲得全球廣泛肯定,2025是AI-First應用爆發年,也是大模型商業化的大考年。在經歷年初零一萬物發展方向調整后,他認為“創業初衷未變”,但也坦陳“創業者應尊重商業規律,回歸商業本質”,核心是要“Make AI Work”。
具身智能是當下熱議的話題,論壇現場隨處可見各種人形機器人,一個名為“小海”的人形機器人還參與到了成果發布環節中。
不過,金沙江創投主管合伙人朱嘯虎近期透露,自己所在機構正在批量退出一些早期的具身智能項目,因為具身智能商業化的客戶,可能“都是自己想象出來的客戶”。此言一出,立即引發行業熱議。
在今天論壇的圓桌對話《具身智能,通往AGI之路?》環節,嘉賓們并沒有公開談論這一話題,但也談及了具身智能落地的挑戰。上海交通大學教授、穹徹智能創始人盧策吾認為,場景可能是一批一批出現的,呈現一種階梯性狀態,大概每兩年左右是一個技術突破的周期,因為有大量的人與資金進入這個行業,有非常多的場景正在優化。
而這些,都發生在今天下午的未來人工智能先鋒論壇上。
正如海淀區委書記張革在致辭中所說:“未來人工智能先鋒論壇是集中展示AI創新成果的窗口,更是智力協同、跨界、跨區域融合發展的平臺。相信通過我們深入地交流和思想碰撞,一定能夠產生更多高價值的觀點和成果,為人工智能理論研究突破、核心技術攻關、應用場景拓展提供新思路和新啟示。”
1.模型突破:Vidu Q1
“Vidu Q1里的Q代表quality,也就是質量。”剛剛完成Vidu Q1發布的朱軍告訴「甲子光年」,“Q1是高質量、高可控的。”
對于視頻生成模型質量的評價有很多維度,這次生數科技強調的是“高可控”。
清華大學人工智能研究院副院長、生數科技創始人兼首席科學家朱軍,圖片來源:中關村論壇
過去一年,各家的視頻模型從卷生成時長到卷畫面質量,再到卷風格特效,已經讓視頻模型的能力有了顯著提升,但是一直以來,AI視頻生成過程中的隨機性都是老大難問題。這次,Vidu Q1針對AI視頻生成模型的痛點,通過技術手段引入多元素控制,達到了視頻生成結果人為可控。
這種可控性體現在兩個方面。
第一是多主體細節可控。在語義指令的基礎上,通過融入參考圖的視覺指令,Vidu Q1支持對場景中多主體的位置、大小、運動軌跡等屬性進行更進一步的可控,對所有動作行為(出場、退場、坐立姿態、行動路線)進行精準調整。用戶能夠明顯體驗到用更低的抽卡率實現更高質量的可控生成。
【位置對比】行業現狀:角色道具的位置難以控制
【位置對比】Vidu Q1:精確控制兩個角色的相對位置
【運動軌跡對比】行業現狀:機器人的運動軌跡難以控制
【運動軌跡對比】Vidu Q1:精確控制機器人從畫外向右進入畫內
【可控主體數量對比】行業現狀:主體數量過多時,無法精確生成
【可控主體數量對比】Vidu Q1:多個主體均可精確生成
第二是音效同步可控。該功能則確保了隨著視頻環境與畫面轉場,Vidu Q1能夠輸出生成相應音效,并可精準控制每段音效的長短區間,精準設置每段音頻出現的時間點,節省時間的同時,也大大增強了視頻的沉浸感與感染力。
Vidu Q1提示詞:1-2s時出現汽笛聲、2-5s行人在嘈雜街道復合音效、6-8s時車輛駛過,視頻來源:生數科技
Vidu Q1提示詞:1-2s時出現打字聲音、2秒時出現打字、打印的復合音效,視頻來源:生數科技
此外,Vidu Q1還進一步增強了畫質,可以為用戶提供更加清晰、細膩、逼真的視覺體驗。
現場發布時,朱軍并沒有公開這些新功能背后的具體技術。在論壇結束后與「甲子光年」的交流中,朱軍透露這些突破是來自“通用基礎模型能力的提升”。
“你可以認為我們最大的進展還是在基礎模型上,當然我們也做一些新的技術創新,才能夠實現高一致性、高可控性的結果。”朱軍說。
高可控性可以讓視頻創作者對AI視頻生成結果有更強的把控,那么這會不會在一定程度上用戶和模型互動中的創造性?
對此,朱軍認為“這不會影響創造性”,在目前有些視頻生成模型“抽卡率”比較低,用戶會感覺不好用,而高可控的視頻模型實際上可以更快、更好地滿足用戶的需求。
在今天發布Vidu Q1之前,朱軍還談到了去年在未來人工智能先鋒論壇上首次發布Vidu的場景,并回顧了這一年Vidu的多次突破。
Vidu視頻大模型的多次突破,圖片來源:生數科技
朱軍告訴「甲子光年」,去年在未來人工智能先鋒論壇上發布Vidu是“一次巧合”,而今年是“相互匹配”。
“我們源自清華大學,是一家來自北京海淀的公司,北京非常重視人工智能的創新,尤其是源頭創新。去年在論壇開始前一周,Vidu取得了突破性進展,當時就被邀請到這樣一個非常高端、有影響力的論壇來就發布Vidu 1.0。”朱軍說,“今年其實也很有意義,新的一年論壇,我們的模型也發布了差不多一年,我們也很想繼續在論壇上公布我們的最新進展,需求就剛好匹配在一起了。”
可以說,未來人工智能先鋒論壇見證了Vidu從追趕到行業引領的轉變。
2.算力升級:北京人工智能公共算力平臺生態網絡
在未來人工智能先鋒論壇上,「甲子光年」還注意到一項重要的發布——北京人工智能公共算力平臺生態網絡。
北京人工智能公共算力平臺生態網絡發布 圖片來源:中關村論壇
北京人工智能公共算力平臺生態網絡可以視作是北京人工智能公共算力平臺的升級版。
北京人工智能公共算力平臺是為應對算力需求爆發、推動人工智能產業創新而布局的核心基礎設施。算力平臺已經支撐各個機構產出了一批優勢科研成果,比如北京智源人工智能研究院研發的全球首個原生多模態世界模型Emu3,就是通過這個算力平臺進行訓練的。
自從2023年底啟動建設以來,算力平臺持續擴容增效,已建成北京最大、國內領先的超大規模智算集群,同時不斷拓展算力生態伙伴,構建跨域協同的智算網絡,已匯聚呼和浩特和林格爾新區、兵團十三師新星市、張家口市、克拉瑪依市、北京移動、北京聯通、北京電信、華為云、火山引擎、無問芯穹、并行科技等多個算力資源主體超過8萬P資源,旨在實現算力資源池的統一調度,促進跨域算力資源柔性互通,有效提升算力資源利用。
北京人工智能公共算力平臺打造了“算力超市+撮合交易+算力券+模型服務”模式,實現了普惠算力的“一鍵觸達”。搭載了自主可控的算力調度系統,可支撐萬億參數大模型訓練、科學計算與具身智能機器人訓練等場景。
北京人工智能公共算力平臺生態網絡發布現場 圖片來源:中關村論壇
此次北京人工智能公共算力平臺生態網絡的發布,打破了傳統算力資源的孤島效應,優化了算力資源的配置效率,不僅可以加速產業鏈上下游的協同發展、提升自主創新能力,更是將賦能實體經濟的數字化轉型、推動人工智能技術更快地從實驗室走向產業應用。
而這也將進一步推動全國人工智能算力生態的建設。
3.何謂未來?何謂先鋒?
在這次的未來人工智能先鋒論壇上,「甲子光年」深深感受到了“未來”和“先鋒”的含義。
圖靈獎得主,美國國家科學院、工程院院士約瑟夫·斯發基斯在論壇上表示,盡管生成式人工智能的出現帶來了令人印象深刻的成果,但人工智能仍處于起步階段。
在斯發基斯看來,自主系統(Autonomus Systems)代表了AI技術的未來愿景,但其發展受限于技術不可解釋性、可靠性保障及復雜環境適應性等挑戰。盡管面臨爭議,但其在提升社會效率、推動產業變革方面的潛力仍不可忽視。未來自主系統的突破需技術、倫理、政策多維度協同推進。
同時,他認為,AI與系統工程的融合既是技術革命也是認知革命。其核心矛盾在于AI的“黑箱性”與傳統工程“確定性要求”的沖突,以及專用智能與通用智能的割裂。解決路徑需要在技術層面(開發可解釋AI與混合架構驗證工具)、標準層面(推動全球協作制定適應性認證框架)和理論層面(構建跨符號邏輯、統計學習與認知科學的統一智能理論)三管齊下,才能在工業、交通等領域實現從“自動化”到“真自主”的跨越。
圖靈獎得主,美國國家科學院、工程院院士約瑟夫·斯發基斯,圖片來源:「甲子光年」拍攝
創新工場董事長兼零一萬物CEO李開復在論壇上對生成式AI的發展進行了展望,并談到了他對于DeepSeek的四個觀察:
第一,DeepSeek不是靠蒸餾,而是從本質上、從第一性原理上實現了對推理過程思考的模型,其公開思維鏈的舉措非常值得稱贊; 第二,DeepSeek有著非常高的工程效率和速度,這極大提升了模型的性價比; 第三,DeepSeek證明了閉源是一條死路,開源才有光明的未來; 第四,DeepSeek的出現是中國的ChatGPT時刻,讓全民都用上了大模型,也讓To B、To C領域的應用百花齊放,推動了大模型應用時代的來臨。
創新工場董事長兼零一萬物CEO李開復 圖片來源:中關村論壇
而基于上述這四點觀察,零一萬物也在過去的幾個月做了戰略調整,大力擁抱DeepSeek,圍繞DeepSeek做模型的安全部署、應用實踐和行業定制。
繼DeepSeek之后,以Manus為代表的 AI Agent引發了今年人工智能領域的第二波小高潮。各大廠都在試水AI Agent產品,創業公司們更是圍繞AI Agent展開激烈的技術競速與場景爭奪。
在本次論壇中,面壁智能聯合創始人兼CEO李大海分享了他對AI Agent的看法。他認為,大模型和Agent只是兩種不同的稱呼,“大模型與 Agent 的關系,如同西紅柿就是番茄,馬鈴薯就是土豆,把大模型送去上班就是Agent。”
面壁智能聯合創始人兼CEO李大海 圖片來源:中關村論壇
李大海認為,未來最重要的趨勢就是“模型即Agent”,也就是把Agent的能力內化到大模型里面,所以只要模型能力足夠強,能夠被搭載到終端上去,它就是一個Agent。在現場,面壁智能還發布了首個純端側智能助手——小鋼炮超級助手cpmGO。
本場論壇“先鋒”并不僅限于此,在論壇最后一個環節《具身智能,通往AGI之路?》圓桌對話中,五位具身智能領域的嘉賓就探討了具身智能發展所需的數據、落地的挑戰和未來的機遇等問題。
具身智能圓桌嘉賓,分別為:主持人;上海交通大學教授、穹徹智能創始人盧策吾;星動紀元創始人、清華大學助理教授陳建宇;北京大學助理教授、銀河通用創始人、智源具身智能研究中心主任王鶴;樂聚機器人創始人兼董事長冷曉琨;智源研究院院長王仲遠。圖片來源:中關村論壇
北京大學助理教授、銀河通用創始人、智源具身智能研究中心主任王鶴認為,數據是具身智能的一大瓶頸。數據主要分為真實數據與仿真合成數據兩大數據,真實數據又分為互聯網上無動作標簽的數據以及真實采集的數據。互聯網數據有用,但不遠遠夠,就像只看別人游泳永遠學不會游泳一樣。另一方面,采集的真實世界的數據又非常貴。
銀河通用的經驗是,用合成數據做預訓練,以此推動99%乃至99.9%的具身智能能力的發展,用真機采集的數據做后訓練,實現最后的1%的具身智能能力。
銀河通用創始人、智源具身智能研究中心主任王鶴,圖片來源:中關村論壇
星動紀元創始人、清華大學助理教授陳建宇則認為,視覺是信息量最大且最易獲取的關鍵模態,其重要性在所有模態的數據中占到了80%,現在具身模型基本上還是純文本的形式,缺乏實時的反饋決策,應該增加對聲音這種模態的識別,這會有利于模型下一步的判斷和決策。
星動紀元創始人、清華大學助理教授陳建宇,圖片來源:中關村論壇
現場嘉賓還都提到了一個問題:現在大部分機器人硬件采集到的觸覺信息還是太少了。只有加強對觸覺、力反饋、溫度感知等數據的采集,才能讓機器人實現與物理世界更好的交互。
那么,具身智能是否會迎來“ChatGPT時刻”?
上海交通大學教授、穹徹智能創始人盧策吾認為,場景可能是一批一批出現的,呈現一種階梯性狀態,大概每兩年左右是一個技術突破的周期,因為有大量的人與資金進入這個行業,又非常多的場景正在優化。
上海交通大學教授、穹徹智能創始人盧策吾,圖片來源:中關村論壇
何謂未來?何謂先鋒?
真正的未來,不在技術狂歡里,而在人類重新發現自己的過程中。
真正的先鋒,不在于創造超越人類的智能,而在于保持人類文明向前演進的姿態。
斯發基斯在論壇上懇切地說到:“中國應發展自己的人工智能愿景。”這個聲音從大洋彼岸傳來,在論壇現場產生了悠長的回響。
*趙健對本文亦有貢獻
(封面圖來源:中關村論壇)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.