四位圖靈獎得主集結,悟界大模型開啟AI物理與生命科學新紀元。
作者|王藝
編輯|栗子
6月7日,AI領域的頂級盛會——第七屆北京智源大會在中關村國家自主創新示范區會議中心正式落下了帷幕。
「甲子光年」作為媒體全程參加了大會。整場大會參加下來,我們最明顯的感受是,相較于往年的智源大會,本屆智源大會亮點頻頻:
一是嘉賓量級更加重磅:本屆大會邀請到了四位圖靈獎得主,分別是深度學習代表人物約書亞·本吉奧(Yoshua Bengio)、強化學習之父理查德·薩頓(Richard S. Sutton)、約瑟夫·斯發基斯(Joseph Sifakis)和姚期智,是歷屆智源大會中圖靈獎得主數量最多的。此外,包括Google、DeepMind、Meta、Mila、Physical Intelligence、MIT、斯坦福、UC Berkeley、Linux基金會等國際明星機構與技術團隊代表,華為、百度、字節跳動、騰訊、阿里等互聯網大廠以及智譜、宇樹科技、生數科技、面壁等30多位AI公司的創始人、CEO,以及100余位全球青年科學家、200余位人工智能頂尖學者和產業專家等都來到了大會現場。
二是議題設置緊跟前沿:本次智源大會設置了20個論壇和180余場報告。主題包括多模態、深度推理、下一代AI路徑、Agent智能體、具身智能、AI4S、AI產業、AI安全、AI系統和開源、類腦大模型等,這些都是當今學術界和產業界最為關心的話題;除了專題論壇,本屆大會還設置了Tech Tutorial特色活動,并首次和聯合Pytorch舉辦Pytorch Day China。
三是更加“有趣”、“有料”:本屆大會不僅是學術交流和思想碰撞的場域,更是產品和技術的競技擂臺。在開幕式現場,銀河通用的具身大模型機器人Galbot登臺展示了端到端VLA大模型在商業零售場景的落地應用,《CMG世界機器人大賽·系列賽》機甲格斗擂臺賽“AI策算師”冠軍機器人宇樹G1登臺展示了敏捷帥氣的“組合拳”,全球首個人形機器人半程馬拉松冠軍天工2.0也參與了現場互動,完成“準備點心”的精細化服務任務,獲得滿堂喝彩。
銀河通用Galbot現場展示抓取物品,圖源:智源研究院
宇樹G1登臺展示“組合拳”,視頻來源:「甲子光年」拍攝
天工2.0現場展示水果擺盤,圖源:智源研究院
除了會場內的展示,會場外,搭載智源研發的跨本體具身大小腦協作框架RoboOS 2.0以及具身大腦RoboBrain 2.0的各家的機器人更是“爭奇斗艷”——
比如靈初智能的機械臂現場表演從桌面抓放物體:
松靈機器人的機械臂現場表演了制作漢堡:
宇樹科技的機器人則現場給參會者倒起了果汁:
這場大會的開幕式也很值得關注。
比如,在開幕式上,圖靈獎得主Yoshua Bengio做了題為《Avoiding catastrophic risks from uncontrolled AI agency》(避免不受控制的人工智能機構帶來的災難性風險)的演講,指出部分前沿模型出現了自我保護、欺騙性對齊、篡改系統等類生物主體的行為,呼吁人類重視并預防這類風險;另一位圖靈獎得主Richard Sutton則在《Welcome to the Era of Experience》(歡迎來到體驗時代)的報告中表示,AI 正從依賴人類靜態數據的 “人類數據時代” 邁入通過互動與經驗學習的 “體驗時代”,強調了強化學習對于智能體的重要性。
再比如,開幕式特意強調了“具身智能”元素——Physical Intelligence聯合創始人兼CEO Karol Hausman做了題為《Building physical intelligence》(構建具身智能)的報告,指出VLA模型是具身智能發展的關鍵突破,可讓機器人通過互聯網數據學習,無需體驗每個場景,還能與其他機器人連接獲取數據;在隨后的具身智能會客廳中,他則與智源研究院院長王仲遠、宇樹科技創始人王興興,銀河通用創始人兼CTO、北京大學助理教授、智源具身智能研究中心主任王鶴,穹徹智能聯合創始人、上海交通大學教授盧策吾,北京人形機器人創新中心總經理熊友軍一起,就具身智能的不同技術路線、商業化路徑探索、典型應用場景拓展、產業生態構建等議題展開了深度討論。
但更加值得關注的,是智源研究院院長王仲遠在做2025研究進展報告時,發布的“悟界”系列大模型。
“悟界”系列大模型包含原生多模態世界模型Emu3、腦科學多模態通用基礎模型見微Brainμ、跨本體具身大小腦協作框架RoboOS 2.0與具身大腦RoboBrain 2.0以及全原子微觀生命模型OpenComplex2。其中,Emu3作為原生多模態統一架構讓大模型具備理解和推理世界的能力,Brainμ基于Emu3架構引入了腦信號這一新的模態數據,RoboOS 2.0與RoboBrain 2.0新增了多機協作規劃與物理常識驅動的空間推理能力;OpenComplex2可在原子分辨率層面捕捉分子相互作用及平衡構象,探索微觀構象波動與宏觀生物功能的跨尺度關聯。
悟界系列大模型的發布,標志著人類在推動AI從數字世界向物理世界、從宏觀理解到微觀探索的技術路徑上邁出了關鍵一步。
1.從“悟道”到“悟界”
回顧過去五年,智源研究院以"悟道"系列大模型為起點,走了一條“從大語言到多模態、再到世界模型”的大模型之路:
2021年3月,“悟道”1.0系列模型發布,首次提出了“大模型”概念,開啟了國產大模型時代;
2021年6月,“悟道”2.0系列模型發布,不僅擁有1.75萬億參數規模,更是在知識推理、多語言生成等9項核心任務上實現國際領先;
2023年6月,“悟道”3.0系列模型發布,其中,語言大模型悟道·天鷹(Aquila)集成了GPT-3/LLaMA架構優點,數據合規性得到了較大優化;視覺大模型悟道·視界覆蓋了分類、檢測、分割等任務,可以應用于自動駕駛、機器人感知等場景。
繼“悟道”系列大模型在認知智能領域取得突破后,智源研究院此次推出的“悟界”系列,將目光投向了更為廣闊和復雜的物理世界與生命科學。
“悟界”系列大模型主要包含四個模型:
首先是原生多模態世界模型Emu3。
該模型基于下一個token預測范式統一多模態學習,無需擴散模型或組合式架構的復雜性,通過研發新型視覺tokenizer將圖像/視頻編碼為與文本同構的離散符號序列,構建模態無關的統一表征空間,實現文本、圖像、視頻的任意組合理解與生成。Emu3支持多模態輸入、多模態輸出的端到端映射,驗證了自回歸框架在多模態領域的普適性與先進性,為跨模態交互提供了強大的技術基座。
悟界Emu3文生圖案例,圖源:智源研究院
「甲子光年」曾經在Emu3發布的第一時間就對其“Next Token Prediction”的自回歸架構做了報道(詳見《》)。而此次智源研究院把Emu3作為“悟界”系列的首個模型進行發布,彰顯了其對于多模態的重視。
具體而言,Emu3用一個從零開始訓練的Transformer模型處理所有類型的數據——它提供了一個強大的tokenizer,能夠將視頻和圖像轉換為token。這些視覺離散token可以與文本tokenizer輸出的離散token一起送入模型中,并統一到一個離散的token空間的。接著,Emu3通過auto-regressive(自回歸)的方式一個接一個地預測序列中的token,然后生成文本、圖像和視頻。
Emu3架構,圖源:智源研究院
其次是腦科學多模態通用基礎模型見微Brainμ。
Brainμ基于Emu3的底層架構,將fMRI、EEG、雙光子等神經科學與腦醫學相關的腦信號統一token化,利用預訓練模型多模態對齊的優勢,可以實現多模態腦信號與文本、圖像等模態的多向映射,并實現跨任務、跨模態、跨個體的統一通用建模,僅憑單一模型,就可以完成多種神經科學的下游任務。
Brainμ整合了神經科學領域多個大型公開數據集和多個合作實驗室的高質量神經科學數據,完成了超過100萬單位的神經信號預訓練,模型可以支持神經科學領域從基礎研究到臨床研究和腦機接口應用的不同方向,有望成為腦科學的“AlphaFold”模型。
同時,作為神經科學領域跨任務、跨模態、跨個體的基礎通用模型,Brainμ可同步處理多類編解碼任務,兼容多物種動物模型(包括小鼠、狨猴 獼猴)與人類數據,實現科學數據注釋、交互式科學結論解讀、大腦感覺信號重建及模擬刺激信號生成。在自動化睡眠分型、感官信號重建與多種腦疾病診斷等任務中,Brainμ作為單一模型的性能顯著超越了該領域的其他專有模型。
腦科學多模態通用基礎模型見微Brainμ,視頻來源:智源研究院
作為整合大規模多模態數據的基礎通用模型,Brainμ也可以支持拓展腦機接口應用,在與腦機接口企業強腦科技BrainCO的合作中,Brainμ實現了首次在便攜式消費級腦電系統上重建感覺信號,展現了模型支持拓展腦機接口應用能力的潛力。
目前,智源正在與國內前沿的基礎神經科學實驗室、腦疾病研究團隊和腦機接口團隊深入合作,包括北京生命科學研究所、清華大學、北京大學、復旦大學與強腦科技BrainCO,拓展Brainμ的科學與工業應用。
第三是跨本體具身大小腦協作框架RoboOS 2.0與具身大腦RoboBrain 2.0。
跨本體具身大小腦協作框架RoboOS 2.0是全球首個基于具身智能SaaS平臺的、支持無服務器一站式輕量化的機器人本體部署開源框架。同時,RoboOS 2.0也是全球首個支持MCP的跨本體具身大小腦協作框架。它旨在構建具身智能領域的“應用商店”生態——通過該框架,用戶可一鍵下載并部署來自全球開發者創建的相同型號機器人本體的小腦技能,完成大小腦的無縫整合。此外,RoboOS 2.0實現了小腦技能的免適配注冊機制,顯著降低了開發門檻,典型場景下,相關代碼量僅為傳統手動注冊方式的1/10。
相較于1.0,RoboOS 2.0對端到端推理鏈路進行了系統級優化,整體性能提升達30%,全鏈路平均響應時延低至3ms以下,端云通信效率提升27倍。在功能層面,RoboOS 2.0新增了多本體時空記憶場景圖(Scene Graph)共享機制,支持動態環境下的實時感知與建模;同時引入了多粒度任務監控模塊,可以實現任務閉環反饋,有效提升了機器人任務執行的穩定性與成功率。
RoboBrain2.0,圖源:官網:https://superrobobrain.github.io
RoboBrain 2.0是目前全球最強的開源具身大腦大模型,在多項空間推理與任務規劃指標上超越了主流大模型——
在任務規劃方面,RoboBrain 2.0相比于RoboBrain 1.0的基于Prompt的多機任務規劃機制和初級空間理解能力,進一步擴展了基于多本體-環境動態建模的多機協同規劃能力,可實時構建包含本體定位的場景圖(Scene Graph),并自動完成跨本體的任務規劃。實驗數據顯示,RoboBrain 2.0的任務規劃準確率相較RoboBrain 1.0實現了74%的效果提升。
在空間智能方面,RoboBrain 2.0在原有可操作區域(Affordance)感知與操作軌跡(Trajectory)生成能力的基礎上,實現了17%的性能提升。同時,RoboBrain 2.0增加了空間推理能力(Spatial Referring),既包含機器人對相對空間位置(如前后、左右、遠近)及絕對距離的基礎感知與理解能力,也實現了對復雜空間的多步推理能力。
此外,RoboBrain 2.0還新增了閉環反饋以及具身智能的深度思考能力。閉環反饋使機器人能夠根據當前環境感知和任務狀態,實時調整任務規劃與操作策略,以應對復雜環境中的突發變化和擾動;深度思考能力則支持機器人對復雜任務進行推理分解,進一步提升整體執行準確率與任務完成的可靠性。
正如視頻所示,搭載了RoboBrain 2.0不僅可以制作漢堡,還可以根據女生“減肥”的意圖為她選擇合適的飲料、并在女生用餐結束后為她清理垃圾。
搭載了 RoboOS 2.0和RoboBrain 2.0的機器人為女生做漢堡、倒飲料,視頻來源:智源研究院
目前,RoboOS 2.0與RoboBrain 2.0已全面開源,包括框架代碼、模型權重、數據集與評測基準等;智源研究院也與全球20多家具身智能企業建立了戰略合作關系,共同打造協同共生的具身智能生態體系。
最后是全分子微觀生命模型OpenComplex2。
全原子微觀生命模型OpenComplex2實現了生物分子研究從靜態結構預測到動態構象分布建模的重大突破。該模型能夠表征生物分子系統的連續演化能量景觀(Energy Landscape),并通過融合擴散生成式建模與生物實驗數據,在原子分辨率層面捕捉分子相互作用及平衡構象分布,為探索微觀構象波動與宏觀生物功能的跨尺度關聯提供了全新的研究視角。
OpenComplex2基于FloydNetwork圖擴散框架以及多尺度原子精度表示兩大技術創新,有效突破了生物分子在功能活動中可及的動態構象分布預測的瓶頸,從而能夠建模生物分子系統中各種原子組分之間復雜的依賴關系,且無需對構象空間施加先驗約束,更加真實地還原生物分子的構象多樣性和動態特性。此外,OpenComplex2能同時捕捉原子級、殘基級和基序級(motif level)的相關性,從而在建模過程中兼顧關鍵的局部結構細節與全局構象變化,為揭示生物功能提供了更加全面的結構基礎。
全分子微觀生命模型OpenComplex2,視頻來源:智源研究院
目前,OpenComplex2模型在生物分子動態特性預測、柔性系統及超大型復合物建模、生物分子相互作用精細化分析等關鍵任務中突破了靜態結構預測的瓶頸,表現出了卓越的性能。2024年,在第16屆蛋白質結構預測關鍵評估競賽CASP16(Critical Assessment of protein Structure Prediction)中,OpenComplex2成功預測了蛋白質T1200/T1300的空間構象分布(定性上與實驗數據一致),成為23支參賽隊伍中唯一取得該突破的團隊。
「甲子光年」認為,OpenComplex2為原子級結構生物學提供了一種全新的建模工具,通過統一框架解碼生物分子系統的動態作用機制,將加速從基礎分子機制研究到藥物設計等下游應用的發展。
2.聚焦All in 開源
除了“悟界”系列大模型,“開源”也是此次北京智源大會的重要主題。
作為非營利科研機構,智源研究院一直堅持“開源、開放”的原則。過去一年時間里,智源開源了70多款模型,除了上述四類模型外,還有通用向量模型BGE系列、輕量長視頻理解模型Video-XL系列、全能視頻生成模型OmniGen等。
2024年,智源推出了開源AI系統軟件棧FlagOS系統。而在本次大會的開幕式上,智源將AI系統軟件棧FlagOS進一步升級,新增了統一編譯器FlagTree、統一通信庫FlagCX、自動發版平臺工具FlagRelease等板塊,全面覆蓋統一生態技術需求,實現了對11家國內外廠商的18款異構AI硬件的統一支持;FlagGems的算子平均性能已優于國際主流算子,并行訓推框架FlagScale與人工優化相比,實現了最高23%的自動并行加速。
「甲子光年」了解到,升級后的FlagOS已支持DeepSeek、通義千問等更多開源大模型實現跨硬件平臺運行。
截至目前,智源研究院已開源約200個模型和160個數據集,其中,模型全球總下載量超6.4億次,開源數據集下載量近113萬次,開源項目代碼下載量超140萬次。
此外,在開幕式的現場,Linux基金會執行董事Jim Zemlin做了題為《Open Source AI Has Won:Why That‘s Great for the World》的演講。在演講中他提到,2025 年是開源 AI 元年,開源正成為全球 AI 創新核心驅動力——哈佛商學院數據顯示,全球開源軟件經濟價值達 9 萬億美元,可幫助開發者節約 70% 開發成本。而中國企業如DeepSeek發布開源大模型的行為不僅引發了技術生態變革,更是印證了開源打破壟斷、加速迭代的作用。開源治理是平衡競爭與協同的核心機制,也是是技術普惠的唯一路徑。它不僅是代碼共享,更需全球協作。
Linux基金會執行董事Jim Zemlin,圖源:智源研究院
智源研究院副院長兼總工程師林詠華則與Linux基金會執行董事Jim Zemlin與LAION工程負責人兼創始人Richard Vencu就全球AI開源與合作展開了深度對話。嘉賓們普遍認為,開源是AI發展的核心,數據集共享是關鍵基礎,全球合作至關重要,應當鼓勵開發者從提交代碼等小事參與開源,共同推動AI創新。
開源對話,圖源:智源研究院
3.“裝護欄”還是“踩油門”?
在本屆智源大會上,兩位圖靈獎得主Yoshua Bengio和Richard Sutton的報告也都圍繞AI安全展開。但是,兩位圖靈獎得主的觀點卻不盡相同。
Yoshua Bengio認為,我們都低估了AI進步的速度——AI的能力正呈指數級增長,尤其是在規劃、推理和欺騙等能力上,很快將超越人類。他列舉了近期研究中發現的AI行為,如在游戲中作弊、為了自我保護而復制自身代碼、對人類說謊、甚至“勒索”工程師等。這些行為是AI為了達成目標而產生的“自我保護”本能,是非常危險的信號。
他指出,當AI變得比人類更聰明并擁有自己的目標時,可能會為了實現其目標而失控,甚至與人類開發者形成競爭,最終可能導致災難性甚至是毀滅性的后果。
因此,他提出了一種技術解決方案,即開發一種“科學家AI”(Scientist AI)。這種AI不是一個追求自身目標的“智能體”,而是一個誠實的“預測器”。它的核心功能是理解世界并預測不同行為的后果,充當一個“AI護欄”,監督和評估其他AI的行為是否會違背人類設定的安全準則。
“科學家AI護欄”的運作機制,圖源:「甲子光年」拍攝
此外,Bengio還強調,僅有技術方案是不夠的。當前的全球AI競賽(類似軍備競賽)導致各國和公司忽視了安全性投入。他強烈呼吁建立國際性的法規和條約(類似核武器管制),確保所有領先國家共同遵守安全原則,避免將AI用作相互競爭的武器。
與Yoshua Bengio認為應該為AI“裝護欄”不同,Richard Sutton則對AI的發展前景非常樂觀,表示我們應該為AI“踩油門”。
Richard Sutton認為,AI正經歷一個根本性的轉變。過去,AI主要依賴于人類創造的靜態數據集(文本、圖像)進行學習,他稱之為“人類數據時代”,而這個時代的數據量即將耗盡。未來屬于“體驗時代”,即AI需要像人類和動物一樣,通過與環境的實時互動來主動學習和創造新知識。
他強調,真正的智能來源于經驗。無論是嬰兒玩玩具、球員踢足球,還是動物捕食,都是通過與世界互動來積累經驗,從而獲得智慧。AlphaGo的成功就是最好的例證。
Richard Sutton表示,未來的AI社會不應該是一個被集中控制的、只有一個目標的系統,而應該是一個由無數擁有不同目標的AI智能體組成的、去中心化的生態。就像人類社會一樣,雖然個體目標各異,但通過合作可以實現共同繁榮。合作是人類的“頂級力量”,也是解決問題的最佳方式。
Richard Sutton PPT“合作是人類的超能力”,圖源:「甲子光年」拍攝
因此,他明確反對“集中控制AI”的呼聲,認為這種想法源于恐懼和不信任。他將限制AI發展的呼吁與限制言論自由、貿易自由相提并論,認為它們都根植于恐懼,而我們應該選擇信任與合作。
第七屆北京智源大會的帷幕已經落下,但其激蕩起的思想漣漪與技術浪潮,無疑將在未來一段時間內持續影響人工智能領域的發展。從星光熠熠的圖靈獎得主到前沿的議題設置,從“悟界”系列大模型的驚艷亮相到對開源生態的堅定投入,本屆智源大會不僅展示了中國在人工智能領域的雄心與實力,也為全球AI的未來發展路徑提供了豐富的思考維度。而未來,如何在擁抱技術進步的同時,構建一個負責任、可信賴的AI生態,將是擺在所有從業者和關注者面前的共同課題,考驗著全人類的智慧與遠見。
黃鐵軍閉幕致辭,圖源:「甲子光年」拍攝
正如智源研究院理事長黃鐵軍在閉幕致辭所說,盡管人工智能不能在“自主性”、“通用性”和“智能”方面同時超越人類,但我們仍然可以利用其探索星辰大海,人類的使命依舊偉大而光榮。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.