去年,圖靈獎得主姚期智和AI新秀楊植麟曾在智源大會備受矚目。今年,包含姚期智在內的四位圖靈獎得主和具身智能頂流王興興重磅亮相智源大會。
6月6日,由智源研究院主辦的2025北京智源大會邀請到圖靈獎得主、深度學習代表人物Yoshua Bengio,圖靈獎得主、強化學習之父Richard S. Sutton,圖靈獎得主Joseph Sifakis、姚期智,并邀請到Google、DeepMind、Meta、Mila、Physical Intelligence、美國麻省理工學院、美國斯坦福大學、美國加州伯克利大學、Linux基金會等國際明星機構與技術團隊代表,以及邀請到華為、百度、字節跳動、騰訊、阿里等互聯網大廠以及智譜、宇樹科技、生數科技、面壁等30余家AI公司的創始人、CEO。
大會還匯聚100余位全球青年科學家、200余位AI頂尖學者和產業專家,圍繞多模態、深度推理、下一代AI路徑、Agent智能體、具身智能、AI4S、AI產業、AI安全、AI開源進行演講和對話。
國際巨頭尖峰對話AI,用合作加速人才、技術、資本的飛輪效應
開幕式上,圖靈獎得主Yoshua Bengio、Richard Sutton,Linux基金會執行董事Jim Zemlin,Physical Intelligence聯合創始人兼CEO Karol Hausman分別做主題演講。
Yoshua Bengio在演講中表示,當前 AI 在規劃、推理等領域呈指數級進步,部分前沿模型已顯現自我保護、欺騙性對齊、篡改系統等類生物主體行為,若形成 “智能 + 自主目標 + 行動能力” 組合將引發失控風險,甚至可能威脅人類生存。他強調,盡管 AI 造成傷害需同時具備能力與意圖,但前者已可預見,必須以預防原則優先解決意圖對齊問題。為此,他提出雙重解決方案:一是研發以無私科學家為原型的非代理性、可信賴AI系統,專注于理解世界而非自主行動;二是推動全球協同治理,建立國際監管框架與技術驗證機制,遏制各國因競爭導致的安全標準缺位,避免將 AGI 設計為人類競爭者,其呼吁在 AGI 可能于 5 年內達到人類水平的緊迫時間窗口內,要通過技術創新與全球協作筑牢安全防線。會上,Yoshua Bengio還與北京大學助理教授、智源大模型安全研究院中心主任楊耀東就AI安全議題進行了一場對話。
Richard Sutton在演講中表示,AI 正從依賴人類靜態數據的 “人類數據時代” 邁入通過互動與經驗學習的 “體驗時代”,智能體需像人類和動物一樣從動態交互中生成新知識,而強化學習是實現這一目標的核心路徑。鑒于大語言模型時代已接近尾聲,通用AI需要更強大的持續學習算法。他認為,智能體如同自然界生物一樣天然具有多元目標,關鍵在于通過分散合作而非集中控制實現安全協同。人類社會的進步源于分權化合作,而集中控制 AI 的呼吁本質是源于恐懼的 “危險策略”,這可能會引發類似人類沖突的問題。其倡導以去中心化合作替代中心化控制,通過信任、協調和市場機制引導 AI 與人類共生,抵制因恐懼催生的限制措施,并認為這一路徑更具可持續性,且能避免戰爭、腐敗等風險,最終實現 AI 與人類社會的互利共贏。會上,Richard Sutton還與清華AI研究院副院長、生數科技創始人兼首席科學家、智源首席科學家朱軍就強化學習等議題進行了一場對話。
Linux基金會執行董事Jim Zemlin在演講中談到,2025 年是開源 AI 元年,開源正成為全球 AI 創新核心驅動力。DeepSeek等中國企業發布開源大模型,引發技術生態變革,印證開源打破壟斷、加速迭代的作用。美國哈佛商學院數據顯示,全球開源軟件經濟價值達 9 萬億美元,可幫助開發者節約 70% 開發成本。開源治理是平衡競爭與協同的核心機制。開源不僅是代碼共享,更需全球協作。他強調,開源是技術普惠的唯一路徑,通過全球協作確保 AI 創新由全人類共享。此外,Jim Zemlin和LAION工程負責人兼創始人Richard Vencu,還參加了由智源研究院副院長兼總工程師林詠華主持的Fireside Chat,三者就全球AI開源與合作展開深度對話。他們普遍認為,開源是 AI 發展的核心,數據集共享是關鍵基礎,全球合作至關重要,應當鼓勵開發者從提交代碼等小事參與開源,共同推動 AI 創新。
Physical Intelligence公司聯合創始人兼CEO Karol Hausman在演講中表示,對于具身智能的發展來說,VLA模型是關鍵突破,能讓機器人通過互聯網數據學習,無需體驗每個場景,還能與其他機器人連接獲取數據。Physical Intelligence公司曾研發通用機器人基礎模型π0,經預訓練和后期高質量數據培訓,使機器人能完成如打開洗衣機、疊衣服等復雜任務,在陌生環境下任務完成率達 80%-90%。目前雖已展示出物理智能潛力,但在泛化能力、穩定性等方面仍有挑戰,未來他希望實現機器人能夠 100% 穩定地完成任務,推動物理智能的進一步發展。
在智源具身智能會客廳中,銀河通用的具身大模型機器人Galbot登臺展示了端到端VLA大模型在商業零售場景的落地應用,《CMG世界機器人大賽·系列賽》機甲格斗擂臺賽“AI策算師”冠軍機器人宇樹G1登臺展示了“組合拳”,全球首個人形機器人半程馬拉松冠軍天工2.0也參與現場互動并完成了“準備點心”的精細化服務任務。與此同時,智源研究院王仲遠與Physical Intelligence聯合創始人兼CEO Karol Hausman,宇樹科技創始人王興興,銀河通用創始人兼CTO、北京大學助理教授、智源具身智能研究中心主任王鶴,穹徹智能聯合創始人、上海交通大學教授盧策吾,北京人形機器人創新中心總經理熊友軍,就具身智能的不同技術路線、商業化路徑探索、典型應用場景拓展、產業生態構建等議題展開深度討論。他們認為,短期內人形機器人因數據采集、人機交互和環境適應優勢是重要載體,長期看隨著 AGI 發展會多樣化。對于 VLA 模型泛化性,雖面臨機器人環境復雜等挑戰,但通過合成數據、多場景訓練等可提升適應性。
大會期間,智源研究院與北京大學第一醫院簽署戰略合作協議,本著優勢互補、資源共享、協同創新的原則,充分發揮雙方在AI技術研發與工程落地的多元能力以及臨床診療、教學科研與醫學數據資源的專業優勢,共同在“智慧醫學系統”領域開展深入、系統、持續的戰略合作。此外,大會上還宣布了智源研究院與香港投資管理有限公司建立戰略合作框架,共建世界級跨區域合作的AI生態圈。智源與港投的合作將加速人才、技術、資本的飛輪效應,構建內地、香港、國際的人才循環體系,匯聚全球AI青年人才、支持AI創新創業、加速AI產業全球化。王仲遠表示:“智源的優勢在于匯聚人才,以及擁有技術和最新科研原創的成果。AI的發展離不開資本,港投是耐心資本的代表,香港是高度國際化的城市,有利于人才匯聚與國際交流。此次智源與港投的合作希望能夠實現人才、技術、資本的飛輪效應,匯聚AI發展的三要素——人才、技術、資本,在做一些前沿突破的同時,構建內地、香港、國際的人才循環體系。”
“悟界”系列大模型:解碼生命本質,驅動機器智能,拓展AI與物理交互邊界
在本次2025北京智源大會上,繼“悟道”系列大模型之后,智源研究院推出“悟界”系列大模型。其中,“悟道”的“道”代表智源對大語言模型系統化方法和路徑的探索,“悟界”的“界”代表虛實世界邊界的不斷突破。“悟界”系列大模型承載的是智源對AI從數字世界邁向物理世界的技術趨勢的判斷。“而AI從數字世界跨向物理世界時必須突破數字世界的隔閡。”王仲遠表示。
據了解,“悟界”大模型系列包括:原生多模態世界模型Emu3;腦科學多模態通用基礎模型見微Brainμ;跨本體具身大小腦協作框架RoboOS 2.0與具身大腦RoboBrain 2.0;全原子微觀生命模型OpenComplex2。
Emu3作為原生多模態統一架構讓大模型具備理解和推理世界的能力。Brainμ基于Emu3架構引入腦信號這一新的模態數據,實現了單一模型完成多種神經科學任務的大一統。RoboOS 2.0與RoboBrain 2.0在初代版本基礎上,比原有性能有著大幅提升,并新增了多機協作規劃與物理常識驅動的空間推理能力,能夠適配各種構型的機器人,包括輪式單臂、輪式雙臂、雙足人形、四足等。OpenComplex2可在原子分辨率層面捕捉分子相互作用及平衡構象,探索微觀構象波動與宏觀生物功能的跨尺度關聯。
智源研究院院長王仲遠表示,在2024的北京智源大會上,智源就對大模型的技術路線進行了預判:即會從大語言模型往多模態、尤其是原生多模態世界模型的方向發展。對于“原生”他解釋稱:“小朋友從出生就開始學習這個世界,聽到這個世界的聲音、跟這個世界的各種物品和圖像交互學習,以及父母也會通過聲音教他。反而是在幼兒園或者小學之后才開始接觸文字。所謂原生正是如此,是指在模型訓練初始階段,就將文字、圖像、聲音乃至腦信號等各種模態數據都納入其中進行訓練。接受這樣訓練的模型,可以像人類一樣做出類似于‘咖啡杯子在桌子邊緣很危險’這樣的判斷。”
原生多模態世界模型本質上是為了讓AI感知和理解物理世界,進而推進和物理世界的交互。進入物理世界之后,在宏觀層面會大模型與硬件結合,通過具身智能的發展解決實際生產生活問題。對此,王仲遠舉例稱:“我們與產業方交流時,發現有很多工作仍然是人在做,比如打一個激光,把物體放到激光筆下打幾行字,這種工作既重復、又枯燥甚至有危險,而類似領域最適合由具身智能進行第一波切入。”在微觀層面,生成式AI的應用能夠進一步揭示微觀世界的本質。所有這一切構成的世界模型是實現物理AGI的重要發展路徑,而智源的工作布局都是圍繞這一技術發展趨勢進行布局。
王仲遠介紹稱:“RoboBrain的跨本體能力,就好比安卓系統能在不同的手機上運行一樣。目前沒有幾家公司能夠真正做到這一點。智源是一家科研機構,我們希望構建面向不同硬件本體使用的具身大模型。那些具備研發具身大腦能力的公司,如果想與智源合作我們非常愿意;那些不具備具身大腦研發能力的公司,智源通過開源生態可以賦能和幫助這些企業,以非常普惠的方式讓其獲得具身大腦的能力。”
而談及基礎模型時他表示,現在的大模型越來越像通用大腦,好比人類一樣在高中學習各種學科教育,進入大學學習專業課程,大學畢業后進入工作單位接受崗位培訓。大模型產業落地也是類似的,模型基礎能力越強,產業落地效果越好。但是即使模型再強,也需要學習產業獨有的知識才能成為領域專家。有了一定的基礎能力,才能夠幫助模型更好地理解領域知識,不至于犯一些常識性錯誤。對于大模型公司來說,需要不斷提升基礎模型的能力。王仲遠舉例稱,Anthropic的年營收超過30億美元,主要在于其所推出的基礎大模型能夠給很多公司做編碼的基礎模型。
他還指出,當基礎大模型達到可用狀態時,就會變得像水、電、操作系統一樣,這意味著可以基于這個操作系統開發很多APP。現在的智能體相當于移動互聯網的APP,但當其越來越強時就能不斷擴展能力。而智源發布的多模態大模型是為了推動AI從數字世界走向物理世界。“目前,走向物理世界的多模態模型的技術壁壘在模型本身,因為技術路線就沒有收斂。很多現有的多模態模型尤其是理解模型會出現此消彼長的問題。即當使用語言模型作為基座訓練多模態時,人們會發現語言模型的能力在退化。眼下,最合適的多模態模型技術路線并沒有真正找到或者在行業里并未達成共識,而多模態生成模型在某種程度上是將垂直領域的專用模型做到極致。不過,類似于人臉識別這種能力,機器可以做得比人類好。人類大腦不會因為收到更多信息之后突然不會說話,然而對于現在的多模態模型來說,當給它更多信息之后它可能就不會說話了,而這背后蘊含著我們希望探索的技術原理。也就是說,物理世界的多模態還沒有完全解決,因此智源會堅定地探索下去。”他表示。
智源研究院成立時的定位是做“高校做不了,企業不愿意做的事”。王仲遠表示:“僅從探索的先進性來講,智源和國內很多科研機構以及國際大廠并沒有較大區別,也沒有明顯的劣勢。但是,智源的獨特性在于取得了原生多模態世界模型底層架構、腦科學多模態通用基礎模型的突破等。”總的來說,從“悟道”到“悟界”,智源研究院始終走在技術路線探索的前沿,積極構建開源開放的技術生態。未來,智源研究院將持續解構物理世界與智能本質的深層關聯,在通用AI的征途中刻下新的坐標。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.