智源研究院院長王仲遠
6月6日,被譽為“AI學術春晚”的第七屆智源大會在北京召開。
作為中國最早布局大模型研發的科研機構,今天,北京智源人工智能研究院(以下簡稱“智源研究院”)發布“悟界”系列大模型,包括原生多模態世界模型Emu3、跨本體具身大小腦協作框架RoboOS 2.0與全新智源具身大腦RoboBrain 2.0、全球首個腦科學多模態通用基礎模型見微Brainμ以及全原子微觀生命模型OpenComplex2。
這是繼“悟道”系列大模型之后,智源研究院首次推出代號為“悟界”的具身模型系列。
會前溝通時,王仲遠對筆者表示,當前,AI大模型技術還遠沒有到發展的盡頭。而目前AI缺乏世界和空間的感知,多模態數據還沒有被有效利用,因此,從“悟道”到“悟界”是水到渠成的一件事,AI正加速從數字世界進入物理世界,這一切構成的世界模型,是實現物理AGI的重要發展路徑。
其中,“悟道”的“道”代表智源對大語言模型系統化方法和路徑的探索,“悟界”的“界”代表虛實世界邊界的不斷突破。“悟界”系列大模型承載的是智源對 AI 從數字世界邁向物理世界的技術趨勢的判斷。
王仲遠對筆者指出,“具身智能”不代表人形機器人的智能,所以全新智源具身大腦“悟界”可以適配輪式單臂、輪式雙臂、人形雙足、四足等機器人類別。據悉,目前智源已經與20多家具身智能頭部企業已建立非常深度生態的合作關系。
“與很多具身智能創業者、科研學術界老師交流后,我的一個堅定觀點是:具身智能的‘小組賽’還沒結束(在進行中),遠沒有到‘淘汰賽’。所以,行業需要越來越多的參與方一起共建具身智能產業,這本身是一件好事,因為這會給大家帶來不同視角、不同理念。”王仲遠稱。
王仲遠強調,現在人形機器人的硬件不成熟,模型也不成熟。而未來,機器人首先會在特定場景里落地,尤其是一些相對封閉的場景,比如在工廠完成相對固定、重復、枯燥甚至危險的任務,這會是具身智能第一波真正的紅利。
據悉,智源研究院是于2018年11月在北京海淀成立的一家非營利性新型研發機構,致力于成為AI創新引領者,營造全球最佳的學術和技術創新生態,挑戰最基礎的問題和最關鍵的難題,成為全球 AI 學術思想、基礎理論、頂尖人才、企業創新和發展政策的源頭。
其中,智源社區鏈接19萬+AI 技術人員,和青源會近2000位海內外青年AI科學家,加速AI原始創新,并累計支持120+智源學者開展AI前沿探索,累計孵化加速了10余家具有核心技術能力的AI創新企業,估值超過百億有1家,超過十億有5家。
王仲遠表示,成立6年多時間里,智源率先預見AI大模型時代的到來。早在2020年,智源就組建一支百余人的技術攻關團隊,啟動悟道系列大模型研發,先后發布悟道1.0、2.0、3.0,構建自主可控的全棧大模型技術開源體系,并孵化國內數家頭部大模型創業公司。
而去年,智源大會發布一系列技術產品,使得大模型從語言模型向多模態大模型延伸,并向世界模型方向進行演進,加速從數字AI世界進入到物理AI世界。王仲遠稱,“實踐證明,我們對于技術演進路徑預判的正確性。”
據透露,目前智源開源模型全球總下載量超6.4億次,比去年同期的4755萬次提升12.5倍;AI系統軟件棧FlagOS對11家國內外廠商18款AI芯片已統一支持;開源超160個數據集,下載量近113萬次;開源項目代碼下載量超140萬次。
“大模型技術還遠沒有到發展的盡頭,過往所說的‘百模大戰’更多的是大語言模型的競爭,而大語言模型受限于互聯網數據的使用,基礎模型性能雖然還在提升,但是提升速度不如以前。”王仲遠指出,就目前來看,大語言模型性能提升瓶頸的解法大體有以下三種:
- 一是通過強化學習,在后訓練和推理上提升,例如,O1、O3、O4、DeepSeek R1,這是過去一年大模型產業界最大的一塊進展。
- 二是數據合成,目前學術界仍在突破。互聯網數據都是人類創造的。如果 AI 合成的數據、生成的數據質量能夠達到人類創造的數據質量,那意味著 AI 有可能實現自我學習和進步。
- 三是多模態數據,在全世界范圍內,多模態數據是文字數據的百倍千倍乃至萬倍甚至更多,這些數據遠沒有被很有效利用。
如今,智源通過多種研發方式,利用原生多模態世界模型,讓AI感知和理解物理世界,進而推進和物理世界的交互。進入物理世界之后,在宏觀層面,大模型與硬件結合,通過具身智能的發展解決實際生產生活問題;微觀層面,基于生成式AI的蛋白質、腦機接口等應用,能夠進一步揭示微觀世界的本質,試圖揭示生命機理本質規律,構建AI與物理世界交互基座。
具體來說,原生多模態世界模型Emu3讓大模型具備理解和推理世界的能力,腦科學多模態通用基礎模型見微Brainμ基于Emu3架構,引入腦信號這一新的模態數據,實現了單一模型完成多種神經科學任務的大一統。多模態與腦科學模型未來可成為人機交互具身場景下的基礎模型。
王仲遠稱,現在多模態技術路線還沒有收斂,文生圖、文生視頻走的是Transformer+Diffusion的技術路線,比較確定,能力不斷提升,在某些特定場景已落地。能否非常普世和廣泛落地,需要一段時間。
而RoboOS 2.0與RoboBrain 2.0在初代版本基礎上,原有性能大幅提升,并新增多機協作規劃與物理常識驅動的空間推理能力;OpenComplex2可在原子分辨率層面捕捉分子相互作用及平衡構象,探索微觀構象波動與宏觀生物功能的跨尺度關聯。
“具身智能目前仍處于技術探索的早期階段,類似于大模型在GPT-3之前的摸索期。”王仲遠認為,當下具身智能面臨多重挑戰,一方面,核心技術路徑尚未明確,如仿真數據利用和“大小腦”融合架構等仍在探索中,技術復雜度遠超智能駕駛。另一方面,數據采集困難是具身智能發展的重要瓶頸。真機數據獲取受限于現有模型能力,形成“循環悖論”,加之真實世界多模態數據雖然豐富,卻難以高效利用。
而軟硬件協同復雜,特別是跨本體“大小腦”融合尚未成熟,導致產業落地周期長,缺乏明確的規模化應用。王仲遠認為,未來5-10年,大小腦融合的模型可能會成熟,但不是今天。
“我們認為具身智能或機器人2.0時代,最重要的就是突破專有任務,達到一定的泛化性,具備跨領域的能力,這跟AI第三次浪潮中深度學習的發展路徑相似。現在很多所謂的VLA模型,不具備泛化性,這需要時間的沉淀。”王仲遠表示。
同時,開源模型方面,目前智源擁有通用向量模型BGE系列BGE-v1、BGE-M3、BGE-code-v1、BGE-VL-v1.5和BGE-VL-screenshot等模型,目前,BGE模型已廣泛應用于人工智能產業,被百度、騰訊、華為、阿里巴巴、微軟、亞馬遜等知名企業商業化集成;而智源近期還開源輕量長視頻理解模型Video-XL-2,效果更佳、長度更長、速度更快;以及開源全能視覺生成模型OmniGen。
此外,大會期間,智源研究院與北京大學第一醫院簽署戰略合作協議,并且還宣布智源研究院與持有620億港元的香港投資管理有限公司建立戰略合作框架,共建世界級跨區域合作的 AI 生態圈。智源與港投的合作將加速人才、技術、資本的飛輪效應,構建人才循環體系,匯聚全球AI青年人才、支持AI創新創業、加速AI產業全球化。
(本文首發于鈦媒體App,作者|林志佳,編輯|蓋虹達 )
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.