智源研究院發(fā)布“悟界”系列大模型：讓AI看見并理解物理世界

2025-06-07 10:59:08　來源: 經(jīng)濟(jì)觀察報(bào)

北京舉報(bào)

分享至

經(jīng)濟(jì)觀察報(bào) 記者周悅

6月6日，北京智源大會開幕，吸引了包括圖靈獎(jiǎng)得主約書亞·本吉奧、強(qiáng)化學(xué)習(xí)之父理查德·薩頓，以及來自谷歌、Meta、華為等全球知名AI機(jī)構(gòu)的頂尖學(xué)者和從業(yè)者。

這場大會被視為“AI內(nèi)行人的學(xué)術(shù)盛會”，也見證了中國AI科研機(jī)構(gòu)智源研究院（下稱“智源”）的最新動作：發(fā)布“悟界”系列大模型。

智源研究院院長王仲遠(yuǎn)認(rèn)為：“大模型技術(shù)遠(yuǎn)沒有到發(fā)展的盡頭，但我們已經(jīng)看見了大語言模型的增長天花板。”在他看來，過去一年“百模大戰(zhàn)”的熱鬧，實(shí)則是圍繞大語言模型的同質(zhì)化競爭。互聯(lián)網(wǎng)數(shù)據(jù)的天花板，限制了它們性能的持續(xù)爬升。

他認(rèn)為，AI要真正走向下一個(gè)階段，關(guān)鍵在于突破多模態(tài)的世界模型——讓AI不只是語言的拼圖玩家，而是理解和適配物理世界的智能體。智源正在試圖回答一個(gè)更宏大的命題：如何讓AI真正看見、理解并影響物理世界？

智源發(fā)布“悟界”四大模型探索物理世界的交互邊界

在本次智源大會上，智源正式披露了“悟界”系列的四款模型：包括原生多模態(tài)世界模型Emu3、腦科學(xué)多模態(tài)通用基礎(chǔ)模型見微Brainμ、跨本體具身大小腦協(xié)作框架RoboOS 2.0與具身大腦RoboBrain 2.0以及全原子微觀生命模型OpenComplex2。

Emu3是一種原生多模態(tài)世界模型，利用全新的視覺Tokenizer技術(shù)，把圖像和視頻像文本一樣編碼成離散符號，實(shí)現(xiàn)同框架下的統(tǒng)一表征和生成。它讓文字、圖像、視頻不再“各說各話”，而是被AI放進(jìn)同一個(gè)“大腦”里理解和使用。

Brainμ能跨物種、跨模態(tài)、跨個(gè)體建模，目標(biāo)是成為神經(jīng)科學(xué)研究和臨床應(yīng)用的新引擎。它已整合超百萬單位神經(jīng)信號數(shù)據(jù)，與清華、北大、復(fù)旦和強(qiáng)腦科技等多個(gè)機(jī)構(gòu)達(dá)成合作，驗(yàn)證在睡眠分型、腦疾病診斷、腦機(jī)接口等領(lǐng)域的潛力。

在具身智能領(lǐng)域，智源發(fā)布了RoboOS 2.0和RoboBrain 2.0。其中，RoboOS 2.0相較于初代版本整體性能提升30%，可將全鏈路平均響應(yīng)時(shí)延縮短至毫秒級，支持像下載App一樣快速整合開發(fā)者插件；RoboBrain 2.0相比于RoboBrain 1.0，進(jìn)一步擴(kuò)展了基于多本體-環(huán)境動態(tài)建模的多機(jī)協(xié)同規(guī)劃能力，可實(shí)時(shí)構(gòu)建包含本體定位的場景圖，并自動完成跨本體的任務(wù)規(guī)劃。

最后，OpenComplex2 則瞄準(zhǔn)生命科學(xué)，能在原子分辨率層面模擬分子運(yùn)動中的功能生成，彌補(bǔ)AI只能做靜態(tài)結(jié)構(gòu)預(yù)測的短板。智源希望它能加速藥物研發(fā)和生物研究，縮短周期、降低成本。

王仲遠(yuǎn)在接受經(jīng)濟(jì)觀察報(bào)在內(nèi)的媒體采訪時(shí)指出，大語言模型下一步要么靠強(qiáng)化學(xué)習(xí)做更好的推理（如今年大廠扎堆優(yōu)化的O1、DeepSeek R1等模型），要么靠合成數(shù)據(jù)自我生成新樣本。智源認(rèn)為，單靠語言生成能力的提升已不足以支撐AI的下半場。大模型的下半場不只是“說得更像人”，而是看得見真實(shí)世界。這一破局點(diǎn)是進(jìn)入到物理世界——用多模態(tài)、尤其是原生多模態(tài)世界模型，讓AI能真正感知和理解空間、物體和動態(tài)場景。

在這個(gè)思路下，智源的“悟界”系列不僅是模型的堆疊，更像是一個(gè)物理AGI（人工通用智能）路線的藍(lán)圖。比如，Brainμ整合神經(jīng)科學(xué)數(shù)據(jù)，完成了超過100萬單位的神經(jīng)信號預(yù)訓(xùn)練，可以支持神經(jīng)科學(xué)領(lǐng)域從基礎(chǔ)研究到臨床研究和腦機(jī)接口應(yīng)用的不同方向；而RoboOS 2.0和RoboBrain 2.0，則是讓機(jī)器人有了“大小腦”式的交互和實(shí)時(shí)反應(yīng)能力。

此次“悟界”系列的推出，被王仲遠(yuǎn)稱作“從語言模型到世界模型的轉(zhuǎn)向”。世界模型意味著AI不再停留在用海量文本做生成和問答，而是能在虛擬空間里，模擬物理世界的運(yùn)行、預(yù)測變化，并在一定程度上與真實(shí)環(huán)境深度交互。

具身智能的落地周期：短期仍有爭議，但趨勢不可逆

在大會上，理查德·薩頓表示：“AI正從人類數(shù)據(jù)時(shí)代邁向體驗(yàn)時(shí)代，但要讓AI像人一樣從物理交互中獲得經(jīng)驗(yàn)，還需要更長期的探索。”

王仲遠(yuǎn)也提到，盡管“悟界”系列讓智源在多模態(tài)和具身智能領(lǐng)域邁出了新步伐，短期的商業(yè)化挑戰(zhàn)仍然很現(xiàn)實(shí)。多模態(tài)數(shù)據(jù)的采集、神經(jīng)信號數(shù)據(jù)的合規(guī)和倫理問題、具身智能的適配成本，都意味著相關(guān)技術(shù)尚未進(jìn)入規(guī)模化盈利的窗口。

為了達(dá)到長期的目標(biāo)，作為一家非營利科研機(jī)構(gòu)，智源同時(shí)需要來自資本的持續(xù)的投入和耐心。王仲遠(yuǎn)在會上披露，智源與香港投資管理有限公司（港投）已簽署戰(zhàn)略合作，雙方希望借助香港的國際化平臺和港投的“耐心資本”，在人才、技術(shù)、資本之間形成正向循環(huán)。

“港投在幫助我們看項(xiàng)目上也有優(yōu)勢，但合作更多是匯聚人才和推動技術(shù)全球化的視野。”他沒有披露具體投資額度，只提及合作的重點(diǎn)是“匯聚全球頂尖人工智能人才、支持人工智能創(chuàng)業(yè)、加速人工智能創(chuàng)業(yè)全球化”。

在國際化方面，王仲遠(yuǎn)強(qiáng)調(diào)，盡管今年的國際形勢波動大，智源仍在堅(jiān)定走開源和國際合作的路。比如，4月底在新加坡舉辦的“青源會”，就是智源連接全球青年AI人才的新嘗試。他還透露，歐洲的合作正在加強(qiáng)，中東市場也出現(xiàn)了新的熱度，智源正在評估如何抓住這些新興機(jī)會。

這不是智源第一次在通用人工智能的道路上開路。2021年，智源推出的“悟道”1.0，填補(bǔ)了中文超大規(guī)模預(yù)訓(xùn)練模型的空白；同年“悟道”2.0以1.75萬億參數(shù)一度成為全球最大模型之一。到2023年，“悟道”3.0在多模態(tài)技術(shù)上取得新突破，并全面開源。

智源始終以開源開放為導(dǎo)向。目前，智源已累計(jì)開源200個(gè)模型，全球下載量達(dá)6.4 億次，其中多款模型已被廣泛應(yīng)用。

（作者周悅）

免責(zé)聲明：本文觀點(diǎn)僅代表作者本人，供參考、交流，不構(gòu)成任何建議。

周悅

TMT編輯，關(guān)注科技、大健康交叉領(lǐng)域，擅長行業(yè)研究，深度報(bào)道。“新聞是歷史的初稿”。
歡迎聯(lián)系：zhouyue@eeo.com.cn。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.