經(jīng)濟(jì)觀察報(bào) 記者 周悅
6月6日,北京智源大會開幕,吸引了包括圖靈獎(jiǎng)得主約書亞·本吉奧、強(qiáng)化學(xué)習(xí)之父理查德·薩頓,以及來自谷歌、Meta、華為等全球知名AI機(jī)構(gòu)的頂尖學(xué)者和從業(yè)者。
這場大會被視為“AI內(nèi)行人的學(xué)術(shù)盛會”,也見證了中國AI科研機(jī)構(gòu)智源研究院(下稱“智源”)的最新動作:發(fā)布“悟界”系列大模型。
智源研究院院長王仲遠(yuǎn)認(rèn)為:“大模型技術(shù)遠(yuǎn)沒有到發(fā)展的盡頭,但我們已經(jīng)看見了大語言模型的增長天花板。”在他看來,過去一年“百模大戰(zhàn)”的熱鬧,實(shí)則是圍繞大語言模型的同質(zhì)化競爭。互聯(lián)網(wǎng)數(shù)據(jù)的天花板,限制了它們性能的持續(xù)爬升。
他認(rèn)為,AI要真正走向下一個(gè)階段,關(guān)鍵在于突破多模態(tài)的世界模型——讓AI不只是語言的拼圖玩家,而是理解和適配物理世界的智能體。智源正在試圖回答一個(gè)更宏大的命題:如何讓AI真正看見、理解并影響物理世界?
智源發(fā)布“悟界”四大模型 探索物理世界的交互邊界
在本次智源大會上,智源正式披露了“悟界”系列的四款模型:包括原生多模態(tài)世界模型Emu3、腦科學(xué)多模態(tài)通用基礎(chǔ)模型見微Brainμ、跨本體具身大小腦協(xié)作框架RoboOS 2.0與具身大腦RoboBrain 2.0以及全原子微觀生命模型OpenComplex2。
Emu3是一種原生多模態(tài)世界模型,利用全新的視覺Tokenizer技術(shù),把圖像和視頻像文本一樣編碼成離散符號,實(shí)現(xiàn)同框架下的統(tǒng)一表征和生成。它讓文字、圖像、視頻不再“各說各話”,而是被AI放進(jìn)同一個(gè)“大腦”里理解和使用。
Brainμ能跨物種、跨模態(tài)、跨個(gè)體建模,目標(biāo)是成為神經(jīng)科學(xué)研究和臨床應(yīng)用的新引擎。它已整合超百萬單位神經(jīng)信號數(shù)據(jù),與清華、北大、復(fù)旦和強(qiáng)腦科技等多個(gè)機(jī)構(gòu)達(dá)成合作,驗(yàn)證在睡眠分型、腦疾病診斷、腦機(jī)接口等領(lǐng)域的潛力。
在具身智能領(lǐng)域,智源發(fā)布了RoboOS 2.0和RoboBrain 2.0。其中,RoboOS 2.0相較于初代版本整體性能提升30%,可將全鏈路平均響應(yīng)時(shí)延縮短至毫秒級,支持像下載App一樣快速整合開發(fā)者插件;RoboBrain 2.0相比于RoboBrain 1.0,進(jìn)一步擴(kuò)展了基于多本體-環(huán)境動態(tài)建模的多機(jī)協(xié)同規(guī)劃能力,可實(shí)時(shí)構(gòu)建包含本體定位的場景圖,并自動完成跨本體的任務(wù)規(guī)劃。
最后,OpenComplex2 則瞄準(zhǔn)生命科學(xué),能在原子分辨率層面模擬分子運(yùn)動中的功能生成,彌補(bǔ)AI只能做靜態(tài)結(jié)構(gòu)預(yù)測的短板。智源希望它能加速藥物研發(fā)和生物研究,縮短周期、降低成本。
王仲遠(yuǎn)在接受經(jīng)濟(jì)觀察報(bào)在內(nèi)的媒體采訪時(shí)指出,大語言模型下一步要么靠強(qiáng)化學(xué)習(xí)做更好的推理(如今年大廠扎堆優(yōu)化的O1、DeepSeek R1等模型),要么靠合成數(shù)據(jù)自我生成新樣本。智源認(rèn)為,單靠語言生成能力的提升已不足以支撐AI的下半場。大模型的下半場不只是“說得更像人”,而是看得見真實(shí)世界。這一破局點(diǎn)是進(jìn)入到物理世界——用多模態(tài)、尤其是原生多模態(tài)世界模型,讓AI能真正感知和理解空間、物體和動態(tài)場景。
在這個(gè)思路下,智源的“悟界”系列不僅是模型的堆疊,更像是一個(gè)物理AGI(人工通用智能)路線的藍(lán)圖。比如,Brainμ整合神經(jīng)科學(xué)數(shù)據(jù),完成了超過100萬單位的神經(jīng)信號預(yù)訓(xùn)練,可以支持神經(jīng)科學(xué)領(lǐng)域從基礎(chǔ)研究到臨床研究和腦機(jī)接口應(yīng)用的不同方向;而RoboOS 2.0和RoboBrain 2.0,則是讓機(jī)器人有了“大小腦”式的交互和實(shí)時(shí)反應(yīng)能力。
此次“悟界”系列的推出,被王仲遠(yuǎn)稱作“從語言模型到世界模型的轉(zhuǎn)向”。世界模型意味著AI不再停留在用海量文本做生成和問答,而是能在虛擬空間里,模擬物理世界的運(yùn)行、預(yù)測變化,并在一定程度上與真實(shí)環(huán)境深度交互。
具身智能的落地周期:短期仍有爭議,但趨勢不可逆
在大會上,理查德·薩頓表示:“AI正從人類數(shù)據(jù)時(shí)代邁向體驗(yàn)時(shí)代,但要讓AI像人一樣從物理交互中獲得經(jīng)驗(yàn),還需要更長期的探索。”
王仲遠(yuǎn)也提到,盡管“悟界”系列讓智源在多模態(tài)和具身智能領(lǐng)域邁出了新步伐,短期的商業(yè)化挑戰(zhàn)仍然很現(xiàn)實(shí)。多模態(tài)數(shù)據(jù)的采集、神經(jīng)信號數(shù)據(jù)的合規(guī)和倫理問題、具身智能的適配成本,都意味著相關(guān)技術(shù)尚未進(jìn)入規(guī)模化盈利的窗口。
為了達(dá)到長期的目標(biāo),作為一家非營利科研機(jī)構(gòu),智源同時(shí)需要來自資本的持續(xù)的投入和耐心。王仲遠(yuǎn)在會上披露,智源與香港投資管理有限公司(港投)已簽署戰(zhàn)略合作,雙方希望借助香港的國際化平臺和港投的“耐心資本”,在人才、技術(shù)、資本之間形成正向循環(huán)。
“港投在幫助我們看項(xiàng)目上也有優(yōu)勢,但合作更多是匯聚人才和推動技術(shù)全球化的視野。”他沒有披露具體投資額度,只提及合作的重點(diǎn)是“匯聚全球頂尖人工智能人才、支持人工智能創(chuàng)業(yè)、加速人工智能創(chuàng)業(yè)全球化”。
在國際化方面,王仲遠(yuǎn)強(qiáng)調(diào),盡管今年的國際形勢波動大,智源仍在堅(jiān)定走開源和國際合作的路。比如,4月底在新加坡舉辦的“青源會”,就是智源連接全球青年AI人才的新嘗試。他還透露,歐洲的合作正在加強(qiáng),中東市場也出現(xiàn)了新的熱度,智源正在評估如何抓住這些新興機(jī)會。
這不是智源第一次在通用人工智能的道路上開路。2021年,智源推出的“悟道”1.0,填補(bǔ)了中文超大規(guī)模預(yù)訓(xùn)練模型的空白;同年“悟道”2.0以1.75萬億參數(shù)一度成為全球最大模型之一。到2023年,“悟道”3.0在多模態(tài)技術(shù)上取得新突破,并全面開源。
智源始終以開源開放為導(dǎo)向。目前,智源已累計(jì)開源200個(gè)模型,全球下載量達(dá)6.4 億次,其中多款模型已被廣泛應(yīng)用。
(作者 周悅)
免責(zé)聲明:本文觀點(diǎn)僅代表作者本人,供參考、交流,不構(gòu)成任何建議。
周悅
TMT編輯,關(guān)注科技、大健康交叉領(lǐng)域,擅長行業(yè)研究,深度報(bào)道。“新聞是歷史的初稿”。
歡迎聯(lián)系:zhouyue@eeo.com.cn。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.