新智元報道
編輯:編輯部 YZNH
【新智元導(dǎo)讀】剛剛,AI頂流春晚智源大會來了!深度學(xué)習(xí)和強化學(xué)習(xí)兩大巨頭齊聚,圖靈獎得主、頂尖專家出席,2025 AI未來的發(fā)展路徑,在一場場精彩的思想碰撞中被清晰解碼,硬核指數(shù)已經(jīng)超標(biāo)。
就在剛剛,一年一度「AI內(nèi)行春晚」——智源大會正式開幕!
這場科技圈最不容錯過的、硬核十足的AI頂級盛會,依舊星光熠熠、干貨滿滿。
這屆大會,迎來了四位圖靈獎得主坐鎮(zhèn),匯聚了DeepMind、Linux、華為、阿里等全球科技巨頭,還有MIT、斯坦福、清華、北大等20+海內(nèi)外頂尖學(xué)府研究人員齊聚一堂。
他們一同分享了硬核技術(shù)突破,更深入探討了AI前沿與未來走向,兼具深度與啟發(fā)。
智源研究院再度發(fā)力,重磅推出了「悟界」系列大模型,開啟了通向物理AGI的全新篇章。
從多模態(tài)基礎(chǔ)模型到具身智能大腦,從宏觀到微觀,一共四大核心成果正式亮相。
現(xiàn)場演示中,機器人能從琳瑯滿目貨架上,精準(zhǔn)拿取酸奶、果凍,不會弄亂其他商品。
更有趣的是,宇樹機器人閃亮登場,帶來了一場令人熱血沸騰的拳擊表演。
而將大會推向高潮的,無疑就是圖靈獎得主Yoshua Bengio、Richard Sutton等AI大佬的精彩演講。
準(zhǔn)備好,超硬核的思想盛宴來了!
Yoshua Bengio
5年后AI超越人類,科學(xué)家AI救場
最先作開場報告的,是圖靈獎得主、深度學(xué)習(xí)領(lǐng)域的奠基人之一——Yoshua Bengio。
此次,Bengio教授的報告題目為《Avoiding Catastrophic Risks from Uncontrolled AI Agency》(避免未受監(jiān)管的人工智能機構(gòu)帶來的災(zāi)難性風(fēng)險)。
一上來,教授就一針見血地指出,AI的規(guī)劃能力正在指數(shù)級遞增。AI能完成的任務(wù)持續(xù)時間每七個月就會翻一番,這么算下來,五年后就可以達到人類水平。
然而,我們雖然會訓(xùn)練這些系統(tǒng),但卻不知道該如何控制它們。
那么當(dāng)AI變得比人類更聰明時,如果它們更傾向于自己的存在而不是人類,我們?nèi)绾蚊鎸@種風(fēng)險?
研究表明,過去六個月里,已經(jīng)有一些AI顯示出具有自我保護行為,撒謊甚至是欺騙、勒索人類。
左右滑動查看
Bengio教授說,如果我們最終創(chuàng)造出與人類競爭的AGI,那將是非常糟糕的。
我們該怎么辦?
雖然AI的性能可能很強,Bengio教授表示,但我們可以確保它們沒有不良意圖,保證它們是誠實的。
Bengio教授現(xiàn)在的研究項目就在嘗試構(gòu)建只有智能而沒有自我和目標(biāo)的AI。
目的是讓AI有用但不會威脅到我們,確保AI會遵循我們的道德指令。
他將其稱之為「科學(xué)家AI」(Scientist AI)。
Bengio教授現(xiàn)場講解了這種新的AI推理方法:通過構(gòu)建類似數(shù)學(xué)證明的結(jié)構(gòu)化假設(shè)圖來提高推理能力。
AI不再只是模仿人類文本,而是通過分析這些陳述的邏輯一致性和概率來尋找解釋,生成更可靠的結(jié)論。
最后,Bengio教授呼吁國家、企業(yè)之間要攜手合作,共同應(yīng)對AI的安全風(fēng)險。
Richard Sutton
AI「體驗時代」來臨
這次大會,還請來了2024 ACM圖靈獎得主Richard Sutton,爆火博文「苦澀的教訓(xùn)」原作大佬。
演講中,Richard教授分享了自己對AI未來深刻洞見,正如演講題目所言——
AI正從「人類數(shù)據(jù)時代」,邁入「體驗時代」。
他指出,當(dāng)前AI訓(xùn)練主要依賴于互聯(lián)網(wǎng)上,人類生成的數(shù)據(jù),如文本、圖像,并通過人類微調(diào)來優(yōu)化。
在「人類數(shù)據(jù)時代」,AI在模仿人類行為和預(yù)測人類意圖方面,取得了巨大的成功,比如ChatGPT。
然而,這一策略正接近極限。高質(zhì)量人類數(shù)據(jù)幾乎被耗盡,而生成全新知識需要超越模仿,走向與世界的直接互動。
這時,「體驗時代」成為AI發(fā)展的下一個階段。
Richard Sutton強調(diào),AI應(yīng)像人類和動物一樣,從第一人稱的經(jīng)驗中學(xué)習(xí)。
無論是嬰兒通過玩耍探索世界,還是足球運動員、動物在環(huán)境中學(xué)習(xí)決策, 這些經(jīng)驗數(shù)據(jù)全部來自與環(huán)境中的「實時互動」。
這種數(shù)據(jù)是動態(tài)的、不斷增長的,能夠隨著AI能力提升不斷改善,比如AlphaGo通過對弈下出了「第37步」、AlphaProof在數(shù)學(xué)奧賽中拿下大獎。
因此,Richard認(rèn)為,未來的AI——智能體,需要通過與世界直接交互,去獲取經(jīng)驗數(shù)據(jù),從而實現(xiàn)真正的智能突破。
與悲觀派Bengio不同的是,Richard大會直言,「我不擔(dān)心安全,也不擔(dān)心失業(yè),超級智能體和超級智能能夠增強人類的創(chuàng)造,這是世界轉(zhuǎn)變和發(fā)展的一部分」。
而當(dāng)下,人類已經(jīng)進入使用強化學(xué)習(xí)的全新「體驗時代」,要發(fā)揮AI超能力,還需要更好的深度學(xué)習(xí)算法。
π聯(lián)創(chuàng)兼CEO
構(gòu)建物理智能
接下來登場的,便是曾任谷歌大腦資深研究科學(xué)家兼機器人操控主管、現(xiàn)任Physical Intelligence聯(lián)合創(chuàng)始人兼CEO的Karol Hausman。
他的演講主題為「構(gòu)建物理智能」。
要知道,早先的機器人一旦遇到環(huán)境上的變化,就會無法應(yīng)對;但如今,機器人開始變得更加絲滑,能跳流暢的舞蹈,還能靈活應(yīng)對非結(jié)構(gòu)化的環(huán)境。
所以,究竟發(fā)生了什么?
答案顯而易見:AI出現(xiàn)了。
而其中最重要的,就是視覺語言動作模型。
首先,我們可以采用預(yù)先在網(wǎng)絡(luò)上訓(xùn)練好的視覺語言模型,它對世界如何運作已經(jīng)有了高水平理解,并且能將其中一些含義轉(zhuǎn)移到機器人的動作上。
比如,Robotics Transformer 2從沒見過霉霉的照片,卻能完成「給霉霉遞可樂」的這個動作。
原因正是因為,它從互聯(lián)網(wǎng)的預(yù)訓(xùn)練中獲得了知識,然后將知識轉(zhuǎn)化,連接到機器人,讓其真正實現(xiàn)了理解。
其次,除了互聯(lián)網(wǎng)之外,我們還可以把各種來源的數(shù)據(jù)都整合到一起。
為此,團隊訓(xùn)練了一個模型,來控制任何機器人執(zhí)行任何任務(wù)。
經(jīng)過5個月的研發(fā)后,機器人就已經(jīng)能從烘干機取出衣物、放進籃子里、疊起來。
可以看出來,下面這項疊衣服的任務(wù)非常艱巨,很棘手。需要做出很多種不同動作,才能正確抓住襯衫的角。
甚至,這個系統(tǒng)足夠強大,我們可以隨時可以中斷它,而不影響任務(wù)。這并沒有經(jīng)過專門訓(xùn)練。
這個過程中真正發(fā)揮作用的,就是預(yù)訓(xùn)練和后訓(xùn)練的內(nèi)部模型。
下面所展示的就是他們和星辰智能的合作,讓機器人學(xué)會了煮咖啡。
在泛化上,他們成功實現(xiàn)了讓機器人在從未見過的環(huán)境里工作。
在開始打掃之前,機器人從沒見過這間房間,卻能在全新環(huán)境中打掃、做家務(wù)。
Hausman相信,如果真的成功解決了物理智能的問題,我們絕不會止步于人形機器人。那時,我們將經(jīng)歷機器人的寒武紀(jì)大爆發(fā)。
當(dāng)然,雖然π展現(xiàn)了一些物理智能的火花,但還不是物理智能,仍處于早期階段。
不過,就如同我們剛開始使用電的時候,需要花費很多力氣才能馴服它。如果我們能解決物理智能的問題,勞動力就將唾手可得。
「悟界」系列大模型,邁向物理AGI
大會重中之重,便是智源研究院一系列的重磅發(fā)布。
過去的一年,實踐證明智源在2024年對大模型技術(shù)路線預(yù)判的正確性:
大模型正從大語言模型——原生多模態(tài)模型——世界模型逐漸演進。
過去四年,智源研究院繼續(xù)圍繞這一趨勢展開布局,并在今天重磅推出全新「悟界」系列大模型。
2021年,「悟道」大模型誕生,正式開啟了中國大模型時代。而今天「悟界」大模型的出世,標(biāo)志著AI從數(shù)字世界邁向了物理世界。
具體來說,「悟界」系列大模型共包含四款模型:
· 原生多模態(tài)世界模型Emu3
· 全球首個腦科學(xué)多模態(tài)通用基礎(chǔ)模型見微Brainμ
· 具身大腦RoboBrain 2.0
· 全原子微觀生命模型OpenComplex2
從微觀生命體到具身智能體,「悟界」系列大模型試圖揭示生命機理本質(zhì)規(guī)律,構(gòu)建人工智能與物理世界的交互基座。
原生多模態(tài)世界模型Emu3
去年10月,智源首次發(fā)布了Emu3,完全統(tǒng)一了多模態(tài)學(xué)習(xí),統(tǒng)一了圖像、視頻、文本,統(tǒng)一了生成和理解。
Emu3之所以如此強大,得益于其背后的框架。
它基于下一個token預(yù)測統(tǒng)一多模態(tài)學(xué)習(xí),原生支持自回歸訓(xùn)練和推理,無需擴散模型,也無需組合式架構(gòu)復(fù)雜性。
通過整合多模態(tài)數(shù)據(jù),Emu3構(gòu)建出了對物理世界的感知理解能力,為具身智能和現(xiàn)實交互奠定基礎(chǔ)。
它支持多模態(tài)輸入、多模態(tài)輸出的端到端映射,驗證了自回歸框架在多模態(tài)領(lǐng)域的普適性與先進性,為跨模態(tài)交互提供了強大的技術(shù)基座。
值得一提的是,Emu3已面向AI社區(qū)開源。
在這個統(tǒng)一框架下,過去半年多時間中,智源將其擴展到更多的模態(tài)領(lǐng)域。
最具典型代表的,便是擴展到「腦信號」模態(tài)。
由此,全球首個腦科學(xué)多模態(tài)通用基礎(chǔ)模型「見微Brainμ」誕生了。
全球首個腦科學(xué)多模態(tài)通用基礎(chǔ)模型見微Brainμ
Brainμ基于Emu3架構(gòu),引入腦信號這一新的模態(tài)數(shù)據(jù),實現(xiàn)了單一模型完成多種神經(jīng)科學(xué)任務(wù)的大一統(tǒng)。
具體來說,它將fMRI、EEG、雙光子等信號統(tǒng)一token化,實現(xiàn)了多模態(tài)腦信號與文本、圖像等模態(tài)的多項映射。
見微Brainμ以單一模型可以完成多種神經(jīng)科學(xué)的下游任務(wù)。
通過整合多個大型公開數(shù)據(jù)集和多個合作實驗室的高質(zhì)量神經(jīng)科學(xué)數(shù)據(jù),Brainμ可以支持從基礎(chǔ)研究到臨床研究等不同的方向,有望成為腦科學(xué)的「AlphaFold」模型。
作為跨任務(wù)、跨模態(tài)、多物種、跨個體的基礎(chǔ)通用模型,Brainμ可以同步處理多類編解碼任務(wù),兼容多種動物模型(包括小鼠、狨猴、獼猴)與人類數(shù)據(jù),實現(xiàn)科學(xué)數(shù)據(jù)注釋、交互式科學(xué)結(jié)論解讀等。
在自動化睡眠分型、感官信號重建與多種腦疾病診斷等任務(wù)中,刷新SOTA表現(xiàn)。
Brainμ也可以支持拓展腦機接口應(yīng)用,首次在便攜式消費級腦電系統(tǒng)上重建感覺信號。
智源正在與國內(nèi)前沿的基礎(chǔ)神經(jīng)科學(xué)實驗室、腦疾病研究團隊和腦機接口團隊深入合作,包括北京生命科學(xué)研究所、清華大學(xué)、北京大學(xué)、復(fù)旦大學(xué)與強腦科技BrainCO,拓展Brainμ的科學(xué)與工業(yè)應(yīng)用。
不論是Emu3,還是見微Brainμ,都代表著智源在多模態(tài)基礎(chǔ)模型領(lǐng)域的探索。
而這些成果,皆是為了讓AI能夠真正看到、感知、理解這個世界,并與世界進行交互,從而推動具身智能的發(fā)展。
全球最強開源具身大腦
不過,具身智能也面臨諸多挑戰(zhàn),甚至陷入了「循環(huán)悖論」。
而具身智能大模型不好用、不通用、不易用,成為了核心痛點。
為此,智源提前布局,在今年3月發(fā)布了首次發(fā)布跨本體具身大小腦協(xié)作框架RoboOS 1.0以及具身大腦RoboBrain 1.0。
時隔3個月,全新升級后的RoboOS 2.0和RoboBrain 2.0官宣上線。
現(xiàn)場演示中,全新具身大腦加持的機器人本體,為小姐姐制作了一款漢堡和飲料套餐。
即便是在制作過程中,遇到了刁難——「我不要西紅柿\我要這個」,機器人也能立馬理解,并做出下一步規(guī)劃。
而且,它還貼心考慮到小姐姐減肥需求,主動推薦了無糖可樂。最后機器人還幫忙打掃餐桌,全程操作非常絲滑。
· RoboOS 2.0
相較于RoboOS 1.0,新版本在多方面得到了升級,提供全球首個具身智能SaaS平臺,支持無服務(wù)器一站式輕量化機器人本體部署的開源框架。
而且,RoboOS 2.0還將支持MCP,打造全球首個具身智能的應(yīng)用商店。
在這個框架下,全新小腦技能的注冊代碼量,僅需1.0版本的十分之一。
同時,RoboOS 2.0推理鏈路效率大幅提升30%,平均延遲響應(yīng)時間將至3ms,端云通信效率提升27倍。
除此之外,RoboOS 2.0在功能上還新增了業(yè)內(nèi)首創(chuàng)多本體時空記憶場景圖(Scene Graph)共享機制,同時引入多粒度任務(wù)監(jiān)控模塊。
· RoboBrain 2.0
具身大腦RoboBrain 2.0,是目前全球最強開源具身大腦大模型。
在空間感知/推理與多任務(wù)規(guī)劃上,RoboBrain 2.0超越主流大模型,刷新SOTA。
相較于1.0,全新具身大腦模型進一步擴展了多本體-環(huán)境動態(tài)建模的多機協(xié)同規(guī)劃能力。
如今,RoboBrain 2.0可實時構(gòu)建出包含本體定位的場景圖(Scene Graph),任務(wù)規(guī)劃準(zhǔn)確率較上一代飆升至74%。
在空間智能方面,2.0版本在原有物體級可操作區(qū)域(Objective Affordance)感知與操作軌跡(Trajectory)生成能力的基礎(chǔ)上,實現(xiàn)了17%的性能提升。
更令人振奮的是,RoboBrain 2.0將「可操作區(qū)域」從物體級擴展至空間級,從而在復(fù)雜環(huán)境中執(zhí)行更靈活、高效的操作。
除了在感知能力上突破,它還新增了兩大核心能力:閉環(huán)反饋和深度思考。
同初代框架模型一樣,RoboOS 2.0和RoboBrain 2.0所有代碼、權(quán)重、數(shù)據(jù)、評測集全部開源。
全原子微觀生命模型OpenComplex2
大會現(xiàn)場還發(fā)布了OpenComplex2,實現(xiàn)了生物分子研究從靜態(tài)結(jié)構(gòu)預(yù)測到動態(tài)構(gòu)象分布建模的重大突破。
OpenComplex2能夠表征生物分子系統(tǒng)的連續(xù)演化能量景觀,在原子層面捕捉分子相互作用及平衡構(gòu)象分布,為探索微觀構(gòu)象波動與宏觀生物功能的跨尺度關(guān)聯(lián)提供了全新的研究視角。
它基于FloydNetwork圖擴散框架以及多尺度原子精度表示兩大關(guān)鍵技術(shù)創(chuàng)新,能夠更加真實地還原生物分子的構(gòu)象多樣性與動態(tài)特性。
這使得在建模過程中可以兼顧關(guān)鍵的局部結(jié)構(gòu)細節(jié)與全局構(gòu)象變化,為揭示生物功能提供更加全面的基礎(chǔ)結(jié)構(gòu)。
OpenComplex2突破了靜態(tài)結(jié)構(gòu)預(yù)測的瓶頸。
2024年,在第16屆蛋白質(zhì)結(jié)構(gòu)預(yù)測關(guān)鍵評估競賽CASP16(Critical Assessment of protein Structure Prediction)中,成功預(yù)測了蛋白質(zhì)T1200/T1300的空間構(gòu)象分布(定性上與實驗數(shù)據(jù)一致),成為23支參賽隊伍中唯一取得該突破的團隊。
OpenComplex2將加速從基礎(chǔ)分子機制研究到藥物設(shè)計等下游應(yīng)用的發(fā)展。
結(jié)合AI精準(zhǔn)預(yù)測和高通量實驗驗證,有望大幅縮短生物醫(yī)藥研發(fā)時間,降低成本,提高成果轉(zhuǎn)化率,助力產(chǎn)業(yè)高質(zhì)量創(chuàng)新。
可以看出,從「悟道」到「悟界」,智源研究院始終走在技術(shù)路線探索的前沿,積極構(gòu)建開源開放的技術(shù)生態(tài)。
而在未來,智源研究院還將持續(xù)解構(gòu)物理世界與智能本質(zhì)的深層關(guān)聯(lián),在AGI的征途中刻下新的坐標(biāo)。
最后,智源大會開幕式今天圓滿結(jié)束,留給與會者和網(wǎng)絡(luò)上的觀眾們無盡的收獲和思考。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.