99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

MCU:全球首個生成式開放世界基準(zhǔn),革新通用AI評測范式

0
分享至




該工作由通用人工智能研究院 × 北京大學(xué)聯(lián)手打造。第一作者鄭欣悅為通用人工智能研究院研究員,共同一作為北京大學(xué)人工智能研究院博士生林昊葦,通訊作者為北京大學(xué)助理教授梁一韜和通用人工智能研究院研究員鄭子隆。

開發(fā)能在開放世界中完成多樣任務(wù)的通用智能體,是AI領(lǐng)域的核心挑戰(zhàn)。開放世界強(qiáng)調(diào)環(huán)境的動態(tài)性及任務(wù)的非預(yù)設(shè)性,智能體必須具備真正的泛化能力才能穩(wěn)健應(yīng)對。然而,現(xiàn)有評測體系多受限于任務(wù)多樣化不足、任務(wù)數(shù)量有限以及環(huán)境單一等因素,難以準(zhǔn)確衡量智能體是否真正「理解」任務(wù),或僅是「記住」了特定解法。

為此,我們構(gòu)建了Minecraft Universe(MCU)——一個面向通用智能體評測的生成式開放世界平臺。MCU 支持自動生成無限多樣的任務(wù)配置,覆蓋豐富生態(tài)系統(tǒng)、復(fù)雜任務(wù)目標(biāo)、天氣變化等多種環(huán)境變量,旨在全面評估智能體的真實(shí)能力與泛化水平。該平臺基于高效且功能全面的開發(fā)工具MineStudio構(gòu)建,支持靈活定制環(huán)境設(shè)定,大規(guī)模數(shù)據(jù)集處理,并內(nèi)置 VPTs、STEVE-1 等主流 Minecraft 智能體模型,顯著簡化評測流程,助力智能體的快速迭代與發(fā)展。



  • 論文地址:https://arxiv.org/pdf/2310.08367
  • 代碼開源:https://github.com/CraftJarvis/MCU
  • 項(xiàng)目主頁:https://craftjarvis.github.io/MCU
  • MineStudio:https://github.com/CraftJarvis/MineStudio

開放世界AI,亟需理想的評測基準(zhǔn)!

傳統(tǒng)測試基準(zhǔn)包含有標(biāo)準(zhǔn)答案的任務(wù)(如代碼、推理、問答),但開放世界任務(wù) Minecraft 有著完全不同的挑戰(zhàn):

  • 目標(biāo)開放多樣:任務(wù)沒有唯一解,策略可以千變?nèi)f化;
  • 環(huán)境狀態(tài)龐雜:狀態(tài)空間近乎無限,還原真實(shí)世界復(fù)雜度;
  • 長周期任務(wù)挑戰(zhàn):關(guān)鍵任務(wù)持續(xù)數(shù)小時,智能體需長期規(guī)劃。

在這樣的環(huán)境中,我們需要的不只是一個評分系統(tǒng),而是一個維度豐富、結(jié)構(gòu)多元的綜合評測框架。

MCU:為開放世界 AI 打造的「全方位試煉場」

當(dāng)前已有不少 Minecraft 的測試基準(zhǔn),但它們普遍面臨「三大瓶頸」:

  • 任務(wù)單一:局限于如挖鉆石、制造材料等少數(shù)幾個場景的循環(huán)往復(fù)。
  • 脫離現(xiàn)實(shí):部分建模任務(wù)甚至超出了普通人類玩家的能力范疇。
  • 依賴人工評測:效率低下,導(dǎo)致評測難以規(guī)模化推廣。



與之前 minecraft 測試基準(zhǔn)對比示意圖。

針對以上痛點(diǎn),MCU 實(shí)現(xiàn)了以下三大核心突破:

一:3,452 個原子任務(wù) × 無限組合生成,構(gòu)筑海量任務(wù)空間

MCU 構(gòu)建了一個覆蓋真實(shí)玩家行為的超大任務(wù)庫:

  • 11 大類 × 41 子類任務(wù)類型:如挖礦、合成、戰(zhàn)斗、建造等;
  • 每個任務(wù)都是「原子級粒度」:可獨(dú)立測試控制、規(guī)劃、推理、創(chuàng)造等能力;
  • 支持 LLM 動態(tài)擴(kuò)展任務(wù),比如:用鉆石劍擊敗僵尸、雨天徒手采集木材、

在沙漠中建一座水上屋。

任意組合這些原子任務(wù),即可生成無限的新任務(wù),每一個都對 AI 是全新挑戰(zhàn)!



模擬多樣化真實(shí)世界挑戰(zhàn)。

二. 任務(wù)全自動生成 × 多模態(tài)智能評測,革新評估效率

GPT-4o 賦能,一句話生成復(fù)雜世界:

  • 自動生成完整的任務(wù)場景(包括天氣、生物群系、初始道具等)。
  • 智能驗(yàn)證任務(wù)配置的可行性,有效避免如「用木鎬挖掘鉆石」這類邏輯錯誤型任務(wù)。

VLM(視覺語言模型)驅(qū)動,徹底改變了傳統(tǒng)人工打分的低效模式:

  • 基于 VLM 實(shí)現(xiàn)對任務(wù)進(jìn)度、控制策略、材料利用率、執(zhí)行效率、錯誤檢測及創(chuàng)造性六大維度的智能評分。
  • 模型自動生成詳盡的評估文本,評分準(zhǔn)確率高達(dá)91.5%
  • 評測效率相較人工提升8.1 倍,成本僅為人工評估的1/5!



任務(wù)生成 x 多模態(tài)評測流程圖。

三:高難度 × 高自由度的「試金石」任務(wù)設(shè)計(jì),深度檢驗(yàn)泛化能力

MCU 支持每個任務(wù)的多種難度版本,如:

  • 「白天在草原擊殺羊」VS「夜晚在雨林躲避怪物并擊殺羊」;
  • 「森林里造瀑布」VS「熔巖坑邊緣建造瀑布」。

這不僅考驗(yàn) AI 是否能完成任務(wù),更深度檢驗(yàn)其在復(fù)雜多變環(huán)境下的泛化與適應(yīng)能力。

打破「模型表現(xiàn)良好」的幻象:現(xiàn)有 SOTA 模型能否駕馭 MCU ?

我們將當(dāng)前領(lǐng)域頂尖的 Minecraft 智能體引入 MCU 進(jìn)行實(shí)戰(zhàn)檢驗(yàn):GROOT:視頻模仿學(xué)習(xí)代表;STEVE-I:指令執(zhí)行型控制器;VPT(BC/RL):基于 YouTube 行為克隆訓(xùn)練而成的先驅(qū)。結(jié)果發(fā)現(xiàn),這些智能體在簡單任務(wù)上表現(xiàn)尚可,但在面對組合任務(wù)和陌生配置場景時,完成率急劇下降,且錯誤識別與創(chuàng)新嘗試是其短板。









SOTA 模型在 MCU 上的測試結(jié)果。

研究團(tuán)隊(duì)引入了更細(xì)粒度的任務(wù)進(jìn)度評分指標(biāo)(Task Progress),區(qū)別于傳統(tǒng) 0/1 式的「任務(wù)完成率」,它能動態(tài)刻畫智能體在執(zhí)行過程中的階段性表現(xiàn),哪怕任務(wù)失敗,也能反映其是否在朝正確方向推進(jìn)。

實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)前主流模型如 GROOT、STEVE-I、VPT-RL,在原子任務(wù)中尚有可圈可點(diǎn)的表現(xiàn),但一旦面對更具組合性和變化性的任務(wù),其成功率便會驟降。甚至對環(huán)境的微小改動也會導(dǎo)致決策混亂。比如「在房間內(nèi)睡覺」這個看似簡單的任務(wù),僅僅是將床從草地搬到屋內(nèi),就讓 GROOT 頻繁誤把箱子當(dāng)床點(diǎn)擊,甚至轉(zhuǎn)身離開現(xiàn)場——這揭示了現(xiàn)有模型在空間理解與泛化上的明顯短板。

更令人警醒的是,智能體在建造、戰(zhàn)斗類任務(wù)中的「創(chuàng)造性得分」與「錯誤識別能力」幾乎全面落后。這說明它們尚未真正具備人類那種「發(fā)現(xiàn)問題、調(diào)整策略」的自主意識,而這正是通用智能邁向下一個階段的關(guān)鍵。

MCU 的評測結(jié)果首次系統(tǒng)性地揭示了當(dāng)前開放世界智能體在「泛化、適應(yīng)與創(chuàng)造」這三大核心能力上存在的鴻溝,同時也為未來的研究指明了方向:如何讓 AI 不僅能高效完成任務(wù),更能深刻理解任務(wù)的本質(zhì),并創(chuàng)造性地解決復(fù)雜問題。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
拜登舊部一個不留!特朗普不顧各方勸阻,要幫中國報80年之仇

拜登舊部一個不留!特朗普不顧各方勸阻,要幫中國報80年之仇

混沌錄
2025-06-27 23:09:25
靳東獲白玉蘭獎最佳男主角

靳東獲白玉蘭獎最佳男主角

大象新聞
2025-06-27 23:10:11
超級模特何穗大膽泳裝身材真好,個子太高

超級模特何穗大膽泳裝身材真好,個子太高

鄉(xiāng)野小珥
2025-06-04 03:42:44
離開上海申花,27歲門將閃耀中超!率升班馬排第6,僅落后泰山2分

離開上海申花,27歲門將閃耀中超!率升班馬排第6,僅落后泰山2分

球場沒跑道
2025-06-27 18:47:34
38歲閨蜜開始慌了:相親妥協(xié)的速度,竟趕不上自己貶值的速度

38歲閨蜜開始慌了:相親妥協(xié)的速度,竟趕不上自己貶值的速度

加油丁小文
2025-06-22 07:30:03
經(jīng)銷商末日到了!茅臺卸磨殺驢,背后竟是一場血腥資本游戲!

經(jīng)銷商末日到了!茅臺卸磨殺驢,背后竟是一場血腥資本游戲!

詩與星空
2025-06-27 08:00:07
國足新帥久爾杰維奇曾帶隊(duì)參加23年亞運(yùn)會,隊(duì)內(nèi)17人已入選國足

國足新帥久爾杰維奇曾帶隊(duì)參加23年亞運(yùn)會,隊(duì)內(nèi)17人已入選國足

懂球帝
2025-06-27 20:33:07
晚高峰變“水上威尼斯” 上海部分路段已積水

晚高峰變“水上威尼斯” 上海部分路段已積水

看看新聞Knews
2025-06-27 19:52:28
又見成都太古里“垮掉的一代”:遍地流氓時尚,飽了眼福長了見識

又見成都太古里“垮掉的一代”:遍地流氓時尚,飽了眼福長了見識

葡萄說娛
2025-06-27 15:39:18
葛斯齊曝汪小菲和S媽的聊天記錄是S媽給他爆料的,網(wǎng)友:騙傻子?

葛斯齊曝汪小菲和S媽的聊天記錄是S媽給他爆料的,網(wǎng)友:騙傻子?

心靜物娛
2025-06-27 10:09:02
黃一鳴自曝:王思聰每次約她,車費(fèi)都給10萬,來給5萬,回再給5萬

黃一鳴自曝:王思聰每次約她,車費(fèi)都給10萬,來給5萬,回再給5萬

果娛
2025-06-25 12:35:16
新事丨兩款“短缺藥”拒絕降價,被暫停采購

新事丨兩款“短缺藥”拒絕降價,被暫停采購

健識局
2025-06-25 20:20:19
傳周秀娜被千億富豪李家誠包養(yǎng)多年,已秘密生子?周秀娜親揭真相

傳周秀娜被千億富豪李家誠包養(yǎng)多年,已秘密生子?周秀娜親揭真相

大笑江湖史
2025-06-27 15:02:01
福建省公安廳政治部主任林曉東,赴廈門履新(附簡歷)

福建省公安廳政治部主任林曉東,赴廈門履新(附簡歷)

魯中晨報
2025-06-27 21:00:16
中美正式簽署諒解備忘錄,美要求中國先交付稀土,美國就取消反制

中美正式簽署諒解備忘錄,美要求中國先交付稀土,美國就取消反制

說說史事
2025-06-27 14:53:40
上映第7天,《醬園弄》就丟了冠軍,陳思誠新片9小時票房僅55萬

上映第7天,《醬園弄》就丟了冠軍,陳思誠新片9小時票房僅55萬

靠譜電影君
2025-06-27 09:46:24
越來越多人得癌癥,醫(yī)生提醒:洗碗時幾個壞習(xí)慣,看看占了幾個?

越來越多人得癌癥,醫(yī)生提醒:洗碗時幾個壞習(xí)慣,看看占了幾個?

39健康網(wǎng)
2025-06-05 20:41:19
受權(quán)發(fā)布|中華人民共和國治安管理處罰法

受權(quán)發(fā)布|中華人民共和國治安管理處罰法

新華社
2025-06-27 18:39:03
美國防部公布視頻:展示巨型鉆地彈如何“摧毀”伊朗核設(shè)施,撞擊后揚(yáng)起巨大塵土,稱不會留下沖擊坑

美國防部公布視頻:展示巨型鉆地彈如何“摧毀”伊朗核設(shè)施,撞擊后揚(yáng)起巨大塵土,稱不會留下沖擊坑

揚(yáng)子晚報
2025-06-27 10:03:22
公開決裂?洪森4小時超長直播指控:他信父女“叛國”

公開決裂?洪森4小時超長直播指控:他信父女“叛國”

觀察者網(wǎng)
2025-06-27 21:12:06
2025-06-28 00:51:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10735文章數(shù) 142349關(guān)注度
往期回顧 全部

科技要聞

雷軍:小米汽車成功沒靠營銷,靠的是能力

頭條要聞

上合成員國防長會議未就聯(lián)合聲明達(dá)成一致 外交部回應(yīng)

頭條要聞

上合成員國防長會議未就聯(lián)合聲明達(dá)成一致 外交部回應(yīng)

體育要聞

中國足協(xié)官方宣布伊萬科維奇下課 久爾杰維奇出任代理主帥

娛樂要聞

白玉蘭戰(zhàn)報!宋佳靳東分獲視后視帝

財經(jīng)要聞

合新鐵路建設(shè)材料以次充好 多家單位被罰

汽車要聞

配置升級/貴賓座椅 全新GL8陸上公務(wù)艙售22.99萬

態(tài)度原創(chuàng)

本地
游戲
時尚
公開課
軍事航空

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

最值得期待的國產(chǎn)3A大作!《影之刃零》到底藏了多少好東西?

汪峰《桃花塢》牽手寧靜!網(wǎng)友:難怪章子怡選他

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美媒揭美軍37小時奔襲伊朗細(xì)節(jié)

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 万载县| 海宁市| 抚州市| 嘉荫县| 万山特区| 都兰县| 左权县| 灌阳县| 罗源县| 广安市| 正镶白旗| 九龙坡区| 宜兰县| 舟山市| 织金县| 游戏| 文成县| 中牟县| 乐至县| 秦安县| 忻州市| 通江县| 兴安县| 通山县| 天峨县| 马龙县| 金沙县| 嘉禾县| 桑植县| 松阳县| 育儿| 张家口市| 西乌珠穆沁旗| 章丘市| 柘荣县| 尚义县| 北川| 竹北市| 榕江县| 长顺县| 舒城县|