99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI無師自通,搞定所有家務!π0.5突破泛化極限,UC伯克利系出品

0
分享至


新智元報道

來源:學術頭條

【新智元導讀】具身智能最大的挑戰在于泛化能力,即在陌生環境中正確完成任務。最近,Physical Intelligence推出全新的π0.5 VLA模型,通過異構任務協同訓練實現了泛化,各種家務都能拿捏。

近年來,機器人取得了顯著進展,能表演雜技、跳舞、聽從指令,甚至完成疊衣服、擦桌子等復雜任務。但機器人面臨的最大挑戰并非靈活性,而是泛化能力——在新環境中正確完成任務的能力。

想象一個你家中的清潔機器人:每個家庭布局不同,物品擺放各異,機器人必須在多個層面上實現泛化。低層面上,它需學會如何抓起未曾見過的勺子或盤子;高層面上,它要理解任務語義,如衣服應放進洗衣籃、用何種工具擦拭溢出物。實現這種能力既依賴強大的操作技能,也需要常識理解,而現實中可用于訓練的數據又極其有限,這進一步增加了困難。

即使近年來的機器人在靈巧性方面有所突破,往往也是基于特定場景和相似數據訓練出來的。

因此,如果我們希望機器人成為我們日常生活的一部分,在我們的家中、雜貨店、辦公室、醫院和其他“雜亂”的環境中工作,機器人就必須具備更加強大的泛化能力。

今天,美國具身智能公司 Physical Intelligence 推出了一個基于 π0 的視覺-語言-動作(VLA)模型 π0.5,其利用異構任務的協同訓練來實現廣泛的泛化,可以在全新的家中執行各種任務。

實驗表明,這種知識遷移對于有效的泛化至關重要,而且他們首次證明,端到端學習型機器人系統可以在全新的家庭中執行長程靈巧操作技能,例如清潔廚房或臥室。

π0.5是如何工作的?

π0.5 背后的主要原理是異構數據的共同訓練:通過在各種不同的數據源上訓練 VLA 模型,不僅可以教它如何物理地執行不同的技能,還可以教它如何理解每項技能的語義背景,推斷任務的高級結構,甚至從其他機器人轉移物理行為。

協同訓練的概念很簡單:由于 VLA 源自通用的視覺語言模型(VLM),因此它們可以在包含動作、圖像、文本和其他多模態標注(例如邊界框)的任意組合的示例上進行訓練。這包括通用的多模態任務,如圖像字幕、視覺問答或物體檢測;面向機器人的任務,如帶有動作的機器人演示;以及“高級”機器人示例,這些示例由帶有適當語義行為標記的觀察結果組成。演示還包含“口頭指令”,即一個人通過自然語言一步步指導機器人完成一項復雜任務。該模型既可以對下一步要執行的語義步驟進行高級推理(類似于思路鏈推理),也可以進行低級預測,以向機器人的關節輸出運動指令。


圖|π0.5 的協同訓練任務示意圖,其中包括來自多種不同機器人類型的各種機器人數據源,以及包括高級子任務指令、指示和網絡數據在內的多模態數據。

雖然協同訓練的基本原理并非新事物,但訓練一個能夠廣泛泛化的 VLA 需要合理地組合協同訓練任務。VLA 需要由多種協同訓練任務組成的“課程”,以便在所有必要的抽象層次上實現泛化。在實驗中,他們訓練了 π0.5 模型的不同版本,這些版本排除了完整訓練混合的不同部分,只留下使用在實驗中使用的相同機器人收集的移動操作數據(約 400 小時)。


圖|評估完整的 π0.5 訓練混合與排除各種數據源的消減相比。網絡數據(WD)在泛化到分布外對象方面的差異最大,而來自其他機器人(ME 和 CE)的數據在所有評估條件下都很重要。

他們評估了兩種實驗條件:全面清潔任務;以及分布外泛化(OOD)評估,要求機器人將提示中指示的特定物體移入抽屜。對于這兩種評估,都測量了成功率和語言理解率。在所有情況下,來自其他機器人(ME 和 CE)的數據對策略性能產生了巨大影響。在 OOD 案例中,他們還發現與包含網絡數據(WD)的策略性能存在差異,這提高了機器人正確識別數據中未包含的新物體類別的能力。

為了更好地量化 π0.5 能夠實現的泛化程度,他們進行了一項擴展研究,其中改變了訓練數據中不同環境的數量。他們還在比較中加入了基線模型,該模型使用所有其他數據源的數據外,還直接使用來自測試環境的數據進行訓練。該模型(用水平綠線表示)可以直觀地了解,如果消除了泛化到新環境的挑戰,VLA 在該場景中的表現如何。


圖|評估在與訓練混合中的其他數據集共同訓練時,性能如何隨訓練環境的數量而變化。當使用所有可用的訓練環境時(圖中最右邊一點),π0.5(黃色)與直接在測試環境(綠色)中訓練的基線模型性能相似。

這些結果不僅表明,π0.5 的泛化性能會隨著訓練集中不同環境數量的增加而穩步提升,而且僅僅經過大約 100 個訓練環境,它的性能就接近了直接在測試環境中訓練的基線模型。

訓練和推理

π0.5 構建于 π0 VLA 基礎之上,經過聯合訓練,能同時輸出動作和文本標簽,因此可在高層和低層控制機器人。在運行時,它先生成一個文本形式的“高級”動作,再細化為一組連續的低級關節動作(每組稱為一個 50 步的“動作塊”)來執行該動作。

這一流程延續了他們此前的 Hi Robot 系統思路,不同之處在于 π0.5 將高級決策與低級控制統一由同一模型完成,類似于“思維鏈”模式。

模型本身包含離散自回歸 token 解碼和通過流匹配進行的連續解碼,例如 π0。離散解碼路徑用于推斷高級動作,而連續流匹配路徑用于推斷低級運動命令。


圖|π0.5 使用的高層/低層推理程序。該模型首先生成一個用語言表達的高級動作,基本上是“告訴自己”應該采取什么步驟來完成任務,然后利用其流程匹配動作專家來選擇運動指令。

如果換個房子試試呢?

他們通過讓 π0.5 控制機械手,在訓練數據中從未見過的新房屋中完成清潔任務,以評估其泛化能力。對 VLA 來說,這是極具挑戰的測試。盡管 VLA 曾展現出出色的泛化能力,如理解語義指令、與人互動、組合技能等,但這些能力多在與訓練環境相似的場景中實現。

此前,他們的 π0-FAST 雖能通過 DROID 系統推廣到新環境,但僅限于如移動物體等簡單任務。而此次實驗中,π0.5 被放入全新家庭,需完成收拾碗碟、整理床鋪、清潔地板等復雜任務。這些任務不僅耗時,還要求機器人執行如用海綿擦拭等復雜動作,理解任務語義,并將其拆解為多個環節,每步都需與正確的物體互動。

最后,π0.5 模型可以接受不同粒度的語言命令,從“把盤子放進水槽”這樣的高級提示,到指示模型拾取特定物體或朝特定方向移動的詳細單個命令。他們在下方視頻中展示了一些語言跟隨的示例。

下一步:更泛化的物理智能

這項工作表明,VLA 能夠實現出色的泛化能力,即便面對如清潔廚房或臥室這樣復雜且多變的機器人任務,也能有效應對。π0.5 能夠讓機器人完成在訓練數據中從未遇到過的新家庭環境的清潔任務。

盡管 π0.5 還不夠完美,常在高級語義推理和動作執行指令方面出現錯誤,但研究人員希望,通過讓機器人從多樣的知識來源中學習,π0.5 能夠幫助我們更接近實現廣泛泛化、靈活應變的物理智能。

目前,這些機器人可以通過語言反饋進行改進;未來,它們還可能借助自主經驗,在更少監督的情況下不斷優化,或在不熟悉的情境中主動請求幫助和建議。盡管如此,在知識遷移、模型構建技術,以及數據來源的多樣性等方面,仍有大量進步空間。

參考資料:

https://mp.weixin.qq.com/s/T3sufjvlfjW5oFtWhCf9-g

本文轉自學術頭條,若二次轉載請聯系原作者

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
斷電斷糧斷燃油,以軍24小時瘋狂摧毀:也門胡塞打服了,要求停火

斷電斷糧斷燃油,以軍24小時瘋狂摧毀:也門胡塞打服了,要求停火

近史博覽
2025-05-07 16:29:24
許家印為保命全部交代!供出背后三大靠山都是誰?

許家印為保命全部交代!供出背后三大靠山都是誰?

三農老歷
2025-05-04 08:13:35
王朔:大部分人基本價值觀混亂,越老越不懂事

王朔:大部分人基本價值觀混亂,越老越不懂事

深度報
2025-05-06 23:46:07
被嚴重低估的中國空軍實力:53個航空旅,放在全球屬于什么水平?

被嚴重低估的中國空軍實力:53個航空旅,放在全球屬于什么水平?

小宇宙雙色球
2025-04-20 08:32:28
被殲10C狠揍后,印度偷襲中方承建水電站,企圖給中方一個教訓

被殲10C狠揍后,印度偷襲中方承建水電站,企圖給中方一個教訓

獵火照狼山
2025-05-08 19:02:34
再見太陽!恭喜火箭!杜蘭特交易方案曝光,網友:白菜價

再見太陽!恭喜火箭!杜蘭特交易方案曝光,網友:白菜價

夕落秋山
2025-05-08 12:39:39
51歲鐘漢良醫美后遺癥嚴重!撞臉林瑞陽,臉部腫脹饅化似老奶奶

51歲鐘漢良醫美后遺癥嚴重!撞臉林瑞陽,臉部腫脹饅化似老奶奶

八星人
2025-05-08 14:07:02
殲-20明明已經量產,中國空軍為何還在大量生產裝備殲-16?

殲-20明明已經量產,中國空軍為何還在大量生產裝備殲-16?

健身狂人
2025-05-06 09:57:09
歐盟委員會計劃對950億歐元美國進口產品采取反制措施

歐盟委員會計劃對950億歐元美國進口產品采取反制措施

界面新聞
2025-05-08 20:49:38
美媒:莫迪給西方上了一課,只要有中國在,美國就不敢跟印度翻臉

美媒:莫迪給西方上了一課,只要有中國在,美國就不敢跟印度翻臉

天氣觀察站
2025-05-05 00:15:46
紫牛頭條|北大畢業生報警稱被女主播詐騙260萬元,主播稱相識時系單身,警方已立案

紫牛頭條|北大畢業生報警稱被女主播詐騙260萬元,主播稱相識時系單身,警方已立案

揚子晚報
2025-05-08 08:54:44
山姆年內計劃開8家店,創歷史紀錄

山姆年內計劃開8家店,創歷史紀錄

商業觀察家
2025-05-07 23:59:39
趙薇15歲女兒近照曝光!在瑞士上學住宿舍,跳手勢舞,長相很普通

趙薇15歲女兒近照曝光!在瑞士上學住宿舍,跳手勢舞,長相很普通

娛樂圈圈圓
2025-05-07 17:10:59
兩個都是兄弟國家,朝鮮卻不像巴基斯坦獲得殲10C,區別對待朝鮮

兩個都是兄弟國家,朝鮮卻不像巴基斯坦獲得殲10C,區別對待朝鮮

軌記
2025-04-27 18:05:06
英國印度達成里程碑協議,英國群眾卻怒了:在英印度人享特權,英國人吃印度蝦,憑啥?

英國印度達成里程碑協議,英國群眾卻怒了:在英印度人享特權,英國人吃印度蝦,憑啥?

悅居英國
2025-05-07 19:42:51
特斯拉在美推出更實惠Model Y新車型,起售價最低不到40000美元

特斯拉在美推出更實惠Model Y新車型,起售價最低不到40000美元

IT之家
2025-05-08 16:51:35
今晚10點,大事!

今晚10點,大事!

揭幕者
2025-05-08 15:14:19
還記得日本3個月前掉進坑里的大爺嗎?好消息:人終于找到了,壞消息:人沒了……

還記得日本3個月前掉進坑里的大爺嗎?好消息:人終于找到了,壞消息:人沒了……

一刻talks丨硬科技趣思想
2025-05-08 20:48:00
一則消息引發黃金令人震驚的行情!金價較日內高點暴跌逾90美元 究竟怎么回事?

一則消息引發黃金令人震驚的行情!金價較日內高點暴跌逾90美元 究竟怎么回事?

FX168財經官方賬號
2025-05-08 15:25:07
永久停業!山東這所學校黃了

永久停業!山東這所學校黃了

濟寧人
2025-05-08 17:23:26
2025-05-08 21:11:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12665文章數 66029關注度
往期回顧 全部

科技要聞

迎戰618,靠AI出圈后,快手有了新打法

頭條要聞

法方確認印軍"陣風"戰機被擊落 巴總理透露空戰細節

頭條要聞

法方確認印軍"陣風"戰機被擊落 巴總理透露空戰細節

體育要聞

面對一群天賦怪,阿森納只能接受失敗

娛樂要聞

劉畊宏老婆補刀 清場風波口碑翻車!

財經要聞

57政策解讀:力度空前的系統性穩增長舉措

汽車要聞

昨天李想點評了AI 今天我讓AI點評了理想

態度原創

健康
親子
教育
手機
時尚

唇皰疹和口腔潰瘍是"同伙"嗎?

親子要聞

孩子的腳有3大天敵,你能猜出來是什么嗎?

教育要聞

普高“水土不服”?國際學校或許是你的Plan B!擇校/流程/備考一篇搞定!

手機要聞

三星S25 Edge將于5月中旬發布 5.8mm機身厚度重量僅163g

7支春夏絕美純欲感口紅!黃黑皮、素顏都能涂,超顯白超驚艷!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 呼和浩特市| 特克斯县| 宜城市| 阿克陶县| 蒙自县| 牟定县| 蓬溪县| 锡林郭勒盟| 叶城县| 澎湖县| 富源县| 昌都县| 交口县| 方城县| 清远市| 郯城县| 遵化市| 壤塘县| 乌什县| 南皮县| 安乡县| 彭阳县| 仁怀市| 宾阳县| 牙克石市| 平安县| 霍城县| 巴林右旗| 太白县| 乐亭县| 南溪县| 阿克苏市| 洛宁县| 临泉县| 成都市| 天台县| 高尔夫| 芜湖市| 灵璧县| 峡江县| 胶州市|