99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

黃仁勛「組局」,具身智能的核心玩家們聊了聊人形機(jī)器人的落地與未來

0
分享至

文章轉(zhuǎn)載自「Linguista」

今年的 GTC 大會(huì),英偉達(dá)發(fā)布了通用機(jī)器人模型 GR00T N1,老黃特別提到未來重點(diǎn)關(guān)注的趨勢是「Physical AI」(物理 AI)。

不僅如此,老黃還把當(dāng)下機(jī)器人領(lǐng)域的核心玩家都喊了過來,針對人形機(jī)器人領(lǐng)域當(dāng)下的技術(shù)路徑、數(shù)據(jù)問題以及通用模型和通用機(jī)器人等問題進(jìn)行了深入探討,有不少很有價(jià)值的觀點(diǎn)。

嘉賓陣容很強(qiáng)大,1X、Skild AI、Agility Robotics、Boston Dynamics……堪稱具身智能領(lǐng)域的「華山論劍」。


嘉賓介紹:

  • Bernt B?rnich,人形機(jī)器人創(chuàng)企 1X 的創(chuàng)始人兼 CEO。1X 致力于構(gòu)建完全自主的人形機(jī)器人。此前曾推出專注于家庭場景的人形機(jī)器人 NEO。

  • Deepak Pathak,具身智能創(chuàng)企 Skild AI 的 CEO 兼聯(lián)創(chuàng)。Skild AI 致力于打造機(jī)器人通用「大腦」。此前曾推出曾推出可擴(kuò)展的機(jī)器人基礎(chǔ)模型「Skild Brain」。

  • Pras Velagapudi,人形機(jī)器人創(chuàng)企 Agility Robotics 的 CTO, Agility 曾推出第一款商用化出售的機(jī)器人 Digit。

  • Aaron Saunders,美國「老牌」機(jī)器人公司 Boston Dynamics 的 CTO。Boston Dynamics 曾推出人形機(jī)器人 Atlas。

TLDR:
  • 多模態(tài)、推理模型都是解決機(jī)器人問題的必要但不充分條件。首先必須要先解決視覺問題,擁有一個(gè)好的視覺控制系統(tǒng),然后再追求通用機(jī)器人。

  • 也許多模態(tài)大模型無法完全解決機(jī)器人或通用智能的問題,但讓機(jī)器人控制系統(tǒng)變得足夠?qū)嵱茫阋灾纹鹨粋€(gè)規(guī)模化的數(shù)據(jù)飛輪(data flywheel)。這個(gè)飛輪可以擺脫每一步遙控操作,讓機(jī)器人持續(xù)自我強(qiáng)化。

  • 讓機(jī)器人更廣泛地應(yīng)用在現(xiàn)實(shí)環(huán)境中,獲取多樣化的數(shù)據(jù)是至關(guān)重要的。機(jī)器人技術(shù)的發(fā)展必須發(fā)生在人群和家庭中,因?yàn)檫@些環(huán)境能提供真實(shí)且多樣化的數(shù)據(jù)。

  • 目前談?wù)撏耆銟颖镜目鐚?shí)體泛化還為時(shí)過早。做到這一點(diǎn)的一種方法是擁有大量不同類型的機(jī)器人硬件,甚至在仿真中也擁有更多種類的機(jī)器人硬件。

  • 領(lǐng)域泛化可能讓機(jī)器人得到更為穩(wěn)健的結(jié)果,但不會(huì)得到最優(yōu)化的性能。

  • 交互能力是消除機(jī)器人「幻覺」的關(guān)鍵。如果沒有交互能力,幻覺就無法被消除。當(dāng)機(jī)器人能夠與環(huán)境進(jìn)行交互時(shí),它就可以不斷糾正自己的認(rèn)知,這也是機(jī)器人與其他 AI 應(yīng)用之間的重要區(qū)別。

  • 三到五年內(nèi),機(jī)器人會(huì)在大多數(shù)人中變得相當(dāng)普及。即使不是每個(gè)人都擁有機(jī)器人,但人們會(huì)認(rèn)識那些擁有機(jī)器人的人,它們會(huì)逐漸成為社會(huì)的一部分,從消費(fèi)者家庭到工廠、物流等各個(gè)領(lǐng)域。

Founder Park 正在搭建開發(fā)者社群,邀請積極嘗試、測試新模型、新技術(shù)的開發(fā)者、創(chuàng)業(yè)者們加入,請掃碼詳細(xì)填寫你的產(chǎn)品/項(xiàng)目信息,通過審核后工作人員會(huì)拉你入群~

進(jìn)群之后,你有機(jī)會(huì)得到:

  • 高濃度的主流模型(如 DeepSeek 等)開發(fā)交流;

  • 資源對接,與 API、云廠商、模型廠商直接交流反饋的機(jī)會(huì);

  • 好用、有趣的產(chǎn)品/案例,F(xiàn)ounder Park 會(huì)主動(dòng)做宣傳。

01

機(jī)器人領(lǐng)域加速的關(guān)鍵因素:數(shù)據(jù)、多模態(tài)、硬件成本

主持人:有人曾提到,機(jī)器人技術(shù)是最古老的領(lǐng)域之一,在過去的歷史中發(fā)展速度很慢,為什么現(xiàn)在機(jī)器人領(lǐng)域開始「加速發(fā)展」了?有哪些關(guān)鍵影響因素?

Jim Fan (NVIDIA):機(jī)器人技術(shù)是最古老的領(lǐng)域之一,幾乎與人工智能技術(shù)本身存在的時(shí)間一樣長。機(jī)器人領(lǐng)域發(fā)展如此困難的原因在于「莫拉維克悖論」(Moravec's paradox)。這個(gè)悖論指出,對人類來說容易的事情,對機(jī)器來說卻非常困難,反之亦然。比如我們覺得極難的創(chuàng)造性寫作,對機(jī)器來說可能并不那么難。這也是為什么像大型語言模型(LLM)、自然語言處理(NLP)、計(jì)算機(jī)視覺這些領(lǐng)域,如今比機(jī)器人技術(shù)解決得好得多。所以我們現(xiàn)在正面臨這個(gè)悖論。

我認(rèn)為機(jī)器人領(lǐng)域目前加速發(fā)展得益于幾點(diǎn)因素:

一是在模型方面。大型基礎(chǔ)模型的出現(xiàn),如 LLM 的「ChatGPT 時(shí)刻」的到來,我們現(xiàn)在有了能夠進(jìn)行推理的模型,以及能夠理解計(jì)算機(jī)視覺的多模態(tài)模型,因此對三維視覺世界的開放詞匯理解能力遠(yuǎn)超以往,這些都是解決機(jī)器人問題的必要但不充分條件。首先必須要先解決視覺問題,擁有一個(gè)好的視覺控制系統(tǒng),然后再追求通用機(jī)器人。

二是數(shù)據(jù)方面。機(jī)器人的數(shù)據(jù)不像是大型語言模型能夠來自互聯(lián)網(wǎng)當(dāng)中的大規(guī)模數(shù)據(jù),引用 Ilya Sutskever 的話,他說「互聯(lián)網(wǎng)是人工智能的化石燃料」,但機(jī)器人并沒有這種「化石燃料」,所以必須依靠合成數(shù)據(jù),以及大規(guī)模收集數(shù)據(jù)。仿真技術(shù),特別是 GPU 加速仿真的出現(xiàn),讓機(jī)器人訓(xùn)練數(shù)據(jù)的問題變得更容易處理。因?yàn)楝F(xiàn)在可以在大約三個(gè)小時(shí)的計(jì)算時(shí)間內(nèi)生成相當(dāng)于 10 年訓(xùn)練數(shù)據(jù)量的數(shù)據(jù),這確實(shí)幫我們超越了數(shù)據(jù)困境。

三是硬件方面。今天參會(huì)的一些最杰出公司的創(chuàng)始人,他們的公司創(chuàng)造了我們所見過的最好的機(jī)器人硬件。機(jī)器人硬件已經(jīng)變得好得多,也便宜得多。今年我們看到的硬件價(jià)格大約在 4 萬美元左右,相當(dāng)于一輛汽車的價(jià)格。而在 2001 年,NASA 建造了 Robonaut——最早的主要人形機(jī)器人之一,當(dāng)時(shí)的價(jià)格是 150 萬美元(2001 年的美元價(jià)格)。硬件的價(jià)格終于變得負(fù)擔(dān)得起,將很快成為主流。

主持人:Aaron Saunders 在機(jī)器人技術(shù)還很不成熟的的時(shí)期就進(jìn)入了機(jī)器人領(lǐng)域。你認(rèn)為,機(jī)器人技術(shù)這幾年發(fā)生了哪些變化?

Aaron Saunders (Boston Dynamics):剛才 Jim Fan談到了很多機(jī)器人領(lǐng)域發(fā)展重要的因素,我試著挑幾點(diǎn)來展開說說。

首先是機(jī)器人「仿真到現(xiàn)實(shí)」(sim-to-real)環(huán)境之間的差距不斷縮小,這是非常關(guān)鍵的進(jìn)展。長期以來,機(jī)器人領(lǐng)域一直在致力于構(gòu)建既能準(zhǔn)確模擬物理現(xiàn)象、又具備高計(jì)算效率的仿真環(huán)境。我們可以構(gòu)建非常復(fù)雜的模型,精準(zhǔn)地再現(xiàn)物理世界,但無法實(shí)現(xiàn)實(shí)時(shí)或超實(shí)時(shí)地運(yùn)行。最大的變化是如今能夠以超實(shí)時(shí)(Super Real-Time)的方式模擬現(xiàn)實(shí)世界的物理過程,極大地提升了在仿真層面的探索效率,同時(shí)能更好地利用仿真技術(shù)推動(dòng)人工智能的開發(fā)。

另一個(gè)重要變化是機(jī)器人零部件的商品化,這要?dú)w功于消費(fèi)電子行業(yè)等相關(guān)產(chǎn)業(yè)的發(fā)展,帶來了更強(qiáng)的電池、更好的攝像頭,以及更先進(jìn)的感知、計(jì)算等技術(shù)。大概在十到十五年前,大多數(shù)機(jī)器人內(nèi)部還塞滿了 PCB 板和電線,電池容量也非常有限。但現(xiàn)在,機(jī)器人具備強(qiáng)大的計(jì)算能力,搭載微型、低功耗的傳感器。機(jī)器人零部件的商品化,并不只是反映硬件成本的降低,更是促進(jìn)機(jī)器人創(chuàng)業(yè)的浪潮。

同時(shí),全球硬件供應(yīng)鏈中涌現(xiàn)出大量可拼接組合的關(guān)鍵部件,機(jī)器人公司不需要再從零設(shè)計(jì)每一個(gè)齒輪,而是可以像拼拼圖一樣,將這些模塊組合,在更高層次進(jìn)行創(chuàng)新。因此,如今的機(jī)器人公司更多專注于智能層面的開發(fā),構(gòu)建應(yīng)用程序,而不是將全部資源投入到制造物理機(jī)器本身。

Deepak Pathak(SkildAI):我想在 Jim Fan 最初觀點(diǎn)的基礎(chǔ)之上強(qiáng)調(diào)一點(diǎn),機(jī)器人不僅是人工智能的第一個(gè)應(yīng)用場景,它本身就是 AI 的核心。回顧艾倫·圖靈在人工智能早期的論述,他設(shè)想的 AI 正是為機(jī)器人服務(wù)的。他主張,我們應(yīng)該制造可以自主學(xué)習(xí)的系統(tǒng),而不是試圖直接構(gòu)建一個(gè)「成年人」,我們應(yīng)該創(chuàng)造一個(gè)像孩子一樣逐漸成長、學(xué)習(xí)的機(jī)器人。你可以把它放進(jìn)教室,隨著時(shí)間推移,它會(huì)成長為「成年人」。這是一個(gè)極具吸引力的想法,早在 20 世紀(jì) 50 年代艾倫·圖靈就提出了這個(gè)想法。

語言和視覺同樣也很重要,但如果我們觀察自然界的演化過程,會(huì)發(fā)現(xiàn)這些能力的出現(xiàn)遠(yuǎn)晚于物理行動(dòng)能力。比如我們訓(xùn)練大型語言模型(LLM)所用的數(shù)據(jù),可能來自過去 100 年、200 年,最多也就 1000 年。而人類文明的歷史遠(yuǎn)遠(yuǎn)超過這個(gè)時(shí)間跨度。所以,并不是語言帶來了智能,而是智能的基礎(chǔ)早已存在。人類大腦的演化,是基于對物理世界的理解和推理,這也解釋了為什么機(jī)器人技術(shù)如此重要。你無需向任何人解釋什么是機(jī)器人,人們天然就能理解它,因?yàn)槲覀兠刻於荚谶M(jìn)行各類物理操作,每個(gè)企業(yè)、每個(gè)組織都與機(jī)器人所代表的實(shí)體交互密切相關(guān)。

除了 Jim Fan 剛提到的在技術(shù)層面的進(jìn)步外,我認(rèn)為最大的變化是我們對機(jī)器人領(lǐng)域整體思考方式的變化。以往,控制理論一直在機(jī)器人領(lǐng)域占據(jù)主導(dǎo)陣地,直到三四年前,依然占據(jù)主導(dǎo)。實(shí)際上控制理論最初并不是為機(jī)器人設(shè)計(jì)的,在二戰(zhàn)期間興起,主要用于飛機(jī)和導(dǎo)彈控制。后來艾倫·圖靈的思想推動(dòng)了機(jī)器人熱潮,人們想「我們能用什么現(xiàn)成的工具?」,于是就沿用了控制理論幾十年之久。但這和圖靈最初設(shè)想的「孩童式學(xué)習(xí)」完全不同。你不會(huì)先教一個(gè)孩子學(xué)微積分再學(xué)走路,也不會(huì)讓他們先理解關(guān)節(jié)動(dòng)力學(xué)再學(xué)走路。學(xué)習(xí)本身,是通過經(jīng)驗(yàn)完成的。

而「從經(jīng)驗(yàn)中學(xué)習(xí)」正是當(dāng)下機(jī)器人控制領(lǐng)域的關(guān)鍵變化。例如,此前 Boston Dynamics 發(fā)布的一段機(jī)器人 Atlas 通過經(jīng)驗(yàn)學(xué)習(xí)來實(shí)現(xiàn)控制的視頻。從「基于編程的經(jīng)驗(yàn)」轉(zhuǎn)向「通過經(jīng)驗(yàn)來學(xué)習(xí)」,是我們對于機(jī)器人理解方式的一次重大躍遷。

Bernt B?rnich(1X):我接著這個(gè)話題進(jìn)一步分享。我認(rèn)為,機(jī)器人領(lǐng)域最根本的變化之一,其實(shí)來自互聯(lián)網(wǎng)。過去三十年,全球的每一個(gè)人都在向互聯(lián)網(wǎng)貢獻(xiàn)內(nèi)容,這相當(dāng)于一次巨大的集體實(shí)驗(yàn)。正是這些數(shù)據(jù)的積累,讓我們得以訓(xùn)練出今天的 AI 模型,像魔法一般。而現(xiàn)在我們要做的是,如何把這套機(jī)制再復(fù)制一次:當(dāng)然不是讓所有人去扮演機(jī)器人,而是利用現(xiàn)有的文本、圖像等數(shù)據(jù),來推動(dòng)機(jī)器人系統(tǒng)的發(fā)展。

關(guān)鍵是如何使用這些已有數(shù)據(jù)去「引導(dǎo)」(bootstrap)機(jī)器人,讓它們開始做一些有用的事情。一旦跨過這個(gè)門檻,它們就能在真實(shí)世界中不斷學(xué)習(xí),而真正的智能恰恰來源于這種長期的真實(shí)交互。但前提是它們必須先「足夠有用」。舉個(gè)例子,我說:「去冰箱拿瓶可樂。」如果機(jī)器人能做到一半的成功率,那我們就有了一個(gè)可行的路徑。因?yàn)榻酉聛碇恍枰粩鄧L試及反饋,「這次成功了,那次失敗了」,機(jī)器人就會(huì)在「拿可樂」這項(xiàng)任務(wù)上越來越擅長。

我認(rèn)為,這也正是現(xiàn)在多模態(tài)大型語言模型的意義所在,也許多模態(tài)大模型無法完全解決機(jī)器人或通用智能的問題,但讓機(jī)器人控制系統(tǒng)變得足夠?qū)嵱茫阋灾纹鹨粋€(gè)規(guī)模化的數(shù)據(jù)飛輪(data flywheel)。這個(gè)飛輪可以擺脫每一步遙控操作,讓機(jī)器人持續(xù)自我強(qiáng)化。這很可能是通向非常有用的機(jī)器控制,甚至可能是通向 AGI(通用人工智能)的路徑。

Pras Velagapudi (Agility Robotics):針對 Aaron Saunders 剛提到的觀點(diǎn):為什么機(jī)器人技術(shù)「又回來了」?人工智能起源于機(jī)器人,然后發(fā)展到其他領(lǐng)域,如今又回到機(jī)器人本體,這一點(diǎn)我補(bǔ)充一下,這其實(shí)有兩個(gè)核心挑戰(zhàn):一是硬件本身非常復(fù)雜,二是機(jī)器人所面對的世界是非結(jié)構(gòu)化的。當(dāng)我們回顧人工智能與機(jī)器人技術(shù)的發(fā)展路徑,會(huì)發(fā)現(xiàn)機(jī)器人技術(shù)的大部分精力長期以來都集中在解決「硬件難」的問題上,比如微型傳感器(如 MEMS)、執(zhí)行器驅(qū)動(dòng)技術(shù)、儲能技術(shù)等。這些技術(shù)必須逐一攻克。甚至像 Arduino (注:一個(gè)軟硬件開源平臺)這樣的平臺,也大大降低了讓真實(shí)物體動(dòng)起來的門檻,不再需要從零開始「造輪子」。

在 AI 方面,我們則是在不斷推進(jìn)從結(jié)構(gòu)化到非結(jié)構(gòu)化問題的解決路徑:從早期解決查詢和指令,到 API 接口,到簡化的世界模型,再到現(xiàn)在復(fù)雜的非結(jié)構(gòu)化世界建模。這些拼圖逐步補(bǔ)全了 AI 平臺的能力邊界,通過尋找新的數(shù)據(jù)獲取方式、借鑒結(jié)構(gòu)化方法的最佳實(shí)踐,并向更真實(shí)的環(huán)境推進(jìn)。比如,「如果不對機(jī)器人再加一輪訓(xùn)練,會(huì)發(fā)生什么?」我們通過分析自動(dòng)駕駛車輛采集的視頻,觀察機(jī)器人攝像頭拍到的第一視角影像,推測接下來世界將如何變化。

所以我認(rèn)為,背后其實(shí)一直在發(fā)生一場「能力解鎖」的逐步進(jìn)化。我們?nèi)缃窨吹降募夹g(shù)爆發(fā),其實(shí)是這場演進(jìn)達(dá)到臨界點(diǎn)之后的自然結(jié)果。現(xiàn)在,是時(shí)候開始真正應(yīng)對非結(jié)構(gòu)化世界的交互挑戰(zhàn)了。

Bernt B?rnich(1X):硬件層面的變化對于機(jī)器人領(lǐng)域的快速發(fā)展至關(guān)重要。過去幾年間最重要的變化之一是我們終于能夠制造出具備足夠穩(wěn)健性的硬件,讓機(jī)器人能在真實(shí)世界中操作而不輕易損壞。長期從事機(jī)器人研究的人都了解,如果每做一次實(shí)驗(yàn)就要修復(fù)或重建機(jī)器人,那實(shí)驗(yàn)成本和周期將極其高昂。如今的硬件達(dá)到了一個(gè)新的水平,機(jī)器人可以在現(xiàn)實(shí)世界中安全地學(xué)習(xí),穩(wěn)定地執(zhí)行任務(wù),而不會(huì)輕易損壞自身或破壞環(huán)境。這是機(jī)器人技術(shù)能夠持續(xù)推進(jìn)的關(guān)鍵前提之一。

02

具身智能的未來是通用模型,數(shù)據(jù)很重要

主持人:你們?nèi)绾慰创斯ぶ悄芗夹g(shù)在機(jī)器人領(lǐng)域所擔(dān)任的「角色」,如何從專用機(jī)器人模型轉(zhuǎn)向通用機(jī)器人模型,以及對通用基礎(chǔ)模型爆炸式增長如何看?

Jim Fan (NVIDIA):我可以談?wù)動(dòng)ミ_(dá)推出的通用人形機(jī)器人基礎(chǔ)大模型「GR00T N1 」所采用的策略,「GR00T N1」旨在解決「跨實(shí)體」機(jī)器人控制泛化的問題,即為不同的人形機(jī)器人構(gòu)建一個(gè)通用的「大腦」。在構(gòu)建「GR00T N1」模型時(shí)遵循了兩點(diǎn)核心原則。

一是模型要盡可能地簡單,沒有中間步驟。我們追求端到端的模型,基本上是「光子到動(dòng)作」(photons to actions)。也就是說,從攝像機(jī)獲取像素輸入后,直接輸出控制電機(jī)的浮點(diǎn)數(shù)。端到端模型的優(yōu)勢在 NLP 領(lǐng)域已被驗(yàn)證。以 ChatGPT 為例,它的出現(xiàn)顛覆了 NLP 領(lǐng)域。ChatGPT 背后的模型更為簡單,將任何文本映射到另一個(gè)文本,底層是一個(gè) Transformer,將一個(gè)整數(shù)序列映射到另一個(gè)整數(shù)序列,這種簡潔性使得所有數(shù)據(jù)和問題都能統(tǒng)一到同一個(gè)模型中。我認(rèn)為機(jī)器人技術(shù)也應(yīng)該借鑒這一點(diǎn),讓模型盡可能簡單。

二是通過復(fù)雜的數(shù)據(jù)策略,對模型數(shù)據(jù)進(jìn)行壓縮。機(jī)器人數(shù)據(jù)是一個(gè)巨大的挑戰(zhàn),無法直接從 YouTube、維基百科等互聯(lián)網(wǎng)中下載數(shù)據(jù)。我們采用的策略是把不同的數(shù)據(jù)看作是一個(gè)「金字塔」,分為頂部、中間層、底層。

  • 頂部是真實(shí)機(jī)器人數(shù)據(jù),這是最優(yōu)質(zhì)的,因?yàn)闆]有領(lǐng)域差距。通過遙控操作(Teleoperation)收集的數(shù)據(jù)最為精確,但擴(kuò)展性有限,受制于每個(gè)機(jī)器人每天 24 小時(shí)的物理限制,在原子世界(現(xiàn)實(shí)世界)中的擴(kuò)展非常困難。

  • 中間層是仿真數(shù)據(jù)。仿真數(shù)據(jù)依賴于 Isaac Sim 等物理引擎來大規(guī)模生成數(shù)據(jù)。這些數(shù)據(jù)是基于真實(shí)世界收集的數(shù)據(jù),或者通過「從經(jīng)驗(yàn)中學(xué)習(xí)」來生成。仿真策略基于 NVIDIA 過去作為圖形公司時(shí)積累的經(jīng)驗(yàn),圖形引擎擅長處理物理和渲染。

  • 底層是來自互聯(lián)網(wǎng)的多模態(tài)數(shù)據(jù)。這些數(shù)據(jù)用于訓(xùn)練視覺語言模型(VLM),進(jìn)而支持視覺-語言-動(dòng)作模型(VLA)。VLM 從大量互聯(lián)網(wǎng)數(shù)據(jù)中訓(xùn)練,最近的視頻生成模型已經(jīng)能生成非常高質(zhì)量的世界神經(jīng)仿真(Neural Simulation)。金字塔的最底層是神經(jīng)仿真,它超越了傳統(tǒng)的圖形引擎。借助這些神經(jīng)仿真,可以要求視頻生成模型來想象一個(gè)新的機(jī)器人軌跡。由于模型在數(shù)百萬個(gè)視頻數(shù)據(jù)上訓(xùn)練,學(xué)習(xí)了物理學(xué)規(guī)律,因此能生成符合物理規(guī)律的像素級軌跡。同時(shí)結(jié)合,我們在「GR00T N1」中提出的「潛在動(dòng)作」(Latent Action)算法,可以從這些機(jī)器人「想象」中提取動(dòng)作,將它們放回到訓(xùn)練數(shù)據(jù)中。

通過以上復(fù)雜的數(shù)據(jù)策略,我們將所有數(shù)據(jù)壓縮成一個(gè)具體的「產(chǎn)物」,從光子到動(dòng)作。因此,一個(gè) 20 億參數(shù)規(guī)模的模型足以解決廣泛的任務(wù),這是「GR00T N1」的策略。

Aaron Saunders (Boston Dynamics):我認(rèn)為這描繪了一個(gè)美好的未來圖景,通過一個(gè)簡單的大模型來解決從像素到運(yùn)動(dòng)的所有問題。但在這個(gè)過程中,我們需要關(guān)注當(dāng)機(jī)器人產(chǎn)品最終進(jìn)入真實(shí)世界時(shí)必須具備的確定性。面向客戶交付某樣?xùn)|西時(shí),必須清楚其在意外情況下的行為表現(xiàn),考慮功能的安全性,同時(shí)還需注意在現(xiàn)有功能基礎(chǔ)上添加新功能時(shí)可能出現(xiàn)的退化(regress)情況。

機(jī)器人技術(shù)的復(fù)雜性實(shí)際上已經(jīng)從傳統(tǒng)的算法和模型轉(zhuǎn)移到了數(shù)據(jù)和數(shù)據(jù)收集上,我們正處于構(gòu)建數(shù)據(jù)集的初期階段。我認(rèn)為,在追求最終強(qiáng)大模型的過程中,絕不能拋棄整個(gè)工具箱(注:這里的「工具箱」可以理解為包括傳統(tǒng)方法、新技術(shù)、算法等在內(nèi)的可用資源)。同時(shí),還應(yīng)維護(hù)機(jī)器人購買者的信任。

盡管有很多令人興奮的新能力正在改變機(jī)器人技術(shù)的格局,但我們不能忽視現(xiàn)實(shí)世界的問題。傳統(tǒng)的工具在解決這些現(xiàn)實(shí)世界的問題時(shí)仍然有效,特別是當(dāng)機(jī)器人涉及強(qiáng)大不可控或可能產(chǎn)生危險(xiǎn)行為的功能時(shí),或當(dāng)機(jī)器人在人的周圍工作時(shí)。因此,我們必須使用一個(gè)龐大的「工具箱」來確保安全和信任。

Bernt B?rnich(1X):我非常認(rèn)同 Aaron Saunders 和 Jim Fan 提出的觀點(diǎn)。1X 也在朝著類似的方向努力,比如構(gòu)建一個(gè)相對簡單的基礎(chǔ)通用模型。當(dāng)我們從早期和晚期的 LLM 的歷史中汲取教訓(xùn)時(shí),我認(rèn)為經(jīng)常被忽視的是多樣性(diversity)的重要性。早期很多公司試圖訓(xùn)練一個(gè)專門擅長寫詩的模型,他們用世界上最好的詩歌來訓(xùn)練,但這并沒有取得很好的效果。因?yàn)椋]有在與寫詩無關(guān)的、極其多樣化的數(shù)據(jù)上進(jìn)行訓(xùn)練,無法實(shí)現(xiàn)真正的智能。

同樣,在機(jī)器人技術(shù)中也類似。即使目前的機(jī)器人模型仍處于小規(guī)模參數(shù)階段,但依然受多樣性的限制,而不是傳統(tǒng)的數(shù)據(jù)規(guī)模限制。多樣性限制是指如何獲取涉及盡可能多的任務(wù),涵蓋盡可能多的環(huán)境,同時(shí)最好還包含一些噪聲和動(dòng)態(tài)變化的數(shù)據(jù),這樣機(jī)器人才能理解任務(wù)的本質(zhì)。

我最喜歡的例子是打開洗衣機(jī)。當(dāng)我們走近洗衣機(jī)時(shí),我們知道要把衣服放進(jìn)那個(gè)洗衣機(jī)內(nèi)槽里,所以我們會(huì)嘗試找到手柄,若打不開,就進(jìn)一步找鎖扣,再不行就將旋鈕轉(zhuǎn)回零位。人類對洗衣機(jī)如何工作有很好地理解,因此能弄清楚如何操作一臺新的洗衣機(jī)。但目前機(jī)器人沒有這種能力,它們只是學(xué)習(xí)重復(fù)動(dòng)作。

因此,我認(rèn)為,讓機(jī)器人更廣泛地應(yīng)用在現(xiàn)實(shí)環(huán)境中,獲取多樣化的數(shù)據(jù)是至關(guān)重要的。我的這個(gè)觀點(diǎn)可能很「逆向」,但我認(rèn)為是很重要的。機(jī)器人技術(shù)的發(fā)展必須發(fā)生在人群和家庭中,因?yàn)檫@些環(huán)境能提供真實(shí)且多樣化的數(shù)據(jù)。同時(shí),機(jī)器人在這些環(huán)境中運(yùn)行時(shí),安全性必須是「與生俱來的」,即從設(shè)計(jì)到應(yīng)用的每一個(gè)環(huán)節(jié)都需要確保安全性,避免對人類造成過度的危險(xiǎn)。在以上基礎(chǔ)之上,我們再進(jìn)一步思考如何將這些新方法與傳統(tǒng)工具箱結(jié)合。

Deepak Pathak(SkildAI):我認(rèn)為有兩個(gè)關(guān)鍵點(diǎn),第一點(diǎn)是人類,人類可以通過簡單的設(shè)備(如 VR 追蹤服、手套、頭顯)來控制任何機(jī)器人,而不需要了解機(jī)器人內(nèi)部的硬件細(xì)節(jié)(如電機(jī)如何工作)。這意味著可以設(shè)計(jì)一個(gè)通用的控制系統(tǒng)來操作不同的機(jī)器人。通過這種方式,我們可以利用任何地方的數(shù)據(jù)來訓(xùn)練機(jī)器人,因?yàn)榭刂七壿嬍墙y(tǒng)一的。

第二點(diǎn)是利用人類行為數(shù)據(jù)。我們忽視了一個(gè)特殊的「機(jī)器人」——人類。人類本身可以被視為一種「生物機(jī)器人」,其大腦通過運(yùn)動(dòng)神經(jīng)元和感覺神經(jīng)元系統(tǒng)工作。人類的日常行為(如開冰箱、拿東西)可以提供豐富的數(shù)據(jù)。每天,人類可能開冰箱十次,這些行為通過視頻數(shù)據(jù)記錄下來,可以用來訓(xùn)練機(jī)器人。雖然仿真是必要的,但真實(shí)的人類行為數(shù)據(jù)同樣重要,甚至可能更具價(jià)值。

Bernt B?rnich(1X):我非常同意你們的看法,所有這些數(shù)據(jù)都極其重要,并且我們也在積極使用這些,這些數(shù)據(jù)是機(jī)器人技術(shù)發(fā)展的基礎(chǔ)。

Pras Velagapudi (Agility Robotics):作為一名遙操作過多種機(jī)器人的人員,我想分享的是,盡管人腦在遙操作平臺方面表現(xiàn)非常出色,但實(shí)際上性能差異是存在的。硬件的質(zhì)量在其中起到了決定性作用。我曾經(jīng)遙操作過 1X 機(jī)器人,體驗(yàn)非常好,但對于一些工業(yè)機(jī)器人,體驗(yàn)則不盡如人意。硬件在性能表現(xiàn)上確實(shí)有很大的影響,特別是當(dāng)它影響到控制性、傳感能力和慣性特性時(shí),這對于在現(xiàn)實(shí)世界中有效運(yùn)行至關(guān)重要。舉個(gè)例子,Boston Dynamics 推出的機(jī)器人展示了極為出色的動(dòng)力學(xué)表現(xiàn),機(jī)器的動(dòng)力學(xué)特性直接影響了其運(yùn)動(dòng)方式,這是顯而易見的。

Deepak Pathak(SkildAI):還有一個(gè)典型的例子是達(dá)芬奇(Da Vinci)手術(shù)機(jī)器人。這個(gè)機(jī)器人廣泛應(yīng)用于手術(shù)操作,背后的公司市值已超過千億美元,核心就是通過遙控操作進(jìn)行控制。這真是非常驚人。這個(gè)例子也意味著,我們都承認(rèn)人腦非常強(qiáng)大,硬件同樣重要。因此,機(jī)器人技術(shù)始終涉及這兩個(gè)方面:硬件和方法。它們可能有不同的實(shí)現(xiàn)方式,但最終必須結(jié)合在一起。所以,問題并不是選擇某種硬件或另一種硬件,而是要將真實(shí)世界數(shù)據(jù)、人類活動(dòng)數(shù)據(jù)、仿真以及從這些數(shù)據(jù)中獲取的學(xué)習(xí)相結(jié)合。

Bernt B?rnich(1X):我認(rèn)為,這與自下而上(bottom-up)和自上而下(top-down)的方法密切相關(guān)。當(dāng)前,我們更多的是在討論自上而下的控制架構(gòu),但我認(rèn)為自下而上的方法也同樣值得關(guān)注。例如,如何讓機(jī)器人學(xué)會(huì)靈巧性(dexterity)?在遙控操作中,我們正在嘗試讓機(jī)器人學(xué)習(xí)如何快速而靈活地操作手部。我們并不知道如何構(gòu)建一個(gè)既快速又高效,并且能夠提供觸覺反饋的遙操作系統(tǒng)。但機(jī)器人卻能夠通過與物體的互動(dòng)自我學(xué)習(xí)這一過程,如果我們只是給它一堆物體讓它練習(xí),它就能學(xué)習(xí)如何操作。接下來,問題就變成了:如何在遙操作界面上提升抽象層次?換句話說,不再僅僅是操作「捏住」或「抓取」動(dòng)作,而是通過引導(dǎo)機(jī)器人完成任務(wù),并允許系統(tǒng)通過實(shí)際操作學(xué)習(xí)靈巧性。

03

「一腦多體」是未來,但實(shí)現(xiàn)路徑各家有分歧

Deepak Pathak(SkildAI):機(jī)器人技術(shù)發(fā)展面臨的一個(gè)關(guān)鍵問題是硬件的多樣性。我們是否應(yīng)該只有一種機(jī)器人?還是可以有多種機(jī)器人?這些機(jī)器人是否可以共享一個(gè)「大腦」(即統(tǒng)一的控制軟件)?這些問題在機(jī)器人領(lǐng)域非常重要,而在語言模型領(lǐng)域則不存在,因?yàn)檎Z言模型主要依賴軟件(如GPU計(jì)算),而硬件問題早已被解決。

Aaron Saunders (Boston Dynamics):我認(rèn)為,當(dāng)我們試圖將大腦與身體硬件分開時(shí),往往忽視了一個(gè)重要問題,即試圖完成的任務(wù)。如果任務(wù)涉及一系列體積小、慣性不顯著的物體,可以在很大程度上將大腦與實(shí)體身體分開。但我認(rèn)為,現(xiàn)實(shí)情況是,我們現(xiàn)在制造這些機(jī)器的目的遠(yuǎn)不止于最初關(guān)注的簡單的桌面任務(wù)。比如要舉起沉重且復(fù)雜的物體,或接觸鋒利的金屬板,甚至是處理高溫物體等場景,我們希望用機(jī)器人代替人類,這時(shí)硬件的重要性就顯現(xiàn)出來了。

硬件必須與軟件協(xié)同進(jìn)化,將一個(gè)帶有 API 接口的完備硬件平臺與任何軟件大腦斷開連接的想法是不現(xiàn)實(shí)的。理解執(zhí)行器的質(zhì)量、摩擦力等細(xì)節(jié),對于仿真表現(xiàn)可能至關(guān)重要。同時(shí),還需要更多時(shí)間來完全理解像「GR00T N1」這類通過基礎(chǔ)模型如何在不同類型的機(jī)器人上應(yīng)用。因?yàn)槟壳埃覀冞€沒有足夠的數(shù)據(jù)來證明一個(gè)模型可以在各種機(jī)器人上完美運(yùn)行,且行為沒有顯著差異。

如果只是試圖撿起一袋薯片并放下,可能不重要。但如果嘗試拾取一個(gè)高精度零件并將其組裝到另一個(gè)高精度孔中,那就十分重要了。所以我認(rèn)為,是否能將大腦與硬件完全分開,仍然沒有定論,關(guān)鍵在于任務(wù)的類型。

Deepak Pathak(SkildAI):我認(rèn)為恰恰相反,一個(gè)硬件平臺上可以有多個(gè)「大腦」。就像 NVIDIA 提供的基礎(chǔ)硬件平臺,許多機(jī)器人公司都可以在其上構(gòu)建機(jī)器人的「大腦」。

Jim Fan (NVIDIA):我認(rèn)為 Aaron Saunders 提到了一個(gè)非常關(guān)鍵的點(diǎn),即跨實(shí)體泛化(cross embodiment)。對一個(gè)模型來說,什么是跨實(shí)體泛化,需要從人類自身談起。人類在跨實(shí)體泛化方面非常擅長。每當(dāng)人類開始玩一個(gè)視頻游戲時(shí),實(shí)際上就在進(jìn)行跨實(shí)體泛化。

比如,人類可能在駕駛游戲中的汽車,或者扮演某個(gè)奇怪的角色,甚至是非人類角色。在使用了幾小時(shí)的手柄后,人類會(huì)迅速掌握如何控制虛擬游戲中的身體,最后能順利地玩下去。所以人腦在跨實(shí)體泛化方面的能力非常強(qiáng)。我認(rèn)為這是一個(gè)可解的問題,我們只需要找到合適的參數(shù)來實(shí)現(xiàn)它。

我同意 Aaron Saunders 的觀點(diǎn),目前談?wù)撏耆銟颖镜目鐚?shí)體泛化還為時(shí)過早。也就是說,隨便一個(gè)機(jī)器人,模型就能神奇地工作——我不這么認(rèn)為。我們還沒達(dá)到那一步,但總有一天我們會(huì)實(shí)現(xiàn)它。我認(rèn)為,做到這一點(diǎn)的一種方法是擁有大量不同類型的機(jī)器人硬件,甚至在仿真中也擁有更多種類的機(jī)器人硬件。

例如,此前 Meta FAIR 推出的統(tǒng)一模型「MetaMorph」,在仿真中程序化生成了數(shù)千個(gè)簡單機(jī)器人,這些機(jī)器人具有不同的關(guān)節(jié)連接方式,有些像蛇,有些像蜘蛛。然后我們使用「機(jī)器人語法」對這些機(jī)器人進(jìn)行標(biāo)記化(tokenize),本質(zhì)上是將實(shí)體轉(zhuǎn)換成整數(shù)序列。一旦我們看到這些整數(shù)序列,就像 Transformer 論文《Attention is All You Need》提到的思路,應(yīng)用 Transformer 對這數(shù)千個(gè)實(shí)體進(jìn)行處理。我們發(fā)現(xiàn),實(shí)際上我們能夠泛化到第千零一個(gè)實(shí)體,但這仍是一個(gè)非常初步的實(shí)驗(yàn)。

我相信,如果我們擁有一種通用的描述語言,并且擁有大量不同類型的真實(shí)機(jī)器人和仿真機(jī)器人,我們可以對它們進(jìn)行標(biāo)記化、生成大量數(shù)據(jù),這樣所有實(shí)體就可以形成一個(gè)「實(shí)體宇宙」(universe of embodiment),一個(gè)實(shí)體的向量空間,也許一個(gè)新的機(jī)器人就會(huì)落在這個(gè)分布之內(nèi)。

我還想補(bǔ)充的是,這不僅僅涉及技術(shù)方面的考量,而是一個(gè)非常現(xiàn)實(shí)的問題。各位硬件公司創(chuàng)始人都遇到過類似的問題,當(dāng)你有不同版本的機(jī)器人,但上一代的機(jī)器人上收集的數(shù)據(jù)和訓(xùn)練模型無法在 V2、V3 等新版本上泛化,性能顯著下降。同時(shí),甚至在同一版本的機(jī)器人內(nèi)部,也會(huì)出現(xiàn)差異和微小缺陷,這就是來自物理世界的混亂,也是導(dǎo)致不同的機(jī)器人無法完美復(fù)制同一個(gè)模型的原因。跨代問題更為復(fù)雜,跨公司和不同設(shè)計(jì)的機(jī)器人也會(huì)面臨相同的問題。所以,這個(gè)問題很現(xiàn)實(shí),而目前我們才在初期解決階段。

Aaron Saunders (Boston Dynamics):但我認(rèn)為,現(xiàn)在的機(jī)器人硬件的多樣性差異不大。比如在人形機(jī)器人領(lǐng)域,各家都在使用類似的硬件平臺,基本上是在復(fù)制我們的人體結(jié)構(gòu)。在 Boston Dynamics,我們的夾持器(End Effector)只使用三根手指,這與追求完全擬人化手的趨勢相反。因?yàn)槲覀儼l(fā)現(xiàn),人類能很容易適應(yīng)用三根手指操作,就像用五根手指一樣。可以讓一個(gè)遙操作員操作三指夾持器,經(jīng)過幾小時(shí)的訓(xùn)練,機(jī)器人幾乎能做到用五指才能完成的所有事情。

所以我認(rèn)為,這里有很大的探索空間。盡管目前各家機(jī)器人公司都在機(jī)器人硬件方面「打基礎(chǔ)」,但一旦實(shí)現(xiàn)模型的泛化能力,會(huì)出現(xiàn)更多不同于「擬人化」形態(tài)的機(jī)器人,這可能是好事也可能是壞事。我認(rèn)為最終我們可能會(huì)得到看起來足夠不同于人類、甚至讓人感到恐懼的機(jī)器人。但就夾持器而言,已經(jīng)存在如此豐富的機(jī)會(huì)空間,Agility 的夾持器也與其他人形機(jī)器人上看到的完全不同,但它們依然能完成一些相同的任務(wù)。所以,我認(rèn)為這將是未來幾年非常令人興奮的議題。

主持人:Jim Fan 剛剛提到同一款機(jī)器人在不同的場景、環(huán)境下可能表現(xiàn)不同,這是否意味著這是機(jī)器人硬件方面最大的挑戰(zhàn)?

Aaron Saunders (Boston Dynamics):我想再次強(qiáng)調(diào)「工具箱」的重要性。如果你的機(jī)器人有很好的校準(zhǔn)方法,你清楚地知道如何表征它,并且做了很多扎實(shí)的工作,那么這些變異性(差異性)問題就不會(huì)那么嚴(yán)重了。所以,我認(rèn)為當(dāng)你面對一個(gè)無法表征、沒有校準(zhǔn)、差異大的機(jī)器人,然后隨便給它一個(gè)控制器——無論是 AI 策略還是其他什么——你會(huì)發(fā)現(xiàn)輸出有很大差異。但我相信現(xiàn)在我們可以做很多工作來最小化這個(gè)差距。

Pras Velagapudi (Agility Robotics):是的,我認(rèn)為另一點(diǎn)是,當(dāng)你將機(jī)器人部署到真實(shí)世界進(jìn)行生產(chǎn)時(shí),你會(huì)遇到許多變異性情況,并從中獲得經(jīng)驗(yàn),再將經(jīng)驗(yàn)會(huì)反饋到訓(xùn)練流程當(dāng)中。例如,機(jī)器人 Digit 具有完全通過學(xué)習(xí)進(jìn)行的恢復(fù)行為。我們一直在真實(shí)世界中部署它,它已經(jīng)應(yīng)用在生產(chǎn)系統(tǒng)中。通過領(lǐng)域隨機(jī)化和數(shù)據(jù)多樣性,我們的機(jī)器人在面對這些變異性時(shí)表現(xiàn)得越來越穩(wěn)健。

Bernt B?rnich(1X):當(dāng)你從幾百臺機(jī)器人擴(kuò)展到幾千臺時(shí),你就必須面對這個(gè)差異化的問題,這是必然的。當(dāng)我們擁有數(shù)千或數(shù)十萬臺機(jī)器人時(shí),不可能為每一臺調(diào)整軟件棧。所以我認(rèn)為這只是必然發(fā)生的事情。

我認(rèn)同你們的觀點(diǎn),尤其是校準(zhǔn)的重要性。但我認(rèn)為更有趣的是,領(lǐng)域隨機(jī)化實(shí)際上是在讓機(jī)器人的系統(tǒng)保守,即告訴機(jī)器人「如果我不知道會(huì)發(fā)生什么,我最好保持安全」,這樣做掩蓋了機(jī)器人的動(dòng)力學(xué)特性。換句話說,領(lǐng)域隨機(jī)化可能讓機(jī)器人得到更為穩(wěn)健的結(jié)果,但不會(huì)得到最優(yōu)化的性能。最終,從長遠(yuǎn)來看,這種方法很重要。

Deepak Pathak(SkildAI):我想從一個(gè)不同的角度來回答這個(gè)問題。無法跨版本更改模型是一個(gè)大問題,同時(shí)期望世界上只有一家公司擁有唯一的機(jī)器人,這是不現(xiàn)實(shí)的。就像汽車和手機(jī)行業(yè)一樣,存在多個(gè)制造商。而對于機(jī)器人領(lǐng)域,我們應(yīng)該讓機(jī)器人大腦能夠適應(yīng)不同的硬件平臺,就像英偉達(dá)GPU上的應(yīng)用開發(fā)平臺 CUDA 一樣,讓軟件從硬件細(xì)節(jié)中解耦,這將是機(jī)器人領(lǐng)域和其他領(lǐng)域的主要突破。

Aaron Saunders (Boston Dynamics):我認(rèn)為機(jī)器人確實(shí)會(huì)產(chǎn)生「幻覺」。這種「幻覺」表現(xiàn)為機(jī)器人預(yù)期的結(jié)果與現(xiàn)實(shí)之間的偏差。這種偏差是可以驗(yàn)證的,就像代碼生成中的「幻覺」一樣,當(dāng)機(jī)器人執(zhí)行了一個(gè)不可行的軌跡時(shí),就會(huì)出現(xiàn)這種偏差。

Deepak Pathak(SkildAI):我認(rèn)為,交互能力是消除機(jī)器人「幻覺」的關(guān)鍵。如果沒有交互能力,幻覺就無法被消除。當(dāng)機(jī)器人能夠與環(huán)境進(jìn)行交互時(shí),它就可以不斷糾正自己的認(rèn)知,這也是機(jī)器人與其他 AI 應(yīng)用之間的重要區(qū)別。

Bernt B?rnich(1X):我們最近做了一個(gè)實(shí)際的例子。我們有個(gè)問題,在辦公室的廁所里,經(jīng)常沒人放下馬桶圈,我們用 Eve 機(jī)器人進(jìn)行了測試,結(jié)果它對馬桶圈是抬起還是放下的判斷完全隨機(jī)。這是一個(gè)很有趣的案例,也體現(xiàn)了機(jī)器人如何通過交互來獲得反饋,閉合反饋回路,真正做到從環(huán)境中學(xué)習(xí)。

Aaron Saunders (Boston Dynamics):現(xiàn)在面臨的主要問題是,我們不知道如何在通用任務(wù)中做到這一點(diǎn)。我們可以為某個(gè)特定任務(wù)設(shè)計(jì)架構(gòu),比如處理馬桶蓋。現(xiàn)在的問題是,如何將這個(gè)任務(wù)形式化,使得所有任務(wù)都基于現(xiàn)實(shí)世界。目前沒人知道如何做到這一點(diǎn)。在現(xiàn)實(shí)世界中學(xué)習(xí)的速度會(huì)非常慢。我們可以通過學(xué)習(xí)得出結(jié)論,因?yàn)橛泻蠊热缒愕袅藮|西,重力讓它下落,你能判斷出發(fā)生了什么不好的事情。但如果我們依賴物理機(jī)器人來探索,學(xué)習(xí)速度就更慢了。這又回到了數(shù)據(jù)混合的問題。你可以做很多小實(shí)驗(yàn),但需要幾千次或幾百萬次才能獲得足夠的數(shù)據(jù)。所以,我認(rèn)為問題仍然是我們是否能承受產(chǎn)生真實(shí)世界數(shù)據(jù)的成本?

Deepak Pathak(SkildAI):你還可以利用仿真技術(shù)。仿真同樣可以進(jìn)行交互,交互數(shù)據(jù)能兼顧兩者。

Aaron Saunders(Boston Dynamics) :我同意,但仿真也確實(shí)需要更多的 GPU 算力支持。

04

三到五年內(nèi),機(jī)器人將在現(xiàn)實(shí)世界普及

主持人 :在未來兩到五年內(nèi),大家認(rèn)為機(jī)器人領(lǐng)域未來的發(fā)展如何?

Bernt B?rnich(1X):我認(rèn)為需要十年的時(shí)間才能真正實(shí)現(xiàn)機(jī)器人領(lǐng)域的突破或成熟。十年后,我認(rèn)為我們將經(jīng)歷類似于幾百年前電力普及時(shí)的社會(huì)變革,就像現(xiàn)在我們早上打開電燈已經(jīng)司空見慣一樣,未來數(shù)字和物理領(lǐng)域的勞動(dòng)力也會(huì)變得同樣普遍。

同樣,我們也會(huì)盡力爭取在五年內(nèi)實(shí)現(xiàn),但確切的具體時(shí)間沒人知道,這取決于社會(huì)接納機(jī)器人的速度以及我們擴(kuò)大生產(chǎn)規(guī)模的速度。我們現(xiàn)在正處在機(jī)器人變得「有用」的臨界點(diǎn)上。我認(rèn)為我們目前已經(jīng)有了可以應(yīng)用于家庭的機(jī)器人產(chǎn)品。雖然這些機(jī)器人產(chǎn)品并不完美,還不能讓你完全不做任何事,但它們既有用又有趣。

而且,從這一點(diǎn)起,我們可以加速發(fā)展。希望它們不會(huì)像自動(dòng)駕駛汽車那樣,比我們預(yù)想的多花十年時(shí)間。不過,我確實(shí)認(rèn)為,三到五年內(nèi),機(jī)器人會(huì)在大多數(shù)人中變得相當(dāng)普及。即使不是每個(gè)人都擁有機(jī)器人,但人們會(huì)認(rèn)識那些擁有機(jī)器人的人,它們會(huì)逐漸成為社會(huì)的一部分,從消費(fèi)者家庭到工廠、物流等各個(gè)領(lǐng)域。

Deepak Pathak(SkildAI):機(jī)器人 AI 與 LLM 或 VLM 有顯著區(qū)別。LLM 需接近完美才能真正有用,而機(jī)器人 AI 無需完全解決問題即可發(fā)揮作用。如今,已有大量機(jī)器人在實(shí)際應(yīng)用中大顯身手,如制造產(chǎn)品等。機(jī)器人技術(shù)的關(guān)鍵在于任務(wù)分解,專用機(jī)器人將比通用機(jī)器人更早問世,且從一開始就非常有用,特別是在勞動(dòng)力短缺的領(lǐng)域。

Pras Velagapudi (Agility Robotics):機(jī)器人技術(shù)的挑戰(zhàn)不僅在于技術(shù)本身,還涉及安全性、社會(huì)接受度等因素。自動(dòng)駕駛汽車早在 2015 年就能實(shí)現(xiàn)基本功能,但真正的普及仍需克服多重挑戰(zhàn)。未來三到五年,機(jī)器人數(shù)量在某些領(lǐng)域可能超出預(yù)期,而在其他領(lǐng)域則可能低于預(yù)期。

一點(diǎn)關(guān)鍵點(diǎn)是,機(jī)器人技術(shù)正從單一用途向多用途發(fā)展,盡管還不是通用型,但多用途已成為人們的期望。這種期望推動(dòng)了投資和精力的投入,也促使社會(huì)開始思考為什么不能擁有一個(gè)能完成多項(xiàng)任務(wù)的機(jī)器人,人們對這種技術(shù)的渴望是推動(dòng)行業(yè)發(fā)展的重要?jiǎng)恿Α?/p>

Aaron Saunders (Boston Dynamics):目前人們對機(jī)器人實(shí)現(xiàn)時(shí)間的預(yù)測差異巨大,機(jī)器人公司的創(chuàng)始人可能說明年,而技術(shù)專家則認(rèn)為需要十年甚至更久。不同人對機(jī)器人的期望不同,比如汽車在極端天氣下也能運(yùn)行,但人形機(jī)器人帶來的生活價(jià)值卻難以衡量。

關(guān)鍵在于應(yīng)該關(guān)注機(jī)器人發(fā)展的速度和已取得的進(jìn)展。各機(jī)器人公司在不同領(lǐng)域建立了有意義的「灘頭陣地」,這些領(lǐng)域?qū)⒅饾u擴(kuò)大并相互重疊,但這需要時(shí)間。無人能準(zhǔn)確預(yù)測五年后的發(fā)展,但增長和領(lǐng)域交匯是必然的。

以自動(dòng)駕駛汽車為例,盡管自動(dòng)駕駛的實(shí)現(xiàn)比預(yù)期晚,但自動(dòng)車道保持等功能已逐漸普及,這些進(jìn)步源于對自動(dòng)駕駛的追求。同樣,人形機(jī)器人也會(huì)逐步發(fā)展。

只要社區(qū)保持熱情并持續(xù)投入,專用機(jī)器人將在一兩年內(nèi)實(shí)現(xiàn)商業(yè)價(jià)值。例如,Agility 等公司已在交付商用機(jī)器人,未來五年內(nèi)這些機(jī)器人將能完成更多任務(wù)。但要解決跨行業(yè)問題,仍需長期努力和夢想。整個(gè)行業(yè)需要幾十年的持續(xù)投入,才能解決所有邊緣案例。

Jim Fan (NVIDIA):我非常認(rèn)同 Deepak Pathak 提到的「人們傾向于高估短期,低估長期」的觀點(diǎn)。

我認(rèn)為,在未來兩到五年內(nèi),從技術(shù)發(fā)展的視角來看,我們有望系統(tǒng)性地揭示具身智能的 Scaling Law(Embodied Scaling Law)。這一領(lǐng)域目前仍處于探索階段,但如果我們回顧大型語言模型的發(fā)展歷程,Chinchilla Scaling Law 是一個(gè)值得深思的里程碑——它清晰地描繪了計(jì)算資源、數(shù)據(jù)量和參數(shù)規(guī)模之間的指數(shù)級關(guān)系:當(dāng)資源投入增加時(shí),智能表現(xiàn)呈現(xiàn)出令人驚嘆的躍升。

但機(jī)器人技術(shù)的 Scaling Law 卻遠(yuǎn)比語言模型更復(fù)雜。它的縮放維度不僅局限于模型層面的擴(kuò)展,還涉及硬件集群(真實(shí)機(jī)器人數(shù)據(jù))方面的規(guī)模化部署、仿真數(shù)據(jù)的生成效率,以及互聯(lián)網(wǎng)數(shù)據(jù)的整合能力。更值得注意的是,神經(jīng)仿真(neural dreams)作為一種新興的虛擬訓(xùn)練方法,其縮放潛力尚未被充分挖掘。

隨著仿真技術(shù)的進(jìn)步和大規(guī)模視頻生成能力的提升,我們或許即將迎來一個(gè)轉(zhuǎn)折點(diǎn),到那時(shí),我們能清晰地知道投入多少 GPU 資源會(huì)帶來怎樣的性能提升。


轉(zhuǎn)載原創(chuàng)文章請?zhí)砑游⑿牛篺ounderparker

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
男性最“耗陽”行為,煙酒未上榜,排第一的,多數(shù)人不重視!

男性最“耗陽”行為,煙酒未上榜,排第一的,多數(shù)人不重視!

深度知局
2025-05-20 17:47:03
2-0!不懼連續(xù)高強(qiáng)度作戰(zhàn),橫掃美國華裔名將,王祉怡晉級八強(qiáng)

2-0!不懼連續(xù)高強(qiáng)度作戰(zhàn),橫掃美國華裔名將,王祉怡晉級八強(qiáng)

釘釘陌上花開
2025-05-29 20:31:21
美方剛宣布“500美軍進(jìn)駐臺島”,解放軍直接貼臉開大,麻煩大了

美方剛宣布“500美軍進(jìn)駐臺島”,解放軍直接貼臉開大,麻煩大了

影孖看世界
2025-05-28 14:09:18
李宗盛,戳穿了林志炫被淘汰的真正原因,也給華語樂壇敲響了警鐘

李宗盛,戳穿了林志炫被淘汰的真正原因,也給華語樂壇敲響了警鐘

簡讀視覺
2025-05-27 22:20:02
把公權(quán)力當(dāng)作謀取私利的工具,廣東省政協(xié)機(jī)關(guān)原一級巡視員張廣寧被“雙開”

把公權(quán)力當(dāng)作謀取私利的工具,廣東省政協(xié)機(jī)關(guān)原一級巡視員張廣寧被“雙開”

界面新聞
2025-05-29 17:03:00
就在明天!西安知名商超重新開業(yè)

就在明天!西安知名商超重新開業(yè)

愛看劇的阿峰
2025-05-29 17:04:49
印媒推翻一個(gè)月前的觀點(diǎn),罕見承認(rèn)一個(gè)事實(shí),果然還是低估了中國

印媒推翻一個(gè)月前的觀點(diǎn),罕見承認(rèn)一個(gè)事實(shí),果然還是低估了中國

錦然蒼穹
2025-05-28 18:41:24
魯比奧放話:“狠狠”拒簽中國學(xué)生

魯比奧放話:“狠狠”拒簽中國學(xué)生

觀察者網(wǎng)
2025-05-29 09:38:11
請周知!明天起,東莞這些高速入口全封閉!

請周知!明天起,東莞這些高速入口全封閉!

東莞紀(jì)實(shí)
2025-05-29 17:44:40
李忠任湖南省司法廳廳長

李忠任湖南省司法廳廳長

魯中晨報(bào)
2025-05-29 19:09:36
單位里40以上的中年人,最好的狀態(tài)不是級別高權(quán)力大,而是這4種

單位里40以上的中年人,最好的狀態(tài)不是級別高權(quán)力大,而是這4種

細(xì)說職場
2025-05-27 07:39:06
每體:克洛普已與法布雷加斯會(huì)面,試圖說服他加盟萊比錫

每體:克洛普已與法布雷加斯會(huì)面,試圖說服他加盟萊比錫

直播吧
2025-05-29 00:37:11
印度到處炫耀“戰(zhàn)功”,法國突然戳破窟窿

印度到處炫耀“戰(zhàn)功”,法國突然戳破窟窿

新民周刊
2025-05-29 09:05:20
蔚來孤注一擲

蔚來孤注一擲

華爾街見聞官方
2025-05-27 15:59:56
多次撞擊空間站真兇鎖定,神二十已攜帶“裝甲”,為天宮加防護(hù)罩

多次撞擊空間站真兇鎖定,神二十已攜帶“裝甲”,為天宮加防護(hù)罩

答案在這兒
2025-05-28 15:53:13
突發(fā)!全線暴跌!特朗普被裁定越權(quán)!

突發(fā)!全線暴跌!特朗普被裁定越權(quán)!

福州晚報(bào)
2025-05-29 11:02:42
著名車評人顏宇鵬飛坡測試問界M8,是真實(shí)體驗(yàn)還是重蹈袁啟聰覆轍

著名車評人顏宇鵬飛坡測試問界M8,是真實(shí)體驗(yàn)還是重蹈袁啟聰覆轍

沙雕小琳琳
2025-05-29 04:54:46
上海知名腫瘤醫(yī)院將擴(kuò)建,有望成“全球最大”

上海知名腫瘤醫(yī)院將擴(kuò)建,有望成“全球最大”

鬼菜生活
2025-05-29 12:10:38
3114元入手Switch2馬車同捆:價(jià)格真香還含稅

3114元入手Switch2馬車同捆:價(jià)格真香還含稅

游民星空
2025-05-29 15:09:16
77歲梁小龍現(xiàn)身深圳,和小20歲妻子低調(diào)坐地鐵

77歲梁小龍現(xiàn)身深圳,和小20歲妻子低調(diào)坐地鐵

安山客
2025-05-28 17:46:32
2025-05-29 22:16:49
FounderPark incentive-icons
FounderPark
關(guān)注AI創(chuàng)業(yè),專注和創(chuàng)業(yè)者聊真問題
762文章數(shù) 133關(guān)注度
往期回顧 全部

科技要聞

英偉達(dá)財(cái)報(bào)炸裂 黃仁勛卻嘆退出中國太可惜

頭條要聞

疑因2年前的一句"阿姨" 男子遭電話短信騷擾不敢回家

頭條要聞

疑因2年前的一句"阿姨" 男子遭電話短信騷擾不敢回家

體育要聞

納達(dá)爾,法網(wǎng),漫長告別

娛樂要聞

辛柏青沉默8天后,這些事還是發(fā)生了

財(cái)經(jīng)要聞

若對等關(guān)稅叫停,特朗普還能怎么加關(guān)稅

汽車要聞

換上高爾夫GTI同款2.0T動(dòng)力 新凌渡L GTS實(shí)車曝光

態(tài)度原創(chuàng)

旅游
藝術(shù)
手機(jī)
教育
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機(jī)要聞

全球首款雙2億像素手機(jī)被曝光!OPPO要狂卷旗艦機(jī)?

教育要聞

剛剛發(fā)布:南京市開始啟動(dòng)!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 登封市| 北流市| 云阳县| 多伦县| 彭山县| 健康| 桓台县| 陈巴尔虎旗| 运城市| 吉水县| 青川县| 白银市| 滨海县| 平阴县| 安乡县| 伊川县| 苍南县| 福安市| 贞丰县| 定西市| 永仁县| 丁青县| 凤冈县| 白玉县| 惠东县| 黄冈市| 蕲春县| 怀安县| 达拉特旗| 兴安盟| 饶平县| 霞浦县| 广河县| 奉节县| 辽宁省| 莱芜市| 河津市| 确山县| 巴林右旗| 康马县| 鸡西市|