文章轉(zhuǎn)載自「Linguista」
今年的 GTC 大會(huì),英偉達(dá)發(fā)布了通用機(jī)器人模型 GR00T N1,老黃特別提到未來重點(diǎn)關(guān)注的趨勢是「Physical AI」(物理 AI)。
不僅如此,老黃還把當(dāng)下機(jī)器人領(lǐng)域的核心玩家都喊了過來,針對人形機(jī)器人領(lǐng)域當(dāng)下的技術(shù)路徑、數(shù)據(jù)問題以及通用模型和通用機(jī)器人等問題進(jìn)行了深入探討,有不少很有價(jià)值的觀點(diǎn)。
嘉賓陣容很強(qiáng)大,1X、Skild AI、Agility Robotics、Boston Dynamics……堪稱具身智能領(lǐng)域的「華山論劍」。
嘉賓介紹:
Bernt B?rnich,人形機(jī)器人創(chuàng)企 1X 的創(chuàng)始人兼 CEO。1X 致力于構(gòu)建完全自主的人形機(jī)器人。此前曾推出專注于家庭場景的人形機(jī)器人 NEO。
Deepak Pathak,具身智能創(chuàng)企 Skild AI 的 CEO 兼聯(lián)創(chuàng)。Skild AI 致力于打造機(jī)器人通用「大腦」。此前曾推出曾推出可擴(kuò)展的機(jī)器人基礎(chǔ)模型「Skild Brain」。
Pras Velagapudi,人形機(jī)器人創(chuàng)企 Agility Robotics 的 CTO, Agility 曾推出第一款商用化出售的機(jī)器人 Digit。
Aaron Saunders,美國「老牌」機(jī)器人公司 Boston Dynamics 的 CTO。Boston Dynamics 曾推出人形機(jī)器人 Atlas。
多模態(tài)、推理模型都是解決機(jī)器人問題的必要但不充分條件。首先必須要先解決視覺問題,擁有一個(gè)好的視覺控制系統(tǒng),然后再追求通用機(jī)器人。
也許多模態(tài)大模型無法完全解決機(jī)器人或通用智能的問題,但讓機(jī)器人控制系統(tǒng)變得足夠?qū)嵱茫阋灾纹鹨粋€(gè)規(guī)模化的數(shù)據(jù)飛輪(data flywheel)。這個(gè)飛輪可以擺脫每一步遙控操作,讓機(jī)器人持續(xù)自我強(qiáng)化。
讓機(jī)器人更廣泛地應(yīng)用在現(xiàn)實(shí)環(huán)境中,獲取多樣化的數(shù)據(jù)是至關(guān)重要的。機(jī)器人技術(shù)的發(fā)展必須發(fā)生在人群和家庭中,因?yàn)檫@些環(huán)境能提供真實(shí)且多樣化的數(shù)據(jù)。
目前談?wù)撏耆銟颖镜目鐚?shí)體泛化還為時(shí)過早。做到這一點(diǎn)的一種方法是擁有大量不同類型的機(jī)器人硬件,甚至在仿真中也擁有更多種類的機(jī)器人硬件。
領(lǐng)域泛化可能讓機(jī)器人得到更為穩(wěn)健的結(jié)果,但不會(huì)得到最優(yōu)化的性能。
交互能力是消除機(jī)器人「幻覺」的關(guān)鍵。如果沒有交互能力,幻覺就無法被消除。當(dāng)機(jī)器人能夠與環(huán)境進(jìn)行交互時(shí),它就可以不斷糾正自己的認(rèn)知,這也是機(jī)器人與其他 AI 應(yīng)用之間的重要區(qū)別。
三到五年內(nèi),機(jī)器人會(huì)在大多數(shù)人中變得相當(dāng)普及。即使不是每個(gè)人都擁有機(jī)器人,但人們會(huì)認(rèn)識那些擁有機(jī)器人的人,它們會(huì)逐漸成為社會(huì)的一部分,從消費(fèi)者家庭到工廠、物流等各個(gè)領(lǐng)域。
Founder Park 正在搭建開發(fā)者社群,邀請積極嘗試、測試新模型、新技術(shù)的開發(fā)者、創(chuàng)業(yè)者們加入,請掃碼詳細(xì)填寫你的產(chǎn)品/項(xiàng)目信息,通過審核后工作人員會(huì)拉你入群~
進(jìn)群之后,你有機(jī)會(huì)得到:
高濃度的主流模型(如 DeepSeek 等)開發(fā)交流;
資源對接,與 API、云廠商、模型廠商直接交流反饋的機(jī)會(huì);
好用、有趣的產(chǎn)品/案例,F(xiàn)ounder Park 會(huì)主動(dòng)做宣傳。
01
機(jī)器人領(lǐng)域加速的關(guān)鍵因素:數(shù)據(jù)、多模態(tài)、硬件成本
主持人:有人曾提到,機(jī)器人技術(shù)是最古老的領(lǐng)域之一,在過去的歷史中發(fā)展速度很慢,為什么現(xiàn)在機(jī)器人領(lǐng)域開始「加速發(fā)展」了?有哪些關(guān)鍵影響因素?
Jim Fan (NVIDIA):機(jī)器人技術(shù)是最古老的領(lǐng)域之一,幾乎與人工智能技術(shù)本身存在的時(shí)間一樣長。機(jī)器人領(lǐng)域發(fā)展如此困難的原因在于「莫拉維克悖論」(Moravec's paradox)。這個(gè)悖論指出,對人類來說容易的事情,對機(jī)器來說卻非常困難,反之亦然。比如我們覺得極難的創(chuàng)造性寫作,對機(jī)器來說可能并不那么難。這也是為什么像大型語言模型(LLM)、自然語言處理(NLP)、計(jì)算機(jī)視覺這些領(lǐng)域,如今比機(jī)器人技術(shù)解決得好得多。所以我們現(xiàn)在正面臨這個(gè)悖論。
我認(rèn)為機(jī)器人領(lǐng)域目前加速發(fā)展得益于幾點(diǎn)因素:
一是在模型方面。大型基礎(chǔ)模型的出現(xiàn),如 LLM 的「ChatGPT 時(shí)刻」的到來,我們現(xiàn)在有了能夠進(jìn)行推理的模型,以及能夠理解計(jì)算機(jī)視覺的多模態(tài)模型,因此對三維視覺世界的開放詞匯理解能力遠(yuǎn)超以往,這些都是解決機(jī)器人問題的必要但不充分條件。首先必須要先解決視覺問題,擁有一個(gè)好的視覺控制系統(tǒng),然后再追求通用機(jī)器人。
二是數(shù)據(jù)方面。機(jī)器人的數(shù)據(jù)不像是大型語言模型能夠來自互聯(lián)網(wǎng)當(dāng)中的大規(guī)模數(shù)據(jù),引用 Ilya Sutskever 的話,他說「互聯(lián)網(wǎng)是人工智能的化石燃料」,但機(jī)器人并沒有這種「化石燃料」,所以必須依靠合成數(shù)據(jù),以及大規(guī)模收集數(shù)據(jù)。仿真技術(shù),特別是 GPU 加速仿真的出現(xiàn),讓機(jī)器人訓(xùn)練數(shù)據(jù)的問題變得更容易處理。因?yàn)楝F(xiàn)在可以在大約三個(gè)小時(shí)的計(jì)算時(shí)間內(nèi)生成相當(dāng)于 10 年訓(xùn)練數(shù)據(jù)量的數(shù)據(jù),這確實(shí)幫我們超越了數(shù)據(jù)困境。
三是硬件方面。今天參會(huì)的一些最杰出公司的創(chuàng)始人,他們的公司創(chuàng)造了我們所見過的最好的機(jī)器人硬件。機(jī)器人硬件已經(jīng)變得好得多,也便宜得多。今年我們看到的硬件價(jià)格大約在 4 萬美元左右,相當(dāng)于一輛汽車的價(jià)格。而在 2001 年,NASA 建造了 Robonaut——最早的主要人形機(jī)器人之一,當(dāng)時(shí)的價(jià)格是 150 萬美元(2001 年的美元價(jià)格)。硬件的價(jià)格終于變得負(fù)擔(dān)得起,將很快成為主流。
主持人:Aaron Saunders 在機(jī)器人技術(shù)還很不成熟的的時(shí)期就進(jìn)入了機(jī)器人領(lǐng)域。你認(rèn)為,機(jī)器人技術(shù)這幾年發(fā)生了哪些變化?
Aaron Saunders (Boston Dynamics):剛才 Jim Fan談到了很多機(jī)器人領(lǐng)域發(fā)展重要的因素,我試著挑幾點(diǎn)來展開說說。
首先是機(jī)器人「仿真到現(xiàn)實(shí)」(sim-to-real)環(huán)境之間的差距不斷縮小,這是非常關(guān)鍵的進(jìn)展。長期以來,機(jī)器人領(lǐng)域一直在致力于構(gòu)建既能準(zhǔn)確模擬物理現(xiàn)象、又具備高計(jì)算效率的仿真環(huán)境。我們可以構(gòu)建非常復(fù)雜的模型,精準(zhǔn)地再現(xiàn)物理世界,但無法實(shí)現(xiàn)實(shí)時(shí)或超實(shí)時(shí)地運(yùn)行。最大的變化是如今能夠以超實(shí)時(shí)(Super Real-Time)的方式模擬現(xiàn)實(shí)世界的物理過程,極大地提升了在仿真層面的探索效率,同時(shí)能更好地利用仿真技術(shù)推動(dòng)人工智能的開發(fā)。
另一個(gè)重要變化是機(jī)器人零部件的商品化,這要?dú)w功于消費(fèi)電子行業(yè)等相關(guān)產(chǎn)業(yè)的發(fā)展,帶來了更強(qiáng)的電池、更好的攝像頭,以及更先進(jìn)的感知、計(jì)算等技術(shù)。大概在十到十五年前,大多數(shù)機(jī)器人內(nèi)部還塞滿了 PCB 板和電線,電池容量也非常有限。但現(xiàn)在,機(jī)器人具備強(qiáng)大的計(jì)算能力,搭載微型、低功耗的傳感器。機(jī)器人零部件的商品化,并不只是反映硬件成本的降低,更是促進(jìn)機(jī)器人創(chuàng)業(yè)的浪潮。
同時(shí),全球硬件供應(yīng)鏈中涌現(xiàn)出大量可拼接組合的關(guān)鍵部件,機(jī)器人公司不需要再從零設(shè)計(jì)每一個(gè)齒輪,而是可以像拼拼圖一樣,將這些模塊組合,在更高層次進(jìn)行創(chuàng)新。因此,如今的機(jī)器人公司更多專注于智能層面的開發(fā),構(gòu)建應(yīng)用程序,而不是將全部資源投入到制造物理機(jī)器本身。
Deepak Pathak(SkildAI):我想在 Jim Fan 最初觀點(diǎn)的基礎(chǔ)之上強(qiáng)調(diào)一點(diǎn),機(jī)器人不僅是人工智能的第一個(gè)應(yīng)用場景,它本身就是 AI 的核心。回顧艾倫·圖靈在人工智能早期的論述,他設(shè)想的 AI 正是為機(jī)器人服務(wù)的。他主張,我們應(yīng)該制造可以自主學(xué)習(xí)的系統(tǒng),而不是試圖直接構(gòu)建一個(gè)「成年人」,我們應(yīng)該創(chuàng)造一個(gè)像孩子一樣逐漸成長、學(xué)習(xí)的機(jī)器人。你可以把它放進(jìn)教室,隨著時(shí)間推移,它會(huì)成長為「成年人」。這是一個(gè)極具吸引力的想法,早在 20 世紀(jì) 50 年代艾倫·圖靈就提出了這個(gè)想法。
語言和視覺同樣也很重要,但如果我們觀察自然界的演化過程,會(huì)發(fā)現(xiàn)這些能力的出現(xiàn)遠(yuǎn)晚于物理行動(dòng)能力。比如我們訓(xùn)練大型語言模型(LLM)所用的數(shù)據(jù),可能來自過去 100 年、200 年,最多也就 1000 年。而人類文明的歷史遠(yuǎn)遠(yuǎn)超過這個(gè)時(shí)間跨度。所以,并不是語言帶來了智能,而是智能的基礎(chǔ)早已存在。人類大腦的演化,是基于對物理世界的理解和推理,這也解釋了為什么機(jī)器人技術(shù)如此重要。你無需向任何人解釋什么是機(jī)器人,人們天然就能理解它,因?yàn)槲覀兠刻於荚谶M(jìn)行各類物理操作,每個(gè)企業(yè)、每個(gè)組織都與機(jī)器人所代表的實(shí)體交互密切相關(guān)。
除了 Jim Fan 剛提到的在技術(shù)層面的進(jìn)步外,我認(rèn)為最大的變化是我們對機(jī)器人領(lǐng)域整體思考方式的變化。以往,控制理論一直在機(jī)器人領(lǐng)域占據(jù)主導(dǎo)陣地,直到三四年前,依然占據(jù)主導(dǎo)。實(shí)際上控制理論最初并不是為機(jī)器人設(shè)計(jì)的,在二戰(zhàn)期間興起,主要用于飛機(jī)和導(dǎo)彈控制。后來艾倫·圖靈的思想推動(dòng)了機(jī)器人熱潮,人們想「我們能用什么現(xiàn)成的工具?」,于是就沿用了控制理論幾十年之久。但這和圖靈最初設(shè)想的「孩童式學(xué)習(xí)」完全不同。你不會(huì)先教一個(gè)孩子學(xué)微積分再學(xué)走路,也不會(huì)讓他們先理解關(guān)節(jié)動(dòng)力學(xué)再學(xué)走路。學(xué)習(xí)本身,是通過經(jīng)驗(yàn)完成的。
而「從經(jīng)驗(yàn)中學(xué)習(xí)」正是當(dāng)下機(jī)器人控制領(lǐng)域的關(guān)鍵變化。例如,此前 Boston Dynamics 發(fā)布的一段機(jī)器人 Atlas 通過經(jīng)驗(yàn)學(xué)習(xí)來實(shí)現(xiàn)控制的視頻。從「基于編程的經(jīng)驗(yàn)」轉(zhuǎn)向「通過經(jīng)驗(yàn)來學(xué)習(xí)」,是我們對于機(jī)器人理解方式的一次重大躍遷。
Bernt B?rnich(1X):我接著這個(gè)話題進(jìn)一步分享。我認(rèn)為,機(jī)器人領(lǐng)域最根本的變化之一,其實(shí)來自互聯(lián)網(wǎng)。過去三十年,全球的每一個(gè)人都在向互聯(lián)網(wǎng)貢獻(xiàn)內(nèi)容,這相當(dāng)于一次巨大的集體實(shí)驗(yàn)。正是這些數(shù)據(jù)的積累,讓我們得以訓(xùn)練出今天的 AI 模型,像魔法一般。而現(xiàn)在我們要做的是,如何把這套機(jī)制再復(fù)制一次:當(dāng)然不是讓所有人去扮演機(jī)器人,而是利用現(xiàn)有的文本、圖像等數(shù)據(jù),來推動(dòng)機(jī)器人系統(tǒng)的發(fā)展。
關(guān)鍵是如何使用這些已有數(shù)據(jù)去「引導(dǎo)」(bootstrap)機(jī)器人,讓它們開始做一些有用的事情。一旦跨過這個(gè)門檻,它們就能在真實(shí)世界中不斷學(xué)習(xí),而真正的智能恰恰來源于這種長期的真實(shí)交互。但前提是它們必須先「足夠有用」。舉個(gè)例子,我說:「去冰箱拿瓶可樂。」如果機(jī)器人能做到一半的成功率,那我們就有了一個(gè)可行的路徑。因?yàn)榻酉聛碇恍枰粩鄧L試及反饋,「這次成功了,那次失敗了」,機(jī)器人就會(huì)在「拿可樂」這項(xiàng)任務(wù)上越來越擅長。
我認(rèn)為,這也正是現(xiàn)在多模態(tài)大型語言模型的意義所在,也許多模態(tài)大模型無法完全解決機(jī)器人或通用智能的問題,但讓機(jī)器人控制系統(tǒng)變得足夠?qū)嵱茫阋灾纹鹨粋€(gè)規(guī)模化的數(shù)據(jù)飛輪(data flywheel)。這個(gè)飛輪可以擺脫每一步遙控操作,讓機(jī)器人持續(xù)自我強(qiáng)化。這很可能是通向非常有用的機(jī)器控制,甚至可能是通向 AGI(通用人工智能)的路徑。
Pras Velagapudi (Agility Robotics):針對 Aaron Saunders 剛提到的觀點(diǎn):為什么機(jī)器人技術(shù)「又回來了」?人工智能起源于機(jī)器人,然后發(fā)展到其他領(lǐng)域,如今又回到機(jī)器人本體,這一點(diǎn)我補(bǔ)充一下,這其實(shí)有兩個(gè)核心挑戰(zhàn):一是硬件本身非常復(fù)雜,二是機(jī)器人所面對的世界是非結(jié)構(gòu)化的。當(dāng)我們回顧人工智能與機(jī)器人技術(shù)的發(fā)展路徑,會(huì)發(fā)現(xiàn)機(jī)器人技術(shù)的大部分精力長期以來都集中在解決「硬件難」的問題上,比如微型傳感器(如 MEMS)、執(zhí)行器驅(qū)動(dòng)技術(shù)、儲能技術(shù)等。這些技術(shù)必須逐一攻克。甚至像 Arduino (注:一個(gè)軟硬件開源平臺)這樣的平臺,也大大降低了讓真實(shí)物體動(dòng)起來的門檻,不再需要從零開始「造輪子」。
在 AI 方面,我們則是在不斷推進(jìn)從結(jié)構(gòu)化到非結(jié)構(gòu)化問題的解決路徑:從早期解決查詢和指令,到 API 接口,到簡化的世界模型,再到現(xiàn)在復(fù)雜的非結(jié)構(gòu)化世界建模。這些拼圖逐步補(bǔ)全了 AI 平臺的能力邊界,通過尋找新的數(shù)據(jù)獲取方式、借鑒結(jié)構(gòu)化方法的最佳實(shí)踐,并向更真實(shí)的環(huán)境推進(jìn)。比如,「如果不對機(jī)器人再加一輪訓(xùn)練,會(huì)發(fā)生什么?」我們通過分析自動(dòng)駕駛車輛采集的視頻,觀察機(jī)器人攝像頭拍到的第一視角影像,推測接下來世界將如何變化。
所以我認(rèn)為,背后其實(shí)一直在發(fā)生一場「能力解鎖」的逐步進(jìn)化。我們?nèi)缃窨吹降募夹g(shù)爆發(fā),其實(shí)是這場演進(jìn)達(dá)到臨界點(diǎn)之后的自然結(jié)果。現(xiàn)在,是時(shí)候開始真正應(yīng)對非結(jié)構(gòu)化世界的交互挑戰(zhàn)了。
Bernt B?rnich(1X):硬件層面的變化對于機(jī)器人領(lǐng)域的快速發(fā)展至關(guān)重要。過去幾年間最重要的變化之一是我們終于能夠制造出具備足夠穩(wěn)健性的硬件,讓機(jī)器人能在真實(shí)世界中操作而不輕易損壞。長期從事機(jī)器人研究的人都了解,如果每做一次實(shí)驗(yàn)就要修復(fù)或重建機(jī)器人,那實(shí)驗(yàn)成本和周期將極其高昂。如今的硬件達(dá)到了一個(gè)新的水平,機(jī)器人可以在現(xiàn)實(shí)世界中安全地學(xué)習(xí),穩(wěn)定地執(zhí)行任務(wù),而不會(huì)輕易損壞自身或破壞環(huán)境。這是機(jī)器人技術(shù)能夠持續(xù)推進(jìn)的關(guān)鍵前提之一。
02
具身智能的未來是通用模型,數(shù)據(jù)很重要
主持人:你們?nèi)绾慰创斯ぶ悄芗夹g(shù)在機(jī)器人領(lǐng)域所擔(dān)任的「角色」,如何從專用機(jī)器人模型轉(zhuǎn)向通用機(jī)器人模型,以及對通用基礎(chǔ)模型爆炸式增長如何看?
Jim Fan (NVIDIA):我可以談?wù)動(dòng)ミ_(dá)推出的通用人形機(jī)器人基礎(chǔ)大模型「GR00T N1 」所采用的策略,「GR00T N1」旨在解決「跨實(shí)體」機(jī)器人控制泛化的問題,即為不同的人形機(jī)器人構(gòu)建一個(gè)通用的「大腦」。在構(gòu)建「GR00T N1」模型時(shí)遵循了兩點(diǎn)核心原則。
一是模型要盡可能地簡單,沒有中間步驟。我們追求端到端的模型,基本上是「光子到動(dòng)作」(photons to actions)。也就是說,從攝像機(jī)獲取像素輸入后,直接輸出控制電機(jī)的浮點(diǎn)數(shù)。端到端模型的優(yōu)勢在 NLP 領(lǐng)域已被驗(yàn)證。以 ChatGPT 為例,它的出現(xiàn)顛覆了 NLP 領(lǐng)域。ChatGPT 背后的模型更為簡單,將任何文本映射到另一個(gè)文本,底層是一個(gè) Transformer,將一個(gè)整數(shù)序列映射到另一個(gè)整數(shù)序列,這種簡潔性使得所有數(shù)據(jù)和問題都能統(tǒng)一到同一個(gè)模型中。我認(rèn)為機(jī)器人技術(shù)也應(yīng)該借鑒這一點(diǎn),讓模型盡可能簡單。
二是通過復(fù)雜的數(shù)據(jù)策略,對模型數(shù)據(jù)進(jìn)行壓縮。機(jī)器人數(shù)據(jù)是一個(gè)巨大的挑戰(zhàn),無法直接從 YouTube、維基百科等互聯(lián)網(wǎng)中下載數(shù)據(jù)。我們采用的策略是把不同的數(shù)據(jù)看作是一個(gè)「金字塔」,分為頂部、中間層、底層。
頂部是真實(shí)機(jī)器人數(shù)據(jù),這是最優(yōu)質(zhì)的,因?yàn)闆]有領(lǐng)域差距。通過遙控操作(Teleoperation)收集的數(shù)據(jù)最為精確,但擴(kuò)展性有限,受制于每個(gè)機(jī)器人每天 24 小時(shí)的物理限制,在原子世界(現(xiàn)實(shí)世界)中的擴(kuò)展非常困難。
中間層是仿真數(shù)據(jù)。仿真數(shù)據(jù)依賴于 Isaac Sim 等物理引擎來大規(guī)模生成數(shù)據(jù)。這些數(shù)據(jù)是基于真實(shí)世界收集的數(shù)據(jù),或者通過「從經(jīng)驗(yàn)中學(xué)習(xí)」來生成。仿真策略基于 NVIDIA 過去作為圖形公司時(shí)積累的經(jīng)驗(yàn),圖形引擎擅長處理物理和渲染。
底層是來自互聯(lián)網(wǎng)的多模態(tài)數(shù)據(jù)。這些數(shù)據(jù)用于訓(xùn)練視覺語言模型(VLM),進(jìn)而支持視覺-語言-動(dòng)作模型(VLA)。VLM 從大量互聯(lián)網(wǎng)數(shù)據(jù)中訓(xùn)練,最近的視頻生成模型已經(jīng)能生成非常高質(zhì)量的世界神經(jīng)仿真(Neural Simulation)。金字塔的最底層是神經(jīng)仿真,它超越了傳統(tǒng)的圖形引擎。借助這些神經(jīng)仿真,可以要求視頻生成模型來想象一個(gè)新的機(jī)器人軌跡。由于模型在數(shù)百萬個(gè)視頻數(shù)據(jù)上訓(xùn)練,學(xué)習(xí)了物理學(xué)規(guī)律,因此能生成符合物理規(guī)律的像素級軌跡。同時(shí)結(jié)合,我們在「GR00T N1」中提出的「潛在動(dòng)作」(Latent Action)算法,可以從這些機(jī)器人「想象」中提取動(dòng)作,將它們放回到訓(xùn)練數(shù)據(jù)中。
通過以上復(fù)雜的數(shù)據(jù)策略,我們將所有數(shù)據(jù)壓縮成一個(gè)具體的「產(chǎn)物」,從光子到動(dòng)作。因此,一個(gè) 20 億參數(shù)規(guī)模的模型足以解決廣泛的任務(wù),這是「GR00T N1」的策略。
Aaron Saunders (Boston Dynamics):我認(rèn)為這描繪了一個(gè)美好的未來圖景,通過一個(gè)簡單的大模型來解決從像素到運(yùn)動(dòng)的所有問題。但在這個(gè)過程中,我們需要關(guān)注當(dāng)機(jī)器人產(chǎn)品最終進(jìn)入真實(shí)世界時(shí)必須具備的確定性。面向客戶交付某樣?xùn)|西時(shí),必須清楚其在意外情況下的行為表現(xiàn),考慮功能的安全性,同時(shí)還需注意在現(xiàn)有功能基礎(chǔ)上添加新功能時(shí)可能出現(xiàn)的退化(regress)情況。
機(jī)器人技術(shù)的復(fù)雜性實(shí)際上已經(jīng)從傳統(tǒng)的算法和模型轉(zhuǎn)移到了數(shù)據(jù)和數(shù)據(jù)收集上,我們正處于構(gòu)建數(shù)據(jù)集的初期階段。我認(rèn)為,在追求最終強(qiáng)大模型的過程中,絕不能拋棄整個(gè)工具箱(注:這里的「工具箱」可以理解為包括傳統(tǒng)方法、新技術(shù)、算法等在內(nèi)的可用資源)。同時(shí),還應(yīng)維護(hù)機(jī)器人購買者的信任。
盡管有很多令人興奮的新能力正在改變機(jī)器人技術(shù)的格局,但我們不能忽視現(xiàn)實(shí)世界的問題。傳統(tǒng)的工具在解決這些現(xiàn)實(shí)世界的問題時(shí)仍然有效,特別是當(dāng)機(jī)器人涉及強(qiáng)大不可控或可能產(chǎn)生危險(xiǎn)行為的功能時(shí),或當(dāng)機(jī)器人在人的周圍工作時(shí)。因此,我們必須使用一個(gè)龐大的「工具箱」來確保安全和信任。
Bernt B?rnich(1X):我非常認(rèn)同 Aaron Saunders 和 Jim Fan 提出的觀點(diǎn)。1X 也在朝著類似的方向努力,比如構(gòu)建一個(gè)相對簡單的基礎(chǔ)通用模型。當(dāng)我們從早期和晚期的 LLM 的歷史中汲取教訓(xùn)時(shí),我認(rèn)為經(jīng)常被忽視的是多樣性(diversity)的重要性。早期很多公司試圖訓(xùn)練一個(gè)專門擅長寫詩的模型,他們用世界上最好的詩歌來訓(xùn)練,但這并沒有取得很好的效果。因?yàn)椋]有在與寫詩無關(guān)的、極其多樣化的數(shù)據(jù)上進(jìn)行訓(xùn)練,無法實(shí)現(xiàn)真正的智能。
同樣,在機(jī)器人技術(shù)中也類似。即使目前的機(jī)器人模型仍處于小規(guī)模參數(shù)階段,但依然受多樣性的限制,而不是傳統(tǒng)的數(shù)據(jù)規(guī)模限制。多樣性限制是指如何獲取涉及盡可能多的任務(wù),涵蓋盡可能多的環(huán)境,同時(shí)最好還包含一些噪聲和動(dòng)態(tài)變化的數(shù)據(jù),這樣機(jī)器人才能理解任務(wù)的本質(zhì)。
我最喜歡的例子是打開洗衣機(jī)。當(dāng)我們走近洗衣機(jī)時(shí),我們知道要把衣服放進(jìn)那個(gè)洗衣機(jī)內(nèi)槽里,所以我們會(huì)嘗試找到手柄,若打不開,就進(jìn)一步找鎖扣,再不行就將旋鈕轉(zhuǎn)回零位。人類對洗衣機(jī)如何工作有很好地理解,因此能弄清楚如何操作一臺新的洗衣機(jī)。但目前機(jī)器人沒有這種能力,它們只是學(xué)習(xí)重復(fù)動(dòng)作。
因此,我認(rèn)為,讓機(jī)器人更廣泛地應(yīng)用在現(xiàn)實(shí)環(huán)境中,獲取多樣化的數(shù)據(jù)是至關(guān)重要的。我的這個(gè)觀點(diǎn)可能很「逆向」,但我認(rèn)為是很重要的。機(jī)器人技術(shù)的發(fā)展必須發(fā)生在人群和家庭中,因?yàn)檫@些環(huán)境能提供真實(shí)且多樣化的數(shù)據(jù)。同時(shí),機(jī)器人在這些環(huán)境中運(yùn)行時(shí),安全性必須是「與生俱來的」,即從設(shè)計(jì)到應(yīng)用的每一個(gè)環(huán)節(jié)都需要確保安全性,避免對人類造成過度的危險(xiǎn)。在以上基礎(chǔ)之上,我們再進(jìn)一步思考如何將這些新方法與傳統(tǒng)工具箱結(jié)合。
Deepak Pathak(SkildAI):我認(rèn)為有兩個(gè)關(guān)鍵點(diǎn),第一點(diǎn)是人類,人類可以通過簡單的設(shè)備(如 VR 追蹤服、手套、頭顯)來控制任何機(jī)器人,而不需要了解機(jī)器人內(nèi)部的硬件細(xì)節(jié)(如電機(jī)如何工作)。這意味著可以設(shè)計(jì)一個(gè)通用的控制系統(tǒng)來操作不同的機(jī)器人。通過這種方式,我們可以利用任何地方的數(shù)據(jù)來訓(xùn)練機(jī)器人,因?yàn)榭刂七壿嬍墙y(tǒng)一的。
第二點(diǎn)是利用人類行為數(shù)據(jù)。我們忽視了一個(gè)特殊的「機(jī)器人」——人類。人類本身可以被視為一種「生物機(jī)器人」,其大腦通過運(yùn)動(dòng)神經(jīng)元和感覺神經(jīng)元系統(tǒng)工作。人類的日常行為(如開冰箱、拿東西)可以提供豐富的數(shù)據(jù)。每天,人類可能開冰箱十次,這些行為通過視頻數(shù)據(jù)記錄下來,可以用來訓(xùn)練機(jī)器人。雖然仿真是必要的,但真實(shí)的人類行為數(shù)據(jù)同樣重要,甚至可能更具價(jià)值。
Bernt B?rnich(1X):我非常同意你們的看法,所有這些數(shù)據(jù)都極其重要,并且我們也在積極使用這些,這些數(shù)據(jù)是機(jī)器人技術(shù)發(fā)展的基礎(chǔ)。
Pras Velagapudi (Agility Robotics):作為一名遙操作過多種機(jī)器人的人員,我想分享的是,盡管人腦在遙操作平臺方面表現(xiàn)非常出色,但實(shí)際上性能差異是存在的。硬件的質(zhì)量在其中起到了決定性作用。我曾經(jīng)遙操作過 1X 機(jī)器人,體驗(yàn)非常好,但對于一些工業(yè)機(jī)器人,體驗(yàn)則不盡如人意。硬件在性能表現(xiàn)上確實(shí)有很大的影響,特別是當(dāng)它影響到控制性、傳感能力和慣性特性時(shí),這對于在現(xiàn)實(shí)世界中有效運(yùn)行至關(guān)重要。舉個(gè)例子,Boston Dynamics 推出的機(jī)器人展示了極為出色的動(dòng)力學(xué)表現(xiàn),機(jī)器的動(dòng)力學(xué)特性直接影響了其運(yùn)動(dòng)方式,這是顯而易見的。
Deepak Pathak(SkildAI):還有一個(gè)典型的例子是達(dá)芬奇(Da Vinci)手術(shù)機(jī)器人。這個(gè)機(jī)器人廣泛應(yīng)用于手術(shù)操作,背后的公司市值已超過千億美元,核心就是通過遙控操作進(jìn)行控制。這真是非常驚人。這個(gè)例子也意味著,我們都承認(rèn)人腦非常強(qiáng)大,硬件同樣重要。因此,機(jī)器人技術(shù)始終涉及這兩個(gè)方面:硬件和方法。它們可能有不同的實(shí)現(xiàn)方式,但最終必須結(jié)合在一起。所以,問題并不是選擇某種硬件或另一種硬件,而是要將真實(shí)世界數(shù)據(jù)、人類活動(dòng)數(shù)據(jù)、仿真以及從這些數(shù)據(jù)中獲取的學(xué)習(xí)相結(jié)合。
Bernt B?rnich(1X):我認(rèn)為,這與自下而上(bottom-up)和自上而下(top-down)的方法密切相關(guān)。當(dāng)前,我們更多的是在討論自上而下的控制架構(gòu),但我認(rèn)為自下而上的方法也同樣值得關(guān)注。例如,如何讓機(jī)器人學(xué)會(huì)靈巧性(dexterity)?在遙控操作中,我們正在嘗試讓機(jī)器人學(xué)習(xí)如何快速而靈活地操作手部。我們并不知道如何構(gòu)建一個(gè)既快速又高效,并且能夠提供觸覺反饋的遙操作系統(tǒng)。但機(jī)器人卻能夠通過與物體的互動(dòng)自我學(xué)習(xí)這一過程,如果我們只是給它一堆物體讓它練習(xí),它就能學(xué)習(xí)如何操作。接下來,問題就變成了:如何在遙操作界面上提升抽象層次?換句話說,不再僅僅是操作「捏住」或「抓取」動(dòng)作,而是通過引導(dǎo)機(jī)器人完成任務(wù),并允許系統(tǒng)通過實(shí)際操作學(xué)習(xí)靈巧性。
03
「一腦多體」是未來,但實(shí)現(xiàn)路徑各家有分歧
Deepak Pathak(SkildAI):機(jī)器人技術(shù)發(fā)展面臨的一個(gè)關(guān)鍵問題是硬件的多樣性。我們是否應(yīng)該只有一種機(jī)器人?還是可以有多種機(jī)器人?這些機(jī)器人是否可以共享一個(gè)「大腦」(即統(tǒng)一的控制軟件)?這些問題在機(jī)器人領(lǐng)域非常重要,而在語言模型領(lǐng)域則不存在,因?yàn)檎Z言模型主要依賴軟件(如GPU計(jì)算),而硬件問題早已被解決。
Aaron Saunders (Boston Dynamics):我認(rèn)為,當(dāng)我們試圖將大腦與身體硬件分開時(shí),往往忽視了一個(gè)重要問題,即試圖完成的任務(wù)。如果任務(wù)涉及一系列體積小、慣性不顯著的物體,可以在很大程度上將大腦與實(shí)體身體分開。但我認(rèn)為,現(xiàn)實(shí)情況是,我們現(xiàn)在制造這些機(jī)器的目的遠(yuǎn)不止于最初關(guān)注的簡單的桌面任務(wù)。比如要舉起沉重且復(fù)雜的物體,或接觸鋒利的金屬板,甚至是處理高溫物體等場景,我們希望用機(jī)器人代替人類,這時(shí)硬件的重要性就顯現(xiàn)出來了。
硬件必須與軟件協(xié)同進(jìn)化,將一個(gè)帶有 API 接口的完備硬件平臺與任何軟件大腦斷開連接的想法是不現(xiàn)實(shí)的。理解執(zhí)行器的質(zhì)量、摩擦力等細(xì)節(jié),對于仿真表現(xiàn)可能至關(guān)重要。同時(shí),還需要更多時(shí)間來完全理解像「GR00T N1」這類通過基礎(chǔ)模型如何在不同類型的機(jī)器人上應(yīng)用。因?yàn)槟壳埃覀冞€沒有足夠的數(shù)據(jù)來證明一個(gè)模型可以在各種機(jī)器人上完美運(yùn)行,且行為沒有顯著差異。
如果只是試圖撿起一袋薯片并放下,可能不重要。但如果嘗試拾取一個(gè)高精度零件并將其組裝到另一個(gè)高精度孔中,那就十分重要了。所以我認(rèn)為,是否能將大腦與硬件完全分開,仍然沒有定論,關(guān)鍵在于任務(wù)的類型。
Deepak Pathak(SkildAI):我認(rèn)為恰恰相反,一個(gè)硬件平臺上可以有多個(gè)「大腦」。就像 NVIDIA 提供的基礎(chǔ)硬件平臺,許多機(jī)器人公司都可以在其上構(gòu)建機(jī)器人的「大腦」。
Jim Fan (NVIDIA):我認(rèn)為 Aaron Saunders 提到了一個(gè)非常關(guān)鍵的點(diǎn),即跨實(shí)體泛化(cross embodiment)。對一個(gè)模型來說,什么是跨實(shí)體泛化,需要從人類自身談起。人類在跨實(shí)體泛化方面非常擅長。每當(dāng)人類開始玩一個(gè)視頻游戲時(shí),實(shí)際上就在進(jìn)行跨實(shí)體泛化。
比如,人類可能在駕駛游戲中的汽車,或者扮演某個(gè)奇怪的角色,甚至是非人類角色。在使用了幾小時(shí)的手柄后,人類會(huì)迅速掌握如何控制虛擬游戲中的身體,最后能順利地玩下去。所以人腦在跨實(shí)體泛化方面的能力非常強(qiáng)。我認(rèn)為這是一個(gè)可解的問題,我們只需要找到合適的參數(shù)來實(shí)現(xiàn)它。
我同意 Aaron Saunders 的觀點(diǎn),目前談?wù)撏耆銟颖镜目鐚?shí)體泛化還為時(shí)過早。也就是說,隨便一個(gè)機(jī)器人,模型就能神奇地工作——我不這么認(rèn)為。我們還沒達(dá)到那一步,但總有一天我們會(huì)實(shí)現(xiàn)它。我認(rèn)為,做到這一點(diǎn)的一種方法是擁有大量不同類型的機(jī)器人硬件,甚至在仿真中也擁有更多種類的機(jī)器人硬件。
例如,此前 Meta FAIR 推出的統(tǒng)一模型「MetaMorph」,在仿真中程序化生成了數(shù)千個(gè)簡單機(jī)器人,這些機(jī)器人具有不同的關(guān)節(jié)連接方式,有些像蛇,有些像蜘蛛。然后我們使用「機(jī)器人語法」對這些機(jī)器人進(jìn)行標(biāo)記化(tokenize),本質(zhì)上是將實(shí)體轉(zhuǎn)換成整數(shù)序列。一旦我們看到這些整數(shù)序列,就像 Transformer 論文《Attention is All You Need》提到的思路,應(yīng)用 Transformer 對這數(shù)千個(gè)實(shí)體進(jìn)行處理。我們發(fā)現(xiàn),實(shí)際上我們能夠泛化到第千零一個(gè)實(shí)體,但這仍是一個(gè)非常初步的實(shí)驗(yàn)。
我相信,如果我們擁有一種通用的描述語言,并且擁有大量不同類型的真實(shí)機(jī)器人和仿真機(jī)器人,我們可以對它們進(jìn)行標(biāo)記化、生成大量數(shù)據(jù),這樣所有實(shí)體就可以形成一個(gè)「實(shí)體宇宙」(universe of embodiment),一個(gè)實(shí)體的向量空間,也許一個(gè)新的機(jī)器人就會(huì)落在這個(gè)分布之內(nèi)。
我還想補(bǔ)充的是,這不僅僅涉及技術(shù)方面的考量,而是一個(gè)非常現(xiàn)實(shí)的問題。各位硬件公司創(chuàng)始人都遇到過類似的問題,當(dāng)你有不同版本的機(jī)器人,但上一代的機(jī)器人上收集的數(shù)據(jù)和訓(xùn)練模型無法在 V2、V3 等新版本上泛化,性能顯著下降。同時(shí),甚至在同一版本的機(jī)器人內(nèi)部,也會(huì)出現(xiàn)差異和微小缺陷,這就是來自物理世界的混亂,也是導(dǎo)致不同的機(jī)器人無法完美復(fù)制同一個(gè)模型的原因。跨代問題更為復(fù)雜,跨公司和不同設(shè)計(jì)的機(jī)器人也會(huì)面臨相同的問題。所以,這個(gè)問題很現(xiàn)實(shí),而目前我們才在初期解決階段。
Aaron Saunders (Boston Dynamics):但我認(rèn)為,現(xiàn)在的機(jī)器人硬件的多樣性差異不大。比如在人形機(jī)器人領(lǐng)域,各家都在使用類似的硬件平臺,基本上是在復(fù)制我們的人體結(jié)構(gòu)。在 Boston Dynamics,我們的夾持器(End Effector)只使用三根手指,這與追求完全擬人化手的趨勢相反。因?yàn)槲覀儼l(fā)現(xiàn),人類能很容易適應(yīng)用三根手指操作,就像用五根手指一樣。可以讓一個(gè)遙操作員操作三指夾持器,經(jīng)過幾小時(shí)的訓(xùn)練,機(jī)器人幾乎能做到用五指才能完成的所有事情。
所以我認(rèn)為,這里有很大的探索空間。盡管目前各家機(jī)器人公司都在機(jī)器人硬件方面「打基礎(chǔ)」,但一旦實(shí)現(xiàn)模型的泛化能力,會(huì)出現(xiàn)更多不同于「擬人化」形態(tài)的機(jī)器人,這可能是好事也可能是壞事。我認(rèn)為最終我們可能會(huì)得到看起來足夠不同于人類、甚至讓人感到恐懼的機(jī)器人。但就夾持器而言,已經(jīng)存在如此豐富的機(jī)會(huì)空間,Agility 的夾持器也與其他人形機(jī)器人上看到的完全不同,但它們依然能完成一些相同的任務(wù)。所以,我認(rèn)為這將是未來幾年非常令人興奮的議題。
主持人:Jim Fan 剛剛提到同一款機(jī)器人在不同的場景、環(huán)境下可能表現(xiàn)不同,這是否意味著這是機(jī)器人硬件方面最大的挑戰(zhàn)?
Aaron Saunders (Boston Dynamics):我想再次強(qiáng)調(diào)「工具箱」的重要性。如果你的機(jī)器人有很好的校準(zhǔn)方法,你清楚地知道如何表征它,并且做了很多扎實(shí)的工作,那么這些變異性(差異性)問題就不會(huì)那么嚴(yán)重了。所以,我認(rèn)為當(dāng)你面對一個(gè)無法表征、沒有校準(zhǔn)、差異大的機(jī)器人,然后隨便給它一個(gè)控制器——無論是 AI 策略還是其他什么——你會(huì)發(fā)現(xiàn)輸出有很大差異。但我相信現(xiàn)在我們可以做很多工作來最小化這個(gè)差距。
Pras Velagapudi (Agility Robotics):是的,我認(rèn)為另一點(diǎn)是,當(dāng)你將機(jī)器人部署到真實(shí)世界進(jìn)行生產(chǎn)時(shí),你會(huì)遇到許多變異性情況,并從中獲得經(jīng)驗(yàn),再將經(jīng)驗(yàn)會(huì)反饋到訓(xùn)練流程當(dāng)中。例如,機(jī)器人 Digit 具有完全通過學(xué)習(xí)進(jìn)行的恢復(fù)行為。我們一直在真實(shí)世界中部署它,它已經(jīng)應(yīng)用在生產(chǎn)系統(tǒng)中。通過領(lǐng)域隨機(jī)化和數(shù)據(jù)多樣性,我們的機(jī)器人在面對這些變異性時(shí)表現(xiàn)得越來越穩(wěn)健。
Bernt B?rnich(1X):當(dāng)你從幾百臺機(jī)器人擴(kuò)展到幾千臺時(shí),你就必須面對這個(gè)差異化的問題,這是必然的。當(dāng)我們擁有數(shù)千或數(shù)十萬臺機(jī)器人時(shí),不可能為每一臺調(diào)整軟件棧。所以我認(rèn)為這只是必然發(fā)生的事情。
我認(rèn)同你們的觀點(diǎn),尤其是校準(zhǔn)的重要性。但我認(rèn)為更有趣的是,領(lǐng)域隨機(jī)化實(shí)際上是在讓機(jī)器人的系統(tǒng)保守,即告訴機(jī)器人「如果我不知道會(huì)發(fā)生什么,我最好保持安全」,這樣做掩蓋了機(jī)器人的動(dòng)力學(xué)特性。換句話說,領(lǐng)域隨機(jī)化可能讓機(jī)器人得到更為穩(wěn)健的結(jié)果,但不會(huì)得到最優(yōu)化的性能。最終,從長遠(yuǎn)來看,這種方法很重要。
Deepak Pathak(SkildAI):我想從一個(gè)不同的角度來回答這個(gè)問題。無法跨版本更改模型是一個(gè)大問題,同時(shí)期望世界上只有一家公司擁有唯一的機(jī)器人,這是不現(xiàn)實(shí)的。就像汽車和手機(jī)行業(yè)一樣,存在多個(gè)制造商。而對于機(jī)器人領(lǐng)域,我們應(yīng)該讓機(jī)器人大腦能夠適應(yīng)不同的硬件平臺,就像英偉達(dá)GPU上的應(yīng)用開發(fā)平臺 CUDA 一樣,讓軟件從硬件細(xì)節(jié)中解耦,這將是機(jī)器人領(lǐng)域和其他領(lǐng)域的主要突破。
Aaron Saunders (Boston Dynamics):我認(rèn)為機(jī)器人確實(shí)會(huì)產(chǎn)生「幻覺」。這種「幻覺」表現(xiàn)為機(jī)器人預(yù)期的結(jié)果與現(xiàn)實(shí)之間的偏差。這種偏差是可以驗(yàn)證的,就像代碼生成中的「幻覺」一樣,當(dāng)機(jī)器人執(zhí)行了一個(gè)不可行的軌跡時(shí),就會(huì)出現(xiàn)這種偏差。
Deepak Pathak(SkildAI):我認(rèn)為,交互能力是消除機(jī)器人「幻覺」的關(guān)鍵。如果沒有交互能力,幻覺就無法被消除。當(dāng)機(jī)器人能夠與環(huán)境進(jìn)行交互時(shí),它就可以不斷糾正自己的認(rèn)知,這也是機(jī)器人與其他 AI 應(yīng)用之間的重要區(qū)別。
Bernt B?rnich(1X):我們最近做了一個(gè)實(shí)際的例子。我們有個(gè)問題,在辦公室的廁所里,經(jīng)常沒人放下馬桶圈,我們用 Eve 機(jī)器人進(jìn)行了測試,結(jié)果它對馬桶圈是抬起還是放下的判斷完全隨機(jī)。這是一個(gè)很有趣的案例,也體現(xiàn)了機(jī)器人如何通過交互來獲得反饋,閉合反饋回路,真正做到從環(huán)境中學(xué)習(xí)。
Aaron Saunders (Boston Dynamics):現(xiàn)在面臨的主要問題是,我們不知道如何在通用任務(wù)中做到這一點(diǎn)。我們可以為某個(gè)特定任務(wù)設(shè)計(jì)架構(gòu),比如處理馬桶蓋。現(xiàn)在的問題是,如何將這個(gè)任務(wù)形式化,使得所有任務(wù)都基于現(xiàn)實(shí)世界。目前沒人知道如何做到這一點(diǎn)。在現(xiàn)實(shí)世界中學(xué)習(xí)的速度會(huì)非常慢。我們可以通過學(xué)習(xí)得出結(jié)論,因?yàn)橛泻蠊热缒愕袅藮|西,重力讓它下落,你能判斷出發(fā)生了什么不好的事情。但如果我們依賴物理機(jī)器人來探索,學(xué)習(xí)速度就更慢了。這又回到了數(shù)據(jù)混合的問題。你可以做很多小實(shí)驗(yàn),但需要幾千次或幾百萬次才能獲得足夠的數(shù)據(jù)。所以,我認(rèn)為問題仍然是我們是否能承受產(chǎn)生真實(shí)世界數(shù)據(jù)的成本?
Deepak Pathak(SkildAI):你還可以利用仿真技術(shù)。仿真同樣可以進(jìn)行交互,交互數(shù)據(jù)能兼顧兩者。
Aaron Saunders(Boston Dynamics) :我同意,但仿真也確實(shí)需要更多的 GPU 算力支持。
04
三到五年內(nèi),機(jī)器人將在現(xiàn)實(shí)世界普及
主持人 :在未來兩到五年內(nèi),大家認(rèn)為機(jī)器人領(lǐng)域未來的發(fā)展如何?
Bernt B?rnich(1X):我認(rèn)為需要十年的時(shí)間才能真正實(shí)現(xiàn)機(jī)器人領(lǐng)域的突破或成熟。十年后,我認(rèn)為我們將經(jīng)歷類似于幾百年前電力普及時(shí)的社會(huì)變革,就像現(xiàn)在我們早上打開電燈已經(jīng)司空見慣一樣,未來數(shù)字和物理領(lǐng)域的勞動(dòng)力也會(huì)變得同樣普遍。
同樣,我們也會(huì)盡力爭取在五年內(nèi)實(shí)現(xiàn),但確切的具體時(shí)間沒人知道,這取決于社會(huì)接納機(jī)器人的速度以及我們擴(kuò)大生產(chǎn)規(guī)模的速度。我們現(xiàn)在正處在機(jī)器人變得「有用」的臨界點(diǎn)上。我認(rèn)為我們目前已經(jīng)有了可以應(yīng)用于家庭的機(jī)器人產(chǎn)品。雖然這些機(jī)器人產(chǎn)品并不完美,還不能讓你完全不做任何事,但它們既有用又有趣。
而且,從這一點(diǎn)起,我們可以加速發(fā)展。希望它們不會(huì)像自動(dòng)駕駛汽車那樣,比我們預(yù)想的多花十年時(shí)間。不過,我確實(shí)認(rèn)為,三到五年內(nèi),機(jī)器人會(huì)在大多數(shù)人中變得相當(dāng)普及。即使不是每個(gè)人都擁有機(jī)器人,但人們會(huì)認(rèn)識那些擁有機(jī)器人的人,它們會(huì)逐漸成為社會(huì)的一部分,從消費(fèi)者家庭到工廠、物流等各個(gè)領(lǐng)域。
Deepak Pathak(SkildAI):機(jī)器人 AI 與 LLM 或 VLM 有顯著區(qū)別。LLM 需接近完美才能真正有用,而機(jī)器人 AI 無需完全解決問題即可發(fā)揮作用。如今,已有大量機(jī)器人在實(shí)際應(yīng)用中大顯身手,如制造產(chǎn)品等。機(jī)器人技術(shù)的關(guān)鍵在于任務(wù)分解,專用機(jī)器人將比通用機(jī)器人更早問世,且從一開始就非常有用,特別是在勞動(dòng)力短缺的領(lǐng)域。
Pras Velagapudi (Agility Robotics):機(jī)器人技術(shù)的挑戰(zhàn)不僅在于技術(shù)本身,還涉及安全性、社會(huì)接受度等因素。自動(dòng)駕駛汽車早在 2015 年就能實(shí)現(xiàn)基本功能,但真正的普及仍需克服多重挑戰(zhàn)。未來三到五年,機(jī)器人數(shù)量在某些領(lǐng)域可能超出預(yù)期,而在其他領(lǐng)域則可能低于預(yù)期。
一點(diǎn)關(guān)鍵點(diǎn)是,機(jī)器人技術(shù)正從單一用途向多用途發(fā)展,盡管還不是通用型,但多用途已成為人們的期望。這種期望推動(dòng)了投資和精力的投入,也促使社會(huì)開始思考為什么不能擁有一個(gè)能完成多項(xiàng)任務(wù)的機(jī)器人,人們對這種技術(shù)的渴望是推動(dòng)行業(yè)發(fā)展的重要?jiǎng)恿Α?/p>
Aaron Saunders (Boston Dynamics):目前人們對機(jī)器人實(shí)現(xiàn)時(shí)間的預(yù)測差異巨大,機(jī)器人公司的創(chuàng)始人可能說明年,而技術(shù)專家則認(rèn)為需要十年甚至更久。不同人對機(jī)器人的期望不同,比如汽車在極端天氣下也能運(yùn)行,但人形機(jī)器人帶來的生活價(jià)值卻難以衡量。
關(guān)鍵在于應(yīng)該關(guān)注機(jī)器人發(fā)展的速度和已取得的進(jìn)展。各機(jī)器人公司在不同領(lǐng)域建立了有意義的「灘頭陣地」,這些領(lǐng)域?qū)⒅饾u擴(kuò)大并相互重疊,但這需要時(shí)間。無人能準(zhǔn)確預(yù)測五年后的發(fā)展,但增長和領(lǐng)域交匯是必然的。
以自動(dòng)駕駛汽車為例,盡管自動(dòng)駕駛的實(shí)現(xiàn)比預(yù)期晚,但自動(dòng)車道保持等功能已逐漸普及,這些進(jìn)步源于對自動(dòng)駕駛的追求。同樣,人形機(jī)器人也會(huì)逐步發(fā)展。
只要社區(qū)保持熱情并持續(xù)投入,專用機(jī)器人將在一兩年內(nèi)實(shí)現(xiàn)商業(yè)價(jià)值。例如,Agility 等公司已在交付商用機(jī)器人,未來五年內(nèi)這些機(jī)器人將能完成更多任務(wù)。但要解決跨行業(yè)問題,仍需長期努力和夢想。整個(gè)行業(yè)需要幾十年的持續(xù)投入,才能解決所有邊緣案例。
Jim Fan (NVIDIA):我非常認(rèn)同 Deepak Pathak 提到的「人們傾向于高估短期,低估長期」的觀點(diǎn)。
我認(rèn)為,在未來兩到五年內(nèi),從技術(shù)發(fā)展的視角來看,我們有望系統(tǒng)性地揭示具身智能的 Scaling Law(Embodied Scaling Law)。這一領(lǐng)域目前仍處于探索階段,但如果我們回顧大型語言模型的發(fā)展歷程,Chinchilla Scaling Law 是一個(gè)值得深思的里程碑——它清晰地描繪了計(jì)算資源、數(shù)據(jù)量和參數(shù)規(guī)模之間的指數(shù)級關(guān)系:當(dāng)資源投入增加時(shí),智能表現(xiàn)呈現(xiàn)出令人驚嘆的躍升。
但機(jī)器人技術(shù)的 Scaling Law 卻遠(yuǎn)比語言模型更復(fù)雜。它的縮放維度不僅局限于模型層面的擴(kuò)展,還涉及硬件集群(真實(shí)機(jī)器人數(shù)據(jù))方面的規(guī)模化部署、仿真數(shù)據(jù)的生成效率,以及互聯(lián)網(wǎng)數(shù)據(jù)的整合能力。更值得注意的是,神經(jīng)仿真(neural dreams)作為一種新興的虛擬訓(xùn)練方法,其縮放潛力尚未被充分挖掘。
隨著仿真技術(shù)的進(jìn)步和大規(guī)模視頻生成能力的提升,我們或許即將迎來一個(gè)轉(zhuǎn)折點(diǎn),到那時(shí),我們能清晰地知道投入多少 GPU 資源會(huì)帶來怎樣的性能提升。
轉(zhuǎn)載原創(chuàng)文章請?zhí)砑游⑿牛篺ounderparker
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.