99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

對(duì)話千尋高陽(yáng):端到端是具身未來(lái),分層模型只是短期過(guò)渡

0
分享至



具身的突破不會(huì)發(fā)生在實(shí)驗(yàn)室里,所以 “從伯克利到西二旗”。

文丨王與桐

編輯丨程曼褀

千尋智能的首席科學(xué)家、清華叉院助理教授高陽(yáng),像是個(gè)被寫好程序、執(zhí)行程序的人:他每天騎共享單車上下班,固定時(shí)間健身,從不熬夜。他將做科研比作一套 Chain-of-Thought 推理流程,認(rèn)為只要每一步做對(duì),結(jié)果就會(huì)自然導(dǎo)出。

但在具身智能這件事上,他愿意以創(chuàng)業(yè)者的身份,跳進(jìn)充滿不確定性的市場(chǎng),因?yàn)殡S著大模型技術(shù)逐漸成熟,高陽(yáng)感受到,具身的突破已經(jīng)不會(huì)發(fā)生在象牙塔里。于是他和在國(guó)內(nèi)機(jī)器人行業(yè)工作了 20 年的 “老兵” 韓峰濤一起創(chuàng)辦了千尋智能。

“就像 GPT-4 之前,OpenAI 也等待了幾年,” 高陽(yáng)說(shuō),“我們現(xiàn)在正處于具身智能的 Scaling Law 時(shí)刻,只是還需要四五年的沉淀。”

高陽(yáng)本科畢業(yè)于清華計(jì)算機(jī)系,博士階段在 UC Berkeley——被譽(yù)為具身智能 “黃埔軍校”——師從計(jì)算機(jī)視覺(jué)泰斗 Trevor Darrell,長(zhǎng)期深耕機(jī)器人控制、強(qiáng)化學(xué)習(xí)與計(jì)算機(jī)視覺(jué)的交叉研究。

韓峰濤則曾在 2023 年初,在還沒(méi)人相信具身智能時(shí)就在知乎撰文介紹具身智能。高陽(yáng)說(shuō):“我見(jiàn)過(guò)的產(chǎn)業(yè)方里,韓峰濤是最愿意接受新技術(shù)的人之一。”

近期,千尋智能發(fā)布了新的 demo,在辦公室里,機(jī)器人可以收納雜亂的筆,可以換紙抽,也可以把椅子歸位。



6 月,千尋智能發(fā)布最新 Moz1 機(jī)器人 demo:機(jī)器人可以自主完成更精細(xì)的操作,比如把筆插進(jìn)筆筒。

從實(shí)驗(yàn)室到創(chuàng)業(yè),從伯克利到西二旗,高陽(yáng)看見(jiàn)了技術(shù)的可能。他的描述里,有對(duì)技術(shù)細(xì)節(jié)的洞察,也有對(duì)路徑方向的推理總結(jié)。

具身智能非共識(shí)叢生,但這已經(jīng)是收斂后的結(jié)果了

晚點(diǎn):近期在跟美國(guó)的導(dǎo)師和同學(xué)交流什么趨勢(shì)?中美具身智能發(fā)展有哪些差異?

高陽(yáng):最近 Figure 02 釋放的 demo 還挺炫酷的,展示了 Figure AI 的快慢系統(tǒng),目前國(guó)內(nèi)我還沒(méi)看到哪家把快慢系統(tǒng)真的做出來(lái),并用到 VLA 里的。

中國(guó)目前的優(yōu)勢(shì)在基礎(chǔ)硬件的制造上,一個(gè)體現(xiàn)是,美國(guó)很多實(shí)驗(yàn)室用的都是中國(guó)的機(jī)器人,這帶來(lái)的另一個(gè)優(yōu)勢(shì)是,中國(guó)修機(jī)器人的速度要比美國(guó)快很多。

科研場(chǎng)景用機(jī)器人都比較狠,機(jī)器人經(jīng)常出現(xiàn)一些損壞情況。在科研使用中我們基本上每周都把機(jī)器人郵回工廠,他們修個(gè)一周半左右,再把機(jī)器人郵回來(lái)。但在美國(guó),來(lái)回郵寄要很長(zhǎng)時(shí)間。

Physical Intelligence(美國(guó)機(jī)器人公司,聯(lián)合創(chuàng)始人 Sergey Levine 曾經(jīng)和高陽(yáng)在 UC Berkeley 期間深度合作)從中國(guó)買了 100 套機(jī)器人,但修的速度很難能趕得上機(jī)器人壞的速度。所以他們讓機(jī)器人廠商寄了一些備件,自己修,但這對(duì)人力的消耗依然很大。

晚點(diǎn):你在博士期間怎么選定了具身智能方向?

高陽(yáng):我最開(kāi)始是在一個(gè)做計(jì)算機(jī)生物的實(shí)驗(yàn)室,之后還在一個(gè)理論機(jī)器學(xué)習(xí)的實(shí)驗(yàn)室參與過(guò)。當(dāng)時(shí)覺(jué)得計(jì)算機(jī)視覺(jué)挺酷的,所以就跟著 Trevor Darrell。

我最開(kāi)始做的項(xiàng)目是自動(dòng)駕駛,博士二年級(jí)才開(kāi)始做具身智能。

許華哲(星海圖首席科學(xué)家)進(jìn)組第一個(gè)項(xiàng)目是我們一起做的端到端自動(dòng)駕駛模型,那是 2016 年,學(xué)術(shù)界對(duì)端到端的研究不是很多,工業(yè)界更是沒(méi)人相信。當(dāng)時(shí)有一篇論文是英偉達(dá)的端到端自動(dòng)駕駛,我們用了比英偉達(dá)大了 100 倍的數(shù)據(jù)去訓(xùn)練,泛化性更出色。現(xiàn)在過(guò)了 9 年了,從現(xiàn)在的視角來(lái)看,那篇文論已經(jīng)過(guò)時(shí)了,但我們當(dāng)時(shí)就已經(jīng)有端到端的想法了。

晚點(diǎn):怎么決定把研究方向從自動(dòng)駕駛轉(zhuǎn)向機(jī)器人的?

高陽(yáng):從學(xué)術(shù)角度出發(fā),機(jī)器人是比車更通用的控制形態(tài):機(jī)器人能做的事兒非常多,更難,所以研究起來(lái)自由度也更高。

我做的第一個(gè)機(jī)器人課題是 “把模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合起來(lái)”,因?yàn)閺?qiáng)化學(xué)習(xí)還挺難的,得有第一次成功才能有未來(lái)的成功。后來(lái)研究的內(nèi)容就越來(lái)越多,包括更好的強(qiáng)化學(xué)習(xí)算法,跟物理機(jī)器人結(jié)合等等。

從個(gè)人角度,繼續(xù)做自動(dòng)駕駛,最好的結(jié)果可能是成為一個(gè)大廠的工程師,但這件事沒(méi)什么挑戰(zhàn),也一眼望得到頭。

我之前也在 Waymo 實(shí)習(xí)過(guò)三個(gè)月,我覺(jué)得我的腦子進(jìn)去就壞掉了。每個(gè)人的事情都非常小,我只需要把極小的事情執(zhí)行好,不需要太多智力。在那里,大腦不是自己的大腦,而是公司決策層的大腦,我更想做成為大腦的事。

晚點(diǎn):原來(lái)一起做自動(dòng)駕駛課題的你和許華哲,現(xiàn)在都在具身智能方向創(chuàng)業(yè),你們有什么共同感受嗎?

高陽(yáng):創(chuàng)業(yè)之后的共同感受就是忙了好多。平時(shí)我們也會(huì)交流各自的管理風(fēng)格,有什么方面可以改進(jìn)。

我跟許華哲最近交流的一個(gè)問(wèn)題是,具身智能已經(jīng)到了科研 idea 的瓶頸期,在這個(gè)前提下,我們探討有什么新東西可以做,結(jié)論是可能靈巧手還是有蠻多可以做的。

晚點(diǎn):為什么說(shuō)科研 idea 到了瓶頸期?目前具身智能領(lǐng)域的非共識(shí)實(shí)在太多了。

高陽(yáng):我之前一直在做科研,大多數(shù)時(shí)間我都在想下一個(gè)研究課題怎么去選。在某一些瞬間我會(huì)覺(jué)得這個(gè)研究好像沒(méi)有那么多可做了。

你能看到范式的變化,這樣的變化可能會(huì)終結(jié)掉整個(gè)研究:某個(gè)論文出來(lái)之后,這個(gè)領(lǐng)域基本問(wèn)題都已經(jīng)解決完了,就不用繼續(xù)搞研究了。

現(xiàn)在相當(dāng)于在學(xué)術(shù)上大家有了一定的共識(shí),因?yàn)槟骋恍┞窂揭呀?jīng)被證偽,不可能實(shí)現(xiàn);趨同的部分,就是要在工程上做得更好。雖然不是說(shuō)現(xiàn)在的學(xué)術(shù)的話題就完全收縮成一個(gè)了,但是可能從 500 個(gè)收縮成了 100 個(gè),相當(dāng)于每一個(gè)話題之下就都可能有人探索過(guò)了,要產(chǎn)出真的 ground breaking 并且很有影響力的東西,就變得越來(lái)越難。

晚點(diǎn):所以即使在我們外行人看來(lái),具身智能有這么多的非共識(shí),但在科研領(lǐng)域已經(jīng)是共識(shí)收斂過(guò)的一個(gè)狀態(tài)了。是不是類似現(xiàn)在的大語(yǔ)言模型?現(xiàn)在已經(jīng)很少有人探索 transformer 架構(gòu)之外的技術(shù)了。

高陽(yáng):對(duì),就像現(xiàn)在大模型一樣,在學(xué)校做自然語(yǔ)言處理的老師,可能只有 AI safety 還有比較多的問(wèn)題可以做,已經(jīng)沒(méi)有那么多更加需要去探索的大方向了。

2023 年開(kāi)始,我大概就有這樣的感覺(jué):具身智能沒(méi)有完全收斂,但是已經(jīng)在收斂的過(guò)程中。從社會(huì)的角度和工程的角度,收斂后是是很好的,因?yàn)槲覀冋娴目梢蚤_(kāi)始享受技術(shù)所帶來(lái)的福利。

我從博士第二年起就開(kāi)始做機(jī)器人相關(guān)的探索,包括強(qiáng)化學(xué)習(xí)、計(jì)算機(jī)視覺(jué)等,到 2023 年也做了七八年了。我在那時(shí)觀察到了通用機(jī)器人的技術(shù)突破正在到來(lái),正在從實(shí)驗(yàn)室走向千家萬(wàn)戶。在這個(gè)過(guò)程中,通過(guò)公司的形態(tài)把技術(shù)的工程化做好是有價(jià)值的,所以那時(shí)我下決心創(chuàng)業(yè)。

晚點(diǎn):清華很多教授出來(lái)創(chuàng)業(yè),都是類似的原因嗎?尤其是交叉信息研究院,你們 “四子”,還有楊植麟。

高陽(yáng):一方面我們所在的領(lǐng)域,大模型和具身智能,從學(xué)術(shù)科研階段進(jìn)入到產(chǎn)業(yè)化的階段;另一方面清華這些方向過(guò)去有積累的老師比較多,我們可以把我們已有的研究推向產(chǎn)業(yè)。

晚點(diǎn):你、邊塞智能的創(chuàng)始人吳翼、星動(dòng)紀(jì)元的陳建宇,以及星海圖的首席科學(xué)家許華哲,你們四位被稱為 “伯克利歸國(guó)四子”。你們當(dāng)時(shí)是怎么決定一起回國(guó)、來(lái)到清華的?

高陽(yáng):我們本來(lái)就在 Berkeley 很熟,是相差不大的同學(xué)。我和許華哲、吳翼當(dāng)時(shí)在一層樓,經(jīng)常一起吃火鍋、打牌,關(guān)系挺近的。

當(dāng)時(shí)畢業(yè)準(zhǔn)備回國(guó),最先是姚期智院長(zhǎng)給了吳翼 offer,吳翼就問(wèn)我 “要不要一起回清華”。我那時(shí)候才開(kāi)始認(rèn)真考慮回國(guó)的事。后來(lái)陳建宇和許華哲也是我們一起勸回來(lái)的,算是我們兼職做了 HR。

晚點(diǎn):教授出來(lái)創(chuàng)業(yè),會(huì)有什么局限性嗎?一些人擔(dān)心年輕的大學(xué)教授創(chuàng)業(yè)有風(fēng)險(xiǎn),比如過(guò)段時(shí)間就拍拍屁股走人了。

高陽(yáng):我覺(jué)得大家擔(dān)憂的本質(zhì)是,身兼教職創(chuàng)業(yè)是不是意味著決心不夠?我的考慮是,當(dāng)教授和創(chuàng)業(yè)都是在做一件事,只不過(guò)是逐漸成熟的技術(shù)過(guò)渡到工程化落地。我們也看到了一些人,企業(yè)發(fā)展得越來(lái)越好,就辭去了學(xué)校的職務(wù),專注創(chuàng)業(yè),這也很好,人生就是一個(gè) journey,沒(méi)有標(biāo)準(zhǔn)答案。

不過(guò)很多投資人說(shuō)科學(xué)家創(chuàng)業(yè) “不靠譜”,我一定程度上認(rèn)同。每個(gè)人都有自己的局限性,雖然技術(shù)我懂,但怎么去做工程化,怎么把團(tuán)隊(duì)的分工做好,怎么帶好團(tuán)隊(duì),怎么和落地的節(jié)奏配合,想起來(lái)可能沒(méi)那么難,但是做起來(lái),尤其是做好,還是挺難的。

端到端是共識(shí),分層只是短期選擇

晚點(diǎn):你會(huì)怎么給具身智能劃分階段?有人喜歡用 GPT 的發(fā)展階段來(lái)劃分,有人喜歡用自動(dòng)駕駛的 L 序列來(lái)劃分。

高陽(yáng):我拍腦袋定義一下:L0 是工業(yè)機(jī)器人,沒(méi)有什么智能;L1 是在單一任務(wù)上有智能;L2 是能在辦公室場(chǎng)景里完成少數(shù)幾件事,比如倒一杯咖啡,或者把桌面收拾干凈;L3 是在一個(gè)物理場(chǎng)景里能做到 70%~80% 人類的事情;L4 是在單一場(chǎng)景內(nèi),做到人類能做的所有事,就像 Waymo 一樣,在 San Francisco 去任何地方都可以;L5 是不局限于單一場(chǎng)景,在任意場(chǎng)景可以做任何事。

在這里面,L2 到 L3 是比較大的跨越,因?yàn)?L2 是少數(shù)幾件事,L3 是 70%~80% 的事情,能力范圍擴(kuò)大很多。

晚點(diǎn):我們現(xiàn)在處在什么階段?

高陽(yáng):我們已經(jīng)過(guò)了 L1 的階段,在接近 L2 的過(guò)程中。不止千尋,行業(yè)最好的水平就是在接近 L2。

晚點(diǎn):現(xiàn)在走向具身智能的路徑,業(yè)內(nèi)有兩個(gè)選擇,一種是端到端 VLA(vision-language-action),一種是分層,即規(guī)劃-感知-執(zhí)行。你們選擇了哪一條?

高陽(yáng):走向具身智能肯定是端到端,行業(yè)內(nèi)可能只有少數(shù)人不這么認(rèn)同。背后邏輯已經(jīng)在過(guò)去十多年的自動(dòng)駕駛發(fā)展中驗(yàn)證了,現(xiàn)在基本上所有的自動(dòng)駕駛都在做端到端,手動(dòng)去做分層不靠譜。

晚點(diǎn):在你的定義里,什么是端到端?VLA 等于端到端嗎?

高陽(yáng):VLA 就是端到端。在 VLA 模型中,視覺(jué)、語(yǔ)言和動(dòng)作這三個(gè)模塊由同一個(gè) Transformer 統(tǒng)一處理,并最終輸出未來(lái)的動(dòng)作決策:你跟機(jī)器人說(shuō)任何一句話,比如說(shuō)給我倒杯水或者給我做杯咖啡,模型能從語(yǔ)言、視覺(jué)模塊抽取數(shù)據(jù)信息,機(jī)器人就能把理解和動(dòng)作結(jié)合,去生成一串動(dòng)作完成這個(gè)任務(wù)。

整體流程是:先從視覺(jué)和語(yǔ)言中抽取信息,再將兩者融合,最后與動(dòng)作模塊進(jìn)行進(jìn)一步整合。這樣的設(shè)計(jì)有兩個(gè)顯著優(yōu)勢(shì):一是信息以數(shù)學(xué)語(yǔ)言的形式傳遞,更加高效和精確;二是具備良好的預(yù)訓(xùn)練能力,便于大規(guī)模數(shù)據(jù)學(xué)習(xí)與遷移。

晚點(diǎn):你也說(shuō)過(guò),在 2016 年時(shí),自動(dòng)駕駛還沒(méi)人相信端到端,但現(xiàn)在端到端已經(jīng)很普遍了;再過(guò)幾年,具身智能領(lǐng)域會(huì)不會(huì)出現(xiàn)新的實(shí)現(xiàn)方式,替代端到端?

高陽(yáng):未來(lái)信息的傳遞方式還可能繼續(xù)演化。隨著數(shù)據(jù)規(guī)模不斷擴(kuò)大,以及大模型的預(yù)訓(xùn)練與微調(diào)方法日趨成熟,VLA 的結(jié)構(gòu)也可能在某些層面上發(fā)生變化——但這些演化方向,目前還難以下定論。

晚點(diǎn):VLA 不能解決什么問(wèn)題?

高陽(yáng):其實(shí)只要是操作類的,VLA 應(yīng)該都可以解決。

晚點(diǎn):但現(xiàn)在依然很多人選擇分層的路徑。VLA 還不能大規(guī)模使用的卡點(diǎn)是什么?

高陽(yáng):端到端暫時(shí)只能落地簡(jiǎn)單場(chǎng)景,不能落地復(fù)雜場(chǎng)景,因?yàn)槟P皖A(yù)訓(xùn)練等的規(guī)模還沒(méi)有做得很大。短期內(nèi),分層可以解決更多問(wèn)題,因?yàn)榉謱釉诠こ躺细菀讓?shí)現(xiàn)。

晚點(diǎn):你們是如何訓(xùn)練 VLA 模型的?

高陽(yáng):首先讓模型學(xué)習(xí)海量互聯(lián)網(wǎng)數(shù)據(jù),包括文本、圖像和視頻,以獲取通用常識(shí)和基礎(chǔ)能力;隨后引入真機(jī)的遙操作數(shù)據(jù),進(jìn)行精細(xì)的 SFT(監(jiān)督微調(diào)),提升模型在實(shí)際任務(wù)中的表現(xiàn);最后通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化,讓模型在真實(shí)環(huán)境中的成功率持續(xù)提升。通過(guò)這樣的方式,我們盡可能把所有能用上的數(shù)據(jù)用起來(lái),訓(xùn)練出具備泛化能力的 “基模”。

晚點(diǎn):前段時(shí)間智元機(jī)器人也公開(kāi)提到了他們的模型可以學(xué)習(xí)互聯(lián)網(wǎng)視頻數(shù)據(jù)。視頻數(shù)據(jù)的優(yōu)勢(shì)是什么?應(yīng)該不是所有的視頻都可以成為數(shù)據(jù)來(lái)訓(xùn)練,你們有哪些篩選標(biāo)準(zhǔn)?

高陽(yáng):來(lái)自互聯(lián)網(wǎng)的數(shù)據(jù)確實(shí)質(zhì)量參差不齊,我們會(huì)從視頻網(wǎng)站上扒一些第一人稱視角的、有操作動(dòng)作的素材,能用的比例大概在 1%。

一方面,模型可以通過(guò)這些視頻學(xué)習(xí)物理世界的常識(shí),另一方面也可以去預(yù)測(cè)物體的軌跡、人手的動(dòng)作軌跡,通過(guò)這樣的方式去學(xué)習(xí)怎么操作這些物品,我之前也發(fā)布了相關(guān)的論文。

晚點(diǎn):這些是學(xué)習(xí)、理解的部分,那怎么讓理解變成動(dòng)作?

高陽(yáng):機(jī)器人學(xué)習(xí)完也不會(huì)操作,所以還需要模仿學(xué)習(xí),然后強(qiáng)化學(xué)習(xí)不斷調(diào)整。人有肌肉記憶,機(jī)器人也有類似的 “記憶”,只不過(guò)人是 “分布式” 的,機(jī)器人現(xiàn)在還是 “中心化” 的。

我們?cè)谟?xùn)練時(shí)也會(huì)發(fā)現(xiàn),一個(gè)操作,機(jī)器人可能很久都不會(huì),但在某一次突然做成以后,之后也就一直會(huì)了,并且還會(huì)泛化,比如會(huì)插 USB 接口之后,插其他的東西也都會(huì)了。

這個(gè)事情主要還是取決于我們基模的訓(xùn)練和 SFT 做得如何,如果兩個(gè)都做得很好,那強(qiáng)化學(xué)習(xí)就會(huì)比較快。

晚點(diǎn):關(guān)于訓(xùn)練數(shù)據(jù)的來(lái)源,業(yè)內(nèi)其實(shí)還沒(méi)有統(tǒng)一共識(shí)。有人偏好仿真,認(rèn)為便宜且量大;有人看重遙操作,數(shù)據(jù)更真實(shí),也是特斯拉的主流做法。實(shí)際操作中,各類數(shù)據(jù)通常都會(huì)用,只是側(cè)重點(diǎn)不同。你們以互聯(lián)網(wǎng)數(shù)據(jù)為主,為什么?

高陽(yáng):我覺(jué)得本質(zhì)是大家認(rèn)知以及擅長(zhǎng)的東西不同。但共識(shí)是已經(jīng)被大語(yǔ)言模型證明的:如果基模足夠好,那么模型就能變得非常強(qiáng),所以第一步就是預(yù)訓(xùn)練,預(yù)訓(xùn)練就要求有足夠多的數(shù)據(jù)。

遙操很難搞到量很大的數(shù)據(jù),昂貴且很花時(shí)間;仿真可以跑出無(wú)窮多的數(shù)據(jù),但不能解決無(wú)窮多的問(wèn)題,因?yàn)閿?shù)據(jù)的 diversity(多樣性)是有限的。

我們團(tuán)隊(duì)也發(fā)現(xiàn)了具身智能領(lǐng)域的 Scaling Law,就是數(shù)據(jù)每增加 10 倍,小數(shù)點(diǎn)后就會(huì)多一個(gè) 9。

晚點(diǎn):這是在什么數(shù)據(jù)范圍內(nèi)的 Scaling Law?

高陽(yáng):我在論文里驗(yàn)證的規(guī)模沒(méi)有那么大,十到幾十萬(wàn)區(qū)間里,這個(gè)規(guī)律都是成立的。

晚點(diǎn):你們之前提到,你們發(fā)現(xiàn)了 Scaling Law,是具身智能領(lǐng)域的 ChatGPT 時(shí)刻。你覺(jué)得是嗎?

高陽(yáng):算是 ChatGPT 的理論提出時(shí)刻。如果真的要比,最恰當(dāng)?shù)氖?OpenAI 提出 Scaling Law 的時(shí)刻,在兩三年之后他們做出了 GPT-4,因?yàn)闄C(jī)器人的數(shù)據(jù)更難搞一些,所以我覺(jué)得機(jī)器人的 GPT-4 要更久一些,可能需要 4-5 年。

晚點(diǎn):機(jī)器人要做出像 ChatGPT 一樣的效果,需要多少數(shù)據(jù)?

高陽(yáng):如果按照我們的技術(shù)路線,需要 100 億條有效的互聯(lián)網(wǎng)數(shù)據(jù),也就是說(shuō)先要從 100 億的 100 倍的數(shù)據(jù)里篩到 100 億條數(shù)據(jù),再加上 1 億遙操數(shù)據(jù),再加上小幾千萬(wàn)的強(qiáng)化學(xué)習(xí)數(shù)據(jù)。

晚點(diǎn):現(xiàn)在互聯(lián)網(wǎng)上已有的數(shù)據(jù),足夠多嗎?

高陽(yáng):我們測(cè)算過(guò),互聯(lián)網(wǎng)上能用的視頻大概就是 100 億條,所以是要學(xué)完所有的數(shù)據(jù),大概需要 4-5 年的時(shí)間。

晚點(diǎn):機(jī)器人的鏈條比大模型也會(huì)更長(zhǎng)一些,所以除了要有好的大腦,是不是也要等產(chǎn)業(yè)鏈一起成熟?

高陽(yáng):也不是,我覺(jué)得目前的瓶頸還是在 AI,雖然別的板也不長(zhǎng),但 AI 是最短的板,如果能把 AI 補(bǔ)齊,至少是個(gè)木盆。

人形不是必需,雙足更不是

晚點(diǎn):現(xiàn)在幾乎所有具身智能公司都在做人形機(jī)器人,為什么?有人說(shuō)是學(xué)特斯拉,有人認(rèn)為人形適應(yīng)人類環(huán)境,也有人看中它的科研挑戰(zhàn)性。你怎么看?

高陽(yáng):我覺(jué)得是需求出發(fā)的,本質(zhì)還是世界是為人設(shè)計(jì)的,所以人形從物理形態(tài)上可以確保解決大部分問(wèn)題。

其實(shí)機(jī)器人也并不一定完全是人形,要看切入的方向是什么。比如在 L1 階段的工業(yè)場(chǎng)景,一個(gè)機(jī)械臂就可以了;L2 的話,大部分時(shí)間需要雙臂 + 移動(dòng)底盤,但是不一定要人形。在 L4 之前,如果只是室內(nèi)場(chǎng)景,雙足都不是必須。

晚點(diǎn):如果機(jī)器人有雙臂和移動(dòng)底盤,還需要 “人的上半身” 嗎?比如一定要有頭和軀干?

高陽(yáng):不一定需要頭,但相機(jī)需要放在高處俯視全景。也不一定非得一米七三或人類比例的雙臂。我們可以設(shè)計(jì)很多奇怪的形態(tài),但仿人是物理上一定可行的——畢竟環(huán)境就是為人設(shè)計(jì)的。比如桌面高 75 厘米,機(jī)器人太矮就夠不到。

晚點(diǎn):那要是機(jī)器人只有 120 厘米,但胳膊兩米長(zhǎng)、還能像九節(jié)鞭一樣折疊,不行嗎?

高陽(yáng):也行,但多數(shù)場(chǎng)景不需要那種設(shè)計(jì)。異形機(jī)器人需要為特定任務(wù)定制,沒(méi)法通用。而做人形,能覆蓋大部分人類能完成的操作。

晚點(diǎn):從福特時(shí)代的流水線開(kāi)始,工業(yè)生產(chǎn)邏輯就是分工細(xì)化。為什么現(xiàn)在我們卻希望用一個(gè)機(jī)器人來(lái)解決大量通用的問(wèn)題?

高陽(yáng):精細(xì)化本質(zhì)也是追求更低的成本,而通用機(jī)器人也是同一個(gè)出發(fā)點(diǎn)。如果為每一個(gè)問(wèn)題都專門設(shè)計(jì)一套解決方案,需要付出更多成本,但通用機(jī)器人可以復(fù)用硬件設(shè)計(jì)、智能系統(tǒng),只需要讓機(jī)器人具備做不同任務(wù)的能力就能做到更多事。

晚點(diǎn):剛才你也提到了,可能室內(nèi)場(chǎng)景在 L4 之前都不需要雙足。也有人告訴我們,先做上半身,等于當(dāng)時(shí)新勢(shì)力先做增程車,之后還是要補(bǔ)課。

高陽(yáng):我同意,之后補(bǔ)就可以了。

現(xiàn)在輪式移動(dòng)底盤已經(jīng)非常成熟了,但我們見(jiàn)到的輪式底盤的機(jī)器人其實(shí)非常少,好像只有酒店的送餐機(jī)器人。為什么呢?并不是因?yàn)榈妆P不夠好,而是光有底盤沒(méi)有手,場(chǎng)景就很局限,可能只能在酒店送外賣,靠人放進(jìn)去、人來(lái)拿出來(lái)。

這件事的核心就是,如果機(jī)器人沒(méi)有操作,只有移動(dòng),價(jià)值很小。要解決問(wèn)題就要挑主要矛盾去解決,主要矛盾就是雙手的操作。

另外,從需求角度,在很長(zhǎng)一段時(shí)間里出貨量最大的機(jī)器人都會(huì)是輪式地盤加雙臂,因?yàn)檫@樣的形態(tài)已經(jīng)可以覆蓋 80% 場(chǎng)景。

晚點(diǎn):那你覺(jué)得雙足的難度是怎么樣的?行業(yè)里對(duì)這件事的觀點(diǎn)也不統(tǒng)一,有人覺(jué)得雙足是好補(bǔ)的,也有人覺(jué)得雙足涉及到穩(wěn)定性,要比雙手更難。

高陽(yáng):我個(gè)人認(rèn)為雙足技術(shù)還是比較簡(jiǎn)單的。我在清華實(shí)驗(yàn)室最近剛好做了一個(gè)關(guān)于平衡性的項(xiàng)目,機(jī)器人做燕式平衡的動(dòng)作,還有李小龍的踢腿動(dòng)作,技術(shù)上不太難,做到工業(yè)級(jí)的穩(wěn)定可能還要下一些功夫,但這里面沒(méi)有本質(zhì)的卡點(diǎn)。



機(jī)器人做燕式平衡

晚點(diǎn):現(xiàn)在不少公司是同時(shí)做大模型和本體,比如 Figure AI 最初與 OpenAI 合作模型,后來(lái)也選擇自己來(lái)做模型。你怎么看只做本體、不做大腦呢?

高陽(yáng):如果只做本體、不做大腦,那幾乎沒(méi)有價(jià)值——這和二十年前沒(méi)本質(zhì)區(qū)別。我們現(xiàn)在的共識(shí)是,具身智能的關(guān)鍵價(jià)值在 “大腦”。硬件能力和十幾年前差別不大,但大家之所以現(xiàn)在都在入場(chǎng),是因?yàn)榇竽X變了,有了突破,市場(chǎng)的天花板才真正被打開(kāi)。

晚點(diǎn):反過(guò)來(lái),只做大腦、不做本體呢?

高陽(yáng):理論上可以只做大腦,但現(xiàn)實(shí)中會(huì)遇到困難。人不能脫離身體行動(dòng),機(jī)器人也一樣。大模型本身沒(méi)有 “肌肉記憶”,如果不針對(duì)具體的身體結(jié)構(gòu)進(jìn)行訓(xùn)練,很難精準(zhǔn)控制不同形態(tài)的機(jī)器人。

晚點(diǎn):你們同時(shí)做大腦和本體,剛才聊了很多你們做大腦的事。千尋做本體,會(huì)做到什么程度?

高陽(yáng):我覺(jué)得機(jī)器人最后會(huì)像汽車產(chǎn)業(yè)鏈,我們需要本體,也需要大腦,但很多零部件是可以開(kāi)放給大家一起做的,比如靈巧手、比如芯片、比如觸覺(jué)傳感器。最后分工越來(lái)越精細(xì)。

題圖來(lái)源:千尋智能

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
41歲老板西藏自駕游去世!事業(yè)成功、有錢有閑,疑太過(guò)自信害了他

41歲老板西藏自駕游去世!事業(yè)成功、有錢有閑,疑太過(guò)自信害了他

云景侃記
2025-07-18 19:50:43
獸樓處丨娃娃娃娃哈哈

獸樓處丨娃娃娃娃哈哈

獸樓處
2025-07-18 13:09:28
普京為何是中國(guó)的貴人?三次救我國(guó)于水火之中,難怪深受國(guó)人喜歡

普京為何是中國(guó)的貴人?三次救我國(guó)于水火之中,難怪深受國(guó)人喜歡

通文知史
2025-07-18 15:30:03
12歲挖煤,19歲2次高考!北京工業(yè)大學(xué)博士論文一字一淚感動(dòng)全網(wǎng)

12歲挖煤,19歲2次高考!北京工業(yè)大學(xué)博士論文一字一淚感動(dòng)全網(wǎng)

恪守原則和底線
2025-07-17 13:39:13
網(wǎng)傳“警情通報(bào)稱杭州水務(wù)集團(tuán)劉某某接駁下水排污管網(wǎng)后潛逃”系不實(shí)信息

網(wǎng)傳“警情通報(bào)稱杭州水務(wù)集團(tuán)劉某某接駁下水排污管網(wǎng)后潛逃”系不實(shí)信息

界面新聞
2025-07-19 00:33:10
這都能甩鍋中國(guó)?法報(bào)奇文:中國(guó)大力治理空氣污染加劇全球變暖

這都能甩鍋中國(guó)?法報(bào)奇文:中國(guó)大力治理空氣污染加劇全球變暖

可達(dá)鴨面面觀
2025-07-19 09:03:34
娃哈哈事件番外篇:紅二代華女李蒂芙尼在美國(guó)涉謀殺案,母親從中國(guó)趕來(lái)交5億天價(jià)保釋金

娃哈哈事件番外篇:紅二代華女李蒂芙尼在美國(guó)涉謀殺案,母親從中國(guó)趕來(lái)交5億天價(jià)保釋金

老爵爺沉思錄
2025-07-18 22:25:04
肖戰(zhàn)微博改名雙榜爆!簡(jiǎn)介保留了三部一番大男主劇的代表作!

肖戰(zhàn)微博改名雙榜爆!簡(jiǎn)介保留了三部一番大男主劇的代表作!

喜歡歷史的阿繁
2025-07-19 09:48:25
涉嫌挪用公款、濫用職權(quán)罪,董事長(zhǎng)郭柏春被刑拘

涉嫌挪用公款、濫用職權(quán)罪,董事長(zhǎng)郭柏春被刑拘

FM93浙江交通之聲
2025-07-19 06:40:50
大V:看宗慶后自傳才知道,與女下屬搞婚外情也是企業(yè)管理手段

大V:看宗慶后自傳才知道,與女下屬搞婚外情也是企業(yè)管理手段

小星球探索
2025-07-19 08:22:44
要打破“一畝三分地”!中央要求規(guī)范這一行為,多地提要求

要打破“一畝三分地”!中央要求規(guī)范這一行為,多地提要求

政知新媒體
2025-07-19 08:51:47
微信安卓包驚現(xiàn)「fxxk Xiao Mi」!大白實(shí)測(cè):至少2022年就有了

微信安卓包驚現(xiàn)「fxxk Xiao Mi」!大白實(shí)測(cè):至少2022年就有了

大白聊IT
2025-07-18 09:51:59
毀三觀!印度發(fā)生集體猥褻事件,現(xiàn)場(chǎng)畫面曝光,女人被圍住狂蹭

毀三觀!印度發(fā)生集體猥褻事件,現(xiàn)場(chǎng)畫面曝光,女人被圍住狂蹭

烏娛子醬
2025-07-18 19:30:23
女子在一私立醫(yī)院就醫(yī)赤裸上半身時(shí),遭護(hù)士闖入,當(dāng)事人:醫(yī)院曾提出賠償68元沒(méi)接受,護(hù)士被扣工資、通報(bào)批評(píng)

女子在一私立醫(yī)院就醫(yī)赤裸上半身時(shí),遭護(hù)士闖入,當(dāng)事人:醫(yī)院曾提出賠償68元沒(méi)接受,護(hù)士被扣工資、通報(bào)批評(píng)

魯中晨報(bào)
2025-07-19 07:32:06
江蘇明確將不再發(fā)放這一證件實(shí)體證

江蘇明確將不再發(fā)放這一證件實(shí)體證

魯中晨報(bào)
2025-07-19 11:48:15
挖掘機(jī)正拆除多層樓房,樓體突然倒塌砸中司機(jī)?街道辦:無(wú)人員傷亡

挖掘機(jī)正拆除多層樓房,樓體突然倒塌砸中司機(jī)?街道辦:無(wú)人員傷亡

大風(fēng)新聞
2025-07-18 18:12:16
宗不慶后,娃不哈哈

宗不慶后,娃不哈哈

藍(lán)鯨新聞
2025-07-18 21:44:23
西藏文旅天塌了!女子在景區(qū)外馬路被逼停,要求買票,官方回應(yīng)

西藏文旅天塌了!女子在景區(qū)外馬路被逼停,要求買票,官方回應(yīng)

奇思妙想草葉君
2025-07-18 23:55:54
檢察長(zhǎng)在KTV命令下屬:統(tǒng)統(tǒng)滾開(kāi),老子要先打一炮!

檢察長(zhǎng)在KTV命令下屬:統(tǒng)統(tǒng)滾開(kāi),老子要先打一炮!

兵叔評(píng)說(shuō)
2025-07-18 16:25:40
宗慶后杜建英香港舊照曝光,眼神拉絲同住一間房,那時(shí)宗馥莉才13

宗慶后杜建英香港舊照曝光,眼神拉絲同住一間房,那時(shí)宗馥莉才13

大笑江湖史
2025-07-18 07:43:03
2025-07-19 13:16:49
晚點(diǎn)LatePost
晚點(diǎn)LatePost
晚一點(diǎn),好一點(diǎn)。商業(yè)的真相總是在晚點(diǎn)。《晚點(diǎn)LatePost》官方賬號(hào)
2766文章數(shù) 21794關(guān)注度
往期回顧 全部

科技要聞

工信部等約談17家車企巨頭,競(jìng)爭(zhēng)劃新紅線

頭條要聞

"暴走團(tuán)"群主回應(yīng)阻礙消防救護(hù)車通行:1分鐘就過(guò)去了

頭條要聞

"暴走團(tuán)"群主回應(yīng)阻礙消防救護(hù)車通行:1分鐘就過(guò)去了

體育要聞

西蒙尼最彪悍的弟子,正成為下個(gè)“匪帥”

娛樂(lè)要聞

肖戰(zhàn)微博改名爆!保留了三部代表作

財(cái)經(jīng)要聞

娃哈哈爭(zhēng)產(chǎn)大戰(zhàn):杜建英的進(jìn)擊

汽車要聞

中汽中心新能源檢驗(yàn)中心煥新發(fā)布"汽車行車控制安全技術(shù)驗(yàn)證VCTA"

態(tài)度原創(chuàng)

教育
親子
藝術(shù)
房產(chǎn)
公開(kāi)課

教育要聞

“后悔報(bào)福耀科技大學(xué)了”,江西省排4800考生哭訴:600分可惜了

親子要聞

重新定義生死界限!2025年中國(guó)新版兒童膿毒性休克管理共識(shí),核心要點(diǎn)一覽

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產(chǎn)要聞

一梯一戶純板樓!斷貨三年,海口這一核心區(qū),硬貨出場(chǎng)!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 偏关县| 工布江达县| 文登市| 民县| 博湖县| 商城县| 依兰县| 茂名市| 称多县| 芮城县| 通化县| 淳安县| 宝清县| 乐平市| 德阳市| 青神县| 合江县| 宁国市| 黄浦区| 通榆县| 河西区| 板桥市| 个旧市| 子长县| 互助| 贵定县| 普格县| 大悟县| 霞浦县| 汉中市| 含山县| 临西县| 罗平县| 霍林郭勒市| 托克逊县| 玉溪市| 海城市| 平舆县| 泌阳县| 靖边县| 额尔古纳市|