作者 | 王兆洋
郵箱 | wangzhaoyang@pingwest.com
2010年,一家叫做Vicarious的公司在硅谷成立,它的早期投資人包括伊隆·馬斯克,馬克·扎克伯格和杰夫·貝索斯等人。在2014年它正式開始更大規模招聘時,對外公開宣告的公司使命是:
實現AGI。
今天扛著AGI大旗的OpenAI要到一年后的2015年底才成立,在當時的AI圈,當紅炸子雞就是英國的DeepMind和美國的Vicarious。
當時在美國杜克大學拿到博士學位的連文昭,畢業沒有像大多同學那樣進入Facebook等硅谷大廠,而是直接加入了Vicarious。他之后成為該公司的機器人團隊負責人,做的項目包括用類腦神經網絡去替代卷積神經網絡,用更接近人類的方式去訓練機器人,讓機器人可以低成本甚至零成本部署實現新任務——幾乎就是今天具身智能浪潮里每一家拿下巨額融資的公司宣稱在做的事情。
在Vicarious待了幾年后,連文昭還是不滿足于機器人實現智能的方式,他加入了Google當時如日中天的Google X、兩年后公開名為Intrinsic,有了一個更大的野心,他們希望做一個統一的算法操作系統來控制所有形態的機器人,以實現更通用的智能。
之后在2022年,Figure的創始人Brett Adcock找到連文昭,把他招到了剛剛成立的Figure,負責創造機器人的「大腦」,他也成為這家今天已估值400億美元的公司里第一個AI方向負責人。
連文昭
2023年,當夠了「前排看球的觀眾」,連文昭決定自己創辦一家機器人公司,實現他一直想要實現的機器人夢。他回國創辦了源絡科技,并拉來了曾擔任優必選 Walker人形機器人產品線負責人的謝錚一起創業。
這樣的經歷,在今天這個具身智能創業的黃金時代,是能讓每個投資人都眼前一亮的存在。但連文昭卻異常的低調鮮少露面。據硅星人了解,源絡科技近日剛剛完成了最新一輪融資,累計金額達數億元。本輪融資由阿里巴巴集團領投,其他投資機構包括北京市人工智能基金、元禾原點、戈壁創投、堅果資本、峰瑞資本等。此前,源絡科技已獲得峰瑞資本、水木創投等投資。
面對行業熱度的突然爆發,連文昭希望保持客觀冷靜。作為一個經歷過多家明星公司起伏的創業者,他對今天的很多熱門的「共識」也有不同的想法,比如今天最為火熱的「具身智能」這個詞,卻讓他有些警惕。
「我一直不太喜歡具身智能這個詞。」他在最近和我們的一次對話中說?!钢苯幽么笳Z言模型上的成功套到機器人,我覺得是個有點危險的事?!?/b>
而他相信的機器人的未來,以及源絡這家公司要做的事情,是「用具身實現智能」。他認為這才是那個更長期和更宏大的,值得和志同道合的人一起去做的事情。
「機器人是個長期的事情。今天的資本熱度會起伏,而機器人本身的發展同樣會有周期,但最終機器人一定會兌現它的潛力?!?/p>
以下為對話實錄,經簡單編輯。
源絡的誕生
硅星人:這是你第一次以源絡這家公司創始人的身份出來面對媒體,先講講源絡吧。
連文昭:源絡是2023年我從硅谷回來成立的。名字一方面來自交大校訓「飲水思源」,絡是想網絡一群希望腳踏實地做事情、有信仰,希望能用robotics(機器人)來解決一些事情的小伙伴。另一層則是「以AI為源頭,機器人為脈絡,去聯結數字跟物理世界」。
我們肯定希望能做一個錨定物理世界的通用人工智能。但這是一條很遠的路,是飛向月球(moonshot),那短期我們需要有個梯子,知道先往哪兒爬。
所以第一階段,我們希望有一個相對確定、看得見摸得著的目標來牽引研發。我們希望把我們的機器人形態、硬件設計上等都有一些約束,這需要有真實場景來給我們輸入。
以前我做過的行業中,物流和工廠很多,但客觀冷靜評估一下,是不是這一波用多模態、大模型的新技術就能比之前的技術方案做得更好,其實現在也很難講。那么思考哪些地方更能發揮我們的優勢,目前我們也在探索一些其他場景,像生物醫藥和大健康領域、農業等等。我覺得這些場景是比較有趣和有意思的,因為能夠提高它的上限。
硅星人:你的機器人長什么樣?
連文昭:我們通過選擇場景,來牽引目前的研發,把數據回流做好,把機器人的通用控制模型做好。目前我們機器人本體的設計是輪式雙臂靈巧手,在這種設計上,我們沒有過分的給定單一場景,未來我們希望它會去做更通用的任務。
硅星人:你認為機器人未來會都是人形的么?
連文昭:我認為它需要是一個統一的載體,但是不是人形不一定。
我相信統一的載體會好很多。可能一個,可能兩個,但不可能是無窮多個,這樣的話你才能共享很多數據、模型和算法,成本也能下來,規?;菀?。包括我們現在輪式的也是,上半身可以做各種各樣的事情。我們研發努力的方向也是朝此在走。
源絡的機器人產品 Monte02
硅星人:你們目前在技術上的主線是什么?
連文昭:我們自己確實有一套主線,核心是怎么能夠從噪聲很高、很原始的物理世界中,提取出來最有效的信息,來喂給我的控制模型去輸出動作。
我們現在希望能在一些半結構化的場景里邊提取一些中間層結構化的表征方式。它就像一個信息瓶頸一樣,原始高噪聲的信息,經過漏斗把噪聲剔除出去,能夠提取出來比如說物體的狀態、物體之間的關系,然后以相對結構化的表示方式再去輸入給控制模型。這樣它就可以輸出比較精準的動作,在跨物體、跨任務的環境里都能輸出。
我們希望引入這么一個信息瓶頸來做這件事。這是一個結構化的表征方式,也是保證可靠性,同時有機會提高泛化性的路線。
比如說我們通過大模型,通過多模態模型,可以把中間的物體狀態表征得越來越好,能夠學到一些泛化的物體表征方式模型。這是有希望提高它的上限的。
當然未來隨著數據量的積累,模型能力的提高,有可能中間層會越來越非結構化,有可能后來會衍生出來一些Latent embedding(隱式表達)等,可能就是機器人自己能理解的,而非現在人類理解的一些表征方式。
硅星人:只專注做醫療和大健康么,還是目前的策略是這樣。
連文昭:目前合作的客戶很多是在這個場景。但其他的產業需求評估下來,我們也在做些不同方向的嘗試。
從Vicarious,Google再到Figure,從「前排看球」到自己創業
硅星人:你過往的經歷也很有意思,回國之前,你在硅谷多個不同階段的機器人公司待過。
連文昭:對。我2011年從上海交大畢業,然后在杜克讀博士,2015年畢業去硅谷,待了八年。三段工作經歷,先是在Vacarious,一個 AGI 的公司,后去 Google 待了三四年,然后去Figure待了小半年。
硅星人:你去讀的是什么專業?怎么那時候就想去機器人公司。
連文昭:在杜克做的是機器學習,現在統稱AI。當時更火的是大數據,做推薦、社交網絡等,畢業時候我不想去這些公司,更想做通過自己做算法做模型改變一些事情的工作。
博士最后一兩年正好在跟一個做機器人的老師,做一些強化學習領域的東西,感覺這個領域很有意思。當時就覺得機器人這個行業到處都是坑,到處都是機會,做一點東西就能改變一些性能,也跟物理世界相關,比較直觀,所以更有意思一點。
然后2015年底畢業就去這個叫Vicarious的公司,做通用人工智能。馬斯克、貝索斯和扎克伯格都是早期投資人。你想想馬斯克那時候就搞AGI。
硅星人:有OpenAI那味兒了。
連文昭:那會兒OpenAI還沒成立,如果搜當時新聞的話,英國那邊是DeepMind,美國就是Vicarious,然后去了以后不久,DeepMind就被Google收購了。
它2014年開始招人,我去的時候有10個人左右。我們做機器人做的是類腦神經網絡,視覺理解上模擬人腦, V1 到 V6 ,六層神經網絡怎么去用更小的數據量去學習。我們當時跟卷積神經網絡去比,說只要用 1/ 100 的數據能達到更好的識別效果就可以。我們想把它用到機器人上,部署了幾十臺百臺量級的機器人。跟包括USPS供應商在內的多家物流公司合作了一些機器人,做分揀裝箱、抓取、打包等。用3D、2D感知,訓練模型,做機械臂運動規劃。
硅星人:做的就是今天說的“大腦”。
連文昭:對,當時就是做大腦,并沒有做任何硬件,就是做視覺、路徑規劃、決策這些部分。現在這些路線還有很多公司在用,跟當時沒有太明顯差別。
當時做的比較簡單,但跟現在的邏輯一摸一樣。那會兒的渲染是用上一代的渲染器,但邏輯就是讓它自己去嘗試。然后做真實的物理仿真,自己去建模讓它嘗試不同角度、不同方式去抓這些螺絲螺母。我們在仿真里面會建模,建各種各樣的物體模型。然后去做一些放大收縮,失真(distortion),加各種擾動產生不同場景,讓機器人自己嘗試,是不是能完成下游的任務,抓起來是不是還能擰進去。能的話就記錄出來一個正樣本,不能的話就是負樣本,靠這個自動采集大量數據。
這樣訓完以后至少能懂一個類別,然后讓客戶能零成本部署。這個還是挺厲害的,可靠性能做得比較高,可能到98%,一個 9 到兩個 9 之間。
硅星人:后來去了Google。
連文昭:對。在那兒待了三年半。我覺得如果僅僅如此,智能用得太有限——我看一眼,然后規劃完就閉上眼睛去執行了。我還是希望能做得更智能一些,根據感知信號能實時決定下一時刻怎么動,完成更復雜的任務。
所以就去 Google 了。Google當時有一個項目,現在叫Intrinsic,當時屬于 Google X 實驗室,它就做很多前沿科技探索,做一些跟主業搜索廣告沒關系的。其中重要的一個就是操作系統,手機里面有安卓,那機器人里面是不是也得有個操作系統,能適配各種各樣的硬件?就是統一到軟件,可以適配所有的硬件,開發者只要寫一遍APP,就不需要給什么ABB之類的不同機器人品牌再做兼容,就寫一套就行。
你既然要搞操作系統,就得證明用這個操作系統能干以前干不了的事。所以把我招過去,這個組就是干機器人學習,比如利用模仿學習,還有仿真學習的一些方案,來證明我們可以做更復雜的東西。
當時跟家居品牌企業合作用一個多模態的力覺、視覺融合去做家具拼接。我們能讓機器人自己去學會怎么去拼一個小書柜等。其實當時做了很多POC,證明了我們的系統處理復雜柔性任務的可行性。
硅星人:想要證明的命題很大,但具體做法還是選擇一些場景。
連文昭:對,這個策略就像 Google 做 Pixel 手機一樣。它要做個樣機,打個樣,當時選了很多典型場景。背后兩個思路,一個做更難的、以前做不了的事兒,另一個是把以前很費勁的事兒的部署成本降下來,就是我們機器人學習這個組來做的。
硅星人:借這兩點來吸引所有人都用你同一套操作系統。
連文昭:這個項目現在Google還在做,并且從Google X孵化了出來。
硅星人:所以Google X還沒消失。
連文昭:對,現在聲音相比以前可能小一些了。像是之前的氣球項目Loon關掉了,我們的Intrinsic獨立拆分了,Waymo是很早獨立在自己跑。Intrinsic走的是制造業這種高可靠性的路線。然后Vicarious在2022年底,被Google收購,合并進了Intrinsic。
硅星人:再后來你從Google去了Figure。
連文昭:那時候正好2022年下半年Figure剛成立,跟CEO Brett深入地討論了幾次。感覺他很獨特,他當時正在籌辦這個公司,邀請了 Jerry Pratt 做CTO,也從波士頓動力、蘋果、特斯拉招募到了頂尖的硬件和控制工程師。
我覺得這個團隊很有意思然后就過去了。
我相當于Figure第一個做 AI 的人。當時做軟件的人很少,團隊很偏重硬件本體。我也跟硬件團隊學習了很多。當然其中一點是硬件這個迭代周期確實很長,你犯一個錯誤,或者要調個東西一兩個月就出去了,但軟件改起來很容易。
總之在Figure參與到了最前沿的事情中。
硅星人:今天Figure估值這么高,如日中天,有人會說你錯過了幾個億吧。
連文昭:是的。包括最近Figure出來一些新聞都會有人來問,后不后悔。我覺得肯定不后悔。人不會為自己做過的事情而后悔,只會為自己沒做過的事情后悔。
要說放棄的確放棄了很多,但在那邊留下,每天就是曬曬加州的太陽。但是回來以后更有挑戰性,因為這個事情很長期,現在終于能按照自己的思路去實現它。以前相當于是買了一個前排 VIP 的票,坐在場邊去看比賽。包括在Vicarious和Figure,我去的時候都很早期,會不自覺的想這些事,從一個初創公司維度去想事情,但有時候公司會有自己的路線。
現在可以「言行一致」了,怎么想就能怎么付諸實踐,能夠放大一些影響力。以前在公司里的時候,會覺得有些時候受到束縛,可能實現不了想法,現在我會努力給大家提供這樣的機會,有什么想法就可以去實踐。很欣慰能給大家營造這樣的環境。能干這件事是很有趣的,有趣很重要。
不喜歡「具身智能」這個詞,應該「靠具身來做智能」
硅星人:所以來說,Figure反而是一家硬件團隊很強,只不過因為今天所有話題和估值都來自AI軟件,所以它恨不得不跟OpenAI合作也要把這個角色占住。但你在這段經歷里,反而增加了很多硬件視角的思考。
連文昭:像具身智能這個詞,我自己其實一直不太認同。
它其實有兩個層面,一是你可以狹義理解為,具身智能就是智能機器人,Intelligent Robot,機器人可以自己去感知決策規劃。
但另外一層我覺得更有意思,可以泛化的講,就是「靠具身來做智能」。它最后是一個智能體,這個智能體在不在物理世界沒有關系——它可以學完后還是個數字世界的智能體,但是這個智能要錨定到物理世界。
它理解的一些概念,比如12345,它看到 5 個手機,它是知道 5 的,而不是靠大模型去背出來的,不是說我看到了 1 + 2 = 3,我是靠 「1 + 2」 推算得到三,而是說我是時時刻刻理解什么叫「一個東西」,就是錨定到物理世界,它是有物理感知的。比如說什么東西沉,什么東西摩擦力大,什么東西光滑,它時刻能夠把這些文字和本體的感知結合。比如說我有數據傳感器,有視覺的信號,這些信號是能夠跟這個文字耦合起來的。
我是希望能夠靠具身體驗、靠主動感知,去做真正的具身智能體。這個是具身智能更宏大的一個事情。
機器人通過自己跟環境的交互來理解這些知識,這是真正的智能,而不僅僅是語義上的理解。語言是其次的,有沒有語言都OK,但是機器人一定要先具備跟環境交互的能力。
硅星人:「靠具身來做智能」這個說法很有意思,我們之前在硅谷做的對話里,也提到,人們把硬件比如機器人的手腳和所謂「大腦」分開看待。我們看小朋友,他很多智能是通過手去感知學到的,比如拿起東西放下。所謂硬件和具身不只是載體。
連文昭:你剛才說的這一點,我覺得機器人如果分流派的話,應該分成養孩子派和不養孩子派。(笑)
有孩子的話,你會看著他從啥都不會,通過很少量的交互就可以學到一些很通用的概念。這個對我的沖擊是很大的,而且有時候一發燒,燒完了以后特別聰明。
硅星人:想起來七龍珠里的吃仙豆。
連文昭:對。就是他會把一些體驗存到一個很亂的狀態,但是到一定量突然就能串起來,把一些概念給抽取出來。這個事情我覺得很神奇。
這也是我們在做的事,希望去能夠給它一個環境,相當于給小孩兒一個安全的環境,能自己去探索,然后能夠用最少量的數據交互來獲取自己所需的一些概念。而這個是有先后順序,要先提取出來這些概念,再去加這些語言。
這跟我們現在靠大量收集數據去訓練大模型的方法有所不同。我們現在也逐漸看到scaling law的一些問題,所以我覺得還是要先從方法論上去探索,能不能有一個更像人的方式去獲取和利用數據。
硅星人:所以今天大家都在用AI的思路聊機器人,但其實如果說大語言模型本質上是predict next token,它的前提是token可以窮盡,但如果只拿這后半句話套在機器人這邊,其實是不一樣的,它的前提都是根本不同的。
連文昭:直接拿大語言模型上的成功套過來,我覺得是一個有點危險的事。
它和大語言模型有很多不同之處。一是空間是離散還是連續,數據多還是少。另外一個沒被廣泛提及的是,比如DeepSeek用RL(強化學習)去訓練,我可以去訓,但是 RL 通常是未知世界模型、未知獎勵模型。
世界模型包括兩塊,一個是它的狀態,什么樣的狀態空間,觀測量是什么,另一個是狀態遷移,就是當前這個狀態下施加什么動作,導致下一個時刻狀態出現,就是 transition model(狀態遷移模型)。它在語言里很友好,是確定性的。
比如用戶問大語言模型,「硅星人誰最帥」。它回答「兆洋」。然后用戶回復,「同意」。
硅星人:這用戶估計是我自己。
連文昭:你就可以去對齊,你在RL里問和答,它的下一個時刻的狀態就變成了把問答拼接起來,這個transition model是確定的。
但在機器人里,狀態空間是——它看到了一個場景,比如桌子上的杯子在這,筆在這。我的動作是,比如要把筆放到杯子里,但能不能放進去我是不知道的,有可能拿不起來,有可能滑了,這是開放的,造成它訓練起來難度是很大的。
當有不確定性,復雜度就大了很多,就變成概率問題了。所以從這個層面,大語言模型是相對簡單的,但在物理世界去訓強化學習,去建模世界模型,都是更難的事。
硅星人:你這個「用具身做智能」的說法,讓我更理解了你們現在網站上寫的這句話,「以AI為源頭,機器人為脈絡,聯結數字與物理世界」,那源絡這些想法都是來自哪里,看起來有過往各家經歷的影子。
連文昭:我覺得整體這幾段經歷,帶給我的角度都是不太一樣的。
Vicarious走的是落地driven,什么能用就走什么的路線;Google給的是,我要探索能力邊界,要做一些通過算法能夠實現很通用的智能;到Figure就更像在實踐一下,而且好處在于跟很多很出色的硬件同事共事,看到硬件的創新是什么樣,如何軟硬結合。 整個全都匯總起來收斂到今天對創業理解的話,可能就是「務實當下,樂觀未來」。
另一點感受是,組織一定要有很強的凝聚力,大家都是踏踏實實會死磕,自己憋一口氣兒,一定要把機器人做得有用。不是追風口,而是用長期主義來做這個事兒。機器人這個行業肯定是馬拉松,不是百米沖刺,它極有可能是一個跨周期的事情,這個周期有可能沒有達到它的promise(承諾),沒有達到大家的期望。但是下一個周期有可能就能達到。
所以源絡一定有這個耐心愿意做長期陪跑,在這個行業深耕下去。我們幾個合伙人都是在這個行業做了十多年的,之前沒有火的時候一直做,現在火了還是冷靜地做這件事,未來也會持續做下去,一直做到讓機器人真正變得有用。
硅星人:今天機器人前所未有的火熱,高估值融資不停出現,你怎么看?這種熱潮對你們融資等方面的影響是怎樣的?
連文昭:我當時回國的時候是2023年,其實疫情剛結束,當時行業也沒有特別火,甚至是行業一個低谷期。但我十分看好這個行業——一定要做機器人。同時大模型帶來的這些好處,比如推理能力還有泛化能力,剛好跟我以前積累的那些經驗和能力是互補的。以前我們做的都是怎么去把物理世界這些多模態的信號數字化,然后讓它去做一些小的閉環,大模型其實是在數字世界去推理,它變強就能放大我們之前積累的這些能力。
到了目前這個行業變得這么火,我們還是一個長期思路來看這個事兒。它一定是一個跨周期的東西,不火也要做,火了反而更要冷靜一些。
我覺得作為行業從業者,我們也有些義務給這個行業做些客觀輸出,把大家的期望值調整得更合理一些,不要大起大落。以前 AI 就出現過很多冬天,就是因為大家對行業預期太高,然后發現沒有達到。這會對行業有些傷害。
我更希望說大家能有一些合理的預期,然后慢慢陪這個行業起來。它 100% 會起來,只要有耐心,愿意逐步的去投入,未來它一定能夠健康的、很穩健的去增長起來。
所以我們還是做好自己。不論從公司規模,還是開發上,按我們自己的節奏去走,踏踏實實、安心地專注做自己的事兒,這最關鍵也最本質。
點個“愛心”,再走吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.