出品 | 網易科技《態度AGI》欄目
作者 | 崔玉賢
編輯 | 丁廣勝
“下周智元機器人有好東西發布。”華為離職天才少年、智元聯合創始人“稚暉君”(彭志輝)在社交媒體預告道。
周一(3月10日)上午,“好東西”如約而至,智元機器人官方賬號宣布正式發布首個通用具身基座模型——智元啟元大模型GO-1(Genie Operator-1),這也是國內首個通用具身基座大模型。
消息一出,喜提兩個熱搜。
根據官方介紹,智元的GO-1大模型開創的提出了Vision-Language-Latent-Action (ViLLA) 架構,該架構由VLM(多模態大模型) + MoE(混合專家)組成,擁有人類視頻學習,小樣本快速泛化、一腦多形、持續進化等優勢。可以說是讓機器在拓展了運動能力之外,具備了AI的能力,讓機器具備了真正的價值。
智元官方在五種不同復雜度任務上測試了GO-1,相比已有的最優模型,GO-1成功率大幅領先,平均成功率提高了32%(46%->78%)。
其中 “Pour Water”(倒水)、“Table Bussing”(清理桌面) 和 “Restock Beverage”(補充飲料) 任務表現尤為突出。
Latent Planner是MoE中的一組專家,基于VLM的中間層輸出預測Latent Action Tokens作為CoP(Chain of Planning,規劃鏈),進行通用的動作理解和規劃。智元單獨驗證了Latent Planner在ViLLA 架構中的作用,可以看到增加Latent Planner可以提升12%的成功率(66%->78%)。
智元認為,GO-1的推出讓具身智能從單一任務走向了多種任務,從封閉環境走向了開放世界;從預設程序走向了指令泛化,將具身智能推上了一個新臺階。
智元還將在2025年Q2推出首個基于強化學習的Foundation Model。
在GO-1大模型發布之后,智元合伙人,具身業務部總裁,研究院執行院長姚卯青以及智元具身研究中心常務主任任廣輝與網易科技進行了對話。
對于發布具身基座大模型的初衷,姚卯青非常肯定地表示,AI能力將來會是區分機器人產品競爭力的核心環節,機器人發展到最后,比拼的就是AI能力。而機器人公司不做大模型是沒有未來的。
對于智元來說,AI的投入可以說是戰略級別的,而且是堅定的。
不僅如此,智元在發布基座大模型的同時,還將相應的論文進行了公開發表,這已經算是一種變相的開源。據姚卯青透露,智元將在Q1末面向核心用戶開源整個大模型。
在交流中,姚卯青還提到了行業中熱議的“9.9萬人形機器人”的話題,他認為,硬件的基礎也決定了機器人能力的上限。在這個階段,智元還是堅定地認為需要以價值為導向,讓機器人的硬件軟件協同配合產生一個好的效果,而不是說買一個大號的電動玩具。
姚卯青認為,人形機器人的應用會是漸進式的,未來1-2年將會在局部場景應用落地,大家期待的機器人進入家庭場景的情況,還需要5年左右的時間。
智元機器人成立于2023年,創始人之一彭志輝曾是華為天才少年,人稱“稚暉君”“野生鋼鐵俠”。公司成立不久就發布了首款人形機器人,截至目前已經下線1000臺機器人產品,智元機器人已經完成多輪融資,募資總額超過16億元。
值得一提的是,稚暉君還是“B站百大UP主”,他于2017年11月26日開始在B站上傳視頻。2020年憑借在B站發布自制硬核小電視內容走紅。2024年陳睿在公開演講中盛贊其“從野生鋼鐵俠到70億估值企業CTO”的成長路徑。
以下為對話智元合伙人,具身業務部總裁,研究院執行院長姚卯青以及智元具身研究中心常務主任任廣輝的部分內容:
提問:智元具身基座大模型的研發初衷是什么?
姚卯青:這和我們公司的使命是緊密相連的。我們公司的使命是希望利用通用機器人來創造無限生產力。我們認為機器人只有硬件本體,肯定是不夠的,這也是最近一些機構,或者說國外的公司對機器人行業的評論,覺得中國人形機器人公司硬件做得比較好,但AI能力沒有看到顯著的進展。
我們認為AI能力將來一定是區分機器人產品競爭力的核心環節,就像今天的新能源車、手機一樣,硬件大家會逐漸收斂,供應鏈也會高度地整合,最后大家比拼的一定是AI的能力。
AI對于機器人來講,一定是更為重要的。因為機器人如果沒有自主作業的能力,那它價值是非常有限的。基于這樣的初衷,我們將具身智能的AI研發,作為了公司戰略級的投入,我們也是第一個在行業內走完了機器人大規模的量產,然后用量產的機器人編隊去采集百萬級高質量的數據。同時又能把這批數據用來自研大模型,還把大模型能夠部署回自己的硬件本體上。
我們是第一個做到這樣閉環的研發迭代。
提問:大模型將應用于什么場景,如何應用?
姚卯青:我們覺得大模型在機器人行業的應用會經歷漸進式的變化,會從一些較為容易、結構化場景較為明確的地方,先去進行落地探索,然后逐漸演化到半結構化和半開放的任務和場景,最終通過在各個行業,各個場景落地過程中收集到的海量的數據和交互的數據,真正地實現通用人工智能,實現AGI在物理世界的應用,可能到那個時候,是真正走入千家萬戶,在家庭中執行各類開放式的指令任務。
從這個角度來講,我們在近兩年的時間內會集中在工業、服務業和商業領域的應用,同時也會堅定地為最終走向AGI, 走進家庭這樣開放式場景,不斷做技術的摸高。
提問:智元的具身基座大模型GO1可以降低成本,大概能夠降低多少幅度?
任廣輝:我們可以講一下之前做的實驗,我們在一些場景上,可能一個任務大概需要萬條規模才能達到比較好的成功率,而現在只需要千條或者大幾百條就能做到最好,可以說是降低了一個數量級的數據采集量。
提問:智元的具身基座大模型開源的前景如何?
姚卯青:其實我們今天在發布的同時,不僅僅發布了視頻,還把技術博客以及對應的論文都已經公開出來了。一定程度上我覺得也算是一種開源了。同時我們會對智元的核心用戶,在Q1對他們進行模型的整個開源。他們可以使用我們的模型部署到智元的機器人上。
提問:機器人在基座模型上是否已經進入到技術收斂階段?
姚卯青:機器人的技術我們認為還比較早期,還沒有到收斂的程度,因為本身這個行業受制于數據的問題,還沒法去進行Scaling Low的完整驗證。這也是為什么我們之前要去主動開源AgiBot World。
提問:對應到機器人智能等級標準里,從G1到G5,智元的GO1算是哪個等級的呢?
姚卯青:我們目前發布的這個技術應該是處于G3到G4的過渡過程。
提問:未來數據集采會不會單獨剝離出來形成一個產業?
姚卯青:這個是有可能的。我們看到AI的發展也是有明確的產業分工,像數據的采集、標注,審核,甚至是數據的交易,都是有一些平臺型的機構出現的。在機器人領域,我認為這也是有機會的。
提問:未來機器人的必爭之地是AI,路線和發展趨勢是怎樣的?
姚卯青:我覺得算法目前不能說已經完全走向收斂,還是在百花齊放的狀態。但是在這個發展過程中,我們也看到了一些挑戰,比如說偏科的公司比較多,有一些特別擅長算法的,包括像國外的一些公司,沒有很好的機器人硬件,也沒有大規模的機器人本體,這其實是會嚴重限制他們對算法的整個研發驗證。反過來也有大量的機械本體公司在AI上的投入是比較受限的。
所以我們希望能夠看到更多的像智元這樣的,能夠完整地從硬件、數據、算法端到端,具備研發能力的公司、玩家來涌現。
提問:您認為大概什么時候可以進入家庭場景?
姚卯青:我們判斷的話需要比較長一點的時間,五年左右能夠走入家庭,去實際創造一些價值。
提問:之前宇樹的9.9萬以下的機器人其實在行業還是引起了比較大的爭議,您也曾經說過卷9.9萬的價格是沒有意義的,這次大模型發布之后,對機器人在終端售價上是否會有影響?
姚卯青:定價9.9萬元的機器人,確實在市場上受到了很大的關注。但是行業的從業人員也知道,現在質量好的零部件是怎樣的一個成本,如果特別低的價格,那是可以想象用的是什么料的。同時,硬件的基礎也決定了機器人能力的上限。在這個階段的話,我們還是堅定地認為需要以價值為導向,真正能夠讓機器人的硬件軟件協同做協同配合產生一個好的效果,才是給用戶的價值,而不是說買一個大號的電動玩具,長期來講是不具備很好的商業價值的。
提問:智元今年的商業計劃是怎樣的?
姚卯青:今年我們的商業化目標是在營收層面,比去年的營收會有一個數倍的增長。在出貨量上面,應該會達到數千臺的規模。
提問:智元成立了兩三年,如何與成立八九年甚至十年左右的公司競爭?優勢是什么?
姚卯青:我個人覺得成立時間較短的公司有比較大的優勢。因為整個人形機器人產業從技術上來講是一個比較新的行業。我們也看到,今天大模型成功的公司,他們的整個組織人才方向是非常年輕化的。
在經營方向或者技術規劃方面,我們要去所謂的unlearned去學習,如果有太多的歷史包袱,就很難很暴力地做一些戰略上的調整,同時發展到一定程度的公司從資本的層面、經營層面都會去變得相對的更加保守,更加務實一些。
智元作為一家只有剛剛滿兩年的公司,我們平均的研發現在是30歲以下的,無論是出貨量還是營收,也是一個非常快速的過程。
相信今年我們有比較大的機會,可以在經營上做到國內的頭部,就是真正的龍頭企業。我們用兩年時間走完了別人可能八年九年沒有走完的路,而且是在一個快速上升的趨勢中。