光合作用是所有生命的能量來源,生態系統中碳循環的重要機制。作為“一支有溫度的基金”,光速光合也正在與創業者,與這個社會產生“光合作用”,聯結創新的同時,推動著社會的可持續發展。
創業邦將陸續刊載光速光合的投資專欄「光合說」,分享光速光合投資背后的故事。
故事的起因可能是一通陌生的電話,一次登門拜訪,或是對一篇學術論文的關注……光速光合與創業者的交集就此展開。沒有酒桌上的觥籌交錯,也沒有天花亂墜的承諾,只有長時間的相伴,分擔痛苦、分享成功,實踐長期主義的價值。
“思考、專注、探索、創新”,這是光速光合的投資信仰。憑借著對行業的極致追求,心懷時代賦予的責任,積極尋找下一個可能的機會。期待“中國創新的全球合伙人”能攜手更多行業創新的探路者們一路向光,合力而為。
光速光合合伙人蔡偉至今還對第一次去具身智能公司“自變量機器人”測試DEMO的場景記憶猶新。
僅僅只是一個簡單的指令:把杯子放到碟子上。聽懂指令的機器人“發現”杯子被倒置了,它用僅有夾爪的機械臂把杯子先放正,然后準確地找到杯子把手的位置,最終拿起把手成功地放到碟子上,整個動作一氣呵成。
“在看到機器人靈活性和智能程度涌現的那一刻其實自己雞皮疙瘩都起來了,一下子就能真實感受到未來巨大的可能性和潛力?!辈虃フZ帶興奮地回憶起當時的情景。
成立不滿一年,自變量機器人就推出了目前最大參數規模的端到端通用具身智能操作大模型WALL-A。在WALL-A模型的賦能下,自變量機器人僅用二指夾爪,就能完成拉拉鏈、疊衣服、澆花等復雜操作,數分鐘級別的任務成功率達到了95%以上。
2024年,光速光合領投了自變量機器人的Pre-A++輪融資。不久前自變量機器人宣布完成了數億元Pre-A+++輪融資,以及由美團戰投領投、美團龍珠跟投的數億元A輪融資。自成立起不到一年半時間內,公司已完成7輪融資,累計融資金額超10億元。
蔡偉表示:“我們投資自變量機器人,是看重其在具身智能領域的領先技術布局和差異化競爭力。公司自主研發的端到端具身通用大模型在泛化性和智能程度上在國內處于領先身位。我們相信,隨著具身智能成為下一代機器人革命的核心,自變量機器人有望憑借技術通用性、團隊執行力和產業資源整合能力,成為全球賽道的重要參與者?!?/p>
通往具身智能大模型的路徑有無數條,自變量機器人創始人兼CEO王潛相信,“端到端的一體化模型架構”最終能通向羅馬。
一、破題莫拉維克悖論:為什么機器人學不會“疊衣服”?
通用人形機器人仍是世界難題,過去學術界和工業界多次向通用機器人發起沖擊,但最后都發現難度超乎預期。
上世紀80年代,人工智能領域提出了莫拉維克悖論,認為人類所獨有的高階智慧能力只需要非常少的計算能力,但是無意識的技能和直覺卻需要極大的運算能力。例如,機器人能解微積分卻打不開瓶蓋,甚至直到2018年才實現自主抓握。
為了讓機器人完成這些直覺的基礎動作,機器人行業試過多種方法。包括預編程,為每一個任務寫代碼。以及分層架構的模型,也就是將模型分為基礎層、數據層、模型層、平臺層、應用層等多個層次,不同層次之間相互協作,共同支持大模型的訓練、推理和應用。
王潛也是“通用具身智能”的挑戰者之一,他在機器人和大模型領域都有很深的積累。
王潛2007年考入清華大學電子工程系,后獲得生物醫學工程系碩士學位。碩士期間,他發表論文,率先成為在神經網絡中提出注意力(Attention)機制的研究學者之一,并與Google在該領域的首篇文章發表在同一會議。這些研究成果也成為后來Transformer架構中的關鍵。
碩士畢業后,王潛前往南加州大學讀博,在全球頂級的機器人實驗室,專注機器人學習、人機交互等相關領域的研究。
他很早就意識到,人形機器人要解決通用問題,最核心的是要解決AI問題。在研究中,王潛發現分層架構大模型很難適應復雜環境的動態變化?!胺謱蛹軜嬏旎ò搴艿停降胶竺嬖桨l現,如果越接近大小腦統一,模型能力的天花板越高?!?/p>
2016年,王潛開始研究端到端,時至今日,這種架構突破以往分層架構的限制,語言、視頻以及傳感器信號等輸入后,直接輸出機器人的速度、位姿、力矩等,減少了分層處理帶來的噪聲影響,有效提升泛化能力和系統靈活性。
后來,大(語言)模型的成果,為機器人的發展帶來了全新視角,王潛決定自己創業。他先在美國看了一圈,美國的硬件人才基本都集中在灣區,在Apple、Meta、Tesla等大廠?!斑@些公司的待遇優厚,只要不裁員,人才主動出來的情況很少?!蓖鯘摪堰@種現象比喻為“金手銬”。在他看來,美國硬件人才大都被“金手銬”拷進了大公司,這也是美國硬件制造生態遠不如中國的重要原因之一。
此外,中國在供應鏈上的優勢可能領先了美國一個數量級。例如數據收集工作,中國的成本基本上是美國的1/10。效率疊加成本,中國的綜合生態一定是全世界最好的。
他當即意識到,想要做成一家有競爭力的機器人企業,中國幾乎是唯一的選擇。“美國的優勢在于軟件層面,但機器人是一個軟硬結合的產物,沒有成熟的供應鏈環境是不可能做出來的。”于是,2023年王潛選擇回國,在機器人供應鏈生態完整的深圳,創建了自變量機器人。
二、造出全球最大“機器人腦”機器人的端到端突圍
端到端具身智能大模型是一條孤獨的路。彼時,走這一路線的AI企業只有寥寥幾家,專注機器人領域的更是少之又少。
幾年前,王潛提出端到端思路的時候,一位有名的機器人教授曾當面否定了他的設想:“端到端很有意思,但可能永遠只是個玩具,不會落地?!?/p>
在國內,鮮少有具身智能初創公司選擇這一方案。而且,自變量還將所有的任務都在同一個模型中訓練和實現操作。這種統一的機器人學習范式突破以往單一專有任務訓練的模式,顯著提高跨任務學習效率。
為此,王潛組建了一支在軟件算法層面兼具“機器人+大模型”經驗的團隊,團隊成員主要來自來自世界知名人工智能/機器人實驗室及海內外頂級高校,研發人員占比超90%。
自變量機器人聯合創始人兼CTO王昊,是大模型領域的專家。王昊是北京大學計算物理博士,在粵港澳大灣區數字經濟研究院(IDEA研究院)期間擔任封神榜大模型團隊算法負責人,發布了國內首個多模態開源大模型“太乙”,首批百億級大語言模型“燃燈”以及千億級大語言模型“姜子牙”。
兩人一致認為,機器人會是大模型能在物理世界真正落地的領域。王潛回國創業后,王昊也很快加入了團隊?!罢_的戰略選擇和團隊優勢,不夸張地說,為我們節省了大概半年的時間?!蓖鯘撜f道。
蔡偉也給予了這對“黃金拍檔”充分的肯定。
“王潛對機器人技術的判斷很有前瞻性,在行業初步共識還未達成時,就意識到大模型的重要性,他的技術底子和觸覺非常好,這是他多年行業學習和積累的結果。王昊很早就開始接觸大模型,參與了中國首個億級大模型和萬億級大模型的開發,知道大模型的上限和下限在哪里。這個組合對于未來在什么樣的技術條件下能做什么樣的產品有很清晰的判斷?!彼硎尽?/p>
2024年4月,成立4個月的自變量機器人,發布了國內首個端到端具身智能底座大模型。經過數次迭代后,自變量機器人在同年10月發布了WALL-A模型。
自變量機器人通過雙臂協作把線束卡進卡槽
基于大規模通用知識預訓練與多任務學習機制,當前「WALL-A」模型在部分未見過的新任務場景中已展現出零樣本泛化能力——廣泛場景的零樣本泛化是實現通用機器人的關鍵標志之一。
光速光合合伙人朱嘉直言第一次去公司看DEMO時就被WALL-A模型的能力驚到了。
他透露了兩個有意思的細節。在沒有預先告知公司的情況下,朱嘉在公司附近的超市買了十幾個樣式各異的玻璃瓶、馬克杯甚至還有燒水壺,現場突擊測試機器人的抓取能力。“有些形狀的杯子它從來沒見過,雖然抓得很踉蹌,但最終還是成功了?!敝旒涡ρ哉麄€過程就像三歲小朋友在學習。
好不容易“闖關”成功,朱嘉又出了個下一個難題,把一件T恤揉成了一團球,讓機器人現場抓取。他直言,揉完后乍一眼根本看不出是一件T恤,在這種情況下,大腦需要慢慢地一點點抽絲剝繭地去分析、分辨,最后慢慢找出衣服的結構,再將其疊好。“雖然一共花了10分鐘,但前面8分鐘都在探索,我覺得這個探索的過程非常有意義,說明它是在通過思考和嘗試去解決一個問題,而不是在重復解決一個之前已被訓練過的動作能力?!?/p>
“越接近人類直覺反應的動作難度越大,但通過他們的DEMO展示,我們看到機器人的二指夾爪可以抓取任意形狀的瓶子、玻璃杯,可以順暢地拉起拉鏈、疊好揉成一團的衣服,展現出極強的產品泛化能力。”朱嘉肯定道。
經過不足一年半的研發迭代,自變量機器人的模型已經和海外頭部具身智能公司Physical Intelligence(PI)等,站在了同一水平線上,甚至在部分方面實現超越,比如在一些高級別的泛化性操作、操作復雜度等層面。
三、AI定義硬件軟硬一體同步迭代
蔡偉認為,“在具身智能這個大賽道里最終能脫穎而出,除了考驗企業的大模型能力之外,是否有更好的算法,能收集大規模、低成本的真實數據非常重要。大模型的泛化能力是由數據采集能力來決定的,數據積累到一定程度,對泛化能力和智能程度的提升會產生很大價值?!?/p>
據悉,自變量機器人構建了以模型驅動的數據閉環體系。公司自主研發了數十個數據處理模型和多代數據采集設備,用于實現數據質量的自動化控制與數據采集效率的全面提升。
同時,自變量機器人也在同步自研機器人本體,形成“軟硬一體”的閉環能力。公司自主研發并持續優化適配多模態大模型控制的機器人本體,更好地滿足開放環境中的精細操作和穩定運行需求。目前,自變量的機器人本體已在多步驟復雜任務場景中落地應用。
自變量機器人近日在第六屆深圳國際人工智能展覽會現場展示自主制作刨冰
“我們最終的目標是直接面向終端消費者,讓每個家庭都擁有自己的機器人保姆。”王潛說,不過,他估計人形機器人要在C端實現規?;黄菩缘芈涞?,至少還要5-7年。
“我們今年將在多個功能性場景中做商業化落地,讓機器人在開放性、隨機性場景里自主完成各種復雜的操作。這看似一小步,實則是整個技術范式牽引產品范式轉變的一大步?!蓖鯘摫硎?。
現階段,包括WALL-A大模型在內的水平接近于語言模型GPT-2向GPT-3過渡同期的階段。王潛判斷,類GPT-3水平的具身智能大模型將在未來一到兩年逐步出現。
四、從宇樹科技到自變量機器人
深入行業研究,找對賽道,并在賽道中找到最領先的企業,從成功布局機器人四肢硬件的最強公司宇樹科技,到投資了機器人的最強大腦自變量機器人,光速光合在機器人賽道的投資正慢慢浮出水面。
“我們看到當下無論是在國內還是海外,優秀的大學、科研院所、科技公司都在研究具身智能機器人行業,當他們需要硬件載體時,都無一例外地選擇用宇樹的機器狗及人形機器人,他們的產品競爭力不僅在中國市場,在全球都是非常領先的。”朱嘉回憶去年對宇樹科技的投資時提到,“此外,我們還看到之前宇樹的產品更多是以四足機器人的形態出現,但從去年開始,它的人形機器人產品,從第一代到第二代,快速迭代推向市場,公司的第二增長曲線開拓取得了優異的成績,說明他們有很好地復制并快速做出成功產品的能力?!?/p>
對于自變量機器人的投資也是如此。
事實上,蔡偉一直在追蹤具身智能行業的發展。他直言,通過前期語言大模型的積累,也在研究大模型在其他終端的應用,包括大模型對機器人可能會產生的影響。直到去年10月,Physical Intelligence發布了其首個通用機器人基礎模型π0,用于開發各種機器人應用,它的泛化和智能程度到了初步可企及的狀態時,他判斷這可能是一個未來的主流技術路線。于是,開始有針對性地mapping行業內的優秀創業者及創業公司。
最終能找到自變量機器人,蔡偉笑言這是一個偶然的契機,一次理發的經歷讓他“撞到”了這個項目。他回憶當時在理發的間隙看到一篇介紹自變量機器人做端對端大模型的文章,發現這正是自己非??春玫囊粋€路線。就這樣,還沒理完發,蔡偉已通過作者聯系上了王潛。
在蔡偉看來,具身智能未來的發展必定是以一個系統的形式存在,既有軟件,也有硬件,且有很高的進入門檻?!拔磥砜赡苁怯卸嗉移髽I在不同的細分場景積累不同的認知,行業會是一個百花齊放的局面?!彼f。
“我們看好具身智能在一個通用的大腦下會不斷衍生出更多具體的應用,不論是ToB還是ToC,催生更多瞄準某些垂直領域應用的機器人產品。它可以借助現有機器人的大腦,結合行業的需求定制針對特定行業的產品?!敝旒伪硎荆爱a業一旦做大的話在其產業鏈上,不僅上游的核心零部件,還有與產業相配套的一些產品、技術都會有長足的發展機會和投資價值?!?/p>
技術的持續突破,正撬動一個千億美元級市場。高盛預測,到2035年人形機器人市場規模將達1540億美元,而自變量軟硬同步迭代的通用具身機器人,將搶灘養老護理、家庭服務等增量市場,奪得先機。
“這是一條廣闊的賽道,我們走在最合適的路上,并且一定能走到路的盡頭?!蓖鯘撜f。這條路徑的盡頭,或許正是人形機器人走進千家萬戶的時代。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.