網易首頁 > 網易號 > 正文申請入駐

拿下2000臺人形機器人訂單、總合同額超1億，松延動力創始人詳解技術秘籍

2025-06-05 21:44:01　來源: 智東西

北京舉報

分享至

智東西
作者程茜
編輯心緣

智東西6月5日報道，今日下午，在北京前沿國際人工智能研究院主辦的“走入松延動力”活動上，松延動力創始人兼董事長姜哲源透露，其人形機器人“小頑童”在亦莊人形機器人半程馬拉松比賽中拿下銀牌后的一個月內，松延動力就拿到了超1000臺人形機器人訂單，目前總訂單規模已經突破2000臺，總合同額超過1億元。

▲松延動力“小頑童”在亦莊人形機器人半程馬拉松比賽現場（圖源：松延動力）

姜哲源重點剖析了深度強化學習在機器人中的應用，其具體思路可分為四個部分，分別為算法設計、仿真訓練、sim2sim（Simulation-to-Simulation）、真機部署。松延動力下半年的重要工作就是保障機器人交付。

此外，北京前沿國際人工智能研究院理事長、英諾天使基金合伙人王晟談道，北京前沿國際人工智能研究院的定位不同于傳統研究院，其更注重連接優秀科學家、金融機構、媒體和社科專家，以推動科技成果落地。這也是該研究院此次舉辦該活動的原因。

從投資者角度，王晟談到了對近兩年來國內AI產業格局變化的看法。AI企業在規模和方向上相較于前兩年有所變化，但大公司的格局相對穩定，改變現有格局的難度較大。未來，企業商業模式、營收、利潤及未來價值成為投資的關鍵考量因素。

當前，AI領域的頭部玩家，尤其是大廠持續加大對AI業務線和新技術探索的投入，同時強調在大模型方面的持續投入。其方向主要聚焦于增強國際競爭力、提升推理能力以及適度拓展應用范圍。同時，大語言模型的再訓練能力被普遍認為是提升模型能力的關鍵，后發者需在有限的投入下追求更高的效率和效果。

▲北京前沿國際人工智能研究院理事長、英諾天使基金合伙人王晟

一、形成兩大人形機器人產品線，詳解深度強化學習

目前，松延動力已經形成兩大產品線，一類是雙足人形機器人包括N2和N1，一類是仿真人形機器人。其目標是讓機器人真正走入千家萬戶。

▲松延動力創始人兼董事長姜哲源

在技術層面，姜哲源重點提到了提升機器人運動性能背后的深度強化學習技術，以及深度強化學習在人形機器人、足式機器人運動控制上的應用。

人類完成決策一般會經歷試錯、重復記憶、改進的過程，強化學習也是通過不斷犯錯、改進進行學習。這背后，讓人形機器人跑起來的技術就是深度強化學習。

強化學習與深度學習的關系可以理解為，深度學習通過神經網絡增強強化學習中智能體的感知和決策能力，強化學習為深度學習提供目標導向的訓練機制，例如通過獎勵信號來優化神經網絡的參數。

他解釋說，深度強化學習回歸到數學模型就是馬爾科夫決策過程（MDP）。馬爾科夫決策過程指的是，下一時刻的狀態僅與當下時刻的狀態有關，與之前時刻的狀態無關。

MDP可以用元組〈S、A、P、r、γ〉表示：

S是狀態的集合，對應到機器人中就是其每個關節角度是多少、地面環境如何、電機溫度多少等；A是動作的集合；P是狀態轉移函數，指機器人下一個時刻狀態的概率分布；r是獎勵函數，比如機器人跑步過程中，研究人員希望機器人跑步更像人，那就是跑得越像人獎勵函數越高；γ是折扣因子，用于確定未來獎勵相對于當前狀態下的價值，能使機器人盡早獲得大量獎勵函數。

用一句話概括，強化學習就是學習從狀態空間S到動作空間A的映射，來最大化累積獎勵R的期望。松延動力在做的事情就是，機器人當前所處狀態到它去做動作、如何發送指令，學習這之間的映射關系。

目前，深度強化學習有一些基本的算法，如基于動作價值函數去選取當前最優的動作的Qfunction，以及松延動力在馬拉松比賽中用到的近端優化算法PPO等。

二、深入運動控制、抓取、導航避障場景，深度強化學習四大應用思路

深度強化學習在機器人中的應用包括運動控制、抓取、導航避障，其應用思路可分為四個部分，分別為算法設計、仿真訓練、sim2sim、真機部署。

姜哲源談道，仿真環境的必要性在于絕對安全的測試環境、可以高度并行計算、便于狀態估計和策略學習、提高算法驗證與優化效率。

松延動力是基于英偉達IsaacGym進行訓練，其具有高效并行計算能力、與深度學習框架無縫集成、高保真度物理仿真、具有豐富的案例。

sims2sim驗證環節，該公司會將機器人放到目前機器人領域仿真器中保真度最高的Mujoco測試中。

在動作空間、狀態空間設計方面，動作空間指的是機器人關節的角度、力矩等，一般需要具備完備性、高效性、合法性，狀態狀態空間設計的范式包括任務分析、信息篩選、泛化性考量、效果驗證的過程。在此基礎上，松延動力還采用了特殊表征學習方法。

此外，松延動力會通過獎勵函數定義機器人學習的目標與期望行為，如將人類動作捕捉的數據作為獎勵函數的參考設計或將機器人的控制精度作為獎勵函數等。為了增強機器人對于新動作的探索性，他們還會進一步鼓勵機器人進行動作探索，獎勵函數可以提升機器人性能的上限。

最后將機器人從仿真帶到真實世界中時，其會面臨環境建模差異、機器人建模差異、控制差異、硬件平臺限制。真機部署階段就需要考慮考量系統穩定性和可靠性、調試和驗證的便利性、模型部署迭代等。

三、具身智能產業發展仍處早期，誕生婚慶租賃等創新市場需求

松延動力新公司位于北京市昌平區。作為北京市“一南一北”機器人賽道重點布局區域之一，昌平區已經擁有各類的新型企業97家，產業收入超過100億元。

北京前沿國際人工智能研究院院長、英諾天使基金創始合伙人李竹談道，AI大浪潮才剛剛開始，盡管目前超級應用還未出現，其原因是超級終端尚未成熟。未來眼鏡等形態的超級終端之上或許會誕生新的超級應用。

從這個角度來看，北京前沿國際人工智能研究院的目標就是要幫助AI產品落地、提升認知、形成生態。

李竹提到，未來15年內，對中國經濟影響最大的變量就是AI。這也是北京前沿國際人工智能研究院聚焦于此的關鍵原因。

他補充說，具體到具身智能產業，這仍然是一個沒有完全形成共識的產業，其技術范式尚未收斂，因此當下是技術路線、方向百花齊放的階段。

▲北京前沿國際人工智能研究院院長、英諾天使基金創始合伙人李竹

面向具身智能行業，王晟認為，這一行業發展處于早期，目前需求集中于高校、科研院所等，但也誕生了婚慶公司等消費場景的租賃需求，因此隨著市場的發展這一行業會被創造出更多需求。

結語：具身智能產業化初探：從馬拉松銀牌到千臺訂單

正如上文所述，具身智能的發展仍處早期，其技術路線并不收斂，但從考驗人形機器人性能的半程馬拉松賽場，到拿下超2000臺訂單，可以看出松延動力在人形機器人的技術突破與商業化落地方面的已經有所進展。

此外，北京前沿國際人工智能研究院作為鏈接企業、投資者以及市場需求的重要平臺，或許可以為AI產業加速落地提供不一樣的視角。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.