智東西
作者 程茜
編輯 心緣
智東西6月5日報(bào)道,今日下午,在北京前沿國際人工智能研究院主辦的“走入松延動力”活動上,松延動力創(chuàng)始人兼董事長姜哲源透露,其人形機(jī)器人“小頑童”在亦莊人形機(jī)器人半程馬拉松比賽中拿下銀牌后的一個(gè)月內(nèi),松延動力就拿到了超1000臺人形機(jī)器人訂單,目前總訂單規(guī)模已經(jīng)突破2000臺,總合同額超過1億元。
▲松延動力“小頑童”在亦莊人形機(jī)器人半程馬拉松比賽現(xiàn)場(圖源:松延動力)
姜哲源重點(diǎn)剖析了深度強(qiáng)化學(xué)習(xí)在機(jī)器人中的應(yīng)用,其具體思路可分為四個(gè)部分,分別為算法設(shè)計(jì)、仿真訓(xùn)練、sim2sim(Simulation-to-Simulation)、真機(jī)部署。松延動力下半年的重要工作就是保障機(jī)器人交付。
此外,北京前沿國際人工智能研究院理事長、英諾天使基金合伙人王晟談道,北京前沿國際人工智能研究院的定位不同于傳統(tǒng)研究院,其更注重連接優(yōu)秀科學(xué)家、金融機(jī)構(gòu)、媒體和社科專家,以推動科技成果落地。這也是該研究院此次舉辦該活動的原因。
從投資者角度,王晟談到了對近兩年來國內(nèi)AI產(chǎn)業(yè)格局變化的看法。AI企業(yè)在規(guī)模和方向上相較于前兩年有所變化,但大公司的格局相對穩(wěn)定,改變現(xiàn)有格局的難度較大。未來,企業(yè)商業(yè)模式、營收、利潤及未來價(jià)值成為投資的關(guān)鍵考量因素。
當(dāng)前,AI領(lǐng)域的頭部玩家,尤其是大廠持續(xù)加大對AI業(yè)務(wù)線和新技術(shù)探索的投入,同時(shí)強(qiáng)調(diào)在大模型方面的持續(xù)投入。其方向主要聚焦于增強(qiáng)國際競爭力、提升推理能力以及適度拓展應(yīng)用范圍。同時(shí),大語言模型的再訓(xùn)練能力被普遍認(rèn)為是提升模型能力的關(guān)鍵,后發(fā)者需在有限的投入下追求更高的效率和效果。
▲北京前沿國際人工智能研究院理事長、英諾天使基金合伙人王晟
一、形成兩大人形機(jī)器人產(chǎn)品線,詳解深度強(qiáng)化學(xué)習(xí)
目前,松延動力已經(jīng)形成兩大產(chǎn)品線,一類是雙足人形機(jī)器人包括N2和N1,一類是仿真人形機(jī)器人。其目標(biāo)是讓機(jī)器人真正走入千家萬戶。
▲松延動力創(chuàng)始人兼董事長姜哲源
在技術(shù)層面,姜哲源重點(diǎn)提到了提升機(jī)器人運(yùn)動性能背后的深度強(qiáng)化學(xué)習(xí)技術(shù),以及深度強(qiáng)化學(xué)習(xí)在人形機(jī)器人、足式機(jī)器人運(yùn)動控制上的應(yīng)用。
人類完成決策一般會經(jīng)歷試錯(cuò)、重復(fù)記憶、改進(jìn)的過程,強(qiáng)化學(xué)習(xí)也是通過不斷犯錯(cuò)、改進(jìn)進(jìn)行學(xué)習(xí)。這背后,讓人形機(jī)器人跑起來的技術(shù)就是深度強(qiáng)化學(xué)習(xí)。
強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)的關(guān)系可以理解為,深度學(xué)習(xí)通過神經(jīng)網(wǎng)絡(luò)增強(qiáng)強(qiáng)化學(xué)習(xí)中智能體的感知和決策能力,強(qiáng)化學(xué)習(xí)為深度學(xué)習(xí)提供目標(biāo)導(dǎo)向的訓(xùn)練機(jī)制,例如通過獎勵信號來優(yōu)化神經(jīng)網(wǎng)絡(luò)的參數(shù)。
他解釋說,深度強(qiáng)化學(xué)習(xí)回歸到數(shù)學(xué)模型就是馬爾科夫決策過程(MDP)。馬爾科夫決策過程指的是,下一時(shí)刻的狀態(tài)僅與當(dāng)下時(shí)刻的狀態(tài)有關(guān),與之前時(shí)刻的狀態(tài)無關(guān)。
MDP可以用元組〈S、A、P、r、γ〉表示:
S是狀態(tài)的集合,對應(yīng)到機(jī)器人中就是其每個(gè)關(guān)節(jié)角度是多少、地面環(huán)境如何、電機(jī)溫度多少等;A是動作的集合;P是狀態(tài)轉(zhuǎn)移函數(shù),指機(jī)器人下一個(gè)時(shí)刻狀態(tài)的概率分布;r是獎勵函數(shù),比如機(jī)器人跑步過程中,研究人員希望機(jī)器人跑步更像人,那就是跑得越像人獎勵函數(shù)越高;γ是折扣因子,用于確定未來獎勵相對于當(dāng)前狀態(tài)下的價(jià)值,能使機(jī)器人盡早獲得大量獎勵函數(shù)。
用一句話概括,強(qiáng)化學(xué)習(xí)就是學(xué)習(xí)從狀態(tài)空間S到動作空間A的映射,來最大化累積獎勵R的期望。松延動力在做的事情就是,機(jī)器人當(dāng)前所處狀態(tài)到它去做動作、如何發(fā)送指令,學(xué)習(xí)這之間的映射關(guān)系。
目前,深度強(qiáng)化學(xué)習(xí)有一些基本的算法,如基于動作價(jià)值函數(shù)去選取當(dāng)前最優(yōu)的動作的Qfunction,以及松延動力在馬拉松比賽中用到的近端優(yōu)化算法PPO等。
二、深入運(yùn)動控制、抓取、導(dǎo)航避障場景,深度強(qiáng)化學(xué)習(xí)四大應(yīng)用思路
深度強(qiáng)化學(xué)習(xí)在機(jī)器人中的應(yīng)用包括運(yùn)動控制、抓取、導(dǎo)航避障,其應(yīng)用思路可分為四個(gè)部分,分別為算法設(shè)計(jì)、仿真訓(xùn)練、sim2sim、真機(jī)部署。
姜哲源談道,仿真環(huán)境的必要性在于絕對安全的測試環(huán)境、可以高度并行計(jì)算、便于狀態(tài)估計(jì)和策略學(xué)習(xí)、提高算法驗(yàn)證與優(yōu)化效率。
松延動力是基于英偉達(dá)IsaacGym進(jìn)行訓(xùn)練,其具有高效并行計(jì)算能力、與深度學(xué)習(xí)框架無縫集成、高保真度物理仿真、具有豐富的案例。
sims2sim驗(yàn)證環(huán)節(jié),該公司會將機(jī)器人放到目前機(jī)器人領(lǐng)域仿真器中保真度最高的Mujoco測試中。
在動作空間、狀態(tài)空間設(shè)計(jì)方面,動作空間指的是機(jī)器人關(guān)節(jié)的角度、力矩等,一般需要具備完備性、高效性、合法性,狀態(tài)狀態(tài)空間設(shè)計(jì)的范式包括任務(wù)分析、信息篩選、泛化性考量、效果驗(yàn)證的過程。在此基礎(chǔ)上,松延動力還采用了特殊表征學(xué)習(xí)方法。
此外,松延動力會通過獎勵函數(shù)定義機(jī)器人學(xué)習(xí)的目標(biāo)與期望行為,如將人類動作捕捉的數(shù)據(jù)作為獎勵函數(shù)的參考設(shè)計(jì)或?qū)C(jī)器人的控制精度作為獎勵函數(shù)等。為了增強(qiáng)機(jī)器人對于新動作的探索性,他們還會進(jìn)一步鼓勵機(jī)器人進(jìn)行動作探索,獎勵函數(shù)可以提升機(jī)器人性能的上限。
最后將機(jī)器人從仿真帶到真實(shí)世界中時(shí),其會面臨環(huán)境建模差異、機(jī)器人建模差異、控制差異、硬件平臺限制。真機(jī)部署階段就需要考慮考量系統(tǒng)穩(wěn)定性和可靠性、調(diào)試和驗(yàn)證的便利性、模型部署迭代等。
三、具身智能產(chǎn)業(yè)發(fā)展仍處早期,誕生婚慶租賃等創(chuàng)新市場需求
松延動力新公司位于北京市昌平區(qū)。作為北京市“一南一北”機(jī)器人賽道重點(diǎn)布局區(qū)域之一,昌平區(qū)已經(jīng)擁有各類的新型企業(yè)97家,產(chǎn)業(yè)收入超過100億元。
北京前沿國際人工智能研究院院長、英諾天使基金創(chuàng)始合伙人李竹談道,AI大浪潮才剛剛開始,盡管目前超級應(yīng)用還未出現(xiàn),其原因是超級終端尚未成熟。未來眼鏡等形態(tài)的超級終端之上或許會誕生新的超級應(yīng)用。
從這個(gè)角度來看,北京前沿國際人工智能研究院的目標(biāo)就是要幫助AI產(chǎn)品落地、提升認(rèn)知、形成生態(tài)。
李竹提到,未來15年內(nèi),對中國經(jīng)濟(jì)影響最大的變量就是AI。這也是北京前沿國際人工智能研究院聚焦于此的關(guān)鍵原因。
他補(bǔ)充說,具體到具身智能產(chǎn)業(yè),這仍然是一個(gè)沒有完全形成共識的產(chǎn)業(yè),其技術(shù)范式尚未收斂,因此當(dāng)下是技術(shù)路線、方向百花齊放的階段。
▲北京前沿國際人工智能研究院院長、英諾天使基金創(chuàng)始合伙人李竹
面向具身智能行業(yè),王晟認(rèn)為,這一行業(yè)發(fā)展處于早期,目前需求集中于高校、科研院所等,但也誕生了婚慶公司等消費(fèi)場景的租賃需求,因此隨著市場的發(fā)展這一行業(yè)會被創(chuàng)造出更多需求。
結(jié)語:具身智能產(chǎn)業(yè)化初探:從馬拉松銀牌到千臺訂單
正如上文所述,具身智能的發(fā)展仍處早期,其技術(shù)路線并不收斂,但從考驗(yàn)人形機(jī)器人性能的半程馬拉松賽場,到拿下超2000臺訂單,可以看出松延動力在人形機(jī)器人的技術(shù)突破與商業(yè)化落地方面的已經(jīng)有所進(jìn)展。
此外,北京前沿國際人工智能研究院作為鏈接企業(yè)、投資者以及市場需求的重要平臺,或許可以為AI產(chǎn)業(yè)加速落地提供不一樣的視角。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.