投資界6月16日消息,據(jù)硬氪報(bào)道,北京智在無界科技有限公司(以下簡(jiǎn)稱「智在無界」,英文為BeingBeyond)近日完成數(shù)千萬元融資,聯(lián)想之星領(lǐng)投,智譜Z基金、燕緣創(chuàng)投、彬復(fù)資本跟投。資金將用于加大核心技術(shù)研發(fā)投入,加速現(xiàn)有模型迭代與產(chǎn)業(yè)化驗(yàn)證,以持續(xù)提升技術(shù)壁壘與產(chǎn)品競(jìng)爭(zhēng)力。
「智在無界」成立于2025年1月,專注人形機(jī)器人通用大模型的研發(fā)與應(yīng)用。創(chuàng)始人盧宗青是北京大學(xué)計(jì)算機(jī)學(xué)院長(zhǎng)聘副教授,曾任智源研究院多模態(tài)交互研究中心負(fù)責(zé)人;多位核心成員均來自智源研究院,在強(qiáng)化學(xué)習(xí)、計(jì)算機(jī)視覺、機(jī)器人控制和多模態(tài)等領(lǐng)域有豐富的技術(shù)研發(fā)積累和應(yīng)用落地經(jīng)驗(yàn)。
面向人形機(jī)器人的操作和運(yùn)動(dòng)兩大核心能力,「智在無界」將其通用大模型系統(tǒng)分為具身多模態(tài)大語(yǔ)言模型、多模態(tài)姿態(tài)大模型和運(yùn)動(dòng)模型三層,并搭建了自學(xué)習(xí)具身智能體框架。
盧宗青表示,區(qū)別于其他模型,「智在無界」的預(yù)訓(xùn)練數(shù)據(jù)來自互聯(lián)網(wǎng)端的人類運(yùn)動(dòng)和手部操作視頻,通過解析這些自然場(chǎng)景下的動(dòng)作序列,構(gòu)建機(jī)器人運(yùn)動(dòng)操作能力的預(yù)訓(xùn)練基礎(chǔ)。這種以公開視頻數(shù)據(jù)為驅(qū)動(dòng)的技術(shù)路線,突破了傳統(tǒng)方案對(duì)機(jī)器人真機(jī)數(shù)據(jù)的強(qiáng)依賴,可實(shí)現(xiàn)從“人類行為示范”到“機(jī)器人動(dòng)作生成”的跨模態(tài)遷移。
具體而言,「智在無界」提出了多模態(tài)姿態(tài)模型,通過互聯(lián)網(wǎng)上豐富的視頻資源,包括如行走、舞蹈等人體全身運(yùn)動(dòng),抓取物體、工具使用等第一人稱視角的手部精細(xì)操作數(shù)據(jù),能夠?yàn)槟P吞峁┴S富且多元的動(dòng)作樣本。通過這些視頻-動(dòng)作數(shù)據(jù),模型可學(xué)習(xí)到各種動(dòng)作在不同環(huán)境下的表現(xiàn)形式,能依據(jù)實(shí)時(shí)的環(huán)境信息與任務(wù)要求,實(shí)現(xiàn)具有泛化性的端到端運(yùn)動(dòng)操作。
在具身多模態(tài)大語(yǔ)言模型方面,「智在無界」自主研發(fā)了Video Tokenizer技術(shù),其強(qiáng)調(diào)時(shí)空環(huán)境的理解與推理能力,尤其是針對(duì)第一人稱視角視頻內(nèi)容的解析。通過將連續(xù)視頻流解構(gòu)為兼具時(shí)間序列與空間語(yǔ)義的視覺token單元,使得該模型能精準(zhǔn)捕捉動(dòng)作的時(shí)序邏輯,比如伸手、抬升手臂到抓起物體的連貫過程,并基于物體方位、肢體相對(duì)位置等空間特征理解物理世界和人類行為。
目前,雖然簡(jiǎn)單的多模態(tài)大語(yǔ)言模型+運(yùn)動(dòng)操作策略已具備商業(yè)落地條件,但受真實(shí)場(chǎng)景中的動(dòng)態(tài)環(huán)境變化影響,機(jī)器人的泛化能力難以適應(yīng),如何讓人形機(jī)器人具備自主學(xué)習(xí)能力,成為其實(shí)現(xiàn)商業(yè)化落地的關(guān)鍵突破點(diǎn)。
為此,「智在無界」提出Retriever-Actor-Critic框架,通過對(duì)真實(shí)交互數(shù)據(jù)的RAG(檢索增強(qiáng)生成)與強(qiáng)化學(xué)習(xí),二者的協(xié)同應(yīng)用,不僅能提升模型的響應(yīng)準(zhǔn)確性與用戶體驗(yàn),形成“數(shù)據(jù)收集-模型優(yōu)化-效果反饋”的閉環(huán),使機(jī)器人具備了動(dòng)態(tài)適應(yīng)多變場(chǎng)景的能力,為其規(guī)模化落地提供了可行的技術(shù)路徑。
盧宗青指出,基于互聯(lián)網(wǎng)視頻預(yù)訓(xùn)練通用動(dòng)作模型,再通過后期適配訓(xùn)練實(shí)現(xiàn)對(duì)不同機(jī)器人本體及場(chǎng)景的遷移,「智在無界」的技術(shù)路徑可以避免因硬件迭代導(dǎo)致的數(shù)據(jù)浪費(fèi),繼而有效解決真機(jī)數(shù)據(jù)稀缺與場(chǎng)景泛化的矛盾。目前,公司正同頭部機(jī)器人廠商推進(jìn)場(chǎng)景驗(yàn)證合作,以加快具身智能在更多領(lǐng)域的應(yīng)用落地。
聯(lián)想之星合伙人高天垚表示,當(dāng)前具身大模型的技術(shù)路線還未收斂,如缺乏統(tǒng)一的架構(gòu)范式,BeingBeyond團(tuán)隊(duì)的技術(shù)路線解決了訓(xùn)練數(shù)據(jù)來源有限的問題,同時(shí)采用模塊化打通大小腦的方式構(gòu)建了一套完整的技術(shù)框架,與國(guó)外相似技術(shù)路線的團(tuán)隊(duì)相比具備全棧技術(shù)能力,依托多模態(tài)大模型等自研大模型,在解決具身大模型的任務(wù)與環(huán)境泛化性、跨本體等問題上有強(qiáng)有力的競(jìng)爭(zhēng)力,逐步實(shí)現(xiàn)“零樣本”泛化,期待BeingBeyond團(tuán)隊(duì)的產(chǎn)品在具有高潛力應(yīng)用的場(chǎng)景落地,實(shí)現(xiàn)商業(yè)閉環(huán)。
智譜Z基金合伙人王璞表示,作為智在無界的天使投資人,我無比自豪地見證盧宗青教授及其團(tuán)隊(duì)在通用人形機(jī)器人領(lǐng)域取得的里程碑式突破。從構(gòu)建業(yè)界首個(gè)百萬規(guī)模的MotionLib數(shù)據(jù)集,到開發(fā)端到端的Being-M0動(dòng)作生成模型,團(tuán)隊(duì)不僅驗(yàn)證了“大數(shù)據(jù)+大模型”在具身智能中的規(guī)模效應(yīng),更實(shí)現(xiàn)了跨平臺(tái)動(dòng)作遷移的技術(shù)閉環(huán)。這項(xiàng)創(chuàng)新將文本指令轉(zhuǎn)化為機(jī)器人精細(xì)動(dòng)作的能力,不僅突破了傳統(tǒng)方法的局限,還為機(jī)器人走進(jìn)千家萬戶鋪平了道路。我堅(jiān)信,智在無界將持續(xù)引領(lǐng)具身智能的迭代從靈巧操作到全身運(yùn)動(dòng)控制,推動(dòng)機(jī)器人從實(shí)驗(yàn)室走向日常生活。我們將與智在無界攜手,同大家一道共同迎接一個(gè)由通用機(jī)器人賦能的新時(shí)代。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.