具身智能還沒有迎來ChatGPT時刻,人形機器人還需要在不斷嘗試各種應用場景中等待真正爆發的機會。
文|邱慧
編輯|張劍
一個月前,宇樹科技G1 人形機器人在全球首個以人形機器人為參賽主體的格斗賽上,展示了刺拳、勾拳、踢腿等格斗動作。
一如此前人形機器人的馬拉松賽事,這場格斗賽同樣引來網友爭議:“機器人為何要參加人類賽事?”
6月6日,在第七屆“北京智源大會”上,獲得格斗比賽冠軍的“AI策算師”向到場觀眾展示了一套格斗動作后,宇樹科技CEO王興興首次回應外界對機器人參加各項賽事的質疑。
王興興表示,過去無論是春晚上的表演還是格斗比賽,宇樹希望給大家真正展示一下當前全球機器人發展的情況,同時也能帶動整個機器人行業的發展。
他坦言,目前“還不能直接去家里和工廠干活”是全球機器人行業都面臨的現實性問題。王興興稱,宇樹終極目標就是希望人形機器人真正去干活,但在真正干活之前,參加各類賽事,也是希望展示已經達到的技術成果,并且做更多的商業化拓展和嘗試。
具身智能還沒到ChatGPT時刻?
過去的兩年里,無論是資本市場還是AI賽道,具身智能都是毋庸置疑的“頂流”。
企業前赴后繼,爭相涌進具身智能賽道。然而,盡管廠商蜂擁而至,但具身智能面臨的挑戰仍不少。
智源研究院院長王仲遠指出,當下的具身智能大模型面臨“不好用、不通用、不易用”的特點。“不好用”是指具身大模型遠沒有到ChatGPT時刻;“不通用”是指具身大模型只能用于一個本體或同一品牌的本體;“不易用”是指大腦、小腦本體的適配難度比較高。
王仲遠坦言,當下由于具身智能硬件依然不夠成熟,帶來數據短缺問題,由此導致模型能力弱、落地應用難、機器人難以量產等壁壘性問題。王仲遠表示,這些問題構成了一個發展中的循環悖論,為了破解這些挑戰和瓶頸,就需要行業里各個參與方的共同努力。
2025年,通過參加人類賽事的人形機器人進入公眾視野,從長跑到格斗、分揀貨品,技能無一不令觀者嘆服。大眾對人形機器人入戶“解放勞動力”的期待值日漸拉滿。
但王興興認為,目前讓人形機器人進入家庭干活“還是不現實”的。他指出,從今年1月份的春晚到格斗比賽,人形機器人的露出多是展示了目前行業的發展水平。
“宇樹的核心本質是希望通過AI技術,讓一個機器人尤其人形機器人可以做各種類似跳舞和格斗的全身動作,入戶后的端茶倒水或者洗衣做飯,同樣也是全身動作的一部分。”他表示,“但在讓人形機器人去真正干活這個終極目標未實現之前,宇樹選擇先參加一些表演、參加一些格斗比賽來給大家展示一下機器人的情況,并且產生一部分商業價值。”
北京人形機器人創新中心總經理熊友軍同樣認為,機器人賽事更像是機器人知識普及的機會,同時也是讓人形機器人能夠走出實驗室,走向人類真實生活場景的技術訓練場。對于行業而言,有可能會促成機器人加速產業化,或加速在真實場景里做試點的應用。
人形機器人“炫技”背后,如何讓具身智能走向產業化是行業內尚在尋求共識的命題。“雖然我們看到了(機器人)很多炫酷的功能,但也一定要反思這樣的技能在新環境下,在客戶需要百分百成功率的情況下,能不能成功。”銀河通用創始人王鶴分享了他與聯合團隊思考后的結果,即先把最重要的技能打通。
“如果我們能讓人形機器人24小時服務,這樣就能讓具身智能真正走向產業化、真正服務人民,是創造生產力的開始。”王鶴透露,目前,銀河通用機器人已經在北京開了7家無人藥店,由銀河通用的人形機器人24小時分揀藥品、對接騎手,無人藥店可以在夜間為急需用藥的患者服務,且不需要人類24小時在崗,“2025年,我們將在北京、上海、深圳一共開100家藥店。”
另有與會學者談及,在特定的場景下,機器人具備多樣式的能力,但后續的問題是如何將這些技能泛化。該學者認為,目前,機器人技能泛化領域,還處于早期階段,在大語言模型等方面,還有很多工作待完善。此外,他提到,要讓機器人能夠更加穩定,持續地表現出高效和可靠性,還需要通過更加精確的數據集對它們進行預先和預后培訓。
在王仲遠看來,未來三年,具身智能最可能在諸如工廠一樣、相對封閉的特定場景里規模化落地應用,規避當前具身智能不成熟安全隱患的同時,也能代替人類進行重復性勞動任務。
具身智能商業化突破的臨界點在哪?
然而,在以人形機器人為代表的具身智能發展階段,學界、業界內外尚存分歧的問題是,機器人形態選擇上為什么要“類人”?通俗而言,就是具身智能最終呈現的形態一定是人形機器人嗎?
此前,清華計算機系張鈸院士曾公開表示,人形機器人不是具身智能和AGI的最佳路徑,走向通用機器人,硬件要多樣化,軟件要通用性。
王興興認為,機器人在AGI或通用AI發生以后,可以是千奇百怪的形態,并不一定是人形。“工廠里干活、醫療的機器人,到時候形式比現在多很多,甚至會多100倍。”王興興說,現階段,之所以大家喜歡用人形,尤其是上半身保持人的樣子,是因為現在AI基于人的數據進行采集和訓練,尤其是上半身和人的動作一致,數據采集方便很多,也方便AI做訓練。
熊友軍也認同于此。他提到,現在具身智能的發展和形式,確實是多種多樣,不一定要局限于人形,人形只是具身智能研究最佳的載體。他指出,今天機器人可以不必像人,也可以是四足與輪式。從市場的應用情況來看,最多的場景是走路、商用和家庭,今天的工廠應用場景只是開胃小菜,“人形機器人的市場容量比其他的機器人容量要大。”
從人機交互來說,熊友軍認為,在不遠的將來,人形機器人會走入人類家庭和生活,成為人類的朋友,從接受程度上而言,人形機器人的確有一些優勢。除此之外,目前大部分應用環境是人設計的,人形機器人也可以更方便地適應這些環境。
熊友軍直言,自己了解行業里的擔心,“現在成本和技術不占優勢。但放在歷史比較長的角度來看,我堅持人形機器人是一個很好的載體。”
需要注意的是,具身智能領域有包括視頻、語音等多模態,成本、技術研發的另一重困境是,具身智能及多模態大模型應用的商業化、持續造血問題。
多模態大模型應用商業化的臨界點是否已經到來?智象未來創始人梅濤認為,突破這類商業化困境最關鍵是要把多模態模型進行應用。比如,在一個合適的商業場景里,把視頻和圖像等多模態技術應用于客戶的場景,幫助客戶創造價值。
智譜CEO張鵬提到,傳統的CV模型落地應用比較成熟,大模型在視覺理解能力變強且泛化后,可以迅速替代和填補原來傳統的視覺模型應用領域的空白需求,“通過壓縮成本形成規模化應用,即可達到商業化應用的臨界點。”
但不可忽視的問題是,訓練數據帶來的正面局限。張鵬提到,市場上的數據被用于大量訓練,這其中就會涉及到版權、成本等問題,或許會對新技術的進展有一些影響。
令張鵬欣喜的是,隨著技術不斷的迭代,如今模型的復雜推理能力、深度思考的推理能力,已經有了大幅度提升。同時,基于推理能力的增強,使得模型在智能體的能力上,有了長足的進步,大模型自己能規劃任務、執行任務,根據環境的反饋自行調整任務流程。
至于包括具身智能在內的多模態大模型公司如何解決商業化“最后一公里”?梅濤認為,目前有兩條路,分別適合不同類型的公司。對諸如OpenAI或Gemini類模型即產品的公司而言,如果其底座模型做得優秀,有流量、資源優勢,可以在很短時間內獲取大量的用戶,提供一些較底層的服務。另一種即是構建垂直商業閉環的場景,“對整個商業或垂類應用非常理解其業務流程,形成閉環的業務。”
“產經在線”注意到,與會嘉賓反復提到的是,目前,行業內對于最適合多模態模型的技術路線仍在探索中,還未形成普適性共識。“人工智能從數字世界跨向物理世界就需要突破數字世界的隔閡,其中最重要的隔閡就是是對空間與時間的感知。”王仲遠說。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.