嘉賓 | 胡亮、王鵬偉
對話 | 唐小引
責編 | 鄭麗媛
出品 | CSDN(ID:CSDNnews)
2025 年被業界稱為“具身智能元年”并非偶然。
自年初以來,一系列現象級事件不斷將具身智能推向公眾視野:從春晚開始,宇樹機器人頻頻登上熱搜,逐漸風靡全國并走向世界;一眾技術“大佬”紛紛投身機器人創業,大批創業項目集中涌現,幾乎所有人都在下注——通用機器人的時代,仿佛觸手可及。
但在熱潮背后,泡沫的質疑也不絕于耳。英偉達 CEO 黃仁勛的一句“通用機器人時代已經到來”,在全球技術圈引發輿論轟動。然而,另一邊知名投資人朱嘯虎卻宣布“正批量退出人形機器人公司”,引發外界對這個賽道可持續性的擔憂。
那么,具身智能到底進展如何?在技術理想和工程現實之間,它面臨著哪些關鍵挑戰?是模型不夠強、數據不夠多,還是架構不夠靈活?從“整花活”到“干真活”,中間到底還隔著多遠的距離?
帶著這些問題,由 CSDN 主辦的《萬有引力》欄目特別邀請到了兩位深耕 AI 與機器人領域的一線專家:同濟大學計算機科學與技術學院教授、博導胡亮,智源具身智能大模型負責人、RoboBrain 與 RoboOS 負責人王鵬偉做客直播間,在CSDN &《新程序員》執行總編、《萬有引力》主理人唐小引的主持下,一起深入探討了當下這場風口之上的技術革命:具身智能——它真的是下一個技術奇點,還是又一場資本追逐下的幻影?
AI 產品爆發,但你的痛點解決了嗎?8.15-16 北京威斯汀·全球產品經理大 會 PM-Summit,3000+ AI 產品人社群已就位。
直面 AI 落地難題、拆解頭部案例、對接精準資源!
掃碼登記信息,添加小助手進群,搶占 AI 產品下一波紅利:
進群后,您將有機會得到:
· 最新、最值得關注的 AI 產品資訊及大咖洞見
· 獨家視頻及文章解讀 AGI 時代的產品方法論及實戰經驗
· 不定期贈送 AI 產品干貨資料和秘籍
以下為對話內容(為方便閱讀,進行了適當的文本優化):
怎么“轉型”到具身智能這條路上的?
唐小引:請兩位老師先給大家打個招呼,并做一下自我介紹,尤其可以談談自己是怎么走上具身智能這條道路的。我記得,王老師和胡老師的研究方向其實有一些轉型的過程?
王鵬偉:大家好,我是王鵬偉,來自智源研究院具身智能大模型研究中心。我們的團隊目前設在北京。借著唐老師的提問,我來簡單講講自己從業十余年來的研究經歷和方向轉變。
我讀博時的研究方向主要是知識圖譜(Knowledge Graph)和信息檢索(Information Retrieval)。博士畢業后,我的興趣逐步轉向自然語言處理(NLP)方向。
2018 年左右,AI 領域迎來了預訓練模型的第一波浪潮,BERT 橫空出世,基于 Transformer 架構的預訓練方法成為熱點。剛看到 BERT 時,我還在想:“哇,這個模型參數這么大,肯定很難用起來吧?”——但現在回過頭來看,BERT 這樣的 12 層模型,已經非常“小巧”了。
在那之后,我一直在做預訓練模型相關研究,研究重心也逐步延伸到多模態預訓練大模型。到了去年,產業界開始密集關注具身智能的發展。
我個人認為,從多模態大模型走向具身智能,其實是一個非常絲滑的過程。如果沒有多模態大模型的基礎、沒有海量數據積累和底層基礎設施的提升,是難以實現具身智能的。從這個角度來看,具身智能是從“虛擬”世界向“現實”延展的一次躍遷,也是一個漸進而自然的技術演化。
唐小引:這其實也涉及到個人賽道選擇的問題。現在有很多研究者依然選擇去做基礎大模型的訓練,也有人將重心轉向應用層,比如做 Agent 或具體應用。而你選擇了從多模態進一步走向具身智能,把大模型“接入現實世界”,這是出于怎樣的考慮?
王鵬偉:我原來本科學的就是電子系,所以從很早開始我就對硬件系統感興趣。在看到具身智能這個方向逐漸發展起來時,我就很好奇:現在我們習慣于和大模型在“虛擬世界”里對話交互,那么把它部署到真實的物理環境中會發生什么?
因為說白了,物理世界的交互環境所面臨的挑戰要復雜得多。比如環境的不確定性、三維空間的感知與推理等,在我看來這些任務都更困難,而我本身也比較喜歡去做一些有挑戰性的事情。
胡亮:大家好,我是來自同濟大學計算機科學與技術學院的胡亮。今天的主題是具身智能,我們目前的研究,也主要聚焦于具身智能背后所需的大語言模型技術。當然,未來我們也計劃將目前研發的大模型應用于具身智能系統,實現更深層次的融合。
其實,我們對 AI 和機器學習的研究開始得比較早。在大模型還沒興起之前,我們主要聚焦在數據驅動的研究方向上,比如數據挖掘、推薦系統等。后來隨著深度學習的發展,尤其是 NLP 技術的突破,我們逐步轉向了對大模型的研究。
不過,我們畢竟是高校,大模型研究無法像工業界那樣快速落地應用,所以我們更專注于大模型與前沿科研領域的一些結合。
比如,當前大模型面臨的首要問題之一是訓練成本極高,同時其耗電量也非常大。如果把這樣一個高能耗的大模型作為機器人的“智能大腦”,顯然不現實:可能機器人開機一分鐘電就用完了。因此,具身智能的發展必須朝著低能耗的方向不斷演進。
另一方面,盡管當前 AI 算法已經取得了很大進步,可大模型在應對任務差異性較大的情境時,還存在較大局限。這也就是為什么現在還沒有一個通用的“家務機器人”。比如掃地要買掃地機器人,洗碗需要洗碗機器人,疊被子還要一個專門的疊被子機器人。每一個家務場景都要買一臺特定的機器人——不像人類,只要吃一碗飯,就能把所有的這些活都干了。
這反映出兩個問題。第一,當前模型在多任務場景下的泛化能力比較弱;第二,當遇到新的任務時,模型的快速適應和學習能力仍較差。因此,我們需要探索一些新的機制,推動大模型從功耗優化、到任務適應能力的各個層面,全面朝著可用于具身智能的目標演進。
舉個例子,我們可以思考:為什么人腦的功耗遠低于數萬塊 GPU 構建的系統,卻能處理更多更復雜的任務?這是否說明,當下的大模型架構其實還有改進空間?是否可以構建一種更加高效、低功耗,同時具備強任務泛化能力的新架構?
事實上,目前的大模型架構已經有近十年沒有出現革命性變化了。大多數仍基于 Transformer 架構,依賴龐大的參數數量。這就意味著需要更多 GPU 資源,帶來巨大的訓練成本和能耗。而高昂的訓練成本,也讓我們難以頻繁訓練大模型去適應新任務,這進一步限制了其在具身智能領域中的應用能力。
此外,從感知層面來看,大模型與機器人之間也存在不小的“Gap”。機器人通常配備了多種傳感器,如觸覺、語音、視覺等,而當前大模型主要還是使用自然語言訓練,少部分擴展到圖像——與機器人在物理世界中的多模態傳感器體系并不匹配。這就導致了目前大模型與具身智能之間結合的深度依然很淺,實際落地還面臨很多技術難題。
因此,我們團隊正在探索一種全新的方向:能否研發出一種真正低功耗、任務泛化能力更強的大模型架構,同時能將機器人所具備的多模態感知能力整合進來,從而支持持續學習和新任務適應能力,使模型逐步具備類似人類的智能進化能力。
具身智能,將從 Pipeline 向“端到端”演進
唐小引:王老師這次參加帶來了團隊圍繞具身智能的最新研究進展,可以和大家分享一下核心內容嗎?
王鵬偉:好的。在這次的分享中,我主要探討了從人工智能到具身智能的整體發展趨勢,并介紹了當前在做具身智能時,我們主要采用的技術路徑。目前來看,具身智能的實現路線非常多樣,并沒有出現某一條被普遍認可的“標準路線”,大家都還在不斷探索和試錯。
剛剛提到,我此前是做多模態大語言模型出身的,轉向具身智能領域之后,經歷了一段明顯的“陣痛期”。盡管在大語言模型層面,例如語言生成、推理能力都表現良好,但到了機器人這邊就頻繁遇到問題,比如數據難以獲取、硬件不完善等。
這實際上就形成了一個“死”循環:硬件本身不夠成熟,很多機器人兩周就壞一次,然后修理又花兩周,所以一個月中機器人就一半在壞、一半在修。除了穩定性問題,機器人在操作過程中還經常出現軌跡預測異常。這些硬件上的不穩定,直接造成了系統難以落地的困難;而落地困難,又讓數據采集變得更復雜。
目前行業的主流做法是依賴“數據采集場”的方式,進行主動的數據收集。但從 AI 技術發展的歷史來看,僅靠主動采集是遠遠不夠的。如果希望 AI 技術快速提升,它必須具備被動式地生產數據的機制,也就是說系統在執行任務過程中能自然地產生、標注并篩選大量數據。但現在這種方式還未普及,主要還是依賴大量人力去主動建設數據采集場地。這種模式下數據量嚴重不足,也就限制了模型的訓練能力,進而又影響了系統本身的優化能力,形成一種惡性循環。
所以目前在具身智能領域,主要存在兩種技術路線,一種是模塊化的分層思維,另一種是端到端架構。而這兩種范式,廣泛存在于過去十幾年的 AI 應用中。我舉個例子,比如搜索。在 ChatGPT 出現之前,無論是搜索還是聊天系統基本都采用模塊化架構:一個指令輸入后,系統會先進行 NER(Named Entity Recognition,命名實體識別)工作、語法解析,再根據實體判斷用戶意圖——是搜索、聊天還是搜歌。整個過程采用的是流水線式架構(Pipeline)。
而現在,像 ChatGPT 這樣的系統可以通過一個端到端的大模型統一處理全部任務。這種架構有更高的性能上限,也能自動處理許多長尾問題。以前遇到系統無法識別的輸入,往往要靠人工補充規則或數據;而現在這些邊緣用例可以被模型自然地學習和覆蓋。
以前,我們在達摩院做了一個詩歌對話系統,本來很自信它能跟用戶暢聊所有詩歌類內容。后來某天晚上,一個阿里的高級領導試用時,突然輸入了一句“白日依什么?”這種不完整、模糊的提問——很出乎意料,因為大部分都會問“白日依山盡的下一句是什么”這種問題。然后我們的這個系統當場“掛掉”了,因為它依賴的是模塊化 Pipeline 的方式,可 ChatGPT 就能把這個問題解決得很好。
自動駕駛也面臨類似情況,在具身智能領域同樣如此。Pipeline 這種方式的優勢是魯棒性強,可以快速適應 ToB 工業場景甚至 ToC 消費場景。一旦實現大規模落地,就能自然收集被動數據,這些數據又可用于微調模型,推動系統向更強大的端到端架構發展。
所以說,我在全球機器學習技術大會上分享的報告就是圍繞這樣的演化路徑展開的,同時也介紹了我們北京智源研究所在分層架構方面的研發成果:發布了“具身大腦”和“具身大小腦”的操作框架。
目前,國內外并沒有一套可即插即用的具身智能系統框架。比如,很多用戶買了機器人卻發現動不了,因為還需自己編寫大量底層代碼,處理系統調度邏輯等。為了解決這個問題,我們發布了 RoboOS 和 RoboBrain 框架,采用統一的 OpenAI 接口范式,兼容市面上主流機器人設備——包括宇樹機器人、松靈機器人、UR5、Franka 等。用戶按照我們的方式設置之后,即可快速啟動機器人,完成包括地形理解、物品抓取等復雜任務,真正實現一站式服務。
唐小引:聽完王老師的分享,感覺好像解開了我之前對具身智能的一些誤解。
此前,我在很多關于具身智能或大模型的討論中,經常聽到 System 1 和 System 2,也就是“快思考”和“慢思考”。而在具身智能領域,很多人提到的是“大小腦”。王老師,是否可以請你分析一下具身智能中的“大小腦”概念,幫助我們厘清這些術語之間的關系?
王鵬偉:好的。“快系統”和“慢系統”,也就是所謂的 System 1 和 System 2,其實本質上和具身智能中的“大小腦”思路非常相似。所謂快系統,是指無需過多思考就能迅速作出反應的模塊;慢系統則需要進行較深層次的推理,比如借助 CoT(Chain of Thought,思維鏈)方式逐步處理復雜任務,這是大模型中常用的一種范式。
至于具身智能中“大小腦”這個概念,它其實是中國技術圈的一種本土化表述,在國外沒有這種叫法,而是用“hierarchical”(分層)來描述。那為什么國內叫“大小腦”,我覺得可能是把它類比成了人腦的一些功能:比如大腦主要負責控制中樞、感知、理解和決策;而小腦則偏向于控制動作執行,如抓取、放置等操作行為,從而就有了“大小腦”這個叫法。
那它與“快系統”和“慢系統”的差異在哪里呢?實際上,在最新的系統設計中,這兩者已經趨于融合了。比如 OpenAI 投資的公司 Figure 推出了一個具身智能系統 Helix,它就采用了雙系統架構:快系統類比于小腦,用于高頻率的實時控制;慢系統類比于大腦,負責邏輯推理和復雜感知。
因為慢系統涉及邏輯和理解能力,所以模型參數量較大,響應頻率(赫茲率)較低。例如一個 7B 參數的大模型,處理速度一般只能達到 10Hz,這已經是上限了。而快系統需要更高的反應速度,必須要達到 30 赫茲以上,這樣人眼去看這個機械臂的操作就會相對絲滑流暢一些。
所以我認為,“快系統、慢系統”和“大小腦”在設計邏輯上并沒有太本質的區別,只是術語表達有所不同。
唐小引:你剛才也提到了“端到端”的技術路線。過去,我在自動駕駛領域也經常接觸到“端到端”和“泛化能力”這些概念,而這些詞在大模型領域也很常見。那么這些技術關鍵詞,在不同場景下的含義是否一致,還是有區別的?
王鵬偉:歸根到底,具身智能還是屬于 AI 范疇的。從發展路徑看,AI 的各個領域普遍經歷了從分層 Pipeline 向端到端的演進過程,包括信息檢索、聊天系統、自動駕駛等。所以對于具身而言,也是這樣的。而這種演進背后的本質原因,就是數據的匱乏。
在 Transformer 架構出現之前,大家普遍采用 Pipeline 是因為:一方面數據不夠多,另一方面硬件基礎設施無法支撐大規模數據的訓練與消費。而 Transformer 的出現推動了底層算力結構升級,進一步使得基礎模型的訓練成為可能——以此為轉折點,AI 系統便逐步從 Pipeline 向端到端過渡。
那智駕也是一樣的問題。現在國內市場,“端到端”已成為一種宣傳標簽,很多客戶可能并不理解這個詞到底是什么意思,但他們知道這代表著更先進的智能水平。如果車企如果沒有“端到端”這個標簽,用戶甚至可能都不會考慮購買。就像國外的特斯拉,它的數據儲備達到一定量之后,就足以支撐它去優化整個端到端的系統。
所以說,不論是大模型、自動駕駛還是具身智能,它們的技術發展路徑基本高度一致,都是從 Pipeline 向端到端的演進。
唐小引:也就是說,其實端到端這個概念在智駕和具身智能中并無本質區別?有很多人都說,現在的智能汽車可能也是另一種形式的機器人。
王鵬偉:沒錯。在具身智能領域中,有一部分從業者就是從智駕行業轉過來的,有很多客戶也都來自汽車行業,因為他們的車廠本身就是一個天然的具身智能訓練場和應用場景。
“具身”與“智能”之間,目前還沒有真正協作起來
唐小引:接下來,請胡老師和大家講講團隊最新的研究進展,為什么從類腦認知多模態大模型著手,希望無縫連接人類大腦、AI 大腦和機器人大腦?
胡亮:剛才我簡單提到了一些當前大模型在與具身智能結合時存在的問題。其實現在主流的大模型架構,與人類大腦的結構差異還是非常大的。它本質上還是一種數學模型,是通過大規模的數據訓練和參數調優形成的,并不具備生物神經系統那樣的結構與學習機制。
所以我們目前的研究重點之一,就是在探索“人類、AI 大模型與具身智能機器人”這三者之間的協同機制。但從現狀來看,這三者之間還存在顯著的 Gap,還沒有一種有效方式能真正把它們連接起來。
以具身智能為例,機器人在很大程度上還被定位為一種服務于人類的工具。當然,未來到底是 AI 統治人類還是人類統治 AI ,這就是后續的問題了。但在當前階段,我們的目標還是想讓機器人更好地理解并滿足人類的需求。
而這就有一個問題:我們要怎么把意圖和需求準確地傳達給機器人?目前在這方面,確實還缺乏一個清晰、有效的“橋梁”,大多數機器人還是在執行預設任務,比如在春晚上跳舞或在街道上奔跑等。
唐小引:對,關于這一點我也有體會。前幾天我參觀宇樹機器人的演示,原本我以為可以直接和機器人進行語音交互,比如我說“揮揮手”,它就會響應動作。但我發現,原來所有交互都是工程師在后臺操控的。還有前陣子的機器人跑半馬比賽,很多人都說“參賽跑步的是機器人,結果累斷腿的是工程師”。所以我感覺,這些都反映出了胡老師剛才所說的具身智能的真實現狀。
胡亮:現在具身智能的水平,如果能把一些預設任務完成好,就已經是不錯的成果了。它目前根本無法真正理解人的需求和意圖,并以此來自主地執行任務。要實現這一目標,至少在短期內需要有巨大的技術突破。
而我們目前在做的工作,就是在探索“人腦、AI 大腦與機器人”三者之間的 Gap 到底在哪里?我們能不能通過某些技術手段,彌補這其中的一部分 Gap?當然,我們也不指望在短期內就完全解決這個問題,但我們希望通過提出新的范式和路徑,哪怕是微小的推動,也能讓這一進程往前走一些。
所以,我們的研究會圍繞這三者之間的關系展開:首先會深入分析當前大模型的局限,然后討論現階段機器人存在的核心問題。就像我剛才說的,雖然我們管它叫“具身智能”,但目前的情況是,它的“具身”與“智能”之間,其實還沒有形成真正的聯系。
唐小引:之前我們都說從“離身智能”到“具身智能”,但胡老師認為“具身”與“智能”之間還沒有聯系?
胡亮:有些聯系,但是還沒有真正協作起來,技術上還存在很多難題。我們也在思考,有沒有新方法能推動這方面的改進。
目前,人和機器的交互主要依賴語音,但語音本身就存在很大限制。現實中常見的做法是,用戶將需求告訴工程師,由工程師再去操作機器人。然而,這種模式在一些關鍵場景中并不適用。例如在自動駕駛中,如果前方突發危險情況,人類駕駛員需要通過語音下達指令,AI 分析并做出反應,這一來一回可能已經耽誤十幾秒,車早就撞了。
因此我們在思考,是否可以探索一種更快、更直接的交互方式。我們都知道,大腦中意圖的生成速度其實遠快于語言表達,感知系統的反應也快于身體動作。所以如果我們能夠提取出大腦中潛在的意圖信號,將其直接解碼為 AI 可以理解的信息,實現“人腦—AI 大腦”的直連,就有可能繞過語音這些中間步驟,大幅提升人機交互和協作的效率。
唐小引:也就是說,我腦子里想到什么、不需要開口說,系統也能理解?這個要怎么實現呢?
胡亮:這其實不難實現。舉個例子,當你走在房間里,遠處出現一個坑的時候,其實你的大腦早已做出了反應。這個時候,如果 AI 能夠接收到你大腦的這個信號,它就不需要你再描述“前面有個坑,我們要向右轉”這類信息。因為當你說完這些話的時候,可能已經撞上去了。事實上在你的感知中,你的大腦很快就完成了一個決策。我們現在的目標就是把人類的這種快速決策能力與機器決策結合起來,形成一個更魯棒的決策系統。
唐小引:我們在研究大模型的時候,一直說它的邊界還是語言。那現在從技術實現上看,是不是已經能突破這個“語言的邊界”了?
胡亮:現在的話,其中大模型中訓練得最好的還是語言相關的模型。但在視覺領域,尤其是對圖像的理解上,大模型還沒有取得突破性進展。現階段的模型更多是在處理圖像中的對象識別,而非真正理解圖像的內涵。
比如,我們給 AI 生成模型輸入“人和馬的關系”這樣的描述,它可能會生成“人騎馬”的圖片,也可能會生成“馬騎人”的圖片。這就說明模型還不能真正理解現實世界中的常識邏輯,而是更側重于處理一些文本內容的語義理解。
我們之所以能理解空間中的“上下左右”,是因為人類大腦本身具備空間感知能力。但對機器來說,“上”和“下”到底代表什么,它其實并不理解。雖然我們可以將“上”這個概念表示成語義向量,但它在物理空間中具體代表什么,模型是無法理解的。也就是說,想要實現具備真實環境感知能力的大模型,還有很長的路要走。目前的大模型主要還是運作在語義理解層面。
在現有的具身智能技術中,常見的方式是將視覺場景轉化為文字描述,再交由大語言模型學習——但這種方式本身就存在問題。因為文字表達的是語義,而空間關系則屬于物理層面。當你把物理場景翻譯成文字后,空間中的物理關系就會被簡化為抽象語義,這會導致模型失去了對真實空間結構的理解能力:雖然文字可以描述為“上下左右”,但在模型眼里,它們只是向量,并不具備明確的物理指向性。
所以我們也正在探索一種新的方式:能否將真實世界中的空間關系直接引入到模型訓練中?這可能需要引入多模態的數據輸入,比如加入人類大腦中的空間感知信號。雖然目前大模型還是側重于語言,但若要實現真正的具身智能,這應該是一個值得深入探索的重要方向。
唐小引:我之前對具身智能的理解是,大家在實踐中首先面臨的挑戰主要是數據缺乏,其次是計算能力和系統架構等技術問題。但聽胡老師你這么解釋,具身智能真正要解決的第一步,應該是建立起對現實世界的感知與交互能力?
胡亮:可以這樣理解。我們與現實世界進行交互,和在仿真環境中進行交互是存在本質區別的。因為仿真環境不可能把現實世界中所有的物理屬性都完整地建模出來。哪怕僅有一兩處關鍵細節被忽略,模型在訓練過程中未能考慮這些要素,就有可能在實際部署中因這些細節而出現嚴重偏差,從而導致整個模型在真實世界的運行失敗。
我們距離真正的“具身智能”還有多遠?
唐小引:今年 3 月黃教主曾說“通用機器人時代已經來了”,可實際上從具身智能研究者的角度來看,普遍還是認為我們離這個目標還有很長一段路要走。
那如果站在現在這個時間點,去展望未來具身智能的發展路徑,我想最后提出兩個問題:第一,我們距離真正的具身智能還有多遠?第二,通往這個目標的過程中,我們大概會經歷哪些階段,以及每個階段的核心目標是什么?
胡亮:我們現在確實面臨不少挑戰,前面也提到過一些。但如果看得更深一點,問題主要集中在兩個方面。
首先,我們當前最主流的 AI 范式還是基于 Transformer 架構的大模型。但過去幾年,針對 Transformer 本身的改進已經越來越少,它的潛力可能已接近上限。現在更多的創新都是在它的外圍,比如構建 Agent 系統等。而這也帶來了一個問題:Transformer 作為現在 AI 的“大腦”,它和具身智能還沒有實現很好的適配。
Transformer 有一個關鍵特點是“存算一體”,也就是知識和任務執行邏輯都存儲在模型的參數之中。參數越多、知識越多,模型能力就越強,但同時也越脆弱——因為我們無法明確區分哪些參數負責知識,哪些負責任務邏輯。當我們更新模型去學習新知識時,可能會意外破壞已有的任務執行能力。這就會導致模型在真實世界中與機器人的協作不夠穩定,魯棒性較差。
人類則不同。我們即使沒有外部知識輸入,也能依靠本能執行一些任務,后天的知識和記憶更多是疊加在這個基礎之上。即使大腦某個區域受損,人可能會失去記憶,但仍維持正常的生活。可大模型不是這樣,如果我們刪除了它部分記憶或知識,往往就會導致它無法完成任務。
基于這些考慮,我們認為,當前以 Transformer 為基礎的大模型架構,可能并不適用于具身智能的長期發展目標。因此,我們或許可以從架構層面對 Transformer 進行適當的優化,使其更好地支持機器人在現實世界中的穩定協作能力。
唐小引:那要如何去對模型的架構進行調整?
胡亮:這個問題我們還在研究過程中。實際上在大模型出現之前,也就是大約 10 年前,國外就已經有關于這方面的探索了。例如,有一種叫做記憶網絡(Memory Networks),還有一種叫做神經圖靈機(Neural Turing Machine),它們的特點就是把記憶與邏輯執行分開管理。
也就是說,通過分離記憶和任務執行能力,我們可以對大模型進行改進,把與任務執行無關的知識和邏輯,劃分到不同模塊中。這就類似于人腦,不同類型的記憶會被存儲在不同的腦部區域,我們對世界的感知、知識和記憶也都是存儲在不同區域的。
而這種設計的優勢在于,現在的大模型參數可能多達上千億,即便是執行非常簡單的任務,模型也會把幾乎所有參數都激活計算一遍——但實際上,簡單任務只需調用部分特定的知識和記憶就好了。如果我們將模型劃分為若干個模塊,每個模塊負責特定類型的知識和記憶,當執行特定任務時,比如掃地,僅需調用掃地相關的記憶模塊。這樣不僅減少了計算資源的消耗,也讓模型更加高效。
另外,當我們需要更新模型的知識時,也只需要擴展記憶模塊,而不會破壞執行任務的基礎模塊。比如在其他機器上學習到的新知識,可以通過共享記憶擴展的方式,更新整體模型,而不影響任務執行能力。這種架構設計也有助于實現多智能體協作,形成一種群體智能,更好地推動 AGI 的發展。
唐小引:好,那請王老師來分享一下你的觀點和答案?
王鵬偉:胡老師剛才的分享是從底層的模型架構和原理出發,對最基本的架構進行了迭代更新。實際上,任何一項工業技術的發展都離不開底層架構的演進。從專家系統模型到 CNN 再到 Transformer,每一次架構的更新,都是一次重要飛躍,推動了技術整體向前發展。
唐小引:我發現在具身智能這一塊,其實跟大模型也有些類似。一談到“痛點”,很多問題都是共通的?
王鵬偉:確實如此,但具身智能的“痛點”往往更多。一些在大模型中不是問題的問題,在具身智能中會變得非常棘手。而且,根據機器人的不同構型,這些問題的表現也不一樣。就像目前普及度最廣的四足形式“機械狗”,它已經發展了相當長時間,具備較強的耐用性,即使被拉到雪地中、摔倒,也幾乎不會損壞。
相比之下,像輪式底盤的雙臂機器人,它的控制難度就要比機械狗大很多。在導航等基礎任務上,原本在機械狗上效果良好的算法,遷移到這類機器人上后,效果可能就會打折扣。再進一步是最近非常受關注的人形機器人,它的挑戰更大,其難點也恰恰在于它的“人形”結構。
還是以導航為例,相比輪式機器人和機械狗這種低重心的穩定結構,人形機器人因為是雙足結構,行走時高低起伏、震動較大,對傳感器系統造成的挑戰更大。比如你讓它前進 3 米,實際可能只走了 2.5 米,那這算多走了一步,還是少走了一步?目前都還沒有非常精準的機制。同樣,如果你讓它左轉 30 度,它是通過雙腳慢慢轉動實現的,大致達到目標角度,但精度遠不如其他構型。
所以我認為,現在無論是機器人本體,還是其上的大語言模型,都有巨大的優化空間。比如胡老師剛才提到的“空間感知”就是一個非常典型的例子,可目前所有的大語言模型,包括 GPT 系列在內,幾乎都無法勝任——但這恰恰是具身智能中特別需要的能力。在真實空間里,如果讓機器人執行任務,首先必須理解指令,然后做出物理動作。這兩個階段目前都還有很大的提升空間。
過去,我們常常依賴模擬器來生成訓練數據,然后在真實機器人上部署。但從模擬器到真實環境的 Gap 非常大,原因在于模擬環境中很難窮舉現實中的各種變量,比如摩擦力、材質硬度等等。即使模擬做得再好,也會受到物理機械性能的限制。比如,讓一個機器人擦桌子,如果沒有觸覺反饋,它可能會認為桌面是一個障礙物,從而觸發保護機制,自動停止動作。
所以我認為,未來五到十年,會是軟硬件交替迭代的關鍵期。算法層面的升級,會推動硬件架構的進步,而硬件的進步又會反過來加速算法研究的演進。我印象很深的是 Elon Musk 在書中提到的一個觀點:未來家用機器人數量可能會與汽車數量持平。也就是說,幾乎每個家庭都有可能擁有一臺機器人,來協助人們完成各種任務。
唐小引:我覺得,現在機器人好像比汽車還多了?像現在的掃地機器人,就運用了部分自動駕駛技術,甚至有些廠商還在掃地機器人中接入了大語言模型。除此之外,各種各樣的功能也都逐漸“機器人化”了。那么,我們是不是可以設想一下:未來是否會有一種機器人,它可以像人一樣,在家中完成各種任務,比如既能掃地、也能洗碗,各種事情都能干?
王鵬偉:對,理想狀態當然是一個機器人能完成所有的事情,但目前確實受到理論研究方面的限制,還存在很多壁壘。因此,現在的機器人還是更偏向于“專用型”。比如某個機器人會做某項任務,那它就只能做這項任務。
不過,從去年下半年到今年上半年的發展來看,形勢正在發生變化:當前已經開始出現多任務混合訓練的趨勢。只要機器人具備一個強大的基礎模型,它就有可能同時執行多個任務。這種機器人不再是“我只會這一個任務,其他不會”,而是可以根據不同的指令,激活模型中的不同區域,從而執行多種不同的任務。
唐小引:那最后總結一句:具身智能是一條正確但非常艱難的道路,對嗎?
王鵬偉:沒錯。
唐小引:好的,非常感謝王老師和胡老師的精彩分享。
2025 全球產品經理大會
8 月 15–16 日
北京·威斯汀酒店
2025 全球產品經理大會將匯聚互聯網大廠、AI 創業公司、ToB/ToC 實戰一線的產品人,圍繞產品設計、用戶體驗、增長運營、智能落地等核心議題,展開 12 大專題分享,洞察趨勢、拆解路徑、對話未來。
更多詳情與報名,請掃碼下方二維碼。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.