具身智能：人工智能的下一個浪潮

2025-04-13 00:11:33　來源: 秦朔朋友圈

上海舉報

分享至

頭圖由豆包生成，提示詞：未來城市

從ChatGPT 以驚艷之姿闖入大眾視野，到DeepSeek驚艷全球，人們不斷驚嘆于大語言模型的強大能力；緊接著，2025 蛇年春晚舞臺上，機器人扭秧歌的精彩表演又掀起一陣科技狂潮。從智能對話到靈活起舞，這背后都繞不開一個關(guān)鍵領(lǐng)域 ——具身智能。在科技飛速迭代的當下，具身智能如何突破發(fā)展瓶頸？又將如何重塑我們的未來生活？

讓我們翻開清華大學全球創(chuàng)新學院院長、自動化系教授兼博導劉云浩的新書《具身智能：人工智能的下一個浪潮》，探尋其中的奧秘。

大模型如何“接地”

最近，大語言模型的熱潮席卷了整個技術(shù)界，也迅速與具身智能領(lǐng)域緊密結(jié)合。有人形象地說，引入大模型就像是給機器安裝了一個新的大腦，似乎只要將其簡單地嵌入，就能賦予機器全新的生命力。

先來說“加 bu?（增益）”的地方。

首先，大語言模型能夠幫助智能體與人類以自然語言進行交流。人類能夠直接說出任務要求，大模型能夠?qū)Υ诉M行編碼并得到更加方便機器進行處理的語義表示形式。同樣，大模型也能夠根據(jù)智能機器當時的狀態(tài)生成自然語言，反饋給人類。這正如我們所看到的Figure 01 機器人與人類用戶對話交流并執(zhí)行任務的過程。

其次，大模型能夠提供一些解決問題的“常識”，或者說高層次的語義指導。例如，如果我們問它：“如何把大象裝進冰箱？”大模型可能會輸出：“拉開冰箱門，把大象放進去，關(guān)上冰箱門?！蔽覀児们也徽撨@個方案的可行性如何，大模型確實是能夠?qū)⒔鉀Q問題的完整過程拆解成多個子步驟并且給出一個執(zhí)行方案的。因此，大模型具備成為優(yōu)秀的行動規(guī)劃器的潛力。

最后，多模態(tài)大模型，例如預訓練的視覺—語言模型（Visual-Language Models，VLMs），能夠為智能機器進行多模態(tài)感知和認知提供更為通用的選擇。例如，CLIP 能夠?qū)⒁曈X信息和文本映射到統(tǒng)一的表征空間，使得機器能夠直接以視覺數(shù)據(jù)作為輸入。3D-VLA 提出了一種新的三維視覺—語言—動作模型，它通過引入一個生成世界模型來無縫連接三維感知、推理和動作。與現(xiàn)有的基于 2D 輸入的 VLA 模型不同，3D-VLA 更加貼近現(xiàn)實世界的 3D 物理環(huán)境。

當然，除了生成自然語言，大模型在未來也是能夠生成可用的代碼的。Code as Policies 通過訓練大語言模型來為機器編寫策略代碼。給定自然語言的指令，大模型生成一段代碼，然后這段代碼就可以在智能機器上運行，持續(xù)接收傳感器的輸入并輸出行動指令。有研究證明，這種生成代碼的方式比直接生成行動規(guī)劃要更好。VoxPoser 也是使用了大模型來生成代碼，然后這個代碼與前面提到的視覺—語言模型進行交互，為后續(xù)的動作規(guī)劃提供信息。

大模型當前遇到的挑戰(zhàn)

接下來我們說說當前遇到的挑戰(zhàn)。大模型的一個顯著缺陷就是缺乏現(xiàn)實世界中的經(jīng)驗。還是剛才說的，如果我們給大模型一個“把大象裝進冰箱”的任務，它可能會正兒八經(jīng)地生成一段邏輯上合理的指導，卻不會思考這樣的步驟是否真的能實現(xiàn)。

為解決這一問題，谷歌的一項研究SayCan 提出使用預訓練技能，為模型提供現(xiàn)實世界的知識基礎(chǔ)，這樣大語言模型輸出的內(nèi)容就被約束在這些預訓練技能對應的范疇內(nèi)。這種方法有點類似于我們?yōu)榇竽Ｐ蜏蕚浜昧撕芏嗄軌驁?zhí)行的 API（應用程序編程接口），然后大模型通過調(diào)用它們完成行動。在這種配置中，智能機器充當模型的“手和眼”，執(zhí)行具體任務，而大語言模型則負責提供關(guān)于任務的高級語義指導。GLiDE 嘗試在大模型的語義和智能機器在物理世界的行動軌跡之間建立關(guān)聯(lián)，這個過程使用了人類的演示數(shù)據(jù)，這樣系統(tǒng)就能夠?qū)⒆匀徽Z言的任務指令翻譯為機器的具體行動序列。

剛才討論的一些方法很多都是利用其他應用領(lǐng)域預訓練好的大模型，因此需要進行額外的“接地”操作，即從大模型輸出的符號（語言、代碼等）轉(zhuǎn)換到物理世界的行動。而谷歌的 RT 系列大模型，通過端到端的訓練一步到位輸出行動序列。在 RT—1 中，谷歌科學家首次提出一個模型類，叫作 Robotics Transformer（RT）。RT—1 的設計思路秉承了大模型“力大磚飛”的理念，也就是說，模型容量大，可以吸收大量的各類數(shù)據(jù)，也可高效地泛化。

之后的RT—2 似乎不滿足之前的訓練力度，于是將基于互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)訓練的一個視覺—語言模型直接整合到端到端機器人控制中，進一步提升模型的泛化能力。

而2024 年新推出的 RT—H 開始走分層路線，提出行動層級（action hierarchy）的概念，將復雜任務分解成簡單的語言指令，然后將這些指令轉(zhuǎn)化為機器人的行動，以提高任務執(zhí)行的準確性。

例如，以“蓋上開心果罐的蓋子”這一任務和場景圖像作為輸入，RT—H 會利用視覺—語言模型預測語言動作，如向前移動手臂和向右旋轉(zhuǎn)手臂，然后根據(jù)這些語言動作，輸出具體的機器行動。這個過程允許人類的干預，人類的修正也能夠幫助機器進行學習。

可以這么說，大模型作為目前人工智能領(lǐng)域的一個方法論，必將成為具身智能發(fā)展的重要推動力。我們有理由相信，不久的將來，具身智能體將具備執(zhí)行通用任務的能力和強大的學習能力，它們將能夠更深入地理解我們的世界，并以前所未有的方式參與其中。

至少，在回答“如何把大象裝進冰箱”這一問題時，一個“充滿人性”的具身智能體可能會這樣回答：“首先，我們需要確認大象是否有意愿被關(guān)進冰箱里；其次，考慮到大象的體量，我們可能需要一個特制的大型冰箱；最后，確保在關(guān)上冰箱門之后，大象擁有足夠的空間和舒適的環(huán)境?！?/p>

DeepSeek—— 開啟AI平民化新時代

2025 年的科技圈中，如果有誰還沒聽說過 DeepSeek，那么就等于被時代拋在身后了。這款由中國團隊“深度求索”（DeepSeek）研發(fā)的大語言模型，憑借“技術(shù)突破、低成本與開源”的組合策略，迅速成為全球 AI 領(lǐng)域的新焦點。

DeepSeek 之所以能在短時間內(nèi)爆火，首先要歸功于它對 AI 技術(shù)平權(quán)的推動。DeepSeek v3 僅用 GPT—4 大約十分之一的訓練成本，就達到了與后者相當?shù)男阅?。這種“以小博大”的低成本模式為更多中小型團隊帶來了希望，讓AI 從原先的“巨頭玩具”轉(zhuǎn)變成“大眾工具”。DeepSeek R1 公布后，不少研發(fā)團隊受其啟發(fā)，紛紛借鑒 R1 的技術(shù)路線，以更易負擔的成本研發(fā)大模型，就好像“拼多多”在電商領(lǐng)域用低價策略打開市場一樣，DeepSeek 同樣憑借開源和成本優(yōu)勢，迅速拉近了普通人與尖端 AI 的距離。

除此之外，DeepSeek 的開放生態(tài)也產(chǎn)生了強大的“滾雪球效應”。通過開放核心技術(shù)，DeepSeek 為全球開發(fā)者提供了協(xié)同改進模型的機會。這種與維基百科類似的模式不僅加速了技術(shù)迭代，而且還允許企業(yè)在本地或私有云環(huán)境中部署自己的 DeepSeek 實例，從而降低對 OpenAI 等廠商的依賴。在這種“你中有我、我中有你”的生態(tài)里，新功能和新技術(shù)能夠快速孵化，最終反哺整個 AI 產(chǎn)業(yè)。正因如此，DeepSeek v3 和 R1 一經(jīng)推出，各路服務商便紛紛宣布對其進行集成或給予支持。

當然，資本市場對 DeepSeek 的追捧也為其知名度的提升推波助瀾。自 2025 年 1 月開始，AI 概念股一路飆升，中證軟件指數(shù)更是在短短數(shù)周內(nèi)上漲 23.1%，與 DeepSeek 相關(guān)的公司獲得了資本的“熱捧”。更具戲劇性的是，DeepSeek 在 2025 年 1 月底因過度火爆而遭遇了國家級對手的 DDoS（分布式拒絕服務）攻擊。有人調(diào)侃，這是對 DeepSeek 實力的另一種“官方認證”，更進一步印證了它引發(fā)的巨大影響力。

DeepSeek 的崛起并不是一次簡單的技術(shù)升級，而是一場可能改變行業(yè)規(guī)則的“地震”。傳統(tǒng)大模型訓練往往動輒耗資數(shù)千萬美元，而 DeepSeek v3 采用 FP8 混合精度訓練等創(chuàng)新手段，將單次訓練成本壓到約 550 萬美元，讓人們第一次看到了“以經(jīng)濟艙價格享受商務艙服務”的可能。與此同時，DeepSeek 的全面開源也打破了閉源模型長期以來的壟斷地位，為醫(yī)療、教育等垂直領(lǐng)域的中小公司帶來“二次開發(fā)”的機遇，從而催生了一場類似于安卓系統(tǒng)之于手機行業(yè)的變革。更引人注目的是，DeepSeek R1-Zero 還是首個完全基于強化學習訓練的大模型，這意味著它能夠像小朋友學騎自行車那樣，通過試錯完成自我迭代和進化，逐漸擺脫對人工標注數(shù)據(jù)的嚴重依賴。

隨著DeepSeek 的步步崛起，中美之間的 AI 競爭格局也受到了影響。美國企業(yè)更傾向于依賴 GPU 芯片等硬件優(yōu)勢，以大算力硬扛大模型的方式來開拓技術(shù)前沿陣地。相比之下，中國團隊則更加注重模型壓縮、算法優(yōu)化等“以巧取勝”的策略，這種“技術(shù)瘦身”繞過了對高端算力的嚴重依賴，也拓寬了 AI 落地場景的廣度。DeepSeek 的成功證明，不總是需要頂尖算力，通過工程和算法創(chuàng)新，也可能在 AI 領(lǐng)域取得突破。與此同時，生態(tài)模式的分歧也日益明顯。如我們在“大模型的困局”中所述，科技巨頭大多偏向閉源，牢牢掌控技術(shù)話語權(quán)，但 DeepSeek 所倡導的開源生態(tài)，吸引著全球眾多開發(fā)者加入“技術(shù)共同體”。這種自下而上的“群眾路線”不僅能不斷豐富 AI 應用場景，還可能瓦解傳統(tǒng)巨頭建立起來的護城河。這種競爭態(tài)勢的轉(zhuǎn) 變，本質(zhì)上是基礎(chǔ)理論創(chuàng)新與應用落地兩種發(fā)展路徑的碰撞，而中國在智能制造、智慧城市等領(lǐng)域的深厚產(chǎn)業(yè)基礎(chǔ)，正在為 AI 技術(shù)提供得天獨厚的試驗場。

當我們站在AI 開始全面走入普通人生活的開端展望未來時會發(fā)現(xiàn)，DeepSeek 依然有漫長的道路要走。它目前的重點在于文本處理，未來可能會擴展至圖像、視頻等多模態(tài)領(lǐng)域，向真正的“全能型 AI 助手”進化。同時，通過邊緣計算技術(shù)， DeepSeek 或許能在智能手機、AR（增強現(xiàn)實）眼鏡等設備上實現(xiàn)離線翻譯、實時 AR 導航等功能，讓更多人真正體驗到“AI 飛入尋常百姓家”的便利。更深遠的影響或許在于，以DeepSeek 為代表的開源大模型可能像云計算重構(gòu) IT 基礎(chǔ)設施那樣，通過開源社區(qū)構(gòu)建 AI 時代的“水電”網(wǎng)絡，讓開發(fā)者如同調(diào)用電力般便捷地使用 AI 技術(shù)。

前進的道路上依然存在不少挑戰(zhàn)。數(shù)據(jù)安全與隱私保護的沖突仍需謹慎應對，國際政治環(huán)境帶來的風險也不容小覷。但就像蒸汽機拉開工業(yè)革命的大幕，DeepSeek 所代表的 AI 平民化趨勢，很可能正在開啟智能時代的大門。

DeepSeek 的崛起不僅僅是一家中國企業(yè)的逆襲之路，更是 AI 技術(shù)實現(xiàn)民主化的重要里程碑。它用開源去挑戰(zhàn)壟斷，用低成本推動普惠，用工程智慧彌補算力短板，而這場“破圈”革命帶來的意義，恰如網(wǎng)友所戲稱的“過去 AI 是‘神仙打架’，現(xiàn)在終于輪到凡人修仙了”。我們都將是親歷者與見證者。

作者劉云浩｜開白名單 duanyu_H｜投稿 tougao99999

作者簡介：清華大學全球創(chuàng)新學院院長，清華大學自動化系教授、博導。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.