今天的開頭有點惡心。你有沒有見過掃地機器人因為無法識別寵物便便,變成推機器人的。此處就不上圖了,好奇寶寶可以自己去搜索下看看。其中關鍵原因就是機器人無法 100% 識別寵物排泄物。
在機械世界里,感知交互是智能化的第一步,也是機器人獲取環境信息、進行學習與適應、實現自主決策的前提。如果說大模型是 AI 的 “大腦”,那么感知系統則是機器人的 “五感”,它讓冰冷的機械體具備了理解世界的生物學基礎。
視覺、聽覺、嗅覺、味覺、觸覺 —— 人類通過五感將外界刺激轉化為神經信號,傳遞至大腦的初級感覺皮層,對形狀、顏色、聲音頻率等進行初步特征提取。隨后,高級腦區會對多模態信息進行整合,形成對環境的整體認知。例如,視覺的色彩和光線會影響情緒判斷,嗅覺的氣味會直接激活記憶相關腦區,觸發情感聯想等等。
機器人要想無限貼近人類,首先就要學會人類五感。
事實上,當前全球機器人感知技術的發展方面,單項感知能力并不算弱,甚至有的方面已經超越人類。但是在多模態感知融合上,還存在不小的認知鴻溝。比如視覺無法分辨地毯紋理與糞便,嗅覺會遭遇氣流擾動的信號失真,觸覺反饋延遲一秒就可能導致雞蛋破碎 —— 這些技術斷點恰是智能覺醒必須跨越的天塹。或許未來某天,搭載神經形態芯片的機器人能像人類一樣,聞到雨后泥土氣息時自動調低吸力,觸到寵物毛發瞬間切換輕柔模式,那才是真正的感知革命。
技術拆解:從單點突破到多模態交響
單一的感知技術很難應對真實復雜的場景需求,因此業界正在轉向多模態感知融合的研究,本質是通過硬件協同、算法泛化與場景適配,構建 “感知 - 決策 - 執行” 的閉環智能體。同時,多模態感知的融合則是構筑在單一感知技術的突破之上。
2025 機器人全產業鏈接會上,帕西尼展出的靈巧手融合了視覺交互技術
觸覺
新中式賽博的敘事里,機器人可以化身老中醫,給人把脈、問診。
第一步就是通過一個小小的觸覺傳感芯片 —— 當人體脈搏跳動時,血管擴張產生的壓力會使觸覺芯片中的壓電材料發生形變,材料內部的正負電荷發生位移,從而產生與脈搏壓力成正比的電荷信號。這種信號經過放大和濾波處理后,可轉換為脈搏波形數據。一般通過波形分析獲,可以初步診斷血管彈性、血流量變化等心血管疾病。
但這個場景只能算是觸覺感知里的入門級應用。現在,我們更想看到的是,機器人靈巧手可以捏捏葡萄藤上的果子,根據軟硬判斷它的成熟度,又或者是通過觸摸能判斷一只包的材質……
如果說早期的觸覺傳感器還停留在工業場景的 "有無" 判斷,那么它的進化史就是一部從機械觸須到仿生神經的蛻變錄。20 世紀 70 年代,科學家用壓阻式、電感式傳感器繪制出觸覺感知的雛形;2003 年 MIT 給 NASA 宇航機器人 Robonaut 披上電子皮膚時,首次實現觸覺覆蓋,可感知壓力、溫度等多維信息;待到 2020 年,以深度學習驅動的觸覺數據處理技術興起,布里斯托大學團隊首次將深度神經網絡應用于機器人指尖觸覺,通過三維滑動接觸數據訓練模型,使機器人能估算物體表面角度并實時調整抓握策略,讓觸覺感知從簡單的壓力檢測,升級為可解析紋理、形變的動態交互系統。
當下,觸覺感知的硬件基礎持續迭代,同時結合深度學習與仿真技術,提升模型泛化能力,加速多維觸覺數據的獲取與解析。
帕西尼多維度觸覺傳感器 PX-6AX 接觸到物體時,其柔性陣列上亞毫米級別的微小形變場能被瞬間捕捉,在傳統三維 / 六維力檢測的基礎上,安裝在 PX-6AX 上的柔性傳感陣列能額外為機器人提供滑動、摩擦、紋理、溫度等額外信息,使得機器人能在更豐富多元的場景下完美感知,完成復雜的自適應動作。
今年 3 月,多模態觸覺感知公司千覺機器人推出全球首個觸覺仿真工具 Xense_Sim 以及多模態高精度觸覺傳感器 G1-WS,通過深度學習生成合成觸覺數據,解決了真實數據采集成本高的難題,同時助力智元機器人完備數據采集模態,為人形機器人在精密裝配、工業智造及智能服務等復雜場景中落地應用構建數據基礎。據智元機器人內部人士評價,“合成數據與真實機器人操作軌跡數據互補,提升數據的多樣性和模型的泛化性,并降低數據成本。”
視覺
機器人視覺感知方向上。2009 年,李飛飛實驗室發布了包含 1500 萬張圖像的 lmageNet 數據集,視覺算法的速度和準確性得以迅速提升。此后圖像識別引領了一段時間的 AI 發展,再到物體切分、動態關系預測,使用人類自然語言描述照片等。2015 年擴散模型出現,可以應用在圖像去噪、圖像修復、超分辨率成像、圖像生成等場景中。而后擴散模型又推動了生成式 AI 的發展,可以將人類輸入的句子轉化為照片和視頻。
2022 年底開始,全球大模型進入高速發展階段,至今,國內外已經有多個大模型通過參數規模突破與訓練范式革新,進而提升機器人視覺感知能力。比如,今年 2 月,豆包大模型團隊與高校聯合推出的 VideoWorld 視頻生成實驗模型,實現了無需語言模型的純視覺信號學習,通過純視覺信號將復雜的推理、規劃和決策能力轉化為現實,只需通過海量視頻數據的瀏覽,便能讓機器自主學習。
除了大模型能力的加持,機器人視覺硬件也在同步迭代。傳統機器人視覺依賴單一傳感器,如 RGB 攝像頭或激光雷達,通過灰度 / 彩色圖像或點云數據完成目標識別與定位,但存在環境光干擾、測距精度不足等問題。當下的視覺感知在硬件上也已經在從單一感知向多模態融合。比如早期聚焦車載激光雷達的企業 RoboSense 在今年 3 月發布了機器人視覺全新品類 Active Camera 的首款產品 AC1 及 AI-Ready 生態,其中 AC1 提供深度、色彩、運動姿態硬件級融合信息,讓機器人感知構型擺脫堆疊傳感器的傳統方法。
室外 AC1 拍攝畫面及建圖數據,圖片來自速騰聚創官網視頻截圖
聽覺、味覺與嗅覺
當前的具身智能感知技術研究中,聽覺、味覺、嗅覺往往是作為補充性功能,疊加視覺或者觸覺,讓機器人的感知更加全面、精細。
比如聽覺主要用于語音交互和環境聲事件檢測,像異常警報,但其核心價值還是依附于視覺與觸覺的協同,例如通過聲音輔助定位目標物體等等。味覺和嗅覺的應用場景目前也高度垂直,如食品檢測、醫療診斷中,主要依賴電子鼻這類的化學傳感器和特定算法,技術通用性差,例如葡萄酒檢測機器人需定制紅外光譜儀,難以遷移到其他場景。
工業和服務機器人更關注抓取、移動的基礎操作能力,而聽覺、味覺、嗅覺的研發成本高、商業回報周期長,所以我們常見以觸覺或視覺為核心的具身智能創企和團隊,但很少有以聽覺、味覺、嗅覺為核心的創企。應用場景上同樣,智能家居中視覺門鎖、觸覺機械臂已普及,但氣味控制機器人仍屬于小眾市場
多模態融合
業內在感知方面研究較深的帕西尼,其靈巧手在掌內可以內嵌多顆攝像頭,通過觸覺與視覺的融合,能有效避免因角度遮擋帶來的識別失誤,同時提升復雜操作的穩定性。比如在物流倉儲場景下,它能自主判斷并完成掃碼、貼標、分揀等動作,無需額外人工干預。
觸覺 + 視覺的融合是具身智能感知方面最常見的融合之一,觸覺傳感器能夠捕捉物體的質地、硬度、溫度、滑移狀態等物理特性,而視覺傳感器擅長獲取形狀、顏色、空間位置信息,二者結合便更容易在復雜動態場景中實現類人化的環境理解與精準操作。
事實上,關于多模態融合的研究也是始于對人類多感官協同機制的探索。早在 20 世紀 70 年代,心理學領域便關注到人類交流中非言語模態,如肢體動作、聲音的主導作用;到了 2002 年,加州大學伯克利分校的 Banks 團隊通過神經科學實驗首次揭示了人類視覺與觸覺的天然融合機制,發現觸覺信息能有效彌補視覺遮擋或模糊時的感知空缺。
這一發現不僅證實了多模態融合的生物基礎,更直接推動了工程化研究 —— 例如,MIT 團隊隨后開發了結合視覺觸覺傳感器的 GelSight 系統,通過觸覺圖像重建物體表面紋理,并將觸覺數據與視覺特征對齊。
隨著深度學習技術的突破,多模態融合從生物啟發式建模轉向數據驅動的跨模態表征學習。
2010 年代,基于深度玻爾茲曼機的多模態模型首次實現視覺與觸覺的聯合編碼;至 2020 年代,Transformer 架構的引入使跨模態語義對齊能力顯著提升;去年年底,卡內基梅隆大學機器人研究所、加州大學伯克利分校等共同組成的研究團隊提出了一種名為 NeuralFeels 的方法,將視覺與觸覺感知相結合,通過多模態融合的方式,使機器手能夠對未知物體持續進行 3D 建模,從而更精確地估計掌上操作物體的姿態和形狀。
政策也在指引多模態感知融合研究。今年 2 月,《北京具身智能科技創新與產業培育行動計劃(2025-2027 年)》印發。
其中重點任務的第一項便是 “突破多模態融合感知技術”:支持高校院所聯合優勢企業,研究多傳感器數據的時空同步與校準技術,高效整合不同感知源數據;研究跨模態學習算法,加強不同模態數據的相互作用和互相補充;研究交互式感知、主動感知、多模態數據補全等算法,實現規模化多模態數據高效自動對齊;研究具身環境中高效、魯棒的視覺-語言-動作多模態統一表征與融合方法,提升機器人感知理解能力。
行業落地:工業場景搶跑,服務市場蓄勢
工廠就像個規規矩矩的考場,流水線怎么擺、零件怎么放都是固定套路,這種環境對機器人來說簡直就是量身定制的舞臺。
越是結構化、可預測、標準化的交互環境,機器人行動起來越是自如。所以目前我們看到的機器人應用也多是在工業場景中,在固定的產線布局和標準化的作業流程中,機器人做起汽車焊接、貨物分揀、貼標簽等工作來得心應手。
今年以來,也有不少廠商官宣了機器人 “進廠” 的動態。綜合來看,機器人在工業領域的應用主要集中在焊接、搬運、質檢、裝配四大場景,核心技術包括多模態感知、AI 大模型和自適應學習。廠商通過垂直行業需求定制解決方案,推動降本增效。
除了在流水線上做工人,市場也正在讓機器人走進家庭做服務,下到地里做農民,爬到山上做救援…… 技術進化的箭頭正在轉向更復雜的非標領域。
IDC 最新發布的報告顯示,2025 年人形機器人有望在商用服務、特種作業領域從事運動速度、節拍要求較低的生產服務任務,預計將實現千臺量級的小規模商用。商用服務如展廳、商超、機場等公共場的服務機器人,特種作業則是指在安全巡檢、應急救援等特殊作業場景替代人類從事重復勞動、高風險的任務。
相較于開放環境中的復雜挑戰,家庭生活場景中的清潔任務因其重復性強、空間結構相對標準,成為具身智能技術最先攻克的一站。目前,家庭生活場景中,家庭清潔任務的重復性強、空間結構相對標準,是具身智能最容易落地的場景之一。
在海爾與穹徹智能聯合研發的衣物管理系統中,機器人通過 3D 視覺掃描臟衣簍,機械臂基于 AnyGrasp 算法抓取堆疊衣物時,能自動識別蕾絲裙裝與牛仔外套的材質差異,前者采用真空吸附避免勾絲,后者切換三指抓取確保承重。
當技術突破不斷刷新場景落地的可能性,商業模式的創新也在同步重塑產業生態。隨著應用場景的變遷,具身智能機器人市場的商業模式也正在從 “賣硬件” 擴展到 “賣服務”。深圳火狗智能以 “機器狗租賃” 降低用戶門檻,北京探索 “開源開放 + 賽事展演” 推廣模式。頭部企業更傾向 “HaaS 硬件即服務”,通過訂閱制分攤研發成本 —— 銀河通用、智元機器人已獲美團、華為等戰略投資,押注長期生態價值。
《2025-2030 中國具身智能行業發展創新策略》:預測 2030 年全球市場規模突破 5 萬億元,技術研發與商業化投資占比超 60%
中國《政府工作報告(2025)》首次將具身智能列為未來產業,配套資金與稅收優惠直接推動實驗室與產業鏈擴張。
歐盟《地平線計劃 2030》撥款 120 億歐元支持具身智能技術研發,美國《國家人工智能倡議法案》明確每年投入 50 億美元。
感知技術的突破,正在讓機器人從執行工具進化為具有環境交互能力的認知主體。這場融合硬件、算法與數據的 “認知戰爭”,正在重構人機協作的底層邏輯。盡管異構傳感器協同、跨模態語義對齊等技術瓶頸仍需攻克,但全球超百家實驗室的聯合攻關與萬億級行業投資驅動下,具身智能的 “感知革命” 已不可逆。
從工廠車間到家庭空間,從標準流程到非標服務…… 人類教會了機器人感受世界,而它們的反饋也將重塑智能邊界。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.