克雷西 發自 凹非寺
量子位 | 公眾號 QbitAI
WAIC 2025大模型論壇上,商湯科技正式發布了「悟能」具身智能平臺,官宣入局具身智能。
以此為出發點,商湯科技在具身智能領域的布局也開始浮出水面。
站在這個具身智能的風口之上,商湯選擇此時入局,體現了怎樣的思考,其背后又有著怎樣的積淀?
吸引AI頭部企業、初創公司和投資者們紛紛踏足,具身智能又究竟發展到了哪一步?
在這場論壇上,這些問題的答案被一一揭開。
新型多模態模型亮相WAIC
先來看商湯發布的日日新V6.5多模態推理大模型。
日日新6.5獨創了圖文交錯思維鏈,跨模態推理精度顯著提升。
傳統的多模態推理模型,在推理之前會將圖像轉變成文本解讀,后續的推理過程就變成了純文本。
而在圖文交錯思維鏈當中,圖像會以本體的形式參與到整個推理過程。
在這種圖文混合的思考模式下,日日新6.5的多媒體推理能力在多個數據集上都超越了Gemini 2.5 Pro。
同時依托輕量Vision?Encoder?+和縱深LLM架構,日日新6.5相比6.0表現提升了6.99%,但推理成本只有日日新6.0的30%,綜合算下來性價比提升了5倍。
隨著模型能力提升,商湯在大模型落地上,就不止做“賣軟件”的生意,還做“賣大腦”的生意。
從多模態模型到具身智能大腦
其實,商湯能夠高調切入具身智能,是其從感知視覺、多模態,走向物理世界交互的必然結果。
商湯科技聯合創始人、執行董事、首席科學家林達華認為,多模態是邁向AGI的必經之路。因此,只有能夠同時“讀文本、看世界、動手腳”,AI才可能真正理解并改造物理環境。
而且超過十年的行業落地經驗,包括在自動駕駛領域的成功實踐,也讓商湯在感知、定位、軌跡規劃和安全冗余等方面累積了大量真實數據與世界模型經驗。
這些能力遷移到機器人等具身形態——相當于先在“會開車的大機器人”身上練兵,再擴展到泛化的移動與操作場景。
因此,商湯繼「開悟」世界模型之后,發布全新「悟能」具身智能平臺。一端承接日日新多模態大模型的通用能力,一端擁有打造和使用世界模型進行訓練的經驗,進而打造生態體系。
「開悟」世界模型背后包括商湯積累的10萬3D資產,支持多視角視頻生成,最多可以同時生成11個攝像頭角度視頻,并在長達150s的時間保持時空一致。
空間上,它可以理解遮擋、前后層級,讓同一物體在不同視角下呈現一致外觀。
時間上,它能夠理解時序和運動規律,讓物體在時間推移中保持自然連貫的變化。
并且支持參數化編輯,天氣、光照、道路,以及路上的車輛,都支持一鍵變換。
在具身智能場景中,還可以同時處理人、物、場,構建4D的真實世界。
并且這種世界同時包含了第一和第三視角。
這樣做的目的,是同時滿足“機器人自己看到什么”與“人類示范動作長什么樣”這兩類信息的互補需求。
第一視角是機器人在真實運行時唯一能獲取的感知流,它決定了模型推理時的輸入分布;第三視角則能完整捕捉人類或機器人全身的姿態骨骼和環境關系,為動作意圖、路徑規劃提供清晰標簽。
將兩種視角對齊訓練,可以讓模型學會把外部示范映射成自身可用的感覺?動作對,一方面顯著減少昂貴的遙操作數據量,另一方面提高跨機器人、跨場景的泛化能力,使同一個“大腦”既能看懂人類演示,也能在自己的相機視角下執行,從而加速具身智能落地。
基于「開悟」世界模型,商湯科技推出了「悟能」具身智能平臺架構,包含感知、決策與行動等多個層次:
- 感知層:視覺/語音/觸覺多傳感輸入;
- 決策層:LLM+世界模型協同規劃;
- 行動層:VLA端到端控制機械臂、移動底盤。
這一大腦,能夠支持自動駕駛、機器人、機器狗等具身場景中的感知、導航、交互等功能。
在具身智能落地上,商湯選擇“軟硬協同”路線。目前已與眾多人形機器人、物流搬運底盤廠商、家用陪伴平臺等伙伴達成合作,將T模型預裝進不同形態的機器人,讓硬件天然具備多模態感知和推理能力。
未來,隨著硬件越賣越多,回流的視覺、語音和操作數據也越豐富,進一步反哺模型迭代,形成正向的數據飛輪。
破解具身智能行業難題
除了發布新產品,商湯還在這次論壇上組織具身智能行業從業者以及學術界人士,一起探討了具身世界模型發展的關鍵問題。
圓桌討論首先聚焦的問題,依然是數據稀缺——一個具身智能從業者面臨的共同痛點。
北京大學助理教授、智源學者、銀河通用創始人兼CTO王鶴介紹了他的解決方案——先在虛擬環境把pick?and?place做到幾乎與現實一致,再用少量真機樣本校正長尾場景。
而商湯“開悟”世界模型恰好承接了“99%”的合成任務,能夠批量生成長時多攝像一致的視頻。
商湯與傅利葉等伙伴合作推出的超千萬數量級的機器人,則源源不斷回流那關鍵“1%”的真實視覺、語音和操作日志,二者形成互補閉環,解決了數據從量到質的難題。
當然,數據只有“量”還遠遠不夠,商湯聯合創始人、執行董事、CTO王曉剛認為,僅有機器人本身攝像頭的第一視角并不夠,上帝俯瞰的第三視角能補全肢體骨骼與全局語義;只有把兩種視角對齊,端到端訓練才能兼顧感知與動作。
澳大利亞科學院院士、南洋理工大學教授陶大程進一步指出,第一視角不僅要看圖像,還要疊加深度、慣性、力覺等多傳感器流,才能完整地捕捉“感知—意圖—行動”閉環。
為此,商湯在世界模型中同步生成并標定第一和第三視角數據,確保時空一致,再映射回端側傳感器,讓機器人既“看自己”也“學別人”,從而縮短仿真與現實之間的落差。
這一做法也契合圓桌嘉賓關于“視角一致性決定遷移效果”形成的共識。
關于模型路線的取舍,同樣引發了熱議。
上海交通大學人工智能學院副院長、上海穹徹智能科技創始人盧策吾認為,必須兼顧通用與場景閉環。
上海市信息投資股份有限公司副總裁、庫帕斯科技董事長山棟明則從投資與供應鏈角度呼應這一觀點。他認為當下只要能把設備鋪出去,真實數據自然會涌回。
商湯正在驗證這條“雙輪”路徑——多模態大模型日日新V6.5提供跨領域能力,垂直應用不斷把真實反饋注入基座,驅動模型滾動升級。
綜合來看,商湯通過世界模型的大規模仿真、合作硬件的真實數據回流、第一與第三視角的融合標注,以及“通用大腦 + 場景閉環”的協同演進,把數據、算法與硬件生態織成了一條自循環鏈。
商湯的數據飛輪已起步,正全速領跑未來賽道,將通過多模態與硬件協同,共筑具身智能護城河。
從工業到家庭,千萬數量級機器人將承載這顆具身大腦。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.