關于商湯新一代多模態大模型“日日新V6”,徐立表示,一些核心的指標,在純文本和多模態的單任務和復雜任務的推理之上,商湯都居于行業前列。
文|深度AI 王欣
編輯|July
在4月10日的技術交流日上,商湯科技展示了其在人工智能基礎設施與多模態大模型領域的最新突破。
當天,商湯科技新一代多模態大模型「日日新V6」(SenseNova V6)發布,以「強推理、強交互、長記憶」為核心突破,重新定義了AI在復雜場景中的應用范式。
據悉,這一模型不僅通過技術創新實現了對OpenAI o1、GPT-4o等國際頂尖模型的性能對標,更以「成本最低、效率最高」的標簽推動AI技術向普惠化邁進。
商湯科技董事長徐立在發布會上重申核心理念:「AI之道,在于百姓之日用」,強調技術需服務于日常生活的真實需求。
作為擁有超6000億參數的混合專家架構(MoE)模型,「日日新V6」在權威的推理能力及多模態能力評測中多個維度獲得SOTA。
▲日日新v6純文本推理與多模態推理能力均對標GPT-4.5 和 Gemini 2.0 Pro成績
除此之外,「日日新V6」的核心競爭力在于其多模態長思維鏈技術。
通過整合200B高質量多模態長思維鏈數據,模型支持最長64K的跨模態邏輯推理,能夠對文本、圖像、視頻、語音進行時序對齊與全局記憶處理。
例如,在保險理賠場景中,V6可同時解析醫療單據、影像報告和語音描述,自動交叉驗證材料完整性,將原本需3-7天的審核流程壓縮至秒級響應。
這一能力源于其動態過濾與級聯壓縮技術——10分鐘的視頻可被壓縮至16K tokens,同時保留關鍵語義幀與上下文邏輯,為長視頻理解提供了新范式。
在成本控制上,商湯通過異構算力調度與動態彈性擴縮容技術,將推理成本降至行業最低。
例如,當客戶使用5000卡異構集群訓練時,商湯通過熱備機冗余和任務拆分優化,將國產芯片利用率提升至80%,遠超行業平均50%-60%的水平。
這一技術組合不僅緩解了芯片供應鏈波動帶來的成本壓力,也降低了中小企業接入AI的門檻。
當然,「日日新V6」的發布并非單純的技術秀,其真正價值在于深度嵌入真實業務場景。
比如在消費領域,V6的「購物比價」功能可通過圖片識別商品參數,結合跨平臺價格數據,實時計算最優購買方案。
想象一下,用戶上傳抽紙包裝圖,模型可精確對比不同電商平臺的單價,甚至將優惠券、滿減規則納入計算。
在教育場景,V6的「一對一私教」模式支持手寫解題分析與實時語音答疑,其多模態交互模型SenseNova V6 Omni能根據兒童提問動態調整故事講述風格,實現繪本點讀與情感化互動。
更具戰略意義的是其在具身智能領域的突破。
發布會現場,商湯官宣與傅利葉機器人合作,基于V6 Omni實現了語言、行為與環境感知的統一。
比如,機器人可通過攝像頭識別用戶手勢,結合語音指令調整動作,在輸出「請遞水杯」語音的同時,同步完成抓取與移動的連貫操作。
這一能力依賴V6的多模態上下文表達技術——將語音、視頻、文本與時間軸對齊,為機器人提供了更豐富的訓練數據與泛化能力。
「選擇具身智能并不是我主動的選擇,更多的還是主要在服務科技創新的群體。」商湯科技聯合創始人、大裝置事業群總裁楊帆說。同時做基礎大裝置和大模型是商湯科技的一大特色,其中比較典型的協同場景是對推理過程做預填充和解碼的分離,這是一種架構優化技術,可以提升 GPU 硬件利用率并降低推理延遲。
「日日新V6」的推出,恰逢多模態AI成為行業競爭主戰場。
現在,OpenAI的o1、谷歌Gemini 2.0 Pro均在探索跨模態推理,但商湯通過「長思維鏈+低成本」組合形成了差異化優勢。
當前,視頻內容消費市場快速增長,快手、抖音等平臺對中長視頻解析的需求激增,而傳統模型受限于短視頻處理能力。V6的10分鐘全幀率解析與智能剪輯功能,不僅滿足了用戶保留「高光時刻」的需求,也為廣告、教育、文旅等內容創作者提供了自動化工具。
商湯首席科學家林達華透露,年內將實現1小時視頻的端到端分析,進一步搶占視頻大模型市場。
另一方面,AI普惠化趨勢要求技術供應商兼顧性能與成本。商湯通過開放API與「商量APP」內測,將V6的能力輸出至開發者生態。
比如,中小企業可直接調用V6的預訓練模型完成商品比價、財務審核等任務,僅需針對場景微調少量參數,大幅降低開發周期與資源投入。
這種「即插即用」模式,正推動AI從實驗室技術向規模化應用轉型。
而在制造業,商湯科技也正用預訓練模型實現「即插即用」的產線升級,意在讓AI像水電一樣滲透到每個行業的基礎設施中。
而「百姓之日用」的初心,或將幫助商湯在全球AI競賽中走出一條差異化路徑——技術領先性固然重要,但只有當創新真正服務于人的需求時,才能真正定義未來的規則。
商湯的野心已經不止于單一模型。
它正通過「日日新V6」,其正構建一個涵蓋硬件、算法、開發者的全棧生態。
例如,與阿里、騰訊等云廠商類似,商湯將大模型與自研的AI基礎設施(如異構算力調度系統)深度整合,形成「模型-算力-場景」閉環。
這種協同效應在具身智能、智慧城市等長尾場景中尤為顯著——商湯既提供底層算力支持,又通過模型優化解決具體問題,形成技術壁壘。
但挑戰也依然存在,開源社區的快速發展正在縮小技術差距,而倫理與數據安全風險仍需謹慎應對。
商湯的回應是聚焦「行業深度結合」,例如在醫療領域通過國密認證數據沙箱處理敏感信息,在確保合規的同時提升落地效率。
這種「技術+場景+合規」的三維策略,或將成為其在激烈競爭中保持領先的關鍵。
現在,商湯科技正通過多模態深度推理與獨創的低成本架構,重新劃定了AI的能力疆界——從保險理賠的秒級審核到教育場景的智能私教,從消費比價的精準推薦到具身機器人的連貫操作,技術不再局限于實驗室參數,而是深度嵌入百姓生活的毛細血管。
正呼應了徐立那句,「AI之道在于百姓之日用」。
這些理念都在V6的落地應用中逐漸得到最直觀的印證:當技術真正解決日常痛點時,普惠價值才能被激活。
【關注智能汽車,關注智駕網視頻號】
關注汽車的智駕時代上智駕網(http://autor.com.cn)
合作or新聞線索提供,聯系郵箱:editor@autor.com.cn
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.