網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

商湯發(fā)布新一代多模態(tài)大模型「日日新V6」：對標(biāo)OpenAI o1和Gemini 2.0 Pro，加持具身「智能」

2025-04-12 00:05:59　來源: 智駕網(wǎng)

北京舉報

分享至

關(guān)于商湯新一代多模態(tài)大模型“日日新V6”，徐立表示，一些核心的指標(biāo)，在純文本和多模態(tài)的單任務(wù)和復(fù)雜任務(wù)的推理之上，商湯都居于行業(yè)前列。

文｜深度AI 王欣

編輯｜July

在4月10日的技術(shù)交流日上，商湯科技展示了其在人工智能基礎(chǔ)設(shè)施與多模態(tài)大模型領(lǐng)域的最新突破。

當(dāng)天，商湯科技新一代多模態(tài)大模型「日日新V6」（SenseNova V6）發(fā)布，以「強推理、強交互、長記憶」為核心突破，重新定義了AI在復(fù)雜場景中的應(yīng)用范式。

據(jù)悉，這一模型不僅通過技術(shù)創(chuàng)新實現(xiàn)了對OpenAI o1、GPT-4o等國際頂尖模型的性能對標(biāo)，更以「成本最低、效率最高」的標(biāo)簽推動AI技術(shù)向普惠化邁進。

商湯科技董事長徐立在發(fā)布會上重申核心理念：「AI之道，在于百姓之日用」，強調(diào)技術(shù)需服務(wù)于日常生活的真實需求。

作為擁有超6000億參數(shù)的混合專家架構(gòu)（MoE）模型，「日日新V6」在權(quán)威的推理能力及多模態(tài)能力評測中多個維度獲得SOTA。

▲日日新v6純文本推理與多模態(tài)推理能力均對標(biāo)GPT-4.5 和 Gemini 2.0 Pro成績

除此之外，「日日新V6」的核心競爭力在于其多模態(tài)長思維鏈技術(shù)。

通過整合200B高質(zhì)量多模態(tài)長思維鏈數(shù)據(jù)，模型支持最長64K的跨模態(tài)邏輯推理，能夠?qū)ξ谋尽D像、視頻、語音進行時序?qū)R與全局記憶處理。

例如，在保險理賠場景中，V6可同時解析醫(yī)療單據(jù)、影像報告和語音描述，自動交叉驗證材料完整性，將原本需3-7天的審核流程壓縮至秒級響應(yīng)。

這一能力源于其動態(tài)過濾與級聯(lián)壓縮技術(shù)——10分鐘的視頻可被壓縮至16K tokens，同時保留關(guān)鍵語義幀與上下文邏輯，為長視頻理解提供了新范式。

在成本控制上，商湯通過異構(gòu)算力調(diào)度與動態(tài)彈性擴縮容技術(shù)，將推理成本降至行業(yè)最低。

例如，當(dāng)客戶使用5000卡異構(gòu)集群訓(xùn)練時，商湯通過熱備機冗余和任務(wù)拆分優(yōu)化，將國產(chǎn)芯片利用率提升至80%，遠超行業(yè)平均50%-60%的水平。

這一技術(shù)組合不僅緩解了芯片供應(yīng)鏈波動帶來的成本壓力，也降低了中小企業(yè)接入AI的門檻。

當(dāng)然，「日日新V6」的發(fā)布并非單純的技術(shù)秀，其真正價值在于深度嵌入真實業(yè)務(wù)場景。

比如在消費領(lǐng)域，V6的「購物比價」功能可通過圖片識別商品參數(shù)，結(jié)合跨平臺價格數(shù)據(jù)，實時計算最優(yōu)購買方案。

想象一下，用戶上傳抽紙包裝圖，模型可精確對比不同電商平臺的單價，甚至將優(yōu)惠券、滿減規(guī)則納入計算。

在教育場景，V6的「一對一私教」模式支持手寫解題分析與實時語音答疑，其多模態(tài)交互模型SenseNova V6 Omni能根據(jù)兒童提問動態(tài)調(diào)整故事講述風(fēng)格，實現(xiàn)繪本點讀與情感化互動。

更具戰(zhàn)略意義的是其在具身智能領(lǐng)域的突破。

發(fā)布會現(xiàn)場，商湯官宣與傅利葉機器人合作，基于V6 Omni實現(xiàn)了語言、行為與環(huán)境感知的統(tǒng)一。

比如，機器人可通過攝像頭識別用戶手勢，結(jié)合語音指令調(diào)整動作，在輸出「請遞水杯」語音的同時，同步完成抓取與移動的連貫操作。

這一能力依賴V6的多模態(tài)上下文表達技術(shù)——將語音、視頻、文本與時間軸對齊，為機器人提供了更豐富的訓(xùn)練數(shù)據(jù)與泛化能力。

「選擇具身智能并不是我主動的選擇，更多的還是主要在服務(wù)科技創(chuàng)新的群體。」商湯科技聯(lián)合創(chuàng)始人、大裝置事業(yè)群總裁楊帆說。同時做基礎(chǔ)大裝置和大模型是商湯科技的一大特色，其中比較典型的協(xié)同場景是對推理過程做預(yù)填充和解碼的分離，這是一種架構(gòu)優(yōu)化技術(shù)，可以提升 GPU 硬件利用率并降低推理延遲。

「日日新V6」的推出，恰逢多模態(tài)AI成為行業(yè)競爭主戰(zhàn)場。

現(xiàn)在，OpenAI的o1、谷歌Gemini 2.0 Pro均在探索跨模態(tài)推理，但商湯通過「長思維鏈+低成本」組合形成了差異化優(yōu)勢。

當(dāng)前，視頻內(nèi)容消費市場快速增長，快手、抖音等平臺對中長視頻解析的需求激增，而傳統(tǒng)模型受限于短視頻處理能力。V6的10分鐘全幀率解析與智能剪輯功能，不僅滿足了用戶保留「高光時刻」的需求，也為廣告、教育、文旅等內(nèi)容創(chuàng)作者提供了自動化工具。

商湯首席科學(xué)家林達華透露，年內(nèi)將實現(xiàn)1小時視頻的端到端分析，進一步搶占視頻大模型市場。

另一方面，AI普惠化趨勢要求技術(shù)供應(yīng)商兼顧性能與成本。商湯通過開放API與「商量APP」內(nèi)測，將V6的能力輸出至開發(fā)者生態(tài)。

比如，中小企業(yè)可直接調(diào)用V6的預(yù)訓(xùn)練模型完成商品比價、財務(wù)審核等任務(wù)，僅需針對場景微調(diào)少量參數(shù)，大幅降低開發(fā)周期與資源投入。

這種「即插即用」模式，正推動AI從實驗室技術(shù)向規(guī)?；瘧?yīng)用轉(zhuǎn)型。

而在制造業(yè)，商湯科技也正用預(yù)訓(xùn)練模型實現(xiàn)「即插即用」的產(chǎn)線升級，意在讓AI像水電一樣滲透到每個行業(yè)的基礎(chǔ)設(shè)施中。

而「百姓之日用」的初心，或?qū)椭虦谌駻I競賽中走出一條差異化路徑——技術(shù)領(lǐng)先性固然重要，但只有當(dāng)創(chuàng)新真正服務(wù)于人的需求時，才能真正定義未來的規(guī)則。

商湯的野心已經(jīng)不止于單一模型。

它正通過「日日新V6」，其正構(gòu)建一個涵蓋硬件、算法、開發(fā)者的全棧生態(tài)。

例如，與阿里、騰訊等云廠商類似，商湯將大模型與自研的AI基礎(chǔ)設(shè)施（如異構(gòu)算力調(diào)度系統(tǒng)）深度整合，形成「模型-算力-場景」閉環(huán)。

這種協(xié)同效應(yīng)在具身智能、智慧城市等長尾場景中尤為顯著——商湯既提供底層算力支持，又通過模型優(yōu)化解決具體問題，形成技術(shù)壁壘。

但挑戰(zhàn)也依然存在，開源社區(qū)的快速發(fā)展正在縮小技術(shù)差距，而倫理與數(shù)據(jù)安全風(fēng)險仍需謹慎應(yīng)對。

商湯的回應(yīng)是聚焦「行業(yè)深度結(jié)合」，例如在醫(yī)療領(lǐng)域通過國密認證數(shù)據(jù)沙箱處理敏感信息，在確保合規(guī)的同時提升落地效率。

這種「技術(shù)+場景+合規(guī)」的三維策略，或?qū)⒊蔀槠湓诩ち腋偁幹斜３诸I(lǐng)先的關(guān)鍵。

現(xiàn)在，商湯科技正通過多模態(tài)深度推理與獨創(chuàng)的低成本架構(gòu)，重新劃定了AI的能力疆界——從保險理賠的秒級審核到教育場景的智能私教，從消費比價的精準(zhǔn)推薦到具身機器人的連貫操作，技術(shù)不再局限于實驗室參數(shù)，而是深度嵌入百姓生活的毛細血管。

正呼應(yīng)了徐立那句，「AI之道在于百姓之日用」。

這些理念都在V6的落地應(yīng)用中逐漸得到最直觀的印證：當(dāng)技術(shù)真正解決日常痛點時，普惠價值才能被激活。

【關(guān)注智能汽車，關(guān)注智駕網(wǎng)視頻號】

關(guān)注汽車的智駕時代上智駕網(wǎng)（http://autor.com.cn）
合作or新聞線索提供，聯(lián)系郵箱：editor@autor.com.cn

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.