關(guān)于商湯新一代多模態(tài)大模型“日日新V6”,徐立表示,一些核心的指標(biāo),在純文本和多模態(tài)的單任務(wù)和復(fù)雜任務(wù)的推理之上,商湯都居于行業(yè)前列。
文|深度AI 王欣
編輯|July
在4月10日的技術(shù)交流日上,商湯科技展示了其在人工智能基礎(chǔ)設(shè)施與多模態(tài)大模型領(lǐng)域的最新突破。
當(dāng)天,商湯科技新一代多模態(tài)大模型「日日新V6」(SenseNova V6)發(fā)布,以「強推理、強交互、長記憶」為核心突破,重新定義了AI在復(fù)雜場景中的應(yīng)用范式。
據(jù)悉,這一模型不僅通過技術(shù)創(chuàng)新實現(xiàn)了對OpenAI o1、GPT-4o等國際頂尖模型的性能對標(biāo),更以「成本最低、效率最高」的標(biāo)簽推動AI技術(shù)向普惠化邁進。
商湯科技董事長徐立在發(fā)布會上重申核心理念:「AI之道,在于百姓之日用」,強調(diào)技術(shù)需服務(wù)于日常生活的真實需求。
作為擁有超6000億參數(shù)的混合專家架構(gòu)(MoE)模型,「日日新V6」在權(quán)威的推理能力及多模態(tài)能力評測中多個維度獲得SOTA。
▲日日新v6純文本推理與多模態(tài)推理能力均對標(biāo)GPT-4.5 和 Gemini 2.0 Pro成績
除此之外,「日日新V6」的核心競爭力在于其多模態(tài)長思維鏈技術(shù)。
通過整合200B高質(zhì)量多模態(tài)長思維鏈數(shù)據(jù),模型支持最長64K的跨模態(tài)邏輯推理,能夠?qū)ξ谋尽D像、視頻、語音進行時序?qū)R與全局記憶處理。
例如,在保險理賠場景中,V6可同時解析醫(yī)療單據(jù)、影像報告和語音描述,自動交叉驗證材料完整性,將原本需3-7天的審核流程壓縮至秒級響應(yīng)。
這一能力源于其動態(tài)過濾與級聯(lián)壓縮技術(shù)——10分鐘的視頻可被壓縮至16K tokens,同時保留關(guān)鍵語義幀與上下文邏輯,為長視頻理解提供了新范式。
在成本控制上,商湯通過異構(gòu)算力調(diào)度與動態(tài)彈性擴縮容技術(shù),將推理成本降至行業(yè)最低。
例如,當(dāng)客戶使用5000卡異構(gòu)集群訓(xùn)練時,商湯通過熱備機冗余和任務(wù)拆分優(yōu)化,將國產(chǎn)芯片利用率提升至80%,遠超行業(yè)平均50%-60%的水平。
這一技術(shù)組合不僅緩解了芯片供應(yīng)鏈波動帶來的成本壓力,也降低了中小企業(yè)接入AI的門檻。
當(dāng)然,「日日新V6」的發(fā)布并非單純的技術(shù)秀,其真正價值在于深度嵌入真實業(yè)務(wù)場景。
比如在消費領(lǐng)域,V6的「購物比價」功能可通過圖片識別商品參數(shù),結(jié)合跨平臺價格數(shù)據(jù),實時計算最優(yōu)購買方案。
想象一下,用戶上傳抽紙包裝圖,模型可精確對比不同電商平臺的單價,甚至將優(yōu)惠券、滿減規(guī)則納入計算。
在教育場景,V6的「一對一私教」模式支持手寫解題分析與實時語音答疑,其多模態(tài)交互模型SenseNova V6 Omni能根據(jù)兒童提問動態(tài)調(diào)整故事講述風(fēng)格,實現(xiàn)繪本點讀與情感化互動。
更具戰(zhàn)略意義的是其在具身智能領(lǐng)域的突破。
發(fā)布會現(xiàn)場,商湯官宣與傅利葉機器人合作,基于V6 Omni實現(xiàn)了語言、行為與環(huán)境感知的統(tǒng)一。
比如,機器人可通過攝像頭識別用戶手勢,結(jié)合語音指令調(diào)整動作,在輸出「請遞水杯」語音的同時,同步完成抓取與移動的連貫操作。
這一能力依賴V6的多模態(tài)上下文表達技術(shù)——將語音、視頻、文本與時間軸對齊,為機器人提供了更豐富的訓(xùn)練數(shù)據(jù)與泛化能力。
「選擇具身智能并不是我主動的選擇,更多的還是主要在服務(wù)科技創(chuàng)新的群體。」商湯科技聯(lián)合創(chuàng)始人、大裝置事業(yè)群總裁楊帆說。同時做基礎(chǔ)大裝置和大模型是商湯科技的一大特色,其中比較典型的協(xié)同場景是對推理過程做預(yù)填充和解碼的分離,這是一種架構(gòu)優(yōu)化技術(shù),可以提升 GPU 硬件利用率并降低推理延遲。
「日日新V6」的推出,恰逢多模態(tài)AI成為行業(yè)競爭主戰(zhàn)場。
現(xiàn)在,OpenAI的o1、谷歌Gemini 2.0 Pro均在探索跨模態(tài)推理,但商湯通過「長思維鏈+低成本」組合形成了差異化優(yōu)勢。
當(dāng)前,視頻內(nèi)容消費市場快速增長,快手、抖音等平臺對中長視頻解析的需求激增,而傳統(tǒng)模型受限于短視頻處理能力。V6的10分鐘全幀率解析與智能剪輯功能,不僅滿足了用戶保留「高光時刻」的需求,也為廣告、教育、文旅等內(nèi)容創(chuàng)作者提供了自動化工具。
商湯首席科學(xué)家林達華透露,年內(nèi)將實現(xiàn)1小時視頻的端到端分析,進一步搶占視頻大模型市場。
另一方面,AI普惠化趨勢要求技術(shù)供應(yīng)商兼顧性能與成本。商湯通過開放API與「商量APP」內(nèi)測,將V6的能力輸出至開發(fā)者生態(tài)。
比如,中小企業(yè)可直接調(diào)用V6的預(yù)訓(xùn)練模型完成商品比價、財務(wù)審核等任務(wù),僅需針對場景微調(diào)少量參數(shù),大幅降低開發(fā)周期與資源投入。
這種「即插即用」模式,正推動AI從實驗室技術(shù)向規(guī)?;瘧?yīng)用轉(zhuǎn)型。
而在制造業(yè),商湯科技也正用預(yù)訓(xùn)練模型實現(xiàn)「即插即用」的產(chǎn)線升級,意在讓AI像水電一樣滲透到每個行業(yè)的基礎(chǔ)設(shè)施中。
而「百姓之日用」的初心,或?qū)椭虦谌駻I競賽中走出一條差異化路徑——技術(shù)領(lǐng)先性固然重要,但只有當(dāng)創(chuàng)新真正服務(wù)于人的需求時,才能真正定義未來的規(guī)則。
商湯的野心已經(jīng)不止于單一模型。
它正通過「日日新V6」,其正構(gòu)建一個涵蓋硬件、算法、開發(fā)者的全棧生態(tài)。
例如,與阿里、騰訊等云廠商類似,商湯將大模型與自研的AI基礎(chǔ)設(shè)施(如異構(gòu)算力調(diào)度系統(tǒng))深度整合,形成「模型-算力-場景」閉環(huán)。
這種協(xié)同效應(yīng)在具身智能、智慧城市等長尾場景中尤為顯著——商湯既提供底層算力支持,又通過模型優(yōu)化解決具體問題,形成技術(shù)壁壘。
但挑戰(zhàn)也依然存在,開源社區(qū)的快速發(fā)展正在縮小技術(shù)差距,而倫理與數(shù)據(jù)安全風(fēng)險仍需謹慎應(yīng)對。
商湯的回應(yīng)是聚焦「行業(yè)深度結(jié)合」,例如在醫(yī)療領(lǐng)域通過國密認證數(shù)據(jù)沙箱處理敏感信息,在確保合規(guī)的同時提升落地效率。
這種「技術(shù)+場景+合規(guī)」的三維策略,或?qū)⒊蔀槠湓诩ち腋偁幹斜3诸I(lǐng)先的關(guān)鍵。
現(xiàn)在,商湯科技正通過多模態(tài)深度推理與獨創(chuàng)的低成本架構(gòu),重新劃定了AI的能力疆界——從保險理賠的秒級審核到教育場景的智能私教,從消費比價的精準(zhǔn)推薦到具身機器人的連貫操作,技術(shù)不再局限于實驗室參數(shù),而是深度嵌入百姓生活的毛細血管。
正呼應(yīng)了徐立那句,「AI之道在于百姓之日用」。
這些理念都在V6的落地應(yīng)用中逐漸得到最直觀的印證:當(dāng)技術(shù)真正解決日常痛點時,普惠價值才能被激活。
【關(guān)注智能汽車,關(guān)注智駕網(wǎng)視頻號】
關(guān)注汽車的智駕時代上智駕網(wǎng)(http://autor.com.cn)
合作or新聞線索提供,聯(lián)系郵箱:editor@autor.com.cn
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.