擁有行業最強多模態推理與交互能力的商湯「日日新 SenseNova V6」來了。
如果讓大模型像人一樣聰明,應該是什么樣的?
你可能會回答,我們生活的世界紛繁復雜,常常涉及多模態信息(如聲音、文字、視覺、時間、空間等等),對大模型提出了極為復雜和嚴苛的挑戰。
這要求大模型必須擁有極強的推理和交互能力。
GPT-4o 的出現讓我們看到了人機交互新方式。就像這樣,它可以為你講解數學題。
可以說,一直以來,GPT-4o 是可交互模型的行業標桿。
現在,來自國內的一款大模型,表現甚至更勝一籌。
下面是來自國產大模型的解題過程,它能循序漸進的教你如何解題,看起來比 GPT-4o 更像一位有耐心的老師:
又比如,我們指尖指向哪個單詞,它就進行精準翻譯,并自動生成單詞卡,整個過程自然絲滑。
這正是商湯全新升級的融合多模態模型「日日新 SenseNova V6」(以下簡稱:日日新 V6)在 APP 端的體驗效果。
模型通過多模態長思維鏈訓練、全局記憶、強化學習等方面的技術突破,擁有行業最強的多模態推理與交互能力。
相比此前 V5.5 版本,日日新 V6 / V6 Reasoner 推理能力顯著增強。其中在多模態推理任務上,SenseNova V6 Reasoner 同時超過了 OpenAI 的 o1 和 Gemini 2.0 flash-thinking 。在語言深度推理任務上,SenseNova V6 Reasoner 也同樣超過了 OpenAI 的 o1 和 Gemini 2.0 flash-thinking。
日日新 V6 在權威的推理能力及多模態能力評測中,也處于行業領先水平。在純文本和多模態任務上,多項指標超越 GPT-4.5、Gemini 2.0 Pro,并且在純文本任務上全面超越 DeepSeek V3。純文本推理與多模態推理能力均對標 GPT-4.5 和 Gemini 2.0 Pro 等國際一流模型的水平。
在強推理能力上,日日新 V6 大幅領先 GPT-4o。
此外,日日新 V6 在音頻理解、視覺理解等基準上也處于領先水平。
目前,日日新 V6 已經正式開放 API,并可通過商量 Web、商量 App(內測版),以及商湯小浣熊、咔皮記賬等應用進行體驗。
一手實測:主打多模態與深度思考的融合
既然日日新 V6 各項指標已經做到了全面領先水平,那真實體驗效果如何呢?
接下來,我們第一時間上手實測一下日日新 V6 大模型,看看它在實際應用場景中的表現究竟如何。
首先考考它的推理能力。
我們出了一道純文本的邏輯推理題,商量花了 42 秒進行了深度思考,先根據題目條件來逐步推理,再倒推驗證,最終給出正確答案,整個思路非常清晰。
商量還支持多模態深度思考,換句話說,我們不僅可以輸入文字,還可以上傳最多 4 張圖片。
比如,我們上傳了一張莫妮卡?貝魯奇的經典劇照,看它能否準確說出其出處。
商量綜合分析了紅發黑裙的人物造型,石板街道、戶外咖啡館等場景細節,以及主題氛圍和視覺風格,最后認出這是《西西里的美麗傳說》。同時,它還一并回答了該電影的導演以及主要的影片內容。
接著,我們又測了下它的交互能力,涉及數學講題、翻譯點讀、文旅講解和繪本故事四大應用場景。
對于年輕父母來說,輔導孩子學習可是一件苦差事,甚至「不寫作業,母慈子孝;一寫作業,雞飛狗跳」一度成為網絡熱梗,而商量的「數學講題」場景,簡直幫了父母們的大忙。
它包括判題和講題兩大功能。只要拿著孩子寫的試卷,咔嚓拍個照,它就能精準識別手寫答案,而且它的深度思考模式可顯著提高解題準確性,正確率可達到 95%。
同時,基于強大的音視頻溝通能力,商量還搞了個「免費數學私教」,不僅能快速鎖定孩子在解題中的錯誤、以引導提問的方式逐步剖析解題思路,還可以實時一對一語音答疑。
視頻開啟 2 倍速
給孩子講繪本故事也讓不少家長頭疼,雖然繪本圖文并茂,但照本宣科講出來就顯得干干巴巴。商量則通過多模態識別與語音表達技術,將繪本內容進行情感化演繹,融入語音互動或后續故事問答等內容。
如果出門旅游,商量還是個合格的導游。拍攝一段文物或景點畫面,它就能聲情并茂地講解相關歷史背景。
從基準測試到實際體驗來看,毫不夸張的說,日日新 V6 確實是一位名副其實的全能優等生。大家可能會疑問了,打造這樣一款大模型體系,成本一定很高吧。
事實上成本與效率這塊商湯也拿捏了。
技術解讀:原生融合多模態,還有獨門技術
在日日新 V6 大模型上,商湯通過一系列創新性的技術突破和商業策略,成功實現了高性能與低成本的完美平衡。
從硬件基礎說起,利用商湯大裝置,商湯構建了「模型 - 系統 - 計算」的垂直整合體系,實現了大模型算法與基礎設施的聯合優化,大幅提升了日日新 V6 的訓練和推理效率。
依靠 6D 自動并行、FP8 低精度訓練等技術,日日新 V6 的訓練成本達到了行業最優水平。在推理時,日日新 V6 實現了生產級的 INT4 量化、高適應性的分級緩存、分鐘級彈性擴縮容,整體推理成本也做到了行業最低,效率超過了 DeepSeek。
在此之上的大模型算法,也是商湯在 AI 領域深耕多年的結果。
如今,多模態大模型已成為人們追求的方向。然而,我們在很多應用中接觸到的多模態模型并不能說是「完全體」。正如我們在很多應用中所接觸到的,不少大模型是把圖像、語音、文本分別訓練好,再用「膠水代碼」粘在一起。就像用翻譯軟件先把圖片轉文字,再把文字轉成語音 —— 看似多模態,實際上是多個單模態在接力干活。
真正的多模態應該像人類感官與大腦,比如當人類看到蘋果時,視覺(顏色)、觸覺(手感)、味覺(甜味)是同時感知的。
商湯從一開始就全面瞄準多模態。他們從模型底層架構和數據訓練階段就實現不同模態(如文本、圖像、音頻、視頻等)的統一理解和生成,而非后期拼接多個單模態模型。
去年 7 月,商湯推出的日日新 SenseNova 5.5 大模型體系引發了業內關注。它是國內首個流式原生多模態交互模型,擁有 6000 億參數,基于超過 10TB tokens 的高質量訓練數據實現了 109.5 字 / 秒的推理速度。
今年 1 月,商湯在原生融合多模態訓練上實現突破,發布了「日日新」融合大模型。并在 SuperCLUE 2024 年語言模型綜合榜單、OpenCompass 多模態綜合榜單上取得了國內模型榜首的成績,驗證和商湯融合訓練技術的巨大潛力。
沿著這一路徑,商湯進行了進一步優化和規模擴展,并在日日新 V6 上實現了多模態綜合性能的顯著提升。
日日新 V6 進一步強化了推理能力,它可以支撐起對人類意圖的深化理解,對復雜信息進行分析判斷,并解決真實環境中的難題。與此同時,它還可以充分理解感情,與人進行流暢的交互。它擁有足夠長的記憶,能夠記住過去一段時間內發生的事,并將記憶內信息融入推理。
模態越多,大模型處理的實際上下文就越長。在思維鏈上,商湯通過多智能體協作進行長思維鏈合成和驗證,實現了多模態長思維鏈合成技術,可以支持合成最長64K token 的多模態長思維鏈,這相當于讓模型在給出答案之前可以連續進行長達 6 萬字的思考,讓模型具備了面對復雜問題的長時間思考能力。
日日新 V6 的思維鏈引擎中,商湯調用了一系列以往在計算機視覺方面的能力,包括視頻、圖像、3D 等以給出主思維鏈的反饋,其輸出的多模態思維鏈會被智能體改寫為符合模型的訓練格式。日日新 V6 在思考時還可以調用沙盒甚至外部代碼能力來呈現出更好的思維鏈。
這就讓日日新 V6 在做立體幾何問題時,甚至可以做輔助線。
前不久,DeepSeek R1 通過強化學習算法 GRPO 取得了突破,商湯在 SenseNova V6 上為大模型帶來了多模態混合強化學習,面向多種圖文任務構建起混合增強學習框架,可以同步進行基于人類偏好的 RLHF 和基于確定性答案的 RFT,并且通過動態調節機制保證主客觀表現的均衡,能在提升推理能力的同時不損害模型的情感表達。
在這個過程中,原始的多模態模型可以被調用到獎勵模型中,獲得先驗知識的反饋,隨著持續反思,模型的響應長度變得更長,這也意味著推理變得更仔細。
最后,日日新 V6 還具備獨一無二的長視頻統一表征和動態壓縮能力,它可以將視覺、聽覺、文本、時間軸邏輯進行對齊,形成多模態統一的時序表征,通過細粒度級聯信息壓縮和內容敏感的動態過濾,實現長視頻的 400 倍高比例壓縮。據介紹,商湯的大模型可以把 10 分鐘視頻壓縮到僅有 16K tokens,仍能保留關鍵語義。
對于真實世界中的應用,這一系列技術至關重要。
發布會現場,我們看到商湯與傅利葉機器人合作,基于 SenseNova V6,傅利葉機器人可以通過融合圖像、視頻、語音和文本信息理解環境進行思考與表達,洞察用戶的需求與情緒,與人類進行順暢交互,機器人在說話的同時,還能同步生成與語義相匹配的動作,實現語言與行為的統一。
此外還有更多搭載 SenseNova V6 的 AI 產品和應用,涵蓋辦公、兒童教育、金融、翻譯、電商購物、情感陪伴、支付等等,讓我們感受到,AI 已經落實于百姓的日常生活場景。
生成式 AI,正在進入新時代
時間進入 2025 年,大模型技術的發展正在進入新的階段,一些重要技術已經走入瓶頸期,新的方向正在出現。
圖靈獎得主、Meta 首席 AI 科學家 Yann LeCun 在談及 AI 為何難以做出科學發現時曾表示,純粹的語言模型不能完整地表達智能,無法創造新的事物。
基于文本的生成式 AI 也在接近「上限」,大語言模型的發展正在快速耗盡互聯網的文本數據。OpenAI 聯合創始人 Ilya Sutskever 認為,耗盡的時間會在 2028 年前后。
另一方面,在數字世界、物理世界中還有很多、甚至更大數量級的更多模態的內容還沒有挖掘。
從 DeepSeek 橫空出世,到英偉達 H300 超算的發布,我們可以觀察到,AI 領域正在出現幾個新的趨勢:
- 首先是對于 Scaling Laws 的新思考,隨著大模型參數和訓練數據量級增加效益的遞減,業界正在逐漸把關注點轉向效率提升;
- 其次是多模態能力,從 GPT-4o 和最近發布的 Llama 4 上可以看出,具備原生的多模態能力,能夠實現更深度、更廣泛的信息交互與整合,將會成為未來大模型的競爭重點;
- 在它們的基礎上,大模型的強推理則會成為人們打造復雜任務智能體,實現高價值場景應用的關鍵。
有趣的是這三個方面,也正是商湯的優勢項:憑借大量融入真實業務的應用,商湯構建出的大模型體系擁有處理復雜信息和解決復雜問題的能力;多年在計算機視覺等方向上的積累,讓商湯在大模型邁向多模態時具備了絕對優勢;在算力方面,商湯的大裝置 SenseCore 一直在推動 AI 算力設施、應用與行業需求的深度融合,其能力還在不斷增長。
在 AI 2.0 時代,基礎設施、大模型和應用三者的關系已變得密不可分。越來越廣泛的應用場景在推動著 AI 模型的發展,AI 技術也在不斷創造并推動新的應用需求;與此同時,對大模型優化的 AI 基礎設施正在出現,新的模型也在催生著更為強大的技術。
未來,商湯的日日新大模型,還會向生產力工具 + 交互工具兩大方向進行大規模落地。其中生產力工具面向傳統企業、金融、政務等領域,能幫助人們提升工作效率、優化工作流程;交互工具則面向所有普通用戶,覆蓋從智能助手、智能硬件到智能營銷……
過不了多久,最常見的日常場景,也都能用上原生多模態 AI 的力量。
文中視頻鏈接:
https://mp.weixin.qq.com/s/Fy1Yk94_NvYuwVRge2PXGA
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.