網易首頁 > 網易號 > 正文申請入駐

原生多模態大模型也能強化學習，思維鏈長達幾萬字，商湯日日新V6

2025-04-14 07:45:01　來源: 機器之心Pro

河北舉報

分享至

擁有行業最強多模態推理與交互能力的商湯「日日新 SenseNova V6」來了。

如果讓大模型像人一樣聰明，應該是什么樣的？

你可能會回答，我們生活的世界紛繁復雜，常常涉及多模態信息（如聲音、文字、視覺、時間、空間等等），對大模型提出了極為復雜和嚴苛的挑戰。

這要求大模型必須擁有極強的推理和交互能力。

GPT-4o 的出現讓我們看到了人機交互新方式。就像這樣，它可以為你講解數學題。

可以說，一直以來，GPT-4o 是可交互模型的行業標桿。

現在，來自國內的一款大模型，表現甚至更勝一籌。

下面是來自國產大模型的解題過程，它能循序漸進的教你如何解題，看起來比 GPT-4o 更像一位有耐心的老師：

又比如，我們指尖指向哪個單詞，它就進行精準翻譯，并自動生成單詞卡，整個過程自然絲滑。

這正是商湯全新升級的融合多模態模型「日日新 SenseNova V6」（以下簡稱：日日新 V6）在 APP 端的體驗效果。

模型通過多模態長思維鏈訓練、全局記憶、強化學習等方面的技術突破，擁有行業最強的多模態推理與交互能力。

相比此前 V5.5 版本，日日新 V6 / V6 Reasoner 推理能力顯著增強。其中在多模態推理任務上，SenseNova V6 Reasoner 同時超過了 OpenAI 的 o1 和 Gemini 2.0 flash-thinking 。在語言深度推理任務上，SenseNova V6 Reasoner 也同樣超過了 OpenAI 的 o1 和 Gemini 2.0 flash-thinking。

日日新 V6 在權威的推理能力及多模態能力評測中，也處于行業領先水平。在純文本和多模態任務上，多項指標超越 GPT-4.5、Gemini 2.0 Pro，并且在純文本任務上全面超越 DeepSeek V3。純文本推理與多模態推理能力均對標 GPT-4.5 和 Gemini 2.0 Pro 等國際一流模型的水平。

在強推理能力上，日日新 V6 大幅領先 GPT-4o。

此外，日日新 V6 在音頻理解、視覺理解等基準上也處于領先水平。

目前，日日新 V6 已經正式開放 API，并可通過商量 Web、商量 App（內測版），以及商湯小浣熊、咔皮記賬等應用進行體驗。

一手實測：主打多模態與深度思考的融合

既然日日新 V6 各項指標已經做到了全面領先水平，那真實體驗效果如何呢？

接下來，我們第一時間上手實測一下日日新 V6 大模型，看看它在實際應用場景中的表現究竟如何。

首先考考它的推理能力。

我們出了一道純文本的邏輯推理題，商量花了 42 秒進行了深度思考，先根據題目條件來逐步推理，再倒推驗證，最終給出正確答案，整個思路非常清晰。

商量還支持多模態深度思考，換句話說，我們不僅可以輸入文字，還可以上傳最多 4 張圖片。

比如，我們上傳了一張莫妮卡?貝魯奇的經典劇照，看它能否準確說出其出處。

商量綜合分析了紅發黑裙的人物造型，石板街道、戶外咖啡館等場景細節，以及主題氛圍和視覺風格，最后認出這是《西西里的美麗傳說》。同時，它還一并回答了該電影的導演以及主要的影片內容。

接著，我們又測了下它的交互能力，涉及數學講題、翻譯點讀、文旅講解和繪本故事四大應用場景。

對于年輕父母來說，輔導孩子學習可是一件苦差事，甚至「不寫作業，母慈子孝；一寫作業，雞飛狗跳」一度成為網絡熱梗，而商量的「數學講題」場景，簡直幫了父母們的大忙。

它包括判題和講題兩大功能。只要拿著孩子寫的試卷，咔嚓拍個照，它就能精準識別手寫答案，而且它的深度思考模式可顯著提高解題準確性，正確率可達到 95%。

同時，基于強大的音視頻溝通能力，商量還搞了個「免費數學私教」，不僅能快速鎖定孩子在解題中的錯誤、以引導提問的方式逐步剖析解題思路，還可以實時一對一語音答疑。

視頻開啟 2 倍速

給孩子講繪本故事也讓不少家長頭疼，雖然繪本圖文并茂，但照本宣科講出來就顯得干干巴巴。商量則通過多模態識別與語音表達技術，將繪本內容進行情感化演繹，融入語音互動或后續故事問答等內容。

如果出門旅游，商量還是個合格的導游。拍攝一段文物或景點畫面，它就能聲情并茂地講解相關歷史背景。

從基準測試到實際體驗來看，毫不夸張的說，日日新 V6 確實是一位名副其實的全能優等生。大家可能會疑問了，打造這樣一款大模型體系，成本一定很高吧。

事實上成本與效率這塊商湯也拿捏了。

技術解讀：原生融合多模態，還有獨門技術

在日日新 V6 大模型上，商湯通過一系列創新性的技術突破和商業策略，成功實現了高性能與低成本的完美平衡。

從硬件基礎說起，利用商湯大裝置，商湯構建了「模型 - 系統 - 計算」的垂直整合體系，實現了大模型算法與基礎設施的聯合優化，大幅提升了日日新 V6 的訓練和推理效率。

依靠 6D 自動并行、FP8 低精度訓練等技術，日日新 V6 的訓練成本達到了行業最優水平。在推理時，日日新 V6 實現了生產級的 INT4 量化、高適應性的分級緩存、分鐘級彈性擴縮容，整體推理成本也做到了行業最低，效率超過了 DeepSeek。

在此之上的大模型算法，也是商湯在 AI 領域深耕多年的結果。

如今，多模態大模型已成為人們追求的方向。然而，我們在很多應用中接觸到的多模態模型并不能說是「完全體」。正如我們在很多應用中所接觸到的，不少大模型是把圖像、語音、文本分別訓練好，再用「膠水代碼」粘在一起。就像用翻譯軟件先把圖片轉文字，再把文字轉成語音 —— 看似多模態，實際上是多個單模態在接力干活。

真正的多模態應該像人類感官與大腦，比如當人類看到蘋果時，視覺（顏色）、觸覺（手感）、味覺（甜味）是同時感知的。

商湯從一開始就全面瞄準多模態。他們從模型底層架構和數據訓練階段就實現不同模態（如文本、圖像、音頻、視頻等）的統一理解和生成，而非后期拼接多個單模態模型。

去年 7 月，商湯推出的日日新 SenseNova 5.5 大模型體系引發了業內關注。它是國內首個流式原生多模態交互模型，擁有 6000 億參數，基于超過 10TB tokens 的高質量訓練數據實現了 109.5 字 / 秒的推理速度。

今年 1 月，商湯在原生融合多模態訓練上實現突破，發布了「日日新」融合大模型。并在 SuperCLUE 2024 年語言模型綜合榜單、OpenCompass 多模態綜合榜單上取得了國內模型榜首的成績，驗證和商湯融合訓練技術的巨大潛力。

沿著這一路徑，商湯進行了進一步優化和規模擴展，并在日日新 V6 上實現了多模態綜合性能的顯著提升。

日日新 V6 進一步強化了推理能力，它可以支撐起對人類意圖的深化理解，對復雜信息進行分析判斷，并解決真實環境中的難題。與此同時，它還可以充分理解感情，與人進行流暢的交互。它擁有足夠長的記憶，能夠記住過去一段時間內發生的事，并將記憶內信息融入推理。

模態越多，大模型處理的實際上下文就越長。在思維鏈上，商湯通過多智能體協作進行長思維鏈合成和驗證，實現了多模態長思維鏈合成技術，可以支持合成最長64K token 的多模態長思維鏈，這相當于讓模型在給出答案之前可以連續進行長達 6 萬字的思考，讓模型具備了面對復雜問題的長時間思考能力。

日日新 V6 的思維鏈引擎中，商湯調用了一系列以往在計算機視覺方面的能力，包括視頻、圖像、3D 等以給出主思維鏈的反饋，其輸出的多模態思維鏈會被智能體改寫為符合模型的訓練格式。日日新 V6 在思考時還可以調用沙盒甚至外部代碼能力來呈現出更好的思維鏈。

這就讓日日新 V6 在做立體幾何問題時，甚至可以做輔助線。

前不久，DeepSeek R1 通過強化學習算法 GRPO 取得了突破，商湯在 SenseNova V6 上為大模型帶來了多模態混合強化學習，面向多種圖文任務構建起混合增強學習框架，可以同步進行基于人類偏好的 RLHF 和基于確定性答案的 RFT，并且通過動態調節機制保證主客觀表現的均衡，能在提升推理能力的同時不損害模型的情感表達。

在這個過程中，原始的多模態模型可以被調用到獎勵模型中，獲得先驗知識的反饋，隨著持續反思，模型的響應長度變得更長，這也意味著推理變得更仔細。

最后，日日新 V6 還具備獨一無二的長視頻統一表征和動態壓縮能力，它可以將視覺、聽覺、文本、時間軸邏輯進行對齊，形成多模態統一的時序表征，通過細粒度級聯信息壓縮和內容敏感的動態過濾，實現長視頻的 400 倍高比例壓縮。據介紹，商湯的大模型可以把 10 分鐘視頻壓縮到僅有 16K tokens，仍能保留關鍵語義。

對于真實世界中的應用，這一系列技術至關重要。

發布會現場，我們看到商湯與傅利葉機器人合作，基于 SenseNova V6，傅利葉機器人可以通過融合圖像、視頻、語音和文本信息理解環境進行思考與表達，洞察用戶的需求與情緒，與人類進行順暢交互，機器人在說話的同時，還能同步生成與語義相匹配的動作，實現語言與行為的統一。

此外還有更多搭載 SenseNova V6 的 AI 產品和應用，涵蓋辦公、兒童教育、金融、翻譯、電商購物、情感陪伴、支付等等，讓我們感受到，AI 已經落實于百姓的日常生活場景。

生成式 AI，正在進入新時代

時間進入 2025 年，大模型技術的發展正在進入新的階段，一些重要技術已經走入瓶頸期，新的方向正在出現。

圖靈獎得主、Meta 首席 AI 科學家 Yann LeCun 在談及 AI 為何難以做出科學發現時曾表示，純粹的語言模型不能完整地表達智能，無法創造新的事物。

基于文本的生成式 AI 也在接近「上限」，大語言模型的發展正在快速耗盡互聯網的文本數據。OpenAI 聯合創始人 Ilya Sutskever 認為，耗盡的時間會在 2028 年前后。

另一方面，在數字世界、物理世界中還有很多、甚至更大數量級的更多模態的內容還沒有挖掘。

從 DeepSeek 橫空出世，到英偉達 H300 超算的發布，我們可以觀察到，AI 領域正在出現幾個新的趨勢：

首先是對于 Scaling Laws 的新思考，隨著大模型參數和訓練數據量級增加效益的遞減，業界正在逐漸把關注點轉向效率提升；
其次是多模態能力，從 GPT-4o 和最近發布的 Llama 4 上可以看出，具備原生的多模態能力，能夠實現更深度、更廣泛的信息交互與整合，將會成為未來大模型的競爭重點；
在它們的基礎上，大模型的強推理則會成為人們打造復雜任務智能體，實現高價值場景應用的關鍵。

有趣的是這三個方面，也正是商湯的優勢項：憑借大量融入真實業務的應用，商湯構建出的大模型體系擁有處理復雜信息和解決復雜問題的能力；多年在計算機視覺等方向上的積累，讓商湯在大模型邁向多模態時具備了絕對優勢；在算力方面，商湯的大裝置 SenseCore 一直在推動 AI 算力設施、應用與行業需求的深度融合，其能力還在不斷增長。

在 AI 2.0 時代，基礎設施、大模型和應用三者的關系已變得密不可分。越來越廣泛的應用場景在推動著 AI 模型的發展，AI 技術也在不斷創造并推動新的應用需求；與此同時，對大模型優化的 AI 基礎設施正在出現，新的模型也在催生著更為強大的技術。

未來，商湯的日日新大模型，還會向生產力工具 + 交互工具兩大方向進行大規模落地。其中生產力工具面向傳統企業、金融、政務等領域，能幫助人們提升工作效率、優化工作流程；交互工具則面向所有普通用戶，覆蓋從智能助手、智能硬件到智能營銷……

過不了多久，最常見的日常場景，也都能用上原生多模態 AI 的力量。

文中視頻鏈接：

https://mp.weixin.qq.com/s/Fy1Yk94_NvYuwVRge2PXGA

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.