機器之心報道
編輯:Panda
高考余熱尚在,依然還是有不少博主和媒體在測試各家 AI 模型解答最新高考題的能力。而現在,一個正被火熱評測的主流模型迎來了重磅升級!
事情發生在昨天、北京國家會議中心、火山引擎原動力大會Force 2025現場。
火山引擎一口氣發布了豆包大模型 1.6、Seedance 1.0 Pro、AI 云原生平臺等多項新產品或升級,涉及語言、多模態理解、GUI 操作、代碼、視頻生成、語音、播客、基礎設施,再加上之前發布的豆包 Seedream3.0 生圖模型和豆包音樂模型,堪稱火山引擎「十項全能」的「AI 盛宴」。
首先也是最重要的,必然是豆包大模型 1.6(Doubao-Seed-1.6)(以下簡稱豆包 1.6),其包含三個主要版本:標準版 Doubao-Seed-1.6、深度思考強化版 Doubao-Seed-1.6-thinking 以及極速版 Doubao-Seed-1.6-flash。
性能上,不管是一般任務還是推理基準,豆包 1.6 都進步明顯,達到了世界前沿水平,躋身第一梯隊;也是國內首個支持 256K 上下文的思考模型系列,并且已經掌握了多模態理解和GUI 操作兩大重要技能!
另外,火山引擎也曬出了豆包大模型在最新高考試卷上的成績。如下圖所示,其中左側的高考全國新一卷數學單科成績正是來自于我們之前的評測,但被測豆包是前一代的
Doubao-1.5-thinking-vision-pro,但它已能達到 144 高分,并列國內模型第一。而右側則給出了豆包 1.6 和去年版本在海淀模擬全卷上的成績,可以看到豆包的成績已經從能讀重本升級成了能上清北的水平了。
豆包 1.6 雖然豐盛可口,但也只是這場 AI 盛宴上的主菜之一。在火山引擎 Force 大會上,我們還看到了豆包視頻生成模型 Seedance 迎來了正式版本 1.0 Pro,其支持無縫多鏡頭敘事、多動作及隨心運鏡以及穩定運動與真實美感。在 Artificial Analysis 視頻競技場中,Seedance 1.0 Pro的表現甚至超過了當前領先的 Veo3(去除音效) 和可靈 2.0。(雖然下圖 Seedance 的名稱中沒有 Pro,但確為同一模型。)
Artificial Analysis 視頻競技場文生視頻和圖生視頻排行榜前十名
在音頻方面,火山引擎宣布已經備受用戶歡迎的實時語音模型開始通過火山引擎面向 B 端企業用戶開放。另外,我們也看到火山引擎之前發布的面向播客的專用模型也出現了在 Force 大會的舞臺上 —— 已可在扣子空間體驗。另外,我們也在 Force 2025 的視頻直播頁面看到了默默工作的豆包同聲傳譯的身影。
在 AI 基礎設施方面,火山引擎圍繞 AI 應用的實際需求,打造了三個套件:AgentKit、TrainingKit和ServingKit。顧名思義,這三個套件的作用分別是智能體、模型訓練和模型 serving。
整場 Force 大會下來,我們最大的感受是火山引擎對「AI 云原生」概念的反復強調。簡單來說,「AI 云原生」是指將云原生理念應用到 AI 領域,專注于 AI 工作負載的云端構建和部署;其核心理念是以 AI 負載為中心,重新優化計算、存儲與網絡架構,讓 GPU 可直接訪問存儲和數據庫,降低 IO 延遲,并提供高速互聯和端到端安全保護。事實上,正如我們以前多次報道的那樣,「AI 云原生」已經成為火山引擎「下一個十年」所遵循的云計算新范式。
作為火山引擎這場 AI 盛宴的前排「食客」,我們也是第一時間進行了品嘗。下面就來看看機器之心的一手實測,看看火山引擎究竟是否「十項全能」。
一手實測
每道菜都很香
話不多說,開始品嘗。
豆包 1.6:版本號提升 0.1,能力邁進一大截
自豆包 1.5 于 1 月下旬發布以來過去了還不到 5 個月,豆包大模型的版本號雖然僅提升了 0.1,但其能力的深度與廣度都迎來了重大提升。在火山引擎的 AI 體驗中心,我們對這款與 OpenAI o3-pro 和 Mistral 的 Magistral 這兩款推理模型同一天問世的系列模型進行考校。
感興趣的用戶也可訪問體驗中心,選擇模型后親自嘗試:
https://exp.volcengine.com/ark?model=doubao-seed-1-6-250615
首先用一個常規測試題來測試下標準版 Doubao-Seed-1.6:
使用 Python 編寫一個貪吃蛇游戲,要求蛇撞墻后會死亡,游戲場景中還有一些撞到會死亡障礙物,整體色彩豐富一些。
Doubao-Seed-1.6 用時 277 秒完成了這個任務。接下來將代碼復制到 Trae 看看運行效果:
Doubao-Seed-1.6 毫無壓力地一次性完成了整個任務,結果甚至有點超出預期。更早之前我們在其它模型上測試類似的編程任務時,還常會遇到一些報錯或者游戲參數設置不合適(比如蛇的速度過快)的問題,而這一次,我們無需對代碼進行任何修改!
接下來考驗一下 Doubao-Seed-1.6 的推理能力。先來一個 24 點問題:
使用這 5 個數構建三個不同的等式,使等式的值等于 24。要求每個等式中每個數至少用一次:2、3、5、13、29??墒褂萌魏胃叩葦祵W方法。
618 秒后,我們得到了答案。
經驗證,這三個答案全都正確并且是超額完成了目標:在每個等式中都使用了每個數并且每個數都僅使用了一次。
在一個 AI 愛好者群里,我們看到有群友說,豆包 1.6 是第一個能通過非編程式推理成功解決五位數密碼推理問題的國產模型,所以這一次我們也把開啟深度思考的 Qwen3 和 DeepSeek-R1 拉到一起進行同臺競技。
7 8 6 3 5 (有 3 個數字是正確的,但位置都不對)
1 6 3 8 4 (有 1 個數字正確且位置對,有 1 個數字正確但位置不對)
9 2 7 4 1 (有 2 個數字正確且位置對,有 1 個數字正確但位置不對)
5 6 4 8 3 (有 1 個數字正確且位置對,有 1 個數字正確但位置不對)
6 7 1 5 3 (有 2 個數字正確且位置對,有 2 個數字正確但位置不對)
推理出這五位數是什么?
先劇透一下,正確答案是 1 2 7 5 3。
我們的三位 AI 選手在拿到這個問題之后都進行長時間的思考,深度思考版 Qwen3-235B-A22B 消耗了 38,912 token 后率先給出了一個結果,但并不正確。
Qwen3 的解答
第二完成任務的是 Doubao-Seed-1.6,用時 353 秒,并且結果正確。
Doubao-Seed-1.6 的解答
從其思考過程可以看到,Doubao-Seed-1.6 首先會對條件進行分析,并從中確定出最重要的條件,然后基于此再執行進一步推理。如此就能水到渠成地得出正確答案。對本題解決思路感興趣的讀者可訪問這里:
https://www.volcengine.com/experience/ark/share/exsc-202506121206-%5BHqK0STXzPXIl6AxyAB93-%5D
DeepSeek-R1 的思考時間最長,耗時 1051 秒,但也僅僅給出了一個「盡管有部分偏差,但整體符合多數線索」的答案。是的,這個答案并不正確。
DeepSeek-R1 的解答
接下來,我們再試試豆包 1.6 的多模態理解能力。比如如果我們想給自己的博客建一個漂亮的 Landing 頁面,而我們又不想進行復雜的代碼編寫和參數調整,我們完全可以簡單手繪一張圖,然后讓豆包直接幫我們生成想要的結果。打開 Canvas,上傳手繪草圖,然后簡單說出我們的需求:
我想制作一個動態網頁,這是我手繪的設計稿,請生成這個頁面。
結果?相當出人意料?;蛟S是因為筆者的手書實在慘不忍睹,豆包 1.6 在解讀圖片時領會錯了含義,竟然在近 5 分鐘后生成了一個相當不錯的機械波動態演示網頁。該網頁支持正弦波、方波、三角波、鋸齒波的演示,并支持波速、振幅和頻率調節。效果相當不錯。感興趣的用戶也可以訪問這里進行嘗試:
https://www.volcengine.com/experience/ark/share/mcs-202506112116-%5BMvSEQxz8V52WBHGe5qCer%5D
我們又嘗試了其他手繪草稿,但豆包 1.6 未能完全準確地復現出我們手繪的網頁形式(不過也確實給出了一些相當可用的結果),存在過度解讀現象 —— 生成的結果會增加許多額外的信息或采用完全不同的設計。我們猜想這可能涉及到多模態語言模型的幻覺問題,這方面還需要豆包模型和學術界做進一步的研究探索。
豆包 1.6 還具有邊想邊搜、深度研究能力,能獨立思考、規劃、使用搜索等各種研究工具。舉個例子,昨日 Meta 宣布了 148 億美元重金投資 Scale AI,引發市場關注,而我們可以借助豆包 1.6 的工具使用和深度研究能力幫助我們了解這件事可能對 AI 行業產生什么影響,以及可能導致哪些股票上漲或下跌。
可以看到,由于這是剛剛發生不久的事件,并不在豆包 1.6 的記憶之中,因此它在執行這個任務時,首先會進行搜索和分析,形成對事件的基本了解,然后會根據任務規劃接下來將要執行的任務步驟,之后再具體執行執行步驟。
最后,對于前些天的高考數學卷評測中讓受測的所有多模態大模型折戟的第 6 題,我們又拿來檢驗了一下 Doubao-Seed-1.6 系列模型的表現。
如果只提供問題截圖+一句話提示「解答這道數學題」,豆包 1.6 仍未能正確解答這個問題。大概是因為這種坐標系和細線、箭頭對模型來說確實比較難識別。
Doubao-Seed-1.6-thinking 解答 2025 年高考全國一卷數學第 6 題的過程
從這個問題的解答以及前面的網頁生成示例看,多模態推理模型依然還有進步空間。
Seedance 1.0 Pro:比肩前沿的視頻生成模型
接下來,通過即夢 AI,我們搶先內測了火山引擎新發布的比肩 Veo3 和可靈 2.0 的 Seedance 1.0 Pro。
先來一個簡單的場景,看看 Seedance 1.0 Pro 的動態一致性表現。
提示詞:一個小男孩在海邊迎著風放風箏,風箏突然被風吹飛,繩子掙脫,他追著風箏跑。
可以看到,Seedance 1.0 Pro 在細節與真實感上已經達到了非常擬真的程度,我們甚至能看到小男孩跑動時頭發自然的擺動。
接下來,加入鏡頭切換的元素,測試一下 Seedance 1.0 Pro 的敘事控制、空間一致性和鏡頭語言理解能力:
開場為背后跟拍鏡頭:女孩穿著賽博朋克風外套在未來城市中行走,霓虹燈反射在街面。
切換至主觀視角:她看著廣告牌中一段閃現的神秘圖像。
轉為航拍全景鏡頭:俯瞰整個街區,光流動,車輛自動穿行。
最后切到近景側面:女孩走入一扇自動門,鏡頭停留在門緩緩關閉的瞬間。
是的,這個提示詞很復雜,因此我們選擇了生成 10 秒長度的視頻,而 Seedance 1.0 Pro 雖然沒能做到完全遵循指令,但在鏡頭切換上的表現卻著實讓人驚嘆。
然后,我們想看看 Seedance 1.0 Pro 能否很好地應對高速運動測試場景。這一次,直接讓 Doubao-Seed-1.6-flash 為我們快速編寫一個提示詞吧:
選擇其中第三個,交給 Seedance 1.0 Pro 看看。
可以看到,即使對于高速運動場景,Seedance 1.0 Pro 也能一次性生成相當出色的結果。順便一提,這一次我們還加上了 AI 音效。
最后,也必須試試 Seedance 1.0 Pro 基于參考圖像生成視頻的能力。是時候讓朋友家的邊牧出場了,看看它能否在 Seedance 1.0 Pro 的魔法下變成一個年輕小伙。
有點瑕疵,但整體來說相當成功。
不止文本與視覺,還有語音
除了豆包 1.6 系列模型和用于生成視頻的 Seedance 1.0 Pro,火山引擎在此次 Force 大會上還發布了一個類似 NotebookLM 的播客模型,可以根據用戶提供的資料以及網絡信息生成自然流程的對話式播客節目。
另外,火山引擎也宣布已經備受用戶歡迎的實時語音模型開始通過火山引擎面向 B 端企業用戶開放,現在開發者也能在自己的應用中集成這個既能說方言,還能講悄悄話和唱歌的 AI 了。
整體看來,在豆包這個品牌下,火山引擎要做的并不是面向單個任務或模態的單點突破,而是面向真實世界的全面智能體。
由于火山引擎這一次更新了不少產品和服務,所以我們的實測也只能做到點到為止,包括豆包+Trae、MCP 和 PromptPilot 等諸多能力我們都沒有進行測試。事實上,火山引擎還專門打造了一個應用實驗室,可讓用戶嘗試針對不同場景開發的智能體應用。這些模型和技術的真正潛力還需要等待作為用戶的你親自去挖掘。
https://console.volcengine.com/ark/region:ark+cn-beijing/application
如此 AI 盛宴
火山引擎是怎么做出來的?
在經歷了火山引擎在我們的視覺和聽覺感官上的多重炫技之后,我們不禁會想:在當今這個嘈雜紛擾、讓人目不暇接的 AI 領域,為什么是火山引擎做出了這么多廣受歡迎的模型和產品?
歸根結底,在于火山引擎在技術上的「飽和投入」,而這些投入在整體上又可劃分為火山引擎智能算法負責人吳迪曾談到今年的 AI 技術發展的「三條主線」。
首先,第一條主線是「推理+視覺」范式的發展。吳迪指出:「如果僅僅是把推理和思考放在文本上,還不能完全發揮模型應有的智能;當我們把推理和思考用在視覺理解上,就會解鎖更廣泛的應用場景?!宫F在,豆包的模型能力已經基本上能實現有效的視覺理解了,但行業的應用還有待涌現。這也將是火山引擎今年將重點關注的發展路線。
第二條主線則是視頻生成走向實用。這條主線的標志性事件是谷歌 Veo3 模型的上線,其在做到了高質量視頻生成的同時還能同時生成恰到好處的語音和音效。而更早一些的 Veo2 與可靈 2.0 則已經開始讓視頻生成不再局限于娛樂和研究領域,而是開始真正進入實際生產環境,被用于制作廣告短片甚至生產專業視頻內容。
而第三條主線就是多步驟復雜任務,這也就是當今大熱的「智能體(Agent)」概念。不同于生成式 AI,智能體 AI 不只是會生成用戶查詢的結果,更是會實實在在地執行具體的任務,甚至主動對用戶的任務進行拆解、處理和優化。這一條主線正在火熱發展中,但直到今天為止,大部分相關產品和服務都還處于探索階段。吳迪預計多步驟復雜任務會在今年最后 3 個月左右逐漸走向成熟,并且這有望帶來一個全新的產業。
事實上,這些技術發展的主線趨勢也反映在了云服務商的 token 使用量上。吳迪表示,推理 + 視覺、視頻生成、和工具使用將成為今年 token 用量增長的主要來源,甚至帶來增長斜率的拐點。
當然,這三大主線本身也是由大量更底層的技術進步交織而成的。在 Force 2025 大會上,我們也看到了火山引擎近段時間已經上線部署的一些重要技術進展。
比如在智能體開發方面,火山引擎實現了對 MCP 協議的全面整合,將智能體開發體系、云服務和大模型工具鏈接到了一起,其中還集成了近 200 種優質的生態服務,支持用戶快速跳轉至火山方舟或 Trae、Cursor 等支持 MCP 協議的開發工具,幫助用戶快速進行端到端 AI 應用開發。
火山引擎也構建了自己的PromptPilot服務。這是大模型應用落地的「領航員」,可以把模糊的訴求變為具象化的目標并自動撰寫和優化提示詞。比如,在產生 badcase 時,它代替我們分析與檢測每一條 badcase,并實現提示詞的自動優化。
而要讓智能體發揮真正的價值,知識管理也至關重要?;鹕揭娴?strong>AI 知識管理可理解和處理文字、圖片、視頻及超大文件,并支持本地內容理解 + 互聯網信息補充以及進行交互式推理。
另外,為了讓智能體 AI 真正有能力完成各式復雜的任務,尤其是對準確度要求非常高的任務(比如醫療和法律),后訓練也非常關鍵,而強化學習已經成為最重要的后訓練策略之一。針對這一需求,字節跳動去年開源了強化學習框架veRL,并收獲了開源社區的廣泛好評 ——star 量已經超過 9300。幾天前,火山引擎發布了 veRL v0.4.0 版,實現了對 DeepSeek 671B 和 Qwen3 235B 等大型 MoE 模型的支持,并且可通過 SGLang 支持帶有工具調用和多輪 RL 的樣本級 rollout。
截圖自 veRL 項目:https://github.com/volcengine/veRL
數據方面,火山引擎為企業打造的新一代 AI 原生數據基建:多模態數據湖,可幫助企業打造出適應智能體時代的數據基礎設施,將數據轉變為驅動 AI 模型訓練與決策的核心燃料?;鹕揭孢€針對企業的需求打造了新一代企業級 AI 數字專家,其能夠主動思考、洞察、分析與行動,從而為企業構建自主進化數據大腦。
而火山引擎為 AI 基礎設施構建的三大套件AgentKit、TrainingKit和ServingKit也蘊含著巨大潛力。
其中,AgentKit 和 TrainingKit 是在 Force 大會上最新發布的。前者提供了強大的智能體開發底座,可通過極致彈性沙箱保障工具生態安全高效運行、并搭配開箱即用的記憶管理機制和智能體全鏈路觀測等核心能力,助力企業高效構建、部署、運維復雜智能的企業級智能體。后者則是火山引擎面向預訓練打造的云原生訓練套件,提供了集群診斷、故障自愈、HPN 高性能智算網絡、veCCL 集合通信優化、BCC 擁塞控制算法、veRL 框架集成、訓推引擎集成等能力。
ServingKit 則已在今年 4 月上線,其提供了涵蓋大模型推理部署加速、推理性能優化和運維可觀測的推理服務全生命周期優化方案,且可靈活集成到客戶自有推理系統和業務系統中。
而這些也只是火山引擎面向「AI 云原生」時代的創新的一部分。打開火山引擎官網產品頁面,你能看到這家正蓬勃發展的云服務商為滿足 AI 應用的各式需求所開發的各種產品和解決方案,從中我們也能看到它的壯志雄心。
火山引擎官網截圖,來自:https://www.volcengine.com
在 Agent 時代
火山引擎率先交出了可落地的答卷
隨著模型能力不斷向多模態、長鏈條任務延展,大模型產品也正從語言對話的交互階段,邁向更復雜、更貼近實際的智能體形態?;鹕揭娲舜渭邪l布的一系列模型和工具,不只是一種「能力炫技」,而更像是在尋找一個更通用、更具落地性的 AI 能力框架。在快速演化的技術潮流中,它提供了一份相對清晰的階段性答案。
與「模型先行、應用滯后」的行業慣性相比,火山引擎在應用場景的覆蓋面和產品化節奏上走得更快了一步。從豆包 App 里的生成體驗到企業客戶可調用的服務接口,從文本、圖像到視頻和語音的統一調度…… 可以看到火山引擎對 AI 實際落地路徑的某種認識:面向落地的 AI 才是好 AI。
本次 Force 大會中提到的「AI 云原生」,雖仍處于概念逐步落地的過程中,但其指向的方向具有共識意義 ——AI 基礎設施需要被重新定義。未來的智能應用,不只是「調用模型」,更是構建、部署和管理大量動態智能體的過程。而圍繞這個目標,無論是火山引擎發布的三大開發套件,還是 veRL 等強化學習組件,都是在為下一階段的 AI 產品形態做準備。
當然,每一代技術熱潮都會帶來一批「十項全能」的主角。模型好不好用、用不用得起、能不能持續演進…… 是所有玩家都必須面對的現實考題。而火山引擎顯然已經做好了準備,正如字節跳動 CEO 梁汝波說的那樣:「我們將長期投入,讓火山引擎成為深受客戶信賴的云服務平臺?!垢呖紕倓傔^去,豆包以「全能」為題交上了一份答卷;但真正的競爭剛剛開始,未來幾年將是整個行業從「考場比拼」走向「實戰落地」的關鍵階段。而這,可能才是智能體時代真正值得關注的拐點。
文中視頻鏈接:https://mp.weixin.qq.com/s/hgAxLm09l7bs7wOKloQKQg
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.