明敏 發自 凹非寺
量子位 | 公眾號 QbitAI
不愧是字節,一發大模型,各模態榜單格局全部被重構!
最新豆包大模型1.6系列,“小版本”更新但推理、數學、多模態能力全部沖入全球第一梯隊
海淀區高考模擬卷,豆包1.6文理科成績全部突破700分,理科成績更是比去年的豆包提升了154分。
視頻領域,Seedance 1.0 Pro亮相即登頂全球競技場文生視頻、圖生視頻雙料第一。
多鏡頭切換的電影質感大片信手拈來:
目前已上線即夢(視頻生成選擇對應模型)、豆包APP(打開對話框,選擇“照片動起來”,輸入文字指令或上傳圖片)即可體驗。
如此效果,在火山引擎ToB的價格卻打到了行業最低
Seedance 1.0 pro模型每千tokens 0.015元,相當于每生成一條5秒的1080P視頻只需3.67元。1萬元可以生成2700條視頻。
豆包大模型1.6系列,直接重新定義行業定價模式。
統一定價,不論用戶是否開啟深度思考、不論是文本還是視覺任務,tokens價格都完全一樣,定價參考改為“輸入長度”區間。
輸入區間0-32K范圍內,豆包大模型1.6綜合成本比豆包1.5·深度思考模型、DeepSeek R1降低63%。
這還沒完,還有特惠區——對于輸入32k、輸出200以內的任務,豆包大模型1.6的價格進一步降低到每百萬tokens輸入0.8元、輸出2元。
這意味著,使用豆包1.6的價格和豆包1.0一樣低
熟悉的模式,熟悉的感覺——
1年之前,正是火山引擎開啟大模型價格“厘時代”,做到了比行業價格低99.3%。
1年之后,字節重新定義大模型商業價格模式。這一回,又預示哪些新動向?
豆包更有人味兒、即夢更像導演
看懂變化,還得從底層模型開始。
此次新發布,字節一共帶來3款不同模態的新模型。
- 豆包大模型1.6系列
- 豆包視頻生成模型Seedance 1.0 Pro
- 豆包語音播客模型
豆包大模型1.6系列
豆包大模型1.6系列由3個模型組成,分別是主力綜合模型、深度思考模型以及極速版。
- doubao-seed-1.6
- doubao-seed-1.6-thinking
- doubao-seed-1.6-flash
doubao-seed-1.6是主力模型,它主打all in one,也就是啥都能干。是國內首個支持256k上下文的思考模型,支持深度思考、多模態理解、圖形界面操作等。
比如使用DeepResearch功能,可以生成一份詳盡的操作指南。
任務:請教我如何在火山方舟上開通Doubao-Seedance視頻生成模型,并給出在python IDE中進行API調用的示例代碼,最終生成分步驟的操作指南報告。
模型會首先進行任務規劃,將任務劃分為具體四步。
在用戶確認規劃沒有問題后,點擊開始,模型才會開始執行。
可以看到過程中,它調用了知識庫,最后給出了完善的操作指南。
多模態方面也進行了全面升級,支持視頻理解、多圖理解等。
比如可以讓它看視頻生成票圈文案,豆包1.6思考后會給出不同的風格供挑選,文案都是根據視頻內容細節而來。
企業端也能基于多模態理解做更多事,比如電商商品審核、自動駕駛標注、安全巡檢等。
同時,豆包也具備了像人一樣的操作能力,即GUI操作能力
只需輸入“預定2人6月20日德國法蘭克福五星級酒店,要求有健身房、且有浴缸”,它就能自己打開酒店預定網站、輸入目的地、入住時間、勾選相應篩選條件。
并且會像人一樣瀏覽不同酒店開始挑選,查看圖片確認是否包含浴缸,最后才確認下單,當然付款這些最終決策還是由人類操作。
豆包視頻生成模型Seedance 1.0 Pro
視頻生成方面,字節這次也是狠狠發力了。
剛剛在第三方權威榜單Artificial Analysis上拿下雙料第一的Seedance 1.0 pro主要具備三大特性:
- 無縫多鏡頭敘事
- 多動作及隨心運鏡
- 穩定運動與真實美感
我們通過實測發現,Seedance視頻模型可能是選擇了和OpenAI走相同的路線。即優先拉高模型的智商,具體表現在模型的精準指令遵循、生成內容更合理化、符合現實世界邏輯、帶有人類的思考。
比如生成“偵探正在思索”的視頻,模型會將人物的面部表情變得嚴肅而不是優哉游哉的,前者更符合基本邏輯。
另外值得關注的是,Seedance 1.0 Pro的生成速度也非常快。最快40秒可生成5秒1080P視頻。
目前該模型已在即夢和豆包APP上線,人人都能體驗。
豆包語音播客模型+實時語音模型ToB開放
最后在語音模態方面,兩款豆包語音播客大模型上新。
幾天前,我們已經實測了豆包語音播客模型。它支持秒級生成雙人對話播客,效果相當逼真,而且操作非常簡單,只需輸入一句話、一個網頁、一個文檔或者長文本即可。
另外,最近被網友們玩瘋了的AI克隆聲音打電話,其底層模型豆包實時語音模型也全量上線火山方舟,向企業用戶開放使用。
它支持自然語言高級指令控制,具備唱歌表演、聲線模仿、方言演繹等多種能力。
實際上,包括豆包1.6系列、Seedance 1.0 Pro,也都全量上線火山方舟,為ToB用戶提供更先進AI能力。
與此同時,火山方舟還帶來了一系列全新工具,將Agent開發門檻一降再降。
更輕松構建生產級Agent
ToB維度,今年最火的AI趨勢莫過于Agent開發。
火山引擎此次在MaaS、數據、AI Infra三方面發布的新產品,幾乎都是為此而來。
首先,為加速企業構建Agent,火山引擎帶來多款產品:
- 火山引擎MCP服務
提供200+MCP服務,與TRAE、火山方舟、扣子打通,開發者還可通過MCP控制火山引擎的云服務組件,加速產品落地。
- PromptPilot
幫助開發者優化提示詞,將模糊需求轉化為具象化目標。支持自動撰寫和優化提示詞,針對badcase自動優化以實現精準調控,具備多輪對話、視覺理解、復雜工具調用優化能力,以及自主判斷是否開啟模型精調等功能。
- AI知識管理產品
幫助企業管理內部知識,進一步將本地資源與互聯網內容整合。支持文本、圖像、音頻、視頻等多模態內容對話式輸入,并且能夠把輸出的數據組織為更易于理解的圖表。首創可交互的推理“做個計劃”功能,實現人機協作制定、修改計劃。
- 開源veRL強化學習框架
veRL是字節內部在2023年開發的強化學習框架。它可輕松擴展各種強化學習算法,能將現有LLM基礎設施與模塊化API無縫集成,具備靈活的設備映射,支持將模型放置到不同的GPU租上。同時具備極強吞吐性能,并使用3D-HybridEngine進行高效的Actor模型重新分片。
基于以上多方面能力,可以實現自動化生成研究報告、匹配PPT,并自動發送郵件。
開發一個網站,也只需要用紙筆畫個草圖,其他都能交給AI。
從設計稿解析、代碼生成到公網可訪問網頁,這些流程都能全自動化部署。
AI Infra方面,火山引擎將三個基礎能力原子化,對外發布。
- AgentKit:面向企業級Agent打造的全棧開發和服務工具鏈。
- TrainingKit:面向預訓練實現高達60%+的MFU(算力利用率);面向后訓練實現Sandbox百萬核秒并發能力等。
- ServingKit:面向推理,從模型部署、在線推理、服務運維三個階段進行加速和提效。
最后,在數據方面,推出多模態數據湖和Data Agent,實現從“支持BI”到“支持AI”。
One More Thing
在整場發布中,字節還披露了一個尤為關鍵的數字——
截至2025年5月底,豆包大模型日均tokens使用量超過16.4萬億,較去年5月剛發布時增長137倍
IDC數據顯示,2024年中國公有云大模型調用總量達到114.2萬億 Tokens,其中火山引擎占據46.4%的市場份額,幾乎占據半壁江山。
火山引擎總裁譚待也在采訪中表示,大模型產品帶來的業績收入是火山引擎所有產品中增速最快的,也是毛利最好的業務之一。
整場發布中,穿插在字節最新技術之間的,就是各個行業的大客戶了。其中包括聯想、寶馬、奔馳、微博、瑞幸、百勝中國肯德基等等。
嗯,也不意外,更硬技術+更優成本帶來的更高增長,已經開始對外顯現。
不過對于火山引擎內部,現在的目光可能更聚焦在未來。
譚待表示,當下正是從生成式AI向Agentic AI逐漸過渡轉變。深度思考、多模態理解、工具自主調用是關鍵方向。
火山引擎智能算法負責人吳迪也很肯定,今年AI三大技術主線就是:
- 帶有多模態理解能力的Reasoning模型
- 視頻生成模型的能力提升
- 多步驟復雜任務能力的成熟和滲透
這種肯定甚至可以細化到:
“2025年會以每個月至少2次的節奏,出現模型基礎能力與應用方面的交錯浪潮。
最后3個月,你可以放心地把價值50元的事交給AI端到端處理,它能實現80-90%的準確率。”
所以,期待吧。
大模型時代的探險家們,已經搶先用望遠鏡看到了新風景,而這些風景可能比我們預期中來得更快、也更普惠。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.