網易首頁 > 網易號 > 正文申請入駐

豆包模型上新，字節繼續卷性價比

2025-06-14 12:45:41　來源: 字母榜

北京舉報

分享至

這兩天，字節又出手了，一口氣放出一堆大貨。

豆包大模型1.6、豆包·視頻生成模型 Seedance 1.0 pro、豆包·語音播客模型，豆包·實時語音模型...全家桶式上新，看著熱鬧。

如果你只是掃一眼上述產品，可能覺得就是大廠又來了一波例行升級，沒什么特別的。現在AI圈更新節奏這么快，新模型、版本號、榜單名次一大堆，確實不太容易提起興趣。

但稍微往下看一看，會發現這次字節的做法不太一樣。它并沒有靠一兩個參數或者演示視頻來搶風頭，而是開始把模型能力做成一整套“能直接跑起來”的應用，從文字、圖像、視頻，到語音、操作系統，全都串在了一起，而且不少是直接掛進了豆包APP、火山方舟這些已經在用的產品里。

我們就從兩個核心產品說起。

Seedance 1.0 Pro 實測表現：

穩定、成型，但仍有邊界

如果只看熱度，這幾個產品中Seedance應該是被關注度最高的了。

它剛上線就登上了第三方榜單Artificial Analysis的文生視頻和圖生視頻兩項第一，超過了可靈2.0和谷歌的Veo 3。榜單怎么評的我們可以再討論，但至少說明在業內標準下，Seedance的生成效果已經達到了主流模型中的較好水平。

我們來看下這個模型的基本情況。

Seedance 1.0 Pro支持文字和圖片輸入，能生成10秒左右的1080p視頻，支持2-3個鏡頭切換。它的主要特點，是強調鏡頭之間的連貫性和內容的穩定性。

這點在之前的視頻生成模型里，確實是個短板。很多模型雖然能出圖像，但內容連不起來，主角突然消失或者背景抖動都很常見。

Seedance解決這個問題的方式，是把每個鏡頭的內容用文字描述得更細，官方叫「精準描述模型」。它先生成一段描述，然后再根據這個描述訓練視頻。這種方式能讓模型更好地知道該生成什么內容，也更容易控制住動作和細節。

Seedance能生成的視頻風格也比較多樣，可以支持航拍、第一人稱、動畫、水墨等多種風格。這點其實各家模型都有類似能力，只是Seedance在這方面的完成度和一致性更高一些。

生成速度方面，5秒的1080p視頻只需大約40秒，這個速度屬于目前行業中等偏上的水平。

來看一下我們實測的成果（每個維度我們都測試了多個case，篇幅限制只展示其中的一個）：

鏡頭語言

prompt：夜晚的加油站，一個男人戴上頭盔騎上摩托車，發動，駛出油站，鏡頭跟拍他的背影穿過街道，途中掠過霓虹招牌和迎面駛來的車輛。

這段主要是測試Seedance的快速運動+連續鏡頭能力，看它有沒有剪輯感，能不能Hold住快節奏。

結果還是可以的。騎上摩托車時是一個典型的近景靜態鏡頭，畫面很干凈。發動的瞬間光影有了變化，鏡頭在車啟動后跟著往前推進。

Seedance 在鏡頭語言這塊，能理解基本拍法；節奏上有控制，不會一頓快切、也不會死板地不動；鏡頭轉場不是很生硬堆疊，但是它對復雜軌跡、非線性鏡頭的理解還不夠穩定。

物理運動

prompt：雨中，一個穿風衣的男子奔跑穿過狹窄的街道，踩過水坑，雨水四濺，鏡頭從后側跟拍。

看動作+環境干擾下的運動穩定性。結果比較穩。奔跑時人物姿勢正常，地面確實有積水反光，踩到水坑的時候，地面有明顯的水花濺起，鏡頭也給了點前搖的動態。雨水本身是做出來了，但稍微有些貼圖感，也就是說是視覺效果，但沒有明顯的深度和飄動軌跡。

但整個奔跑過程中人物沒崩，衣服也不是貼在身上的那種塑料感，而是有輕微飄動，這就已經說明Seedance在動態建模上的一致性控制能力比較強了。

人物表演

prompt：拳擊手被擊倒，努力掙扎著站起來，臉上滿是汗水和倔強。

Seedance 1.0 Pro在情緒這一塊沒有做到極致，但比起過去同類模型，它已經邁出了一大步。表情控制能力還在進化中，細節依然有局限，比如嘴角和眼角的肌肉反應不夠細膩，面部變化也不總是連續的。但它確實可以表現出“笑、憂慮、驚恐、緊張、堅定”這些基礎情緒，而且不是固定臉譜，而是能隨著上下文變化表現方式。

這次模型發布之后，Seedance已經接入了即夢（視頻3.0 Pro）和豆包APP（底部的「照片動起來」），用戶可以直接使用，也可以通過火山引擎API接入自己的業務。在價格上也比較低，每千tokens只需1分5，相當于每條5秒視頻大概3.67元。在大批量視頻需求下，這個成本屬于比較可控的范圍。

不過，Seedance目前仍然有一些限制。比如生成時長基本控制在10秒以內，鏡頭切換雖然支持了2-3個，但還沒看到更復雜腳本的能力。生成也不是很穩定，想要得到滿意的視頻，無法擺脫多roll的命運。。

豆包1.6:

在多模態和操作上邁了一步

再來看豆包1.6，這是這次發布中更偏向通用模型的更新。它主要更新了三個版本：主力版（doubao-seed-1.6）、深度思考版（doubao-seed-1.6-thinking）和極速版（doubao-seed-1.6-flash）。豆包1.6整體能力進入第一梯隊，在多項權威評測中得分提升明顯，尤其是數學和推理相關任務。

具體來看，這一代模型加強了邊想邊搜和DeepResearch能力。現在你可以從火山引擎的AI體驗中心試用。

用戶可以直接請求它完成某些復雜任務，模型可以拆分任務、搜索資料、提煉內容，最后生成報告。這類功能我們在GPT-4和Claude里也能看到，不過豆包的方式更適合國內用戶，點開即用，不需要熟悉復雜操作流程。

豆包1.6最強的還是多模態的實用能力。不是說能識圖、能看視頻就算多模態，而是把這些能力落到具體場景里。

這類任務不只依賴語言生成，而是能把圖像、動作、提示詞之間的信息整合起來，而豆包1.6確實在這個方向上做了一些實用嘗試。

另一個值得一提的點是操作能力。AgentKit現在支持圖形界面操作，可以打開網頁、填寫表單、瀏覽圖片、下單預定。

比如輸入“打開豆瓣電影，找今天在北京正在上映的電影，選擇一部評分最高的，打開購票頁面并截圖停留。”它會依次打開網站、查找電影、篩選條件，最后再確認下單。這種功能的完成度已經不低，適合做一些流程重復、邏輯明確的輕任務。

價格方面，豆包1.6也重新定了策略。現在所有任務都采用統一定價模型，不管是文字生成還是圖像分析，價格按輸入長度劃分，最常見的0-32K區間是輸入0.8元/百萬tokens，輸出8元/百萬tokens。和豆包1.5比起來，綜合成本降低了大約63%。簡單說，價格更接近豆包1.0，但能力是它的多倍。

OpenAI 卷能力，字節在卷什么？

這次更新背后，其實是字節模型策略的一種延續。它并沒有在單一模型參數上卷得特別兇，而是強調組合能力和產品落地。

在To C端，豆包已經在做APP化，用“聊天+工具”的形態把模型包裝起來；而在To B端，它依托火山引擎提供一整套AI服務，從基礎模型API到完整解決方案。字節大模型的更新節奏不是盲目提速，而是配合業務工具一起同步走，比如最近更新的PromptPilot（提示詞調優工具）、AgentKit（智能體開發平臺）、多模態工作臺、甚至是視頻生成場景的Seedance，都和模型不是割裂的，而是集成式設計。

這和OpenAI、百度的路線相比，是有差異的。OpenAI繼續把重點放在通用性極強的超級模型上，比如GPT-4o就把語音、圖像、文字合成成一個統一的輸入輸出邏輯，目標是成為人類界面；百度雖然也做了很多產業鏈整合，但仍保留較多平臺化概念，部分場景需要開發者二次拼裝。

字節已經不是在卷模不模型的事情了，而是在卷能不能用起來的事情。

在這點上，它有點類似微軟Copilot那一套邏輯，但又有自己的中國式打法。微軟的優勢是Office生態綁定企業，而字節的打法是基于內容+工具的雙生態：一邊用內容業務抖音等檢驗模型生成能力，另一邊用火山引擎輸出服務，把能力變成服務，最終變成一個系統級產品。

而且，從內部資源分配來看，字節的策略也很清晰：模型團隊不單打獨斗，很多模塊直接協同產品線出需求，比如語音播客、視頻生成、搜索推薦，這樣模型迭代就不是閉門造車，而是從一開始就和實際場景掛鉤。

大廠AI模型開始加速奔跑

聊到這里，其實繞不開的一個問題就是：現在這些大廠在AI這件事上，到底卷到什么程度了？

從阿里、騰訊到字節，確實都在提速，而且每家的方向有點不一樣。

阿里的重心放在模型規模和通用能力，比如Qwen家族主打大上下文和工具鏈，目標是拉齊OpenAI那一套能力，尤其強調開源這一點

騰訊更多強調業務融合，Agent部署做得早，重點是To B場景，比如政務、企業服務等，推出了元器這種產品

而字節這邊，很明顯是以內容和多模態作為核心陣地，從豆包模型、Seedance視頻、再到語音播客，都是圍繞內容生成和產品應用來做的。

它們走的路線不太一樣，但節奏都快。你會發現，這一年里，模型迭代不再是每半年一次，而是每兩三個月就來一波。有的是版本更新，有的是新產品掛鉤。但共同點就是，大家都已經不是在比有沒有，而是在比用得起、用得上、用得快。

而且有個趨勢也挺明確的：AI已經不是實驗室里跑分的東西了。你發布一個模型，別人不再只關心你的推理速度和BLEU分，而是問一句——能不能掛到網頁上？能不能在手機里跑？價格怎么樣？是不是能直接接到現有系統里？

從這個角度看，字節這波模型更新雖然沒有太多行業第一的技術噱頭，但確實做得比較扎實。不管是Seedance的視頻質量，還是豆包1.6的多模態能力，起碼給到了一些可以拿去用的東西。對于開發者也好，中小企業也好，現在更在意的是這些東西能不能用、成本怎么樣、部署復雜不復雜，而不是你參數多大。

所以到頭來，大廠在AI這場競爭里，其實比的不是誰先造出最強的大模型，而是誰先把模型做成產品，誰先讓用戶真正用起來，誰能在不增加使用門檻的前提下，撐住規模和成本。

現在這個階段，大家都還在跑，但已經能看出幾個不同方向的勢能了。接下來要看的，也許不是誰先出GPT-5級別的模型，而是誰能真正把AI塞進每一個具體應用場景里，讓它像水電網那樣成為基礎設施。誰做得越快、越穩，就越可能在這場AI基礎設施競賽里，走得更遠。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.