網易首頁 > 網易號 > 正文申請入駐

豆包深度思考模型正式發布！和 o3 一樣能「看圖思考」，還有一個 Agent 大招

2025-04-17 16:26:41　來源: AppSo

廣東舉報

分享至

這兩個月，AI 模型和產品的發布節奏用「日新月異」都不足以形容了。

GPT-4o 生圖的爆火似乎還是昨天，OpenAI 放出了自家最強推理模型，但這可能還不是這個月最重磅的 AI 發布，DeepSeek R2、Anthropic 的 Claude 4 以及馬斯克劇透的「Grok-3.5」，極有可能將在本月陸續發布。

而且就在今天，字節還發布了一整套 AI 全家桶，深度思考模型、視覺推理、文生圖、AI Agent……幾乎涵蓋了最近 AI 圈關注度最高的產品。

先看看這次字節發布的產品和亮點有哪些：

1. 豆包 1.5 · 深度思考模型

推理能力躋身全球第一梯隊

更低延遲支撐高要求應用

多模態理解與應用場景：支持「邊想邊搜」和「視覺推理」

2. 文生圖 3.0

3 秒出圖

原生 2K 高清

文本排版與小字生成優化

美感效果和生圖結構提升

3. 豆包 1.5 視覺理解模型新版

視覺定位更精準

對視頻的理解更智能

4. AI Agent

垂類應用 Agent：豆包推出了國內首個 AI IDE——Trae

OS Agent：能夠操作瀏覽器、電腦、手機或其他 Agent 完成復雜任務

字節這一系列產品升級，不僅在推理能力和多模態理解上實現突破，也通過 Agent 加速 AI 在更多場景的應用落地。

就像火山引擎總裁譚待所說的，「如果說 2024 年是中國 AI 應用的元年，那 2025 年極有可能是 AI Agent 應用的元年。」

豆包 1.5·深度思考模型：像人一樣思考和觀察

豆包 1.5·深度思考模型作為本次升級的核心，有三個關鍵升級：更強的推理效果、極低的響應延遲和全面的多模態能力。

在專業領域推理能力測試中，豆包深度思考模型整體達到或接近全球第一梯隊水平。

數學推理方面，在 AIME 2024 測試中的得分已追平 OpenAI o3-mini-high。

編程競賽方面，在 Codeforces pass@8 測試中接近 OpenAI o1。

科學推理能力在 GPQA 測試中也接近 o3-mini。

豆包 1.5·深度思考模型采用總參數達 200B 的 MoE 架構，但激活參數僅為 20B。

這種設計可以在保證強大性能的同時，顯著降低了訓練和推理成本，實現了 20 毫秒的極低延遲，這意味著能更好應用在對延遲敏感的實時交互場景。

豆包深度思考模型技術報告
https://github.com/ByteDance-Seed/Seed-Thinking-v1.5

在實際體驗中，豆包深度思考模型的「邊想邊搜」和「視覺推理」這兩個功能，帶來了一些驚喜，也是目前相較同類產品比較有特色的。

「邊想邊搜」功能模擬了人類解決問題時邊思考邊查閱資料的過程，它把搜索和推理捆綁在一起，基于每一步的思考結果進行多次搜索，能讓回答更有邏輯、更貼近需求。

以購物推薦場景為例，用戶需要為一家三口選擇露營裝備，涉及預算、安全性、便攜性、適應天氣等多維度因素。

豆包深度思考模型不是簡單給出答案，而是像顧問一樣進行多輪搜索和思考：

1. 第一輪搜索價格與性能數據，基本確定選擇范圍

2. 第二輪針對兒童需求搜索，篩選安全適合的裝備

3. 第三輪考慮天氣因素，查詢詳細評測

整個過程透明化，用戶可以看到模型如何一步步構建解決方案。這種「邊想邊搜」能力不僅適用于購物決策，還能應用于金融分析、旅游規劃等復雜決策場景。

至于豆包 1.5·深度思考模型的視覺推理能力，剛好和 OpenAI o3 不謀而合，讓 AI 能像人類一樣基于圖像進行深層思考。

比如在地理位置推測任務中，模型不僅識別出圖片中的湖泊，還注意到湖泊邊緣的鹽結晶和周邊旅游設施等微小細節，通過邏輯推理精確定位景點位置。

而在國外點餐場景更具代表性，模型需要同時處理多種復雜因素：計算不同貨幣的價格換算、考慮老人和兒童的飲食喜好、避開可能引起過敏的食材等。這種能力大大超越了傳統的單一功能工具。

視覺推理能力在企業辦公場景其實也能發揮重要作用，豆包可以解讀復雜的項目管理流程圖表，快速定位關鍵信息，嚴格按照流程圖邏輯回答問題。

可以看到，無論是解析財報圖表還是分析產品說明圖，都能展現專業水準的理解能力。

豆包文生圖 3.0：從生成到創造的飛躍

Gemini 2.0 和 GPT-4o 的「一句話生圖」掀起了新一輪生圖的熱潮，這次豆包文生圖模型 Seedream3.0 則在三個核心方面實現突破：文字排版、圖像真實感和高清輸出能力。

在文生圖領域權威評測 Artificial Analysis 競技場中，豆包文生圖 3.0 已經不輸 GPT-4o、Imagen 3、Midjourney v6.1、FLUX 1.1 Pro 等頂級模型，躋身全球第一梯隊。

Seedream3.0 最顯著的升級是實現了 2K 分辨率圖像的直接生成。字節技術團隊通過多分辨率混合訓練策略，讓模型能夠適應從手機屏幕到巨幅海報的各種比例需求，無需后期放大處理即可輸出清晰高質的圖像。

這種原生高分辨率能力，意味著對專業設計和商業應用提供了極大便利。

同時 1K 分辨率出圖縮小到 3 秒，這一高效推理能力得益于多項技術優化，讓創作者能夠實現「所想即所得」的實時交互體驗。對于海報設計、視覺創意這類需要和甲方高效溝通的場景。這種速度就很實用。

中文小字和長文本排版一直是 AI 繪畫痛點，豆包 3.0 不僅解決了這一難題，還將排版美感提升到專業水準。以「現形」海報系列為例，生成內容細節豐富、排版精美，達到了商用水平。

人像生成方面，通過缺陷感知數據優化和跨模態編碼技術，新模型在皮膚質感、表情自然度、服裝紋理等方面極為逼真，幾乎消除了 AI 生成的「詭異感」。

目前 Seedream3.0 已在豆包、即夢等平臺全量開放，大家不妨親自試玩。

視覺理解模型：從識別到理解

豆包 1.5 視覺理解模型主要在視覺定位和視頻理解兩個方向實現了突破。

視覺定位方面，新模型支持多目標定位（同時識別多個物體）、小目標定位（識別極小物體）和通用目標定位（不受預訓練類別限制）等高級功能，還能進行點定位計數和 3D 場景定位。這些能力為機器人視覺、自動駕駛等領域提供了堅實基礎。

同時，模型實現了記憶能力增強、總結理解能力提升、速度感知能力和長視頻理解能力的全面提升。這使得用戶可以對家庭監控視頻進行語義搜索，如詢問「今天小貓在家都干什么了？」系統能定位并展示相關片段。

AI Agent 的未來：應用 + OS

這次豆包 1.5 的核心突破不僅體現在模型能力上，更重要的是為 AI Agent 提供了強大基礎，開始思考「AI 該解決什么問題」，而非單純追求技術指標。

譚待認為， AI Agent 的構成，可以分為垂類應用 Agent 和 OS Agent。

在應用 Agent 領域，豆包團隊推出了針對不同垂類場景的專業 AI 助手，包括客服 Agent、數據 Agent 和代碼 Agent 等。這些 Agent 專注于特定領域任務，具備深度專業能力。

其中最引人注目的是國內首個 AI IDE——Trae。與傳統 AI 插件不同，Trae 將 AI 與集成開發環境深度融合，具備三大核心特質：

交付化：面向軟件交付而非僅生成代碼，從本質需求出發

智能化：能理解信息和意圖，自主規劃反思，調用工具執行任務

協作化：能與用戶在多個維度協作，保障最終結果質量

這種設計理念使 Trae 能幫助開發者和企業更快速、更準確地完成軟件開發工作，實現從代碼片段生成到完整軟件交付的跨越。

而 OS Agent 代表了AI 能力的更高層次——擁有跨場景的通用性和靈活性，能夠操作瀏覽器、電腦、手機或其他 Agent 完成復雜任務。

火山引擎的 OS Agent 解決方案核心由豆包大模型和 veFaaS 產品組成。通過兩個案例可以直觀了解其強大能力：

代碼執行：Agent 能用 Python、NodeJS 等多種語言編寫代碼并運行，如生成斐波那契數列并輸出結果。豆包模型負責代碼生成，veFaaS 代碼安全沙箱負責安全編譯運行。

瀏覽器操作：Agent 能通過瀏覽器完成 iPhone 產品比價，自動搜索多個電商平臺、提取價格信息并進行對比分析，最終給出最優購買建議。

在更復雜場景中，OS Agent 甚至能操作專業軟件。如使用剪映專業版進行視頻剪輯和配樂，或通過豆包 APP 生成內容并發布至今日頭條；在手機端，則能操作指定 APP 完成高鐵訂票等任務。

這些能力的核心是全新發布的 GUI Agent 大模型——UI-Tars，它將屏幕視覺理解、邏輯推理、界面元素定位和操作整合在單一模型中，突破了傳統自動化工具依賴預設規則的局限。UI-Tars 在 OS World 等測試集中已取得國內各類模型中的最優成績。

最近 OpenAI 姚順雨在一篇文章中指出，我們已經進入了AI 發展的「下半場」。與上半場不同，下半場不再僅關注模型改進和技術指標，而是轉向如何定義真正有價值的問題以及如何衡量真正的進步。

很難說在 AI 迅猛而又非線性的發展，用過去互聯網的上下半場來劃分是否適用，但一些轉變確實在發生：不再把模型作為目的，而是作為解決實際問題的工具。

這可能就是字節內部所謂「務實的浪漫」，字節 CEO 梁汝波在年初的字節 All Hands 全員會上強調了這個概念。

這是最初是張一鳴在 2019 年提出的，他認為務實的浪漫就是「把想象變成現實，face reality and change it。」

面對 DeepSeek 和 Agent 產品帶來的 AI 行業劇變，這也會是字節的應對方式。

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關鏈接）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

智能體大潮洶涌，但留給天工和階躍們的時間不多了

雷科技 2025-06-05 21:09:48
0 跟貼 0
沖擊自回歸，擴散模型正在改寫下一代通用模型范式

機器之心Pro 2025-06-04 11:01:11
3 跟貼 3

訓練步數翻倍=推理能力質變，小模型突破推理極限

機器之心Pro 2025-06-04 19:08:50
1 跟貼 1

Recraft爆紅，我們和創始人聊了聊

鈦媒體APP 2025-01-08 17:09:32
1 跟貼 1
誰導致了多智能體系統的失敗？首個「自動化失敗歸因」研究出爐

機器之心Pro 2025-05-30 14:13:44
0 跟貼 0

開啟 AI 自主進化時代，普林斯頓Alita顛覆傳統通用智能體

機器之心Pro 2025-06-04 17:32:28
5 跟貼 5

AI作圖，拯救“職場牛馬”

鈦媒體APP 2025-01-17 13:25:28
1 跟貼 1
Meta新突破！跨模態生成告別噪聲：流匹配實現任意模態無縫流轉

機器之心Pro 2025-06-04 18:59:08
1 跟貼 1

看似無害的提問偷走RAG記憶，IKEA：隱蔽高效數據提取攻擊新范式

機器之心Pro 2025-06-04 19:20:28
0 跟貼 0
AI輔助編碼帶來思維方式轉變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0
大模型智能體如何突破規模化應用瓶頸，核心在于Agentic ROI

機器之心Pro 2025-05-30 19:30:03
1 跟貼 1
效率飆漲177%！清華、螞蟻聯合開源全異步RL新成果，8B/14B模型斬獲同尺寸SOTA

智東西 2025-06-05 20:02:52
5 跟貼 5
爆改大模型訓練，華為打出昇騰+鯤鵬組合拳

虎嗅APP 2025-06-04 19:00:08
1 跟貼 1
ICML 2025｜趣丸研發新型人臉動畫技術，聲音+指令精準控制表情

機器之心Pro 2025-06-05 14:40:15
0 跟貼 0
拿下2000臺人形機器人訂單、總合同額超1億，松延動力創始人詳解技術秘籍

智東西 2025-06-05 21:44:01
1 跟貼 1
研發自動化的初衷是讓每一個研究員都有Agent助理

量子位 2025-04-23 08:05:00
0 跟貼 0
大模型月級迭代下，金融AI Agent如何平衡創新與風險合規

每日經濟新聞 2025-05-19 23:01:58
0 跟貼 0
女司機開口要150的水，男收費員秒懂：沖奶粉是吧

大象新聞 2025-06-05 19:15:34
73 跟貼 73
階躍星辰To C產品“冒泡鴨”將停運，重心轉向終端Agent｜智能涌現獨家

36氪 2025-06-04 15:45:16
0 跟貼 0
MIT團隊打造新模型架構，渲染質量優于3D高斯潑濺

DeepTech深科技 2025-06-03 19:17:25
2 跟貼 2
AI游戲，卡在“最后一公里”

第一財經資訊 2025-06-04 11:29:34
0 跟貼 0
美國一票否決加沙停火協議草案中方代表：非常失望

魯中晨報 2025-06-05 08:26:06
20002 跟貼 20002
古城孤魂的閑言碎語006

古城孤魂 2025-06-05 14:36:22
2 跟貼 2
連續報道（7）“豆包”歸隊全網關注，網友“仍有話說”園長一一作答

揚子晚報 2025-06-05 14:23:52
0 跟貼 0
中國應對大鵝勝利的終極策略：若勝，將采取三大行動！

春天來了啊 2025-06-04 09:13:55
0 跟貼 0
豆包說：恭喜，物業十年后消失，物業人和業主們，都將如釋重負！

草根的思考 2025-06-04 22:57:25
21 跟貼 21
“豆包”回家了！還胖了一斤多

新民周刊 2025-06-04 20:31:01
0 跟貼 0
豆包1.5·深度思考模型上線(2)

機器之心Pro 2025-04-17 19:53:58
0 跟貼 0
豆包能代替你么？

烏雞哥娛樂 2025-06-03 19:27:40
0 跟貼 0
柯南漫畫1145話：朗姆展現推理能力，柯南的確不如他

二次元那些事 2025-06-04 22:34:46
2 跟貼 2
“豆包”失蹤兩個月終于回家

跨服解說家 2025-06-04 00:57:43
0 跟貼 0
復旦大學外文學院聯合豆包舉辦AI工作坊

上觀新聞 2025-06-05 17:09:10
0 跟貼 0
碟中諜8邏輯紊亂的無病呻吟中，倒是把一件最危險的事說對了

劉曉非說 2025-06-02 15:56:04
11 跟貼 11
結局詳細復盤！《血謎拼圖》推理的缺憾，新拼圖埋下第二季伏筆？

霧風誌 2025-06-05 12:37:55
0 跟貼 0
免費招募 | 文生文、文生圖、文生視頻怎么操作，區青少中心AIGC培訓課程來教你

上海虹口 2025-06-04 10:10:31
0 跟貼 0
Gemini 2.5彎道超車背后的靈魂人物

鈦媒體APP 2025-06-05 17:34:43
0 跟貼 0
“大罷免”將進入第三階段，朱立倫祭出新策略，侯友宜領軍反制

環球獨家 2025-06-04 11:31:19
0 跟貼 0
從巴布爾級護衛艦看巴基斯坦的軍事采購策略與地緣政治智慧

花謝依然美 2025-06-04 05:14:40
0 跟貼 0
河南一水庫水位下降現千佛石窟，有1043尊石佛幾乎全部被敲掉頭部，水庫管理人員：汛期將至，禁止參觀

魯中晨報 2025-06-02 10:19:03
4188 跟貼 4188
上海宣布：南北高架打通新通道，通行提速！終于不用堵了→

魯中晨報 2025-06-05 20:00:00
127 跟貼 127

AppSo

讓智能手機更好用的秘密

5362文章數 26570關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

旅游

本地

時尚

數碼

家居要聞

手機 / 數碼

房產 / 家居

豆包深度思考模型正式發布！和 o3 一樣能「看圖思考」，還有一個 Agent 大招

對話盛景網聯彭志強：跳出SaaS虧損黑洞！從“賣工具”到“賣結果”的AI RaaS轉型法則

27歲女子被咬傷身亡 三亞衛健委再通報搶救全過程

27歲女子被咬傷身亡 三亞衛健委再通報搶救全過程

提前無緣美加墨世界杯 國足眾將賽后落淚

陳赫宴請好友，李乃文攜妻子罕見亮相

習近平同美國總統特朗普通電話

旗艦+大六座+百萬級 阿維塔全新SUV預計明年量產

態度原創

潔白奶油 簡約舒適之家

熱聞|清明假期將至，熱門目的地有哪些?

非遺里的河南 | 黃河泥變身千年墨寶，寫字都帶仙氣兒～

泰權威！復刻三分已成濃顏貴女

研究人員稱 Apple Watch 的一個關鍵健身指標有誤

27歲女子被咬傷身亡三亞衛健委再通報搶救全過程

27歲女子被咬傷身亡三亞衛健委再通報搶救全過程

提前無緣美加墨世界杯國足眾將賽后落淚

旗艦+大六座+百萬級阿維塔全新SUV預計明年量產

潔白奶油簡約舒適之家