這兩個月,AI 模型和產品的發布節奏用「日新月異」都不足以形容了。
GPT-4o 生圖的爆火似乎還是昨天,OpenAI 放出了自家最強推理模型 ,但這可能還不是這個月最重磅的 AI 發布,DeepSeek R2、Anthropic 的 Claude 4 以及馬斯克劇透的「Grok-3.5」 ,極有可能將在本月陸續發布。
而且就在今天,字節還發布了一整套 AI 全家桶,深度思考模型、視覺推理、文生圖、AI Agent……幾乎涵蓋了最近 AI 圈關注度最高的產品。
先看看這次字節發布的產品和亮點有哪些:
1. 豆包 1.5 · 深度思考模型
推理能力躋身全球第一梯隊
更低延遲支撐高要求應用
多模態理解與應用場景:支持「邊想邊搜」和「視覺推理」
2. 文生圖 3.0
3 秒出圖
原生 2K 高清
文本排版與小字生成優化
美感效果和生圖結構提升
3. 豆包 1.5 視覺理解模型新版
視覺定位更精準
對視頻的理解更智能
4. AI Agent
垂類應用 Agent:豆包推出了國內首個 AI IDE——Trae
OS Agent:能夠操作瀏覽器、電腦、手機或其他 Agent 完成復雜任務
字節這一系列產品升級,不僅在推理能力和多模態理解上實現突破,也通過 Agent 加速 AI 在更多場景的應用落地。
就像火山引擎總裁譚待所說的,「如果說 2024 年是中國 AI 應用的元年,那 2025 年極有可能是 AI Agent 應用的元年。」
豆包 1.5·深度思考模型:像人一樣思考和觀察
豆包 1.5·深度思考模型作為本次升級的核心,有三個關鍵升級:更強的推理效果、極低的響應延遲和全面的多模態能力。
在專業領域推理能力測試中,豆包深度思考模型整體達到或接近全球第一梯隊水平。
數學推理方面,在 AIME 2024 測試中的得分已追平 OpenAI o3-mini-high。
編程競賽方面,在 Codeforces pass@8 測試中接近 OpenAI o1。
科學推理能力在 GPQA 測試中也接近 o3-mini。
豆包 1.5·深度思考模型采用總參數達 200B 的 MoE 架構,但激活參數僅為 20B。
這種設計可以在保證強大性能的同時,顯著降低了訓練和推理成本,實現了 20 毫秒的極低延遲,這意味著能更好應用在對延遲敏感的實時交互場景。
豆包深度思考模型技術報告
https://github.com/ByteDance-Seed/Seed-Thinking-v1.5
在實際體驗中,豆包深度思考模型的「邊想邊搜」和「視覺推理」這兩個功能,帶來了一些驚喜,也是目前相較同類產品比較有特色的。
「邊想邊搜」功能模擬了人類解決問題時邊思考邊查閱資料的過程,它把搜索和推理捆綁在一起,基于每一步的思考結果進行多次搜索,能讓回答更有邏輯、更貼近需求。
以購物推薦場景為例,用戶需要為一家三口選擇露營裝備,涉及預算、安全性、便攜性、適應天氣等多維度因素。
豆包深度思考模型不是簡單給出答案,而是像顧問一樣進行多輪搜索和思考:
1. 第一輪搜索價格與性能數據,基本確定選擇范圍
2. 第二輪針對兒童需求搜索,篩選安全適合的裝備
3. 第三輪考慮天氣因素,查詢詳細評測
整個過程透明化,用戶可以看到模型如何一步步構建解決方案。這種「邊想邊搜」能力不僅適用于購物決策,還能應用于金融分析、旅游規劃等復雜決策場景。
至于豆包 1.5·深度思考模型的視覺推理能力,剛好和 OpenAI o3 不謀而合,讓 AI 能像人類一樣基于圖像進行深層思考。
比如在地理位置推測任務中,模型不僅識別出圖片中的湖泊,還注意到湖泊邊緣的鹽結晶和周邊旅游設施等微小細節,通過邏輯推理精確定位景點位置。
而在國外點餐場景更具代表性,模型需要同時處理多種復雜因素:計算不同貨幣的價格換算、考慮老人和兒童的飲食喜好、避開可能引起過敏的食材等。這種能力大大超越了傳統的單一功能工具。
視覺推理能力在企業辦公場景其實也能發揮重要作用,豆包可以解讀復雜的項目管理流程圖表,快速定位關鍵信息,嚴格按照流程圖邏輯回答問題。
可以看到,無論是解析財報圖表還是分析產品說明圖,都能展現專業水準的理解能力。
豆包文生圖 3.0:從生成到創造的飛躍
Gemini 2.0 和 GPT-4o 的「一句話生圖」掀起了新一輪生圖的熱潮,這次豆包文生圖模型 Seedream3.0 則在三個核心方面實現突破:文字排版、圖像真實感和高清輸出能力。
在文生圖領域權威評測 Artificial Analysis 競技場中,豆包文生圖 3.0 已經不輸 GPT-4o、Imagen 3、Midjourney v6.1、FLUX 1.1 Pro 等頂級模型,躋身全球第一梯隊。
Seedream3.0 最顯著的升級是實現了 2K 分辨率圖像的直接生成。字節技術團隊通過多分辨率混合訓練策略,讓模型能夠適應從手機屏幕到巨幅海報的各種比例需求,無需后期放大處理即可輸出清晰高質的圖像。
這種原生高分辨率能力,意味著對專業設計和商業應用提供了極大便利。
同時 1K 分辨率出圖縮小到 3 秒,這一高效推理能力得益于多項技術優化,讓創作者能夠實現「所想即所得」的實時交互體驗。對于海報設計、視覺創意這類需要和甲方高效溝通的場景。這種速度就很實用。
中文小字和長文本排版一直是 AI 繪畫痛點,豆包 3.0 不僅解決了這一難題,還將排版美感提升到專業水準。以「現形」海報系列為例,生成內容細節豐富、排版精美,達到了商用水平。
人像生成方面,通過缺陷感知數據優化和跨模態編碼技術,新模型在皮膚質感、表情自然度、服裝紋理等方面極為逼真,幾乎消除了 AI 生成的「詭異感」。
目前 Seedream3.0 已在豆包、即夢等平臺全量開放,大家不妨親自試玩。
視覺理解模型:從識別到理解
豆包 1.5 視覺理解模型主要在視覺定位和視頻理解兩個方向實現了突破。
視覺定位方面,新模型支持多目標定位(同時識別多個物體)、小目標定位(識別極小物體)和通用目標定位(不受預訓練類別限制)等高級功能,還能進行點定位計數和 3D 場景定位。這些能力為機器人視覺、自動駕駛等領域提供了堅實基礎。
同時,模型實現了記憶能力增強、總結理解能力提升、速度感知能力和長視頻理解能力的全面提升。這使得用戶可以對家庭監控視頻進行語義搜索,如詢問「今天小貓在家都干什么了?」系統能定位并展示相關片段。
AI Agent 的未來:應用 + OS
這次豆包 1.5 的核心突破不僅體現在模型能力上,更重要的是為 AI Agent 提供了強大基礎,開始思考「AI 該解決什么問題」,而非單純追求技術指標。
譚待認為, AI Agent 的構成,可以分為垂類應用 Agent 和 OS Agent。
在應用 Agent 領域,豆包團隊推出了針對不同垂類場景的專業 AI 助手,包括客服 Agent、數據 Agent 和代碼 Agent 等。這些 Agent 專注于特定領域任務,具備深度專業能力。
其中最引人注目的是國內首個 AI IDE——Trae。與傳統 AI 插件不同,Trae 將 AI 與集成開發環境深度融合,具備三大核心特質:
1.
交付化:面向軟件交付而非僅生成代碼,從本質需求出發
2.
智能化:能理解信息和意圖,自主規劃反思,調用工具執行任務
3.
協作化:能與用戶在多個維度協作,保障最終結果質量
這種設計理念使 Trae 能幫助開發者和企業更快速、更準確地完成軟件開發工作,實現從代碼片段生成到完整軟件交付的跨越。
而 OS Agent 代表了AI 能力的更高層次——擁有跨場景的通用性和靈活性,能夠操作瀏覽器、電腦、手機或其他 Agent 完成復雜任務。
火山引擎的 OS Agent 解決方案核心由豆包大模型和 veFaaS 產品組成。通過兩個案例可以直觀了解其強大能力:
代碼執行:Agent 能用 Python、NodeJS 等多種語言編寫代碼并運行,如生成斐波那契數列并輸出結果。豆包模型負責代碼生成,veFaaS 代碼安全沙箱負責安全編譯運行。
瀏覽器操作:Agent 能通過瀏覽器完成 iPhone 產品比價,自動搜索多個電商平臺、提取價格信息并進行對比分析,最終給出最優購買建議。
在更復雜場景中,OS Agent 甚至能操作專業軟件。如使用剪映專業版進行視頻剪輯和配樂,或通過豆包 APP 生成內容并發布至今日頭條;在手機端,則能操作指定 APP 完成高鐵訂票等任務。
這些能力的核心是全新發布的 GUI Agent 大模型——UI-Tars,它將屏幕視覺理解、邏輯推理、界面元素定位和操作整合在單一模型中,突破了傳統自動化工具依賴預設規則的局限。UI-Tars 在 OS World 等測試集中已取得國內各類模型中的最優成績。
最近 OpenAI 姚順雨在一篇文章中指出,我們已經進入了AI 發展的「下半場」。與上半場不同,下半場不再僅關注模型改進和技術指標,而是轉向如何定義真正有價值的問題以及如何衡量真正的進步。
很難說在 AI 迅猛而又非線性的發展,用過去互聯網的上下半場來劃分是否適用,但一些轉變確實在發生:不再把模型作為目的,而是作為解決實際問題的工具。
這可能就是字節內部所謂「務實的浪漫」,字節 CEO 梁汝波在年初的字節 All Hands 全員會上強調了這個概念。
這是最初是張一鳴在 2019 年提出的,他認為務實的浪漫就是 「把想象變成現實,face reality and change it。」
面對 DeepSeek 和 Agent 產品帶來的 AI 行業劇變,這也會是字節的應對方式。
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.