智東西
作者 陳駿達
編輯 心緣
智東西4月17日報道,今天,火山引擎正式發布了豆包1.5·深度思考模型,采用MoE架構,總參數量為200B,激活參數僅20B,在多項基準測試中達到或接近全球第一梯隊水平。
在數學、編程、科學領域,豆包1.5·深度思考模型的測試表現超過DeepSeek-R1、QwQ-32B等國產推理模型,與OpenAI o1、o3-mini-high等模型能力相仿。在高難度通用人工智能測試ARC-AGI上,其得分更是超過了OpenAI o1和o3-mini-high。
豆包1.5·深度思考模型具有“邊想邊搜”、“視覺理解”等實用能力,即日起,企業用戶可以在火山方舟平臺使用豆包1.5·深度思考模型。火山引擎還升級了豆包·文生圖模型3.0、豆包·視覺理解模型。
數據顯示,截至2025年3月底,豆包大模型日均tokens調用量已超過12.7萬億,是2024年12月的3倍,是一年前剛剛發布時的106倍。IDC報告顯示,2024年中國公有云大模型調用量激增,火山引擎以46.4%的市場份額位居中國市場第一。
一、高并發場景延遲僅20毫秒,可邊想邊搜、視覺理解
豆包1.5·深度思考模型較小的參數量和激活參數量,使其具備更低的訓練和推理成本,可在高并發場景實現20毫秒低延遲。
搜索能力是豆包1.5·深度思考模型的亮點之一。與其他推理模型“先搜索再思考”的模式不同,豆包App基于豆包1.5·深度思考模型進行了定向訓練,可以“邊想邊搜”。
例如,在給用戶推薦露營裝備時,豆包1.5·深度思考模型可以拆解每個具體需求的注意事項,規劃信息,自行判斷信息是否完備,并補充搜索信息。在3輪搜索后,豆包1.5·深度思考模型給出了預算范圍內、細致周到的推薦。
豆包1.5·深度思考模型還具備視覺理解能力,能基于文字、圖像信息進行思考。在下方場景中,豆包1.5·深度思考模型就做到了理解菜單內容,分析每道菜的組成、照顧不同人的口味和過敏食物,給出預算內的點餐推薦。
據火山引擎介紹,為了提升豆包1.5·深度思考模型的通用能力,模型團隊優化了數據處理策略,把可驗證數據與創意性數據進行融合處理,滿足各類任務的需求。
此外,大規模強化學習是訓練推理模型的關鍵技術,通過采用創新的雙軌獎勵機制,兼顧“對錯分明”和“見仁見智”的任務,有效實現了算法的可靠優化。
二、多項跑分打平OpenAI推理模型,AGI測試優勢明顯
火山引擎公布了豆包1.5·深度思考模型在多項權威基準測試上的跑分結果。
在AIME 2024、AIME 2025這類數學測試中,豆包1.5·深度思考模型的得分與OpenAI o3-mini-high基本打平,但在難度更高的Beyond AIME上仍與后者有明顯差距。
在博士級推理難題測試集GPQA Diamond上,豆包1.5·深度思考模型的得分為77.3,與OpenAI o1、o3-mini-high僅有微小差距。
在編程基準測試Code Forces和SWE-bench上,豆包1.5·深度思考模型實現了接近或超越DeepSeek-R1的成績。
在高難度通用人工智能測試ARC-AGI上,其得分更是大幅超過了OpenAI o1和o3-mini-high,達39.9分。
在創意寫作等非推理任務中,豆包1.5·深度思考模型也展示出泛化能力,能夠勝任更廣泛和復雜的使用場景。
三、直出2K高清圖片,還能搜索視頻內容
全新升級的豆包·文生圖模型3.0,能夠實現更好的文字排版表現、實拍級的圖像生成效果,以及2K的高清圖片生成方式。
▲豆包·文生圖模型3.0生成的2K人像(圖源:火山引擎)
豆包·文生圖模型3.0還可廣泛應用于影視、海報、繪畫、玩偶設計等營銷、電商、設計場景,生成的文字準確無誤,畫面有設計感。
▲豆包·文生圖模型3.0生成的海報(圖源:火山引擎)
在最新的文生圖領域權威榜單Artificial Analysis競技場中,豆包·文生圖3.0模型已超越業界諸多主流模型,排名全球第一梯隊。
新版本的豆包·視覺理解模型則具備更強的視覺定位能力,支持多目標、小目標、通用目標的框定位和點定位,并支持定位計數、描述定位內容、3D定位。可應用于線下門店的巡檢場景、GUI agent、機器人訓練、自動駕駛訓練等。
將一盒草莓的圖片發送給豆包·視覺理解模型,它能迅速數出有多少草莓,并框定其位置。
同時,新版本在視頻理解能力上也有大幅提升,比如記憶、總結理解、速度感知、長視頻理解等。豆包·視覺理解模型結合向量搜索,可直接對視頻進行語義搜索,廣泛適用于安防、家庭看護等商業化場景。
結語:國產推理模型角逐激烈
推理模型已經成為國內各大模型廠商角逐的重要方向。本次豆包1.5·深度思考模型在推理成本、視覺理解等方面的新能力,或許將成為下一輪推理模型升級的重要方向。
同日,火山引擎還發布了OS Agent解決方案、GUI Agent大模型(豆包1.5·UI-TARS);面向大規模推理,發布AI云原生·ServingKit推理套件。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.