網易首頁 > 網易號 > 正文申請入駐

豆包深度思考模型發布，具備“看圖思考”能力

2025-04-17 14:54:03　來源: 市象

河南舉報

分享至

4月17日，火山引擎面向企業市場發布豆包1.5?深度思考模型，同步升級文生圖模型 3.0、視覺理解模型，并推出 OS Agent 解決方案及AI云原生推理套件，幫助企業更快、更省地構建和部署Agent應用。

據火山引擎披露，截至 2025 年 3 月底，豆包大模型日均 tokens 調用量已達到12.7萬億，較去年5月發布時增長上百倍。火山引擎總裁譚待表示，Agent智能體應用發展將帶動大模型進一步普及。譚待說：“深度思考模型是構建Agent的基礎，模型要有能力做好思考、計劃和反思，并且一定要支持多模態，就像人類具備視覺和聽覺一樣，Agent才能更好地處理復雜任務。”

圖：火山引擎總裁譚待

豆包深度思考模型開放API，具備視覺推理能力

據譚待介紹，豆包1.5?深度思考模型在專業領域的推理任務中表現出色，數學推理AIME 2024 測試得分追平OpenAI o3-mini-high，編程競賽和科學推理測試成績也接近o1。在創意寫作、人文知識問答等通用任務上，模型也展示出優秀的泛化能力，能勝任更廣泛的使用場景。

技術報告顯示，豆包深度思考模型采用MoE架構，總參數為200B，激活參數僅20B，以較小參數實現媲美頂尖模型的效果。基于高效算法和高性能推理系統，豆包模型API服務在保障高并發的同時，延遲低至20毫秒。

豆包深度思考模型還具備視覺推理能力，能像人類一樣對看到的事物進行聯想和思考，極大拓展了智能推理的應用邊界。譚待舉例說明，“模型可以看懂復雜的企業項目管理流程圖表，快速定位到關鍵信息，并以強大的指令遵循能力，嚴格按照流程圖，回答客戶的問題；分析航拍圖時，能結合地貌特征判斷區域開發可行性。有多模態能力的加持，豆包深度思考模型可以助力企業在更多場景實現智能化升級。”

此外，豆包文生圖模型Seedream3.0也正式向企業開放。該模型已在即夢AI、豆包產品上線，并在近期登上權威競技場Artificial Analysis文生圖榜單第一梯隊。Seedream3.0支持2K分辨率直出，生圖結構準確性、小字生成與排版、美感、真實度等方面具有優勢。

火山引擎為Agent裝上“助推器”

2025年被業界視為“Agent智能體元年”。譚待認為，在多模態深度思考模型的基礎上，Agent需要良好的架構和工具，去操作數字世界和物理世界。同時，模型的推理成本和延遲要持續降低，才能推動應用普惠。

為此，火山引擎宣布推出OS Agent解決方案，并演示了由Agent操作瀏覽器，搜索商品頁，實現iPhone比價的任務，甚至由Agent在遠程計算機上用剪映進行視頻編輯、配樂。

據悉，OS Agent解決方案包含豆包UI-TARS模型，以及veFaaS函數服務、云服務器、云手機等產品，實現對代碼、瀏覽器、電腦、手機以及其他Agent的操作。其中，豆包UI-TARS模型將屏幕視覺理解、邏輯推理、界面元素定位和操作整合在一起，突破傳統自動化工具依賴預設規則的局限性，為Agent的智能交互提供了更接近人類操作的模型基礎。

好的模型和工具能夠加速Agent的落地，但Agent也會帶來更大量的模型推理消耗。面對大規模推理需求，火山引擎專門打造了AI云原生ServingKit 推理套件，讓模型部署更快、推理成本更低，GPU 消耗相比傳統方案降低80%。

IDC發布的《中國公有云大模型服務市場格局分析，1Q25》顯示，火山引擎以46.4%的市場份額位居第一。憑借高性價比、靈活易用的工具鏈，以及覆蓋全場景的解決方案，火山引擎成為企業落地大模型的首選平臺。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.