作者|子川
來源|AI先鋒官
卷,還得是AI圈!
昨天,OpenAI前腳放出自家最強推理大模型o3和o4-mini,字節后腳就召開發布會發布了豆包1.5·深度思考模型、文生圖3.0、新版豆包 1.5 視覺理解模型等一系列產品。
下面我們就來重點聊一聊今天的主人公——豆包1.5深度思考模型。
豆包 1.5深度思考模型包含兩個版本,分別是Doubao-1.5-thinking-pro和Doubao-1.5-thinking-pro-vision。
前者推理能力更強,后者則是支持多模態視覺推理。
根據官方介紹,豆包 1.5深度思考模型在推理能力、速度、多模態三大維度實現突破性升級!
效果好、低延遲、多模態。
首先來看一下豆包1.5 深度思考模型在多項權威基準測試上的跑分成績。
數學推理方面,在 AIME 2024 測試中的得分已追平 OpenAI o3-mini-high,不過在AIME 2025測試、Beyond AIME上的得分相差較大。
編程競賽方面,在 Code Forces和SWE-bench上 測試中接近DeepSeek-R1。
在博士級推理難題測試集GPQA Diamond上中成績也接近 o3-mini。
同時豆包1.5 深度思考模型采用的是總參數200B 的 MoE 架構,但激活參數僅為 20B。
這種實設計使得它的性能強大,降低了訓練和推理成本,實現了20毫秒的低延遲。
最后就是它的多模態功能,此次推出的視覺版 Doubao-1.5-thinking-pro-vision,可以進行圖片推理。
比如我們扔給它一張圖,輸入“男朋友說出差一個人住酒店,這個他拍給我的照片,幫我看看他推斷他是否是一個人住"
我們可以看到,豆包思考了5.84秒,給出了它的推理過程。
再來看一下它給出的答案。
豆包化身成一名偵探,從圖片獲取到了被子的使用痕跡、沙發并沒有明顯的坐壓痕跡、只有一雙拖鞋等信息,初步判斷是一個人居住。
不過后續表示無法僅憑一張照片是難以確認的,推理十分嚴謹。
跑了幾個案例,偶爾也有翻車的時候,比如上傳一張顯示冰箱食物的照片,并告訴它“我是一個人居住,這些菜我可以吃幾天,并用這些菜幫我設計菜譜”
但豆包給出的答案中有很多食材是沒有的,比如冰箱中是沒有茄子的,但它卻讓我煮魚香茄子,整體上還有一點小瑕疵。
最后,老規矩,我們來場PK,實測一下豆包1.5深度思考模型的推理能力。
此次的參賽選手有阿里的QWQ-32、Deepseek R1和Doubao-1.5-thinking-pro。
測試題一:高三摸底試卷題
這道題是一道多選題,正確答案是:B、C、D,看看哪位選手能做對。
QWQ-32:
Deepseek R1:
Doubao-1.5-thinking-pro:
這組答案挺有意思,QWQ-32選擇出一個正確答案,Deepseek R1選擇兩個正確答案,Doubao-1.5-thinking-pro則是把所有正確答案都答出來了。
Doubao-1.5-thinking-pro有點東西。
測試題二:你和朋友輪流從一堆金幣中取1、3或6枚。獲勝者是最后取走金幣的人。對于N<1000,第一位玩家有多少種贏得游戲的策略?
先公布一下正確答案:666種
QWQ-32:
Deepseek R1:
Doubao-1.5-thinking-pro:
這道題只有Deepseek R1回答正確,QWQ-32和Doubao-1.5-thinking-pro則推理錯誤。
測試題三:猜數字游戲
給甲、乙、丙三人各發一個正整數,并告訴他們他們三人的數字之和為14。
甲對乙和丙說:我知道你們兩人的數字一定不相等。
乙想了想,對甲說:我們兩人的數字之差一定比丙大。
丙聽完甲和乙的話后,依舊沉默不語。
若甲乙丙三人都很聰明,且只要他們能推斷出三人的數字分別是什么,那個人會在第一時間說出。(不考慮甲、乙見到丙沉默之后是否知曉)
那么,丙的數字是多少?
QWQ-32:
Deepseek R1:
Doubao-1.5-thinking-pro:
好家伙,第一次全部回答正確,上上難度,來一個之前難到很多模型的一道題。
測試題四:一根8米長的竹竿是否能通過一個4米高、2米寬的門?
QWQ-32:
Deepseek R1:
Doubao-1.5-thinking-pro:
果然,沒有幾個模型可以回答出這道題,全軍覆沒。
測試題五:猜F下過幾盤棋
A、B、C、D、E、F六人賽棋,采用單循環制。現在知道:A、B、C、D、E五人已經分別賽過
5.4、3、2、l盤。問:這時F已賽過幾盤。
QWQ-32:
Deepseek R1:
Doubao-1.5-thinking-pro:
又全對,看來推理題已經不能滿足它們了,給它們上一道世紀難題。
測試題六:你老婆問你,我和你媽媽同時掉水里了,你救誰,只能救一個,你會怎么回答?
QWQ-32:
Deepseek R1:
Doubao-1.5-thinking-pro:
這道題,本身就沒有正確答案,其實是一個情商測試題。
看到Deepseek R1和Doubao-1.5-thinking-pro回答,它們倆真的是情商高呀,相反老實人QWQ-32則是一板一眼的回答。
雖然此次測試沒有基準測試那么全面,但可以看出 Doubao-1.5-thinking-pro在復雜任務的處理上是不輸Deepseek R1的,而且情商還高。
目前, Doubao-1.5-thinking-pro已經全面推出了,大家可以上火上引擎去玩,目前是免費的。
附上體驗鏈接: https://www.volcengine.com/
好了,此次的測試就到這里,如果大家有疑問,歡迎在評論區留言討論。
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
往期文章回顧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.