99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

字節推豆包1.5深度思考模型,PK阿里QWQ-32、Deepseek R1結果如何?

0
分享至

作者|子川

來源|AI先鋒官

卷,還得是AI圈!

昨天,OpenAI前腳放出自家最強推理大模型o3和o4-mini,字節后腳就召開發布會發布了豆包1.5·深度思考模型、文生圖3.0、新版豆包 1.5 視覺理解模型等一系列產品。


下面我們就來重點聊一聊今天的主人公——豆包1.5深度思考模型。

豆包 1.5深度思考模型包含兩個版本,分別是Doubao-1.5-thinking-pro和Doubao-1.5-thinking-pro-vision。

前者推理能力更強,后者則是支持多模態視覺推理。

根據官方介紹,豆包 1.5深度思考模型在推理能力、速度、多模態三大維度實現突破性升級!

效果好、低延遲、多模態。


首先來看一下豆包1.5 深度思考模型在多項權威基準測試上的跑分成績。


  • 數學推理方面,在 AIME 2024 測試中的得分已追平 OpenAI o3-mini-high,不過在AIME 2025測試、Beyond AIME上的得分相差較大。

  • 編程競賽方面,在 Code Forces和SWE-bench上 測試中接近DeepSeek-R1。

  • 在博士級推理難題測試集GPQA Diamond上中成績也接近 o3-mini。

同時豆包1.5 深度思考模型采用的是總參數200B 的 MoE 架構,但激活參數僅為 20B。

這種實設計使得它的性能強大,降低了訓練和推理成本,實現了20毫秒的低延遲。

最后就是它的多模態功能,此次推出的視覺版 Doubao-1.5-thinking-pro-vision,可以進行圖片推理。

比如我們扔給它一張圖,輸入“男朋友說出差一個人住酒店,這個他拍給我的照片,幫我看看他推斷他是否是一個人住"


我們可以看到,豆包思考了5.84秒,給出了它的推理過程。


再來看一下它給出的答案。


豆包化身成一名偵探,從圖片獲取到了被子的使用痕跡、沙發并沒有明顯的坐壓痕跡、只有一雙拖鞋等信息,初步判斷是一個人居住。

不過后續表示無法僅憑一張照片是難以確認的,推理十分嚴謹。

跑了幾個案例,偶爾也有翻車的時候,比如上傳一張顯示冰箱食物的照片,并告訴它“我是一個人居住,這些菜我可以吃幾天,并用這些菜幫我設計菜譜”


但豆包給出的答案中有很多食材是沒有的,比如冰箱中是沒有茄子的,但它卻讓我煮魚香茄子,整體上還有一點小瑕疵。


最后,老規矩,我們來場PK,實測一下豆包1.5深度思考模型的推理能力。

此次的參賽選手有阿里的QWQ-32、Deepseek R1和Doubao-1.5-thinking-pro。

測試題一:高三摸底試卷題


這道題是一道多選題,正確答案是:B、C、D,看看哪位選手能做對。

QWQ-32:


Deepseek R1:


Doubao-1.5-thinking-pro:


這組答案挺有意思,QWQ-32選擇出一個正確答案,Deepseek R1選擇兩個正確答案,Doubao-1.5-thinking-pro則是把所有正確答案都答出來了。

Doubao-1.5-thinking-pro有點東西。

測試題二:你和朋友輪流從一堆金幣中取1、3或6枚。獲勝者是最后取走金幣的人。對于N<1000,第一位玩家有多少種贏得游戲的策略?

先公布一下正確答案:666種

QWQ-32:


Deepseek R1:


Doubao-1.5-thinking-pro:


這道題只有Deepseek R1回答正確,QWQ-32和Doubao-1.5-thinking-pro則推理錯誤。

測試題三:猜數字游戲

給甲、乙、丙三人各發一個正整數,并告訴他們他們三人的數字之和為14。

甲對乙和丙說:我知道你們兩人的數字一定不相等。
乙想了想,對甲說:我們兩人的數字之差一定比丙大。
丙聽完甲和乙的話后,依舊沉默不語。
若甲乙丙三人都很聰明,且只要他們能推斷出三人的數字分別是什么,那個人會在第一時間說出。(不考慮甲、乙見到丙沉默之后是否知曉)
那么,丙的數字是多少?

QWQ-32:


Deepseek R1:


Doubao-1.5-thinking-pro:


好家伙,第一次全部回答正確,上上難度,來一個之前難到很多模型的一道題。

測試題四:一根8米長的竹竿是否能通過一個4米高、2米寬的門?

QWQ-32:


Deepseek R1:


Doubao-1.5-thinking-pro:


果然,沒有幾個模型可以回答出這道題,全軍覆沒。

測試題五:猜F下過幾盤棋

A、B、C、D、E、F六人賽棋,采用單循環制。現在知道:A、B、C、D、E五人已經分別賽過

5.4、3、2、l盤。問:這時F已賽過幾盤。

QWQ-32:


Deepseek R1:


Doubao-1.5-thinking-pro:


又全對,看來推理題已經不能滿足它們了,給它們上一道世紀難題。

測試題六:你老婆問你,我和你媽媽同時掉水里了,你救誰,只能救一個,你會怎么回答?

QWQ-32:


Deepseek R1:


Doubao-1.5-thinking-pro:


這道題,本身就沒有正確答案,其實是一個情商測試題。

看到Deepseek R1和Doubao-1.5-thinking-pro回答,它們倆真的是情商高呀,相反老實人QWQ-32則是一板一眼的回答。

雖然此次測試沒有基準測試那么全面,但可以看出 Doubao-1.5-thinking-pro在復雜任務的處理上是不輸Deepseek R1的,而且情商還高。

目前, Doubao-1.5-thinking-pro已經全面推出了,大家可以上火上引擎去玩,目前是免費的。


附上體驗鏈接: https://www.volcengine.com/

好了,此次的測試就到這里,如果大家有疑問,歡迎在評論區留言討論。

掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。

往期文章回顧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
71歲伊萬與足協解約!本周末離開中國 不愁沒工作:已接到5國邀請

71歲伊萬與足協解約!本周末離開中國 不愁沒工作:已接到5國邀請

風過鄉
2025-06-13 20:13:53
一旦活到了70歲,大部分就出現了如下癥狀,看看你占了幾個?

一旦活到了70歲,大部分就出現了如下癥狀,看看你占了幾個?

嘆為觀止易
2025-06-14 10:15:07
N+3!網傳TPlink上海張江wifi部門大裁員:上午通知下午簽晚上走

N+3!網傳TPlink上海張江wifi部門大裁員:上午通知下午簽晚上走

特特農村生活
2025-06-14 09:51:25
北京5名學霸高考估分700分實際350分,家長聯合舉報,結果如何

北京5名學霸高考估分700分實際350分,家長聯合舉報,結果如何

黃家湖的憂傷
2025-06-03 17:20:41
如果孫中山臨終前,把國民黨交給毛澤東來領導,會出現什么局面?

如果孫中山臨終前,把國民黨交給毛澤東來領導,會出現什么局面?

何氽簡史
2025-06-14 00:41:44
“想裝還舍不得花錢”10歲女孩生日大排宴宴,被網友扒出團購訂單

“想裝還舍不得花錢”10歲女孩生日大排宴宴,被網友扒出團購訂單

知曉科普
2025-06-13 11:48:53
賴清德攔不住,一周之內,臺島三路人馬抵達大陸,侯友宜原形畢露

賴清德攔不住,一周之內,臺島三路人馬抵達大陸,侯友宜原形畢露

泠泠說史
2025-06-14 17:02:10
8000萬歐!葡體正式標價52場54球鋒霸:已通知英超2強 經紀人怒斥

8000萬歐!葡體正式標價52場54球鋒霸:已通知英超2強 經紀人怒斥

風過鄉
2025-06-14 09:18:53
趙本山兒子完美詮釋土和豪

趙本山兒子完美詮釋土和豪

情感大頭說說
2025-06-02 20:22:02
少婦天花板!

少婦天花板!

貴圈真亂
2025-06-10 12:03:31
臺風“蝴蝶”在廣東雷州二次登陸:全省累計轉移超9萬人,湛江五條高速封閉,多座跨海大橋管控

臺風“蝴蝶”在廣東雷州二次登陸:全省累計轉移超9萬人,湛江五條高速封閉,多座跨海大橋管控

極目新聞
2025-06-14 14:45:26
東部戰區:若武統臺灣,不會斬首賴清德,只因一個極其重要的原因

東部戰區:若武統臺灣,不會斬首賴清德,只因一個極其重要的原因

混沌錄
2025-06-13 21:04:24
溫網冠軍鄭欽文獎金2921萬,奪冠前景受質疑

溫網冠軍鄭欽文獎金2921萬,奪冠前景受質疑

徐徐解說
2025-06-13 17:15:37
亞足聯欲邀兩隊晉級世界杯遭西亞3國足協反對,國足意外受益

亞足聯欲邀兩隊晉級世界杯遭西亞3國足協反對,國足意外受益

呂彍極限手工
2025-06-14 13:31:53
WTA倫敦站:鄭欽文2-0橫掃前美網冠軍拉杜卡努 首進草地賽四強

WTA倫敦站:鄭欽文2-0橫掃前美網冠軍拉杜卡努 首進草地賽四強

醉臥浮生
2025-06-14 01:30:05
國足揪出30年來,最大罪人,讓中國國足丟盡顏面

國足揪出30年來,最大罪人,讓中國國足丟盡顏面

體壇狗哥
2025-06-14 10:46:13
其中一員!小奧尼爾:96屆選秀是歷史最佳 那一屆太有深度了

其中一員!小奧尼爾:96屆選秀是歷史最佳 那一屆太有深度了

直播吧
2025-06-14 19:19:59
周總理臨終3條遺囑,毛主席只答應一條,華國鋒:當時沒人敢做主

周總理臨終3條遺囑,毛主席只答應一條,華國鋒:當時沒人敢做主

老閆侃史
2025-06-14 19:00:03
自己宣!決定了!李月汝!

自己宣!決定了!李月汝!

左右為籃
2025-06-14 11:57:44
湖人迎好消息!詹姆斯或2年頂薪續約,父子三人同臺的壯舉有戲了

湖人迎好消息!詹姆斯或2年頂薪續約,父子三人同臺的壯舉有戲了

小路看球
2025-06-14 18:23:16
2025-06-14 19:40:49
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
295文章數 18關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

失獨母親60歲冒死生的雙胞胎中考了 母親稱不會去陪考

頭條要聞

失獨母親60歲冒死生的雙胞胎中考了 母親稱不會去陪考

體育要聞

32隊爭10億獎金,全新世俱杯來了!

娛樂要聞

曾毅塌房了?戴性暗示手表 腳踹女員工

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

數碼
本地
教育
手機
健康

數碼要聞

華為 WATCH 5 系列鴻蒙 AI 智能手表通過星閃認證

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

教育要聞

五年級的期末考試題,看著很簡單,但是很容易踩坑

手機要聞

華為 Pura 80 系列手機全系搭載 HDR Vivid 菁彩影像技術

呼吸科專家破解呼吸道九大謠言!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中宁县| 衡山县| 满洲里市| 图们市| 通许县| 沙坪坝区| 新化县| 溧水县| 荔浦县| 绥滨县| 镇巴县| 安岳县| 策勒县| 陇南市| 辽阳市| 武冈市| 星子县| 获嘉县| 贵德县| 建水县| 子洲县| 台东市| 温泉县| 三亚市| 长垣县| 乌兰浩特市| 平遥县| 玛纳斯县| 临泽县| 宾阳县| 滁州市| 客服| 隆德县| 许昌县| 垣曲县| 洪雅县| 龙口市| 扎兰屯市| 边坝县| 缙云县| 斗六市|