網易首頁 > 網易號 > 正文申請入駐

實測騰訊混元T1正式版.vs.DeepSeek.vs.Qwen2.5-Max,推理能力哪家強？

2025-03-22 12:10:40　來源: AI先鋒官

北京舉報

分享至

作者｜子川

來源｜AI先鋒官

價格屠夫的稱號建議直接焊在騰訊深度思考模型 T1上，太卷了！

昨晚，騰訊混元罕見的開直播發布它們最新的模型——深度思考模型混元T1正式版。

根據官方介紹，混元T1正式版在推理能力、長文本處理、成本效率三大維度實現突破性升級！

“吐字快、能秒回、邏輯強”。

小編實測，最直觀體驗首先也是，太快了！

與此前已上線騰訊元寶的混元T1-preview相比，綜合效果明顯提升。

從放出的跑分成績來看，混元T1正式版在多項評估指標上超越OpenAI o1、GPT-4.5，以及Deepseek R1。

如在大語言模型（LLM）評估增強數據集MMLU-PRO中，混元T1取得87.2分，僅次于得分89.3的OpenAI o1，高于得分86.1的OpenAI GPT 4.5和得分84的DeepSeek R1。

另外T1沿用了混元Turbo S的創新架構，首次在工業界實現混合Mamba架構無損應用于超大型推理模型，這一設計打破傳統Transformer的算力桎梏。

最直觀的體現就是在價格上——

輸入價格為1元/百萬tokens，輸出價格為4元/百萬tokens。

對比同類模型，T1的API定價堪稱“價格屠夫”。

號稱AI界“拼多多”的DeepSeek R1在標準時段的定價為4元/百萬tokens輸入，16元/百萬tokens輸出。

文心大模型X1的定價則是2元/百萬tokens輸入，8元/百萬tokens輸出。

換句話說，混元T1的價格僅為DeepSeek R1的1/4，是文心 X1的1/2。

而海對面ChatGPT的價格一直居高不下。

GPT4.5的價格達到了75美元/百萬tokens輸入、150美元/百萬tokens輸出。

那混元T1正式版這款模型效果到底如何呢，老規矩，實測一手！

此次測試的選手是大家熟知的DeepSeek R1、Qwen2.5-Max以及騰訊新出的混元T1正式版。

先來一道簡單的推理題開開胃。

測試題一：誰說謊？

有三個人，Alex、Ben和Cody，其中一個是騎士（總是說真話），一個是小丑（總是說假話），一個是間諜（隨機說真話或假話）。Alex說：“Cody是小丑。”Ben說：“Alex是騎士。”Cody說：“我是間諜。”誰是騎士，誰是小丑，誰是間諜？

混元T1正式版

DeepSeek R1

Qwen2.5-Max

不愧是國內最前沿的推理模型，全部回答正確，看來，只能上上難度了。

測試題二：金幣游戲

你和朋友輪流從一堆金幣中取1、3或6枚。獲勝者是最后取走金幣的人。對于N<1000，第一位玩家有多少種贏得游戲的策略？

混元T1正式版

DeepSeek R1

Qwen2.5-Max

看DeepSeek思考了262秒就知道這道題已經足夠難了，然后它們三居然又全部回答正確了。

看來只能拿出殺手锏了，之前Deepseek R1都回答錯誤的一道題。

測試題三：一根8米長的竹竿是否能通過一個4米高、2米寬的門？

混元T1正式版

DeepSeek R1

Qwen2.5-Max

納尼！！！全部回答錯誤，之前全對，這次居然全錯，整整齊齊。

測試題四：Eael在哪個部門工作

Alex、Betty、Carol、Dan、Earl、Fay、George 和 Harry 是一家公司的八名員工

他們在三個部門工作：人事、行政和營銷，任何部門不超過三個。

他們每個人都有不同的運動選擇，包括足球、板球、排球、羽毛球、草地網球、籃球、曲棍球和乒乓球，不一定順序相同。

Dan 在行政部門工作，不喜歡足球或板球。
Fay 在人事部門工作，只有 Alex 喜歡乒乓球。
Earl 和 Harry 與 Dan 不在同一個部門工作。
Carol 喜歡曲棍球，不從事市場營銷工作。
George 不在行政部門工作，不喜歡板球或羽毛球。
在行政部門工作的人之一喜歡足球。
喜歡排球的人在人事部門工作。
在行政部門工作的人都不喜歡羽毛球或草地網球。
哈利不喜歡板球。

在行政部門工作的員工是誰？

Earl 在哪個部門工作？

混元T1正式版

DeepSeek R1

Qwen2.5-Max

先來看一下正確答案：

三款模型又全軍覆沒了，但DeepSeek R1和混元T1正式版成功推理出Betty、Carol 和 Dan 在行政部門工作，都沒有回答出Earl在哪個部門工作。

Qwen2.5-Max則是兩部分都沒有回答正確。

后續又測試了10多道之前測試過的推理題，基本上它們三全都推理正確，直接把我的測試題庫給干沒了，隨后我們換一個思路，測試數學題。

測試題五：高三摸底試卷題

先公布正確答案：ACD

混元T1正式版

DeepSeek R1

Qwen2.5-Max

好家伙，又是全部正確.....一時間居然分不出差距來。再來一道。

測試題六：高三摸底試卷題

同樣，先來看看正確答案：B C D

混元T1正式版

DeepSeek R1

Qwen2.5-Max

又是沒有一個答對，但Qwen2.5-Max選對了2個，混元T1正式版和DeepSeek則是選對了1個。

實際測試下來，發現居然分不出勝負，這三款模型的推理能力差不多實測都差不多。

雖然此次測試沒有基準測試那么完整，但是也能看出每個模型的推理能力的強悍。

目前，混元T1正式版已面向API用戶，在騰訊云上線，還未同步騰訊自家C端產品。

不過放出了體驗地址：

https://llm.hunyuan.tencent.com/#/chat/hy-t1

在3月20日接受彭博社采訪時，李開復劃定了中美AI競賽的終局格局。

中國將留下DeepSeek、阿里巴巴、字節跳動三家公司；美國則xAI、OpenAI、谷歌、Anthropic，四分天下。

看到騰訊混元T1的表現，難道還不能留在牌桌上？

掃碼邀請進群，我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型，順便學一些AI搞錢技能。

往期文章回顧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.