99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

實測騰訊混元T1正式版.vs.DeepSeek.vs.Qwen2.5-Max,推理能力哪家強?

0
分享至

作者|子川

來源|AI先鋒官

價格屠夫的稱號建議直接焊在騰訊深度思考模型 T1上,太卷了!

昨晚,騰訊混元罕見的開直播發布它們最新的模型——深度思考模型混元T1正式版。

根據官方介紹,混元T1正式版在推理能力、長文本處理、成本效率三大維度實現突破性升級!

“吐字快、能秒回、邏輯強”。


小編實測,最直觀體驗首先也是,太快了!

與此前已上線騰訊元寶的混元T1-preview相比,綜合效果明顯提升。

從放出的跑分成績來看,混元T1正式版在多項評估指標上超越OpenAI o1、GPT-4.5,以及Deepseek R1。

如在大語言模型(LLM)評估增強數據集MMLU-PRO中,混元T1取得87.2分,僅次于得分89.3的OpenAI o1,高于得分86.1的OpenAI GPT 4.5和得分84的DeepSeek R1。



另外T1沿用了混元Turbo S的創新架構,首次在工業界實現混合Mamba架構無損應用于超大型推理模型,這一設計打破傳統Transformer的算力桎梏。

最直觀的體現就是在價格上——

輸入價格為1元/百萬tokens,輸出價格為4元/百萬tokens。

對比同類模型,T1的API定價堪稱“價格屠夫”。

號稱AI界“拼多多”的DeepSeek R1在標準時段的定價為4元/百萬tokens輸入,16元/百萬tokens輸出。

文心大模型X1的定價則是2元/百萬tokens輸入,8元/百萬tokens輸出。

換句話說,混元T1的價格僅為DeepSeek R1的1/4,是文心 X1的1/2。


而海對面ChatGPT的價格一直居高不下。


GPT4.5的價格達到了75美元/百萬tokens輸入、150美元/百萬tokens輸出。


那混元T1正式版這款模型效果到底如何呢,老規矩,實測一手!

此次測試的選手是大家熟知的DeepSeek R1、Qwen2.5-Max以及騰訊新出的混元T1正式版。

先來一道簡單的推理題開開胃。

測試題一:誰說謊?

有三個人,Alex、Ben和Cody,其中一個是騎士(總是說真話),一個是小丑(總是說假話),一個是間諜(隨機說真話或假話)。Alex說:“Cody是小丑。”Ben說:“Alex是騎士。”Cody說:“我是間諜。”誰是騎士,誰是小丑,誰是間諜?

混元T1正式版


DeepSeek R1


Qwen2.5-Max


不愧是國內最前沿的推理模型,全部回答正確,看來,只能上上難度了。

測試題二:金幣游戲

你和朋友輪流從一堆金幣中取1、3或6枚。獲勝者是最后取走金幣的人。對于N<1000,第一位玩家有多少種贏得游戲的策略?

混元T1正式版


DeepSeek R1


Qwen2.5-Max


看DeepSeek思考了262秒就知道這道題已經足夠難了,然后它們三居然又全部回答正確了。

看來只能拿出殺手锏了,之前Deepseek R1都回答錯誤的一道題。

測試題三:一根8米長的竹竿是否能通過一個4米高、2米寬的門?

混元T1正式版


DeepSeek R1


Qwen2.5-Max


納尼!!!全部回答錯誤,之前全對,這次居然全錯,整整齊齊。

測試題四:Eael在哪個部門工作

Alex、Betty、Carol、Dan、Earl、Fay、George 和 Harry 是一家公司的八名員工

他們在三個部門工作:人事、行政和營銷,任何部門不超過三個。

他們每個人都有不同的運動選擇,包括足球、板球、排球、羽毛球、草地網球、籃球、曲棍球和乒乓球,不一定順序相同。

Dan 在行政部門工作,不喜歡足球或板球。
Fay 在人事部門工作,只有 Alex 喜歡乒乓球。
Earl 和 Harry 與 Dan 不在同一個部門工作。
Carol 喜歡曲棍球,不從事市場營銷工作。
George 不在行政部門工作,不喜歡板球或羽毛球。
在行政部門工作的人之一喜歡足球。
喜歡排球的人在人事部門工作。
在行政部門工作的人都不喜歡羽毛球或草地網球。
哈利不喜歡板球。

在行政部門工作的員工是誰?

Earl 在哪個部門工作?

混元T1正式版


DeepSeek R1


Qwen2.5-Max


先來看一下正確答案:


三款模型又全軍覆沒了,但DeepSeek R1和混元T1正式版成功推理出Betty、Carol 和 Dan 在行政部門工作,都沒有回答出Earl在哪個部門工作。

Qwen2.5-Max則是兩部分都沒有回答正確。

后續又測試了10多道之前測試過的推理題,基本上它們三全都推理正確,直接把我的測試題庫給干沒了,隨后我們換一個思路,測試數學題。

測試題五:高三摸底試卷題


先公布正確答案:ACD

混元T1正式版


DeepSeek R1


Qwen2.5-Max


好家伙,又是全部正確.....一時間居然分不出差距來。再來一道。

測試題六:高三摸底試卷題


同樣,先來看看正確答案:B C D

混元T1正式版


DeepSeek R1


Qwen2.5-Max


又是沒有一個答對,但Qwen2.5-Max選對了2個,混元T1正式版和DeepSeek則是選對了1個。

實際測試下來,發現居然分不出勝負,這三款模型的推理能力差不多實測都差不多。

雖然此次測試沒有基準測試那么完整,但是也能看出每個模型的推理能力的強悍。

目前,混元T1正式版已面向API用戶,在騰訊云上線,還未同步騰訊自家C端產品。

不過放出了體驗地址:

https://llm.hunyuan.tencent.com/#/chat/hy-t1

在3月20日接受彭博社采訪時,李開復劃定了中美AI競賽的終局格局。

中國將留下DeepSeek、阿里巴巴、字節跳動三家公司;美國則xAI、OpenAI、谷歌、Anthropic,四分天下。

看到騰訊混元T1的表現,難道還不能留在牌桌上?

掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。

往期文章回顧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
梁植誠任廣西壯族自治區紀委監委駐自治區發改委紀檢監察組組長

梁植誠任廣西壯族自治區紀委監委駐自治區發改委紀檢監察組組長

汲古知新
2025-06-15 01:55:04
出差路過老家碰到后爸,看到他在街上拾破爛,我立馬做了一個決定

出差路過老家碰到后爸,看到他在街上拾破爛,我立馬做了一個決定

磊子講史
2025-06-14 14:46:22
萬億窟窿堵不住?60天賬期逼出車企真土豪,僅兩家能笑著買單!

萬億窟窿堵不住?60天賬期逼出車企真土豪,僅兩家能笑著買單!

侃故事的阿慶
2025-06-15 00:06:18
擺地攤、玩電商!第一批深圳00后,已經實現財務自由,他們有多強

擺地攤、玩電商!第一批深圳00后,已經實現財務自由,他們有多強

青眼財經
2025-06-06 12:38:26
澤連斯基躲進地堡,6月13日,俄羅斯斬首行動傳來新消息

澤連斯基躲進地堡,6月13日,俄羅斯斬首行動傳來新消息

文雅筆墨
2025-06-15 04:33:33
6月14日俄烏:美反對G7降低俄石油上限,俄軍戰機擊落自家飛機

6月14日俄烏:美反對G7降低俄石油上限,俄軍戰機擊落自家飛機

山河路口
2025-06-14 18:19:12
6校合并的知名大學,迎新黨委書記!

6校合并的知名大學,迎新黨委書記!

雙一流高校
2025-06-14 17:19:50
中國發言人曾公開說:“中國已經做到最高程度的克制!

中國發言人曾公開說:“中國已經做到最高程度的克制!

老友科普
2025-06-13 20:05:01
中超最新積分榜:國安少賽一場落后榜首3分,山東跌至第六

中超最新積分榜:國安少賽一場落后榜首3分,山東跌至第六

懂球帝
2025-06-14 22:13:13
扁擔挑行李女孩想當老師,為什么多所師范院校急切回應選專業誤區

扁擔挑行李女孩想當老師,為什么多所師范院校急切回應選專業誤區

史行途
2025-06-14 14:45:18
以色列開始斬首伊朗最高領袖,伊朗稱擊落3架F35

以色列開始斬首伊朗最高領袖,伊朗稱擊落3架F35

史政先鋒
2025-06-14 12:44:59
“羅帥宇事件”再引關注:有患者家屬稱,曾在湘雅二醫院遇醫療事故

“羅帥宇事件”再引關注:有患者家屬稱,曾在湘雅二醫院遇醫療事故

封面新聞
2025-06-13 20:26:24
日本首相確認每人發2萬補助!一家四口最多可領12萬!卻遭國民吐槽:不如減稅!

日本首相確認每人發2萬補助!一家四口最多可領12萬!卻遭國民吐槽:不如減稅!

東京新青年
2025-06-14 18:07:53
突發!以色列國防部總部被炸,以方:與伊朗政權處于“戰爭狀態”!15分鐘內3次導彈齊射,伊朗再出手,“正在計劃打擊美軍基地”

突發!以色列國防部總部被炸,以方:與伊朗政權處于“戰爭狀態”!15分鐘內3次導彈齊射,伊朗再出手,“正在計劃打擊美軍基地”

每日經濟新聞
2025-06-14 15:21:18
37歲無臂網紅楊佩產子,雙腿累到虛脫,丈夫卻只顧著玩手機引熱議

37歲無臂網紅楊佩產子,雙腿累到虛脫,丈夫卻只顧著玩手機引熱議

楊哥歷史
2025-06-14 10:03:45
點球門神!38歲烏斯塔里飛身撲點,半場6神撲獲8.4分

點球門神!38歲烏斯塔里飛身撲點,半場6神撲獲8.4分

奧拜爾
2025-06-15 09:00:52
天選公主!威爾士三寶最新亮相,夏洛特優勢明顯,氣質沉穩似女王

天選公主!威爾士三寶最新亮相,夏洛特優勢明顯,氣質沉穩似女王

阿傖說事
2025-06-14 18:14:15
許其亮同志生平照片

許其亮同志生平照片

新京報政事兒
2025-06-08 16:11:03
館長訪問四行倉庫后震撼感慨2段話,諷刺統派代表,飆罵獨派代表

館長訪問四行倉庫后震撼感慨2段話,諷刺統派代表,飆罵獨派代表

史潎的生活日記
2025-06-15 02:21:37
50歲后肌肉流失加速?醫生:缺這兩種營養,吃再多蛋白粉也白搭!

50歲后肌肉流失加速?醫生:缺這兩種營養,吃再多蛋白粉也白搭!

硒先生于建泉
2025-06-14 06:55:06
2025-06-15 10:08:49
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
295文章數 18關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

藝術
教育
時尚
數碼
房產

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

高考陪考現象:爸媽沒到小姨到,楊雨婷捧向日葵花,還有家長哭了

夏天最值得入手的6件單品,全在這了

數碼要聞

為什么iPad不直接運行macOS系統?蘋果高管這樣說

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 南靖县| 潜江市| 江川县| 长兴县| 甘肃省| 逊克县| 泉州市| 保山市| 四川省| 宜宾县| 裕民县| 沛县| 罗田县| 黄平县| 囊谦县| 阿瓦提县| 澄迈县| 东兰县| 花垣县| 焦作市| 汝州市| 崇义县| 青浦区| 兴化市| 绥化市| 麦盖提县| 平远县| 桓台县| 来安县| 杂多县| 丹巴县| 赤峰市| 常熟市| 齐齐哈尔市| 上林县| 锦州市| 依兰县| 元江| 贵州省| 临朐县| 洛浦县|