作者|子川
來源|AI先鋒官
價格屠夫的稱號建議直接焊在騰訊深度思考模型 T1上,太卷了!
昨晚,騰訊混元罕見的開直播發布它們最新的模型——深度思考模型混元T1正式版。
根據官方介紹,混元T1正式版在推理能力、長文本處理、成本效率三大維度實現突破性升級!
“吐字快、能秒回、邏輯強”。
小編實測,最直觀體驗首先也是,太快了!
與此前已上線騰訊元寶的混元T1-preview相比,綜合效果明顯提升。
從放出的跑分成績來看,混元T1正式版在多項評估指標上超越OpenAI o1、GPT-4.5,以及Deepseek R1。
如在大語言模型(LLM)評估增強數據集MMLU-PRO中,混元T1取得87.2分,僅次于得分89.3的OpenAI o1,高于得分86.1的OpenAI GPT 4.5和得分84的DeepSeek R1。
另外T1沿用了混元Turbo S的創新架構,首次在工業界實現混合Mamba架構無損應用于超大型推理模型,這一設計打破傳統Transformer的算力桎梏。
最直觀的體現就是在價格上——
輸入價格為1元/百萬tokens,輸出價格為4元/百萬tokens。
對比同類模型,T1的API定價堪稱“價格屠夫”。
號稱AI界“拼多多”的DeepSeek R1在標準時段的定價為4元/百萬tokens輸入,16元/百萬tokens輸出。
文心大模型X1的定價則是2元/百萬tokens輸入,8元/百萬tokens輸出。
換句話說,混元T1的價格僅為DeepSeek R1的1/4,是文心 X1的1/2。
而海對面ChatGPT的價格一直居高不下。
GPT4.5的價格達到了75美元/百萬tokens輸入、150美元/百萬tokens輸出。
那混元T1正式版這款模型效果到底如何呢,老規矩,實測一手!
此次測試的選手是大家熟知的DeepSeek R1、Qwen2.5-Max以及騰訊新出的混元T1正式版。
先來一道簡單的推理題開開胃。
測試題一:誰說謊?
有三個人,Alex、Ben和Cody,其中一個是騎士(總是說真話),一個是小丑(總是說假話),一個是間諜(隨機說真話或假話)。Alex說:“Cody是小丑。”Ben說:“Alex是騎士。”Cody說:“我是間諜。”誰是騎士,誰是小丑,誰是間諜?
混元T1正式版
DeepSeek R1
Qwen2.5-Max
不愧是國內最前沿的推理模型,全部回答正確,看來,只能上上難度了。
測試題二:金幣游戲
你和朋友輪流從一堆金幣中取1、3或6枚。獲勝者是最后取走金幣的人。對于N<1000,第一位玩家有多少種贏得游戲的策略?
混元T1正式版
DeepSeek R1
Qwen2.5-Max
看DeepSeek思考了262秒就知道這道題已經足夠難了,然后它們三居然又全部回答正確了。
看來只能拿出殺手锏了,之前Deepseek R1都回答錯誤的一道題。
測試題三:一根8米長的竹竿是否能通過一個4米高、2米寬的門?
混元T1正式版
DeepSeek R1
Qwen2.5-Max
納尼!!!全部回答錯誤,之前全對,這次居然全錯,整整齊齊。
測試題四:Eael在哪個部門工作
Alex、Betty、Carol、Dan、Earl、Fay、George 和 Harry 是一家公司的八名員工
他們在三個部門工作:人事、行政和營銷,任何部門不超過三個。
他們每個人都有不同的運動選擇,包括足球、板球、排球、羽毛球、草地網球、籃球、曲棍球和乒乓球,不一定順序相同。
Dan 在行政部門工作,不喜歡足球或板球。
Fay 在人事部門工作,只有 Alex 喜歡乒乓球。
Earl 和 Harry 與 Dan 不在同一個部門工作。
Carol 喜歡曲棍球,不從事市場營銷工作。
George 不在行政部門工作,不喜歡板球或羽毛球。
在行政部門工作的人之一喜歡足球。
喜歡排球的人在人事部門工作。
在行政部門工作的人都不喜歡羽毛球或草地網球。
哈利不喜歡板球。
在行政部門工作的員工是誰?
Earl 在哪個部門工作?
混元T1正式版
DeepSeek R1
Qwen2.5-Max
先來看一下正確答案:
三款模型又全軍覆沒了,但DeepSeek R1和混元T1正式版成功推理出Betty、Carol 和 Dan 在行政部門工作,都沒有回答出Earl在哪個部門工作。
Qwen2.5-Max則是兩部分都沒有回答正確。
后續又測試了10多道之前測試過的推理題,基本上它們三全都推理正確,直接把我的測試題庫給干沒了,隨后我們換一個思路,測試數學題。
測試題五:高三摸底試卷題
先公布正確答案:ACD
混元T1正式版
DeepSeek R1
Qwen2.5-Max
好家伙,又是全部正確.....一時間居然分不出差距來。再來一道。
測試題六:高三摸底試卷題
同樣,先來看看正確答案:B C D
混元T1正式版
DeepSeek R1
Qwen2.5-Max
又是沒有一個答對,但Qwen2.5-Max選對了2個,混元T1正式版和DeepSeek則是選對了1個。
實際測試下來,發現居然分不出勝負,這三款模型的推理能力差不多實測都差不多。
雖然此次測試沒有基準測試那么完整,但是也能看出每個模型的推理能力的強悍。
目前,混元T1正式版已面向API用戶,在騰訊云上線,還未同步騰訊自家C端產品。
不過放出了體驗地址:
https://llm.hunyuan.tencent.com/#/chat/hy-t1
在3月20日接受彭博社采訪時,李開復劃定了中美AI競賽的終局格局。
中國將留下DeepSeek、阿里巴巴、字節跳動三家公司;美國則xAI、OpenAI、谷歌、Anthropic,四分天下。
看到騰訊混元T1的表現,難道還不能留在牌桌上?
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
往期文章回顧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.