作者|子川
來源|AI先鋒官
騰訊的深度推理模型“混元T1”它來了。
就在昨天,還在小范圍灰度測試的混元T1突然宣布面向所有用戶開放,免費不限量!
混元 T1使用方法簡單,大家只需在騰訊元寶選擇欄界面就可以直接使用。
混元T1是一款專為深度推理模型,其優點就是可以多維度理解問題本質和邏輯關系,從而進行高效推理,大家可以理解為是騰訊自家的Deepseek R1。
除了深度推理外,混元T1還有另外一張王牌,深度整合騰訊生態系統信息,會引用微信公眾號、視頻號、騰訊網的內容。
比如讓它預測哪吒2的最終票房,一共引用了9篇文章,其中7篇來自微信公眾號,1篇來自騰訊網,還有1篇是來自新浪網。
同時還會展示Deepseek R1的同款的推理過程。
老規矩,接下來,我們就來實測一下,混元 T1 深度推理模型到底好不好用!
首先來測試一下它的推理能力,讓它和DeepSeek R1和o3-mini打一場PK。
注:因為是測試推理能力,不會使用R1和T1的聯網功能,要不然跟開了掛一樣。
日期推理:
先來一道經典的日期推理難題,在之前的測試中,o3-mini是回答錯誤了,看看T1能否回答正確。
如果昨天是明天的話就好了,那么今天就是周五了。請問:實際上,句中的今天可能是周幾?
混元 T1:
o3-mini:
DeepSeek R1:
遺憾,只有o3-mini回答錯誤,DeepSeek R1和混元T1對回答正確,只有o3-mini受傷的世界達成了。壓力給到o3-mini。
如何拿乒乓球問題
題目:排列著100個乒乓球,由兩個人輪流拿球,每次至少拿1個,最多拿5個,拿到第100個乒乓球的人獲勝。如果你是先拿的人,第一次該拿幾個?
先公布正確答案,答案是4。
混元 T1:
o3-mini:
DeepSeek R1:
o好家伙,全部回答正確,該上上難度了。
猜撲克
題目:桌子上有16張撲克牌,約翰教授挑出一張牌,把點數告訴P先生,把花色告訴Q先生。P先生說:“我不知道這張牌。”Q先生說:“我知道你不知道這張牌?!盤先生說:“現在我知道這張牌了。”Q先生說:“我也知道了?!闭垎栠@張牌是什么?
混元 T1:
o3-mini:
DeepSeek R1:
這結果是小編我沒有想到的,又是o3-mini回答錯誤,連續試了兩次,都是錯的,反觀DeepSeek R1和混元T1又答對了。
佩奇買水杯
題目:佩琪在星期六花1.30美元買了一些盆子,那天商店在搞促銷,每樣商品都便宜2美分。她在星期一按正常價退了貨,換購杯子與碟子。因為一只盆子的價錢同一只杯子和一只碟子的價錢之和是相等的,所以她回家時,買進來的物品比原先的多了16件。又因為每只碟子只值3美分,所以她買進的碟子要比杯子多10只。
現在要問你了,佩琪在星期六,用1.30美元能買進多少只杯子?
混元 T1:
o3-mini:
DeepSeek R1:
又是只有o3-mini回答錯誤,怎么突然覺得o3-mini有點菜了......
雖然此次實測沒有基準測試那么全,但也能看到不同模型的優缺點,同時整體測試下來,會發現混元T1的推理能力甚至比o3-mini還強,同時它的推理速度整體要比DeepSeek快上不少。
再來實測一下混元T1的聯網功能怎么樣,讓它告訴我昨天微博熱搜榜前十有哪些?
效果似乎可以,但并不是去引用微博第三方網站的數據,而是引用公眾號中的文章的內容,讓它告訴我今天的熱搜前十是什么,就不正確了。,
相反,kimi就回答得出來,而且還是引用微博熱搜的數據。
我們再來看看混元T1的寫作能力,前段時間DeepSeek的推理模式+聯網功能簡直是寫作神器,看看混元T1的推理模式+聯網功能能不能復刻DeepSeek的文學功底。
笑死我了,這嘲諷意味直接拉滿,該說不說,推理模型+聯網功能用來寫作就是香。
目前,混元T1已全面開放,感興趣的用戶可在騰訊元寶APP或網頁端直接使用。
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
往期文章回顧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.