99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI偏科的毛病「治」得咋樣了?我們實測了6款大模型

0
分享至

AI好好用報道

編輯:楊文

省流版結論:有進步,但聯系實際的題目還是歇菜。

生活會欺騙你,但數學不會,數學不會就是不會。

這個段子,在大模型身上同樣成立。

9.9 和 9.11 哪個大、strawberry 有幾個 r,如此簡單的題目曾難倒一群大模型。

本著哪里薄弱補哪里的原則,大模型們近來「卷」起了數學推理。

先是 Kimi 網頁端上線了首個數學模型 k0-math ,直接對標 OpenAI 的 o1-mini 和 o1-preview。

據 Kimi 官方介紹,在中考、高考、考研以及包含入門競賽題的 MATH 等 4 個數學基準測試中,k0-math 初代模型成績超過 o1-mini 和 o1-preview 模型。

沒隔幾天,昆侖萬維和阿里均推出了自家 o1 模型。

其中,昆侖萬維表示其 Skywork o1 系列模型,在各項數學指標上實現顯著提升。

而阿里聲稱最新的 QwQ-32B-preview 在 GPQA 上擊敗了 o1-mini。

半個月前,夸克發布 AI 搜題功能,其背后的「靈知」學習大模型,號稱在考研數學題上的正確率和得分率可以比肩 o1 模型。

還有一直跟數學「死磕」的學而思,推出的九章大模型一度成為家長輔導孩子的「利器」。

接下來,我們就測評一下這些大模型的真實數學水平。

對標選手 ——

OpenAI 的 o1-mini、o1-preview

踢館選手 ——

月之暗面 Kimi 的 k0-math:

在 Kimi Web 版的側邊欄,找到 圖標,點擊進入。

學而思九章大模型:

https://playground.xes1v1.cn/MathGPT

阿里 QwQ-32B-preview:

https://huggingface.co/spaces/Qwen/QwQ-32B-preview

夸克靈知大模型:

可在夸克 App 或夸克 PC 端,點擊「AI 搜題」調用。

小學數學題

別看不起小學數學題。

小學數學多神題,大模型也最容易栽跟頭。

小明 120 元買了一只雞,130 元賣出去,150 元再買回來,160 元又賣出去,問:一共賺了多少錢?

答案:20 元。

o1-mini:


o1-preview:


Kimi 的 k0-math:


學而思九章大模型:


夸克靈知大模型:


阿里 QwQ-32B-preview:


總結:


一個西瓜進價 20 元,賣了 40 元,老板收了 100 元假幣,問老板虧了多少錢?

答案:虧 80 元。

o1-mini:

o1-preview:

Kimi 的 k0-math:


學而思九章大模型:


夸克靈知大模型:


阿里 QwQ-32B-preview:


總結:


一段長 100 米的鐵路,用 10 米長的鐵軌鋪,要多少根鐵軌?

答案:20 根。一條火車軌道的鐵軌有兩條,所以要用到 20 根。這道題不僅考驗數學能力,同時還要能結合實際生活。

o1-mini:


o1-preview:


Kimi 的 k0-math:


學而思九章大模型:


夸克靈知大模型:


阿里 QwQ-32B-preview:


總結:


初中數學題

某工程隊承接一隧道工程,在挖掘一條 1000 米長的隧道時,為了盡快完成,實際施工時每天挖掘的長度是原計劃的 2 倍,結果提前了 50 天完成了其中 800 米的隧道挖掘任務。求實際每天挖掘多少米?

答案:實際每天挖掘 16 米。

o1-mini:


o1-preview:


Kimi 的 k0-math:


學而思九章大模型:


夸克靈知大模型:


阿里 QwQ-32B-preview:

總結:

高中數學題


答案選:B

由于 Kimi、o1-mini、o1-preview、QwQ-32B-preview 無法上傳圖片,而題目中數學符號又難以輸入,所以我們截圖后,用 Kimi 常規版將其轉為 LaTeX 格式:

\item 已知函數為 $f (x) = \left\{

\begin {array}{ll}

-x^2 - 2ax - a, & x < 0 \\

e^x + \ln (x + 1), & x \geq 0

\end {array}

\right.$,在 $\mathbb {R}$ 上單調遞增,則 $a$ 取值的范圍是 ()

\begin {enumerate}

\item A. $(-\infty, 0]$

\item B. $[-1, 0]$

\item C. $[-1, 1]$

\item D. $[0, +\infty)$

    \end {enumerate}

o1-mini:


o1-preview:


Kimi 的 k0-math:


學而思九章大模型:


夸克靈知大模型:

由于該題目已在夸克的題庫中,因此無法調用靈知大模型,以下為夸克常規搜題的結果。

阿里 QwQ-32B-preview:


總結:

從最終測試結果來看,經過幾個月來的進化,國產大模型在數學方面確實有了很大的進步。

在常規數學題上,o1-mini 和 o1-preview 頻頻翻車,反倒是國產大模型發揮穩定。

不過,對于聯系生活實際的題目,大模型們仍搞不定。比如計算鐵軌那道題,國內外大模型們「全軍覆沒」。

此外,在做數學題時,這些大模型們的「腦回路」并不太一樣。

相較而言,Kimi 的 k0-math 和阿里 QwQ-32B-preview 做題時更加謹慎,它們得出答案后,會不斷驗證,并思考其他可能漏掉的情況。

學而思九章大模型則是先分析題目,然后解題并進行知識歸納,同時還提供了答案置信度。

夸克AI搜題的一大特色在于同一道題目提供多種解題思路,并可通過對話進一步請教相關知識點。

以后我們會帶來更多AI大模型評測,也歡迎大家進群交流。

? THE END

轉載請聯系本公眾號獲得授權

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
下午5點!鄭欽文沖215萬獎金,主辦方送“意外之喜”,CCTV5直播

下午5點!鄭欽文沖215萬獎金,主辦方送“意外之喜”,CCTV5直播

何老師呀
2025-05-29 22:21:09
尼克斯G5大勝步行者創多項神跡:布倫森+唐斯比肩科比奧尼爾組合

尼克斯G5大勝步行者創多項神跡:布倫森+唐斯比肩科比奧尼爾組合

Emily說個球
2025-05-30 11:45:16
離婚剛6年,深夜宣布喜訊的馬伊琍,已經是文章高攀不起的存在

離婚剛6年,深夜宣布喜訊的馬伊琍,已經是文章高攀不起的存在

河山銳新聞
2025-05-30 09:35:10
55歲廳級干部死亡,死因曝光,同學發聲,2個月前曾公開露面

55歲廳級干部死亡,死因曝光,同學發聲,2個月前曾公開露面

溫柔看世界
2025-05-29 17:39:40
尼日爾賴掉4億美元,驅逐中企高管,中方暗藏底牌漂亮反擊

尼日爾賴掉4億美元,驅逐中企高管,中方暗藏底牌漂亮反擊

南冥那只貓
2025-05-11 10:33:43
從亞洲首富到全民公敵,被圍剿的李嘉誠,結局早已注定了

從亞洲首富到全民公敵,被圍剿的李嘉誠,結局早已注定了

科技虎虎
2025-05-28 16:44:31
共和報:如果國米奪得歐冠冠軍,將在周日的米蘭舉行大巴巡游慶典

共和報:如果國米奪得歐冠冠軍,將在周日的米蘭舉行大巴巡游慶典

直播吧
2025-05-30 08:15:08
美媒曝美聯邦航空局超1200人離職

美媒曝美聯邦航空局超1200人離職

參考消息
2025-05-30 11:26:08
張蘭遭圍剿!被控偽造大S簽名貸款4900萬買房,本人回應!

張蘭遭圍剿!被控偽造大S簽名貸款4900萬買房,本人回應!

古希臘掌管月桂的神
2025-05-30 11:03:15
清明上河圖,其實是部恐怖片……

清明上河圖,其實是部恐怖片……

混知
2025-05-29 17:30:14
高校食堂情侶事件發酵:瀏覽量突破5000萬次,校方回應,真相被扒

高校食堂情侶事件發酵:瀏覽量突破5000萬次,校方回應,真相被扒

來條娛吃
2025-05-29 14:16:06
美債失控中國這回不救了:黃金在漲,人民幣在跑,美國靠誰續命?

美債失控中國這回不救了:黃金在漲,人民幣在跑,美國靠誰續命?

牛鍋巴小釩
2025-05-30 07:16:57
成龍新片將慘敗,成本7.2億,票房不到8萬,巨星為何隕落

成龍新片將慘敗,成本7.2億,票房不到8萬,巨星為何隕落

影視高原說
2025-05-29 08:37:11
河南太康一高發生因沒收手機而弒師的悲劇,教育是怎么了?

河南太康一高發生因沒收手機而弒師的悲劇,教育是怎么了?

雨秋閑話
2025-05-29 16:52:06
成都27歲女孩真容曝光!長相漂亮曾留學,父親回應太無恥

成都27歲女孩真容曝光!長相漂亮曾留學,父親回應太無恥

寒士之言本尊
2025-05-29 19:09:59
文明的天花板:日本一家普通出租車公司的車庫天花板掛滿倒掛的雨傘,原因竟然是……

文明的天花板:日本一家普通出租車公司的車庫天花板掛滿倒掛的雨傘,原因竟然是……

日本物語
2025-05-28 08:33:53
上海街頭突發事故!阿婆騎電瓶車被撞倒地后含淚道歉:對不起...交警提醒:我們有張“無形網”,千萬別僥幸

上海街頭突發事故!阿婆騎電瓶車被撞倒地后含淚道歉:對不起...交警提醒:我們有張“無形網”,千萬別僥幸

上觀新聞
2025-05-30 08:24:37
愈演愈烈?陳夢疑似發文內涵美娜,王楚欽戀情成乒圈最大未解之謎

愈演愈烈?陳夢疑似發文內涵美娜,王楚欽戀情成乒圈最大未解之謎

鳳幻洋
2025-05-29 14:38:49
最不可能離職的人離職了,是啥體驗?網友:打工人必看系列,絕了

最不可能離職的人離職了,是啥體驗?網友:打工人必看系列,絕了

娛樂圈人物大賞
2025-05-30 00:05:12
港星陳豪晚上出街,排隊買車仔面,穿著襪子和拖鞋,完全不像明星

港星陳豪晚上出街,排隊買車仔面,穿著襪子和拖鞋,完全不像明星

小咪侃娛圈
2025-05-30 09:46:51
2025-05-30 11:55:00
AI好好用 incentive-icons
AI好好用
探索人工智能應用場景及商業化
2096文章數 4432關注度
往期回顧 全部

科技要聞

榮耀新CEO放話:下半年重返前三,靠譜嗎?

頭條要聞

女廳官被"雙開":曾花4000萬買別墅 850萬裝修極盡奢華

頭條要聞

女廳官被"雙開":曾花4000萬買別墅 850萬裝修極盡奢華

體育要聞

當我終于回國時,可能已認不出我的家

娛樂要聞

央視主持人朱迅在景區救治高反游客

財經要聞

美國政府殺瘋了,全世界目瞪口呆

汽車要聞

約合人民幣47.10萬元起 阿維塔11在香港上市

態度原創

時尚
家居
本地
旅游
游戲

和劉亦菲一起來場“時裝出逃”的旅行

家居要聞

原木純白 邂逅自然本真

本地新聞

云游中國 |來仰天湖大草原,一起策馬奔騰

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

《東京地下殺手》或今夏發布 制作組發布招聘廣納賢才

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 洪雅县| 额济纳旗| 海淀区| 沙田区| 临武县| 南木林县| 慈溪市| 襄城县| 绥阳县| 五莲县| 阿拉善盟| 离岛区| 太和县| 台中市| 灵宝市| 苗栗县| 新泰市| 林口县| 福贡县| 老河口市| 灵寿县| 开封县| 乌拉特前旗| 六盘水市| 亚东县| 新源县| 禄丰县| 五家渠市| 怀化市| 潼南县| 金溪县| 抚松县| 繁昌县| 汶川县| 万山特区| 余姚市| 赤城县| 遵义县| 桦甸市| 交城县| 沙坪坝区|