99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

看好了,這才是7家大模型做高考數學題的真實分數。

0
分享至

大數據文摘受權轉載自數字生命卡茲克

作者:卡茲克

這兩天,很多媒體都在寫用AI考高考題的內容。

我本來真的沒打算卷這個選題,因為知道大家肯定都會寫,都會卷,我也想休息休息,真的就不打算寫了。

但是吧,用AI測語文考試還沒啥,但是看了一些用AI做數學考試的文章,真的給我看的一臉地鐵老頭表情包,就,那個測試方法,也特么太扯淡了。

我覺得既然是考試,那就公平公正的去測試?

當然,你要是玩整活,那就另談了。

結果最后得出一些不太靠譜的結論,我覺得還是蠻誤導大家的。

客觀、公平、公正,是我覺得最核心的標準。

所以我覺得,我想按照我的玩法,再嚴謹一點的測一下大模純數學能力型高考,給大家看一下,真實客觀的評分。

測試試卷為2025年數學全國一卷。


測試規則如下:

1. 不考解答題(因為給我標準答案我也看不懂,不知道咋給分。。)

2. 所有的題目截圖全部使用LaTeX編輯器轉成LaTeX文本格式,再扔給大模型進行回答。


LaTeX是學術界最廣泛使用的數學公式排版語言,能最精確地表達數學符號,我們考的是模型的數學能力,不是考模型的多模態識圖能力,比如DeepSeek根本就沒多模態,用的是OCR提取文本,很可能識別錯誤,所以截圖上傳不公平,一律轉化成LaTeX格式再進行統一測試。

3. 剔除掉單選題第6題,因為這是單選、多選、填空題中唯一有圖表的,轉成文字可能會有理解歧義,同時就一題,影響不大,直接剔除。


4. 單題計分方法也依照高考判分原則:單選題7道,每道5分,選項正確計分,錯誤不得分;多選題3道,每道6分,全對計6分,漏選按正確答案數量計分,如答案為ABCD,漏選其一扣1.5分,錯選不得分;填空題3道,每道5分,填空正確計分,錯誤不得分。

5. 每道題都會使用大模型跑3遍,根據正確比例進行分配,最大程度減少幻覺。比如OpenAI o3模型,做單選題第7題,對2次,錯1次,則實際得分為5*0.66=3.3分。

6. 只開推理、不使用Prompt引導、不開聯網、不允許寫代碼在沙盒進行計算,比如o3,我直接把這幾個功能關掉了。


以上,就是全部規則了。

接下來,請我們的模型考生入場。

測試模型為OpenAI o3、Gemini 2.5 pro、DeepSeek R1、豆包(1.5-thinking-pro)、元寶(混元T1)、千問3(235B)、訊飛星火X1,均為推理模型。

在晚上凌晨2點開始測試,因為搞API寫腳本反而可能更麻煩,所以直接搞了個表格,復制粘貼測了,以至于喊了我的幾個好朋友@卡爾的AI沃茲、@Max、@貓先生 一起測,硬生生測到凌晨4點。


7道單選題、3道多選題、3道填空題,總分一共68分。

我們得出了,我認為,非常公平客觀的,每個模型的考試結果。

沒有收任何家錢,也沒有任何利益關系,全部客觀公正。

如下圖:


看看每一題的具體選項。


第9題是個非常神奇的題目,是個多選題,只有Gemini 2.5 Pro每次都對了,其他的所有大模型,幾乎全都有問題,D選項倒是全都答出來了,但是缺了B。

而那個DeepSeek第11道題錯的那道題,其實并不是真做錯了,明明做對了,但是非要作死的瞎答,比如11題多選題,DeepSeek R1錯了一道題。

但是我給你看看,它其實是這么錯的。


真的,太抽象了。。。

再看看,最終分數。


Gemini確實非常強,在整個邏輯上,沒有一題是錯的。

而豆包、混元、星火位列第二梯隊,在第9題上漏了一個選項,并列屈居第二。

DeepSeek半對半錯了一個多選題,丟了0.7分,排名第五。

而Qwen3和OpenAI o3因為兩個都錯了1次填空題,只能被迫墊底。。

通過我的測試,我相信,大家應該對于模型的數學能力,有一些了解了。

其實,根本拉不開差距,出錯一般也都是小小的幻覺。

高考對于現在絕大多數的推理大模型來說,其實真的就是,沒有特別大的難度,跟2023年的時候,真的是天壤之別。

很多測出來測的非常離譜的文章,其實最后答案錯了,跟推理模型本身沒有半毛錢關系,而是你把截圖扔過去,各種符號啥的識別錯誤。

比如 則 \complement_{U} A,硬生生識別成了CuA。


所以,折騰到現在,這場公平、客觀的AI數學高考終于落幕了。

在打完最后一個結果的時候,我松了一口氣。

其實吧,我們不睡覺,熬夜折騰這么久,想得出的并不僅僅是一個簡單的分數。

而是我們我們想知道,怎么才算是一場合格的AI考試。

規則公正,流程嚴謹,技術中立,少一點博眼球的夸張,多一點對真相的執著。

我始終相信,無論是對技術,還是對人生,嚴謹總能讓我們更接近真實。

而真實,總能讓我們更加自由。

睡覺。

起床以后,一定又是美好的一天。

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒級計費,平均節省開支30%以上!

掃碼了解詳情?


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中美俄幡然醒悟!原來真正吸血的是歐洲人,如今他們終于要還債了

中美俄幡然醒悟!原來真正吸血的是歐洲人,如今他們終于要還債了

通文知史
2025-07-22 21:55:02
越深愛,越別扭,這三大星座太難懂

越深愛,越別扭,這三大星座太難懂

星座不求人
2025-07-23 21:10:11
國家隊暫停托市!7月24日,今日三大重要消息沖擊市場

國家隊暫停托市!7月24日,今日三大重要消息沖擊市場

風口招財豬
2025-07-24 01:13:10
“大尺度”女星的瓜!

“大尺度”女星的瓜!

文刀萬
2025-05-23 06:05:02
170萬觀眾打出9.7分,沒上映票房破6200萬,大鵬的冠軍保不住了?

170萬觀眾打出9.7分,沒上映票房破6200萬,大鵬的冠軍保不住了?

靠譜電影君
2025-07-22 23:32:19
工齡40年11個月,個人賬戶21.67萬,上海大爺拿了多少養老金呢?

工齡40年11個月,個人賬戶21.67萬,上海大爺拿了多少養老金呢?

養老規劃羅姐說
2025-07-22 19:03:14
最傷害 “陰道” 的 4 個行為,還在經常做的,看完要注意了

最傷害 “陰道” 的 4 個行為,還在經常做的,看完要注意了

伊人河畔
2025-07-12 10:13:49
福建廳干游祖煙履新

福建廳干游祖煙履新

魯中晨報
2025-07-22 07:52:08
48歲陶紅因病去世,9歲女兒一路跪拜祈福,與樂嘉婚姻僅維系3年……

48歲陶紅因病去世,9歲女兒一路跪拜祈福,與樂嘉婚姻僅維系3年……

不二大叔
2025-07-15 21:45:47
為驗證祖先是中國人,6名南島語族后人駕獨木舟,航行116天來中國

為驗證祖先是中國人,6名南島語族后人駕獨木舟,航行116天來中國

博覽歷史
2025-07-22 15:20:03
谷歌母公司二季度業績超預期,提高全年資本支出至850億美元,盤后一度漲3.4% | 財報見聞

谷歌母公司二季度業績超預期,提高全年資本支出至850億美元,盤后一度漲3.4% | 財報見聞

華爾街見聞官方
2025-07-24 05:42:19
女籃眾將發文告別!4朝元老有意宣退,王思雨晚上發文不甘心

女籃眾將發文告別!4朝元老有意宣退,王思雨晚上發文不甘心

凡知
2025-07-23 16:09:34
發現一個悲哀的現象:特別長壽的老人,幾乎都是子女用生命在托舉

發現一個悲哀的現象:特別長壽的老人,幾乎都是子女用生命在托舉

婉秋聊育兒
2025-04-26 05:24:04
記者:劉誠宇可能不具備踢點球的大心臟,鎮定、決斷都還有待提高

記者:劉誠宇可能不具備踢點球的大心臟,鎮定、決斷都還有待提高

直播吧
2025-07-23 22:29:22
南京德基廣場偶遇鹿晗,本人個子不高好瘦小,白皮紅發漫畫感十足

南京德基廣場偶遇鹿晗,本人個子不高好瘦小,白皮紅發漫畫感十足

喜歡歷史的阿繁
2025-07-23 18:08:41
3年1.6億,恭喜湖人,交易非常成功,詹姆斯該開心了

3年1.6億,恭喜湖人,交易非常成功,詹姆斯該開心了

青山隱隱啊
2025-07-23 10:33:05
云南高校在云南遇冷:農大缺額152人、師大缺72人、昆工缺69人!

云南高校在云南遇冷:農大缺額152人、師大缺72人、昆工缺69人!

凱旋學長
2025-07-23 21:52:37
女籃逆襲殺進世大運決賽!李筍南完爆宮魯鳴:中國隊主帥該試試他

女籃逆襲殺進世大運決賽!李筍南完爆宮魯鳴:中國隊主帥該試試他

籃球快餐車
2025-07-24 05:16:28
高喊“打倒民營經濟”的是他,高喊“支持民營經濟”的還是他

高喊“打倒民營經濟”的是他,高喊“支持民營經濟”的還是他

深度報
2025-07-12 23:26:48
巴西巨星太瀟灑,約三女海邊度假,與皇馬續約談判已宣告破裂!

巴西巨星太瀟灑,約三女海邊度假,與皇馬續約談判已宣告破裂!

綠茵舞著
2025-07-24 00:14:40
2025-07-24 06:31:00
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6707文章數 94446關注度
往期回顧 全部

科技要聞

別自嗨了!XREAL徐馳:AI眼鏡只有5歲智商

頭條要聞

宗馥莉被質疑讀的是“野雞大學” 校方回應

頭條要聞

宗馥莉被質疑讀的是“野雞大學” 校方回應

體育要聞

英格蘭最紅球星 也是加勒比島國驕傲

娛樂要聞

汪峰森林北同游日本 各帶各娃互不耽誤

財經要聞

律師解析娃哈哈遺產案:遺囑是最大變數

汽車要聞

德系大招放盡 場地極限測試全新奧迪A5L

態度原創

教育
時尚
本地
手機
公開課

教育要聞

光宗耀祖!女生收到錄取通知書,送的不是快遞員,而是兩位飛行員

搶戲《醬園弄》、尬演《長安荔枝》,雷佳音的舒適圈正在反噬

本地新聞

這雙丑鞋“泰”辣眼,跪求內娛不要抄作業

手機要聞

4699華為Pura80預售開啟,絲絨小直屏

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 锡林浩特市| 曲水县| 时尚| 太谷县| 苏尼特左旗| 卓资县| 韩城市| 五常市| 宽城| 罗田县| 西乡县| 牡丹江市| 安多县| 西贡区| 通州市| 卫辉市| 衡阳市| 南溪县| 金昌市| 游戏| 财经| 陇南市| 南投市| 健康| 同仁县| 弥勒县| 正定县| 天镇县| 普洱| 沙河市| 措美县| 香港 | 雷山县| 玛多县| 阳朔县| 公安县| 全椒县| 珲春市| 盐山县| 内丘县| 西华县|