這兩天,很多媒體都在寫用AI考高考題的內容。
我本來真的沒打算卷這個選題,因為知道大家肯定都會寫,都會卷,我也想休息休息,真的就不打算寫了。
但是吧,用AI測語文考試還沒啥,但是看了一些用AI做數學考試的文章,真的給我看的一臉地鐵老頭表情包,就,那個測試方法,也特么太扯淡了。
我覺得既然是考試,那就公平公正的去測試?
當然,你要是玩整活,那就另談了。
結果最后得出一些不太靠譜的結論,我覺得還是蠻誤導大家的。
客觀、公平、公正,是我覺得最核心的標準。
所以我覺得,我想按照我的玩法,再嚴謹一點的測一下大模純數學能力型高考,給大家看一下,真實客觀的評分。
測試試卷為2025年數學全國一卷。
測試規則如下:
1. 不考解答題(因為給我標準答案我也看不懂,不知道咋給分。。)
2. 所有的題目截圖全部使用LaTeX編輯器轉成LaTeX文本格式,再扔給大模型進行回答。
LaTeX是學術界最廣泛使用的數學公式排版語言,能最精確地表達數學符號,我們考的是模型的數學能力,不是考模型的多模態識圖能力,比如DeepSeek根本就沒多模態,用的是OCR提取文本,很可能識別錯誤,所以截圖上傳不公平,一律轉化成LaTeX格式再進行統一測試。
3. 剔除掉單選題第6題,因為這是單選、多選、填空題中唯一有圖表的,轉成文字可能會有理解歧義,同時就一題,影響不大,直接剔除。
4. 單題計分方法也依照高考判分原則:單選題7道,每道5分,選項正確計分,錯誤不得分;多選題3道,每道6分,全對計6分,漏選按正確答案數量計分,如答案為ABCD,漏選其一扣1.5分,錯選不得分;填空題3道,每道5分,填空正確計分,錯誤不得分。
5. 每道題都會使用大模型跑3遍,根據正確比例進行分配,最大程度減少幻覺。比如OpenAI o3模型,做單選題第7題,對2次,錯1次,則實際得分為5*0.66=3.3分。
6. 只開推理、不使用Prompt引導、不開聯網、不允許寫代碼在沙盒進行計算,比如o3,我直接把這幾個功能關掉了。
以上,就是全部規則了。
接下來,請我們的模型考生入場。
測試模型為OpenAI o3、Gemini 2.5 pro、DeepSeek R1 、豆包( 1.5-thinking-pro) 、元寶(混元T1)、千問3(235B)、訊飛星火X1,均為推理模型。
在晚上凌晨2點開始測試,因為搞API寫腳本反而可能更麻煩,所以直接搞了個表格,復制粘貼測了,以至于喊了我的幾個好朋友@卡爾的AI沃茲、@Max、@貓先生 一起測,硬生生測到凌晨4點。
7道單選題、3道多選題、3道填空題,總分一共68分。
我們得出了,我認為,非常公平客觀的,每個模型的考試結果。
沒有收任何家錢,也沒有任何利益關系,全部客觀公正。
如下圖:
看看每一題的具體選項。
第9題是個非常神奇的題目,是個多選題,只有Gemini 2.5 Pro每次都對了,其他的所有大模型,幾乎全都有問題,D選項倒是全都答出來了,但是缺了B。
而那個DeepSeek第11道題錯的那道題,其實并不是真做錯了,明明做對了,但是非要作死的瞎答,比如11題多選題,DeepSeek R1錯了一道題。
但是我給你看看,它其實是這么錯的。
真的,太抽象了。。。
再看看,最終分數。
Gemini確實非常強,在整個邏輯上,沒有一題是錯的。
而豆包、混元、星火位列第二梯隊,在第9題上漏了一個選項,并列屈居第二。
DeepSeek半對半錯了一個多選題,丟了0.7分,排名第五。
而Qwen3和OpenAI o3因為兩個都錯了1次填空題,只能被迫墊底。。
通過我的測試,我相信,大家應該對于模型的數學能力,有一些了解了。
其實,根本拉不開差距,出錯一般也都是小小的幻覺。
高考對于現在絕大多數的推理大模型來說,其實真的就是,沒有特別大的難度,跟2023年的時候,真的是天壤之別。
很多測出來測的非常離譜的文章,其實最后答案錯了,跟推理模型本身沒有半毛錢關系,而是你把截圖扔過去,各種符號啥的識別錯誤。
比如 則 \complement_{U} A,硬生生識別成了CuA。
所以,折騰到現在,這場公平、客觀的AI數學高考終于落幕了。
在打完最后一個結果的時候,我松了一口氣。
其實吧,我們不睡覺,熬夜折騰這么久,想得出的并不僅僅是一個簡單的分數。
而是我們我們想知道,怎么才算是一場合格的AI考試。
規則公正,流程嚴謹,技術中立,少一點博眼球的夸張,多一點對真相的執著。
我始終相信,無論是對技術,還是對人生,嚴謹總能讓我們更接近真實。
而真實,總能讓我們更加自由。
睡覺。
起床以后,一定又是美好的一天。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克
>/ 投稿或爆料,請聯系郵箱:wzglyay@virxact.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.