這兩天,很多媒體都在寫用AI考高考題的內(nèi)容。
我本來(lái)真的沒打算卷這個(gè)選題,因?yàn)橹来蠹铱隙ǘ紩?huì)寫,都會(huì)卷,我也想休息休息,真的就不打算寫了。
但是吧,用AI測(cè)語(yǔ)文考試還沒啥,但是看了一些用AI做數(shù)學(xué)考試的文章,真的給我看的一臉地鐵老頭表情包,就,那個(gè)測(cè)試方法,也特么太扯淡了。
我覺得既然是考試,那就公平公正的去測(cè)試?
當(dāng)然,你要是玩整活,那就另談了。
結(jié)果最后得出一些不太靠譜的結(jié)論,我覺得還是蠻誤導(dǎo)大家的。
客觀、公平、公正,是我覺得最核心的標(biāo)準(zhǔn)。
所以我覺得,我想按照我的玩法,再嚴(yán)謹(jǐn)一點(diǎn)的測(cè)一下大模純數(shù)學(xué)能力型高考,給大家看一下,真實(shí)客觀的評(píng)分。
測(cè)試試卷為2025年數(shù)學(xué)全國(guó)一卷。
測(cè)試規(guī)則如下:
1. 不考解答題(因?yàn)榻o我標(biāo)準(zhǔn)答案我也看不懂,不知道咋給分。。)
2. 所有的題目截圖全部使用LaTeX編輯器轉(zhuǎn)成LaTeX文本格式,再扔給大模型進(jìn)行回答。
LaTeX是學(xué)術(shù)界最廣泛使用的數(shù)學(xué)公式排版語(yǔ)言,能最精確地表達(dá)數(shù)學(xué)符號(hào),我們考的是模型的數(shù)學(xué)能力,不是考模型的多模態(tài)識(shí)圖能力,比如DeepSeek根本就沒多模態(tài),用的是OCR提取文本,很可能識(shí)別錯(cuò)誤,所以截圖上傳不公平,一律轉(zhuǎn)化成LaTeX格式再進(jìn)行統(tǒng)一測(cè)試。
3. 剔除掉單選題第6題,因?yàn)檫@是單選、多選、填空題中唯一有圖表的,轉(zhuǎn)成文字可能會(huì)有理解歧義,同時(shí)就一題,影響不大,直接剔除。
4. 單題計(jì)分方法也依照高考判分原則:?jiǎn)芜x題7道,每道5分,選項(xiàng)正確計(jì)分,錯(cuò)誤不得分;多選題3道,每道6分,全對(duì)計(jì)6分,漏選按正確答案數(shù)量計(jì)分,如答案為ABCD,漏選其一扣1.5分,錯(cuò)選不得分;填空題3道,每道5分,填空正確計(jì)分,錯(cuò)誤不得分。
5. 每道題都會(huì)使用大模型跑3遍,根據(jù)正確比例進(jìn)行分配,最大程度減少幻覺。比如OpenAI o3模型,做單選題第7題,對(duì)2次,錯(cuò)1次,則實(shí)際得分為5*0.66=3.3分。
6. 只開推理、不使用Prompt引導(dǎo)、不開聯(lián)網(wǎng)、不允許寫代碼在沙盒進(jìn)行計(jì)算,比如o3,我直接把這幾個(gè)功能關(guān)掉了。
以上,就是全部規(guī)則了。
接下來(lái),請(qǐng)我們的模型考生入場(chǎng)。
測(cè)試模型為OpenAI o3、Gemini 2.5 pro、DeepSeek R1 、豆包( 1.5-thinking-pro) 、元寶(混元T1)、千問3(235B)、訊飛星火X1,均為推理模型。
在晚上凌晨2點(diǎn)開始測(cè)試,因?yàn)楦鉇PI寫腳本反而可能更麻煩,所以直接搞了個(gè)表格,復(fù)制粘貼測(cè)了,以至于喊了我的幾個(gè)好朋友@卡爾的AI沃茲、@Max、@貓先生 一起測(cè),硬生生測(cè)到凌晨4點(diǎn)。
7道單選題、3道多選題、3道填空題,總分一共68分。
我們得出了,我認(rèn)為,非常公平客觀的,每個(gè)模型的考試結(jié)果。
沒有收任何家錢,也沒有任何利益關(guān)系,全部客觀公正。
如下圖:
看看每一題的具體選項(xiàng)。
第9題是個(gè)非常神奇的題目,是個(gè)多選題,只有Gemini 2.5 Pro每次都對(duì)了,其他的所有大模型,幾乎全都有問題,D選項(xiàng)倒是全都答出來(lái)了,但是缺了B。
而那個(gè)DeepSeek第11道題錯(cuò)的那道題,其實(shí)并不是真做錯(cuò)了,明明做對(duì)了,但是非要作死的瞎答,比如11題多選題,DeepSeek R1錯(cuò)了一道題。
但是我給你看看,它其實(shí)是這么錯(cuò)的。
真的,太抽象了。。。
再看看,最終分?jǐn)?shù)。
Gemini確實(shí)非常強(qiáng),在整個(gè)邏輯上,沒有一題是錯(cuò)的。
而豆包、混元、星火位列第二梯隊(duì),在第9題上漏了一個(gè)選項(xiàng),并列屈居第二。
DeepSeek半對(duì)半錯(cuò)了一個(gè)多選題,丟了0.7分,排名第五。
而Qwen3和OpenAI o3因?yàn)閮蓚€(gè)都錯(cuò)了1次填空題,只能被迫墊底。。
通過(guò)我的測(cè)試,我相信,大家應(yīng)該對(duì)于模型的數(shù)學(xué)能力,有一些了解了。
其實(shí),根本拉不開差距,出錯(cuò)一般也都是小小的幻覺。
高考對(duì)于現(xiàn)在絕大多數(shù)的推理大模型來(lái)說(shuō),其實(shí)真的就是,沒有特別大的難度,跟2023年的時(shí)候,真的是天壤之別。
很多測(cè)出來(lái)測(cè)的非常離譜的文章,其實(shí)最后答案錯(cuò)了,跟推理模型本身沒有半毛錢關(guān)系,而是你把截圖扔過(guò)去,各種符號(hào)啥的識(shí)別錯(cuò)誤。
比如 則 \complement_{U} A,硬生生識(shí)別成了CuA。
所以,折騰到現(xiàn)在,這場(chǎng)公平、客觀的AI數(shù)學(xué)高考終于落幕了。
在打完最后一個(gè)結(jié)果的時(shí)候,我松了一口氣。
其實(shí)吧,我們不睡覺,熬夜折騰這么久,想得出的并不僅僅是一個(gè)簡(jiǎn)單的分?jǐn)?shù)。
而是我們我們想知道,怎么才算是一場(chǎng)合格的AI考試。
規(guī)則公正,流程嚴(yán)謹(jǐn),技術(shù)中立,少一點(diǎn)博眼球的夸張,多一點(diǎn)對(duì)真相的執(zhí)著。
我始終相信,無(wú)論是對(duì)技術(shù),還是對(duì)人生,嚴(yán)謹(jǐn)總能讓我們更接近真實(shí)。
而真實(shí),總能讓我們更加自由。
睡覺。
起床以后,一定又是美好的一天。
以上,既然看到這里了,如果覺得不錯(cuò),隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時(shí)間收到推送,也可以給我個(gè)星標(biāo)?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克
>/ 投稿或爆料,請(qǐng)聯(lián)系郵箱:wzglyay@virxact.com
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.