99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

看好了,這才是7家大模型做高考數學題的真實分數。

0
分享至

這兩天,很多媒體都在寫用AI考高考題的內容。

我本來真的沒打算卷這個選題,因為知道大家肯定都會寫,都會卷,我也想休息休息,真的就不打算寫了。

但是吧,用AI測語文考試還沒啥,但是看了一些用AI做數學考試的文章,真的給我看的一臉地鐵老頭表情包,就,那個測試方法,也特么太扯淡了。

我覺得既然是考試,那就公平公正的去測試?

當然,你要是玩整活,那就另談了。

結果最后得出一些不太靠譜的結論,我覺得還是蠻誤導大家的。

客觀、公平、公正,是我覺得最核心的標準。

所以我覺得,我想按照我的玩法,再嚴謹一點的測一下大模純數學能力型高考,給大家看一下,真實客觀的評分。

測試試卷為2025年數學全國一卷。


測試規則如下:

1. 不考解答題(因為給我標準答案我也看不懂,不知道咋給分。。)

2. 所有的題目截圖全部使用LaTeX編輯器轉成LaTeX文本格式,再扔給大模型進行回答。


LaTeX是學術界最廣泛使用的數學公式排版語言,能最精確地表達數學符號,我們考的是模型的數學能力,不是考模型的多模態識圖能力,比如DeepSeek根本就沒多模態,用的是OCR提取文本,很可能識別錯誤,所以截圖上傳不公平,一律轉化成LaTeX格式再進行統一測試。

3. 剔除掉單選題第6題,因為這是單選、多選、填空題中唯一有圖表的,轉成文字可能會有理解歧義,同時就一題,影響不大,直接剔除。


4. 單題計分方法也依照高考判分原則:單選題7道,每道5分,選項正確計分,錯誤不得分;多選題3道,每道6分,全對計6分,漏選按正確答案數量計分,如答案為ABCD,漏選其一扣1.5分,錯選不得分;填空題3道,每道5分,填空正確計分,錯誤不得分。

5. 每道題都會使用大模型跑3遍,根據正確比例進行分配,最大程度減少幻覺。比如OpenAI o3模型,做單選題第7題,對2次,錯1次,則實際得分為5*0.66=3.3分。

6. 只開推理、不使用Prompt引導、不開聯網、不允許寫代碼在沙盒進行計算,比如o3,我直接把這幾個功能關掉了。


以上,就是全部規則了。

接下來,請我們的模型考生入場。

測試模型為OpenAI o3、Gemini 2.5 pro、DeepSeek R1 、豆包( 1.5-thinking-pro) 、元寶(混元T1)、千問3(235B)、訊飛星火X1,均為推理模型。

在晚上凌晨2點開始測試,因為搞API寫腳本反而可能更麻煩,所以直接搞了個表格,復制粘貼測了,以至于喊了我的幾個好朋友@卡爾的AI沃茲、@Max、@貓先生 一起測,硬生生測到凌晨4點。


7道單選題、3道多選題、3道填空題,總分一共68分。

我們得出了,我認為,非常公平客觀的,每個模型的考試結果。

沒有收任何家錢,也沒有任何利益關系,全部客觀公正。

如下圖:


看看每一題的具體選項。


第9題是個非常神奇的題目,是個多選題,只有Gemini 2.5 Pro每次都對了,其他的所有大模型,幾乎全都有問題,D選項倒是全都答出來了,但是缺了B。

而那個DeepSeek第11道題錯的那道題,其實并不是真做錯了,明明做對了,但是非要作死的瞎答,比如11題多選題,DeepSeek R1錯了一道題。

但是我給你看看,它其實是這么錯的。


真的,太抽象了。。。

再看看,最終分數。


Gemini確實非常強,在整個邏輯上,沒有一題是錯的。

而豆包、混元、星火位列第二梯隊,在第9題上漏了一個選項,并列屈居第二。

DeepSeek半對半錯了一個多選題,丟了0.7分,排名第五。

而Qwen3和OpenAI o3因為兩個都錯了1次填空題,只能被迫墊底。。

通過我的測試,我相信,大家應該對于模型的數學能力,有一些了解了。

其實,根本拉不開差距,出錯一般也都是小小的幻覺。

高考對于現在絕大多數的推理大模型來說,其實真的就是,沒有特別大的難度,跟2023年的時候,真的是天壤之別。

很多測出來測的非常離譜的文章,其實最后答案錯了,跟推理模型本身沒有半毛錢關系,而是你把截圖扔過去,各種符號啥的識別錯誤。

比如 則 \complement_{U} A,硬生生識別成了CuA。


所以,折騰到現在,這場公平、客觀的AI數學高考終于落幕了。

在打完最后一個結果的時候,我松了一口氣。

其實吧,我們不睡覺,熬夜折騰這么久,想得出的并不僅僅是一個簡單的分數。

而是我們我們想知道,怎么才算是一場合格的AI考試。

規則公正,流程嚴謹,技術中立,少一點博眼球的夸張,多一點對真相的執著。

我始終相信,無論是對技術,還是對人生,嚴謹總能讓我們更接近真實。

而真實,總能讓我們更加自由。

睡覺。

起床以后,一定又是美好的一天。

以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。

>/ 作者:卡茲克

>/ 投稿或爆料,請聯系郵箱:wzglyay@virxact.com

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
幼兒園園長涉貪千萬一審被判11年:是否“國家工作人員”引爭議,其已上訴

幼兒園園長涉貪千萬一審被判11年:是否“國家工作人員”引爭議,其已上訴

澎湃新聞
2025-06-09 20:58:28
英媒:紐卡無力承擔格拉利什30萬鎊周薪,曼城標價至少6000萬鎊

英媒:紐卡無力承擔格拉利什30萬鎊周薪,曼城標價至少6000萬鎊

直播吧
2025-06-09 22:01:11
郭富城全家6口看賽馬,岳父一臉笑容好得意,方媛肚子快遮不住了

郭富城全家6口看賽馬,岳父一臉笑容好得意,方媛肚子快遮不住了

草莓解說體育
2025-06-09 04:44:40
星巴克中國宣布:明起,數十款產品集體調價,平均價格降幅約5元

星巴克中國宣布:明起,數十款產品集體調價,平均價格降幅約5元

FM93浙江交通之聲
2025-06-09 12:21:16
演員尹正發長文道歉:快四十了,一事無成

演員尹正發長文道歉:快四十了,一事無成

上游新聞
2025-06-09 17:59:07
洛杉磯抗議民眾與警察爆發沖突,當地華人:華人居住區比較平靜,擔心公司被“打砸搶”

洛杉磯抗議民眾與警察爆發沖突,當地華人:華人居住區比較平靜,擔心公司被“打砸搶”

瀟湘晨報
2025-06-09 18:39:10
令人驚訝,歐爾班180度轉向了……

令人驚訝,歐爾班180度轉向了……

山河路口
2025-06-09 19:43:30
停飛中國航班,拒絕中國游客,那個把美日當靠山的帕勞,下場如何

停飛中國航班,拒絕中國游客,那個把美日當靠山的帕勞,下場如何

談史論天地
2025-06-08 19:20:02
A股:人民日報權威發文,釋放明確信號,周二很可能將迎來大動作

A股:人民日報權威發文,釋放明確信號,周二很可能將迎來大動作

春序娛樂
2025-06-09 16:49:40
敢曝光發生在你身邊的奇葩事嗎?網友:還真是一個比一個勁爆啊

敢曝光發生在你身邊的奇葩事嗎?網友:還真是一個比一個勁爆啊

解讀熱點事件
2025-06-05 00:10:03
美媒稱:中國激光武器正在俄羅斯軍隊中服役,中國將改變游戲規則

美媒稱:中國激光武器正在俄羅斯軍隊中服役,中國將改變游戲規則

文昌每日談
2025-06-09 17:43:26
體育總局領導有調整

體育總局領導有調整

新京報政事兒
2025-06-09 19:01:27
國青慘敗埃及U23!僅劉李能看,其余各將狂鐵,進攻無戰術!

國青慘敗埃及U23!僅劉李能看,其余各將狂鐵,進攻無戰術!

籃球資訊達人
2025-06-09 21:13:59
特朗普受邀訪華,不到24小時,法國致電中方,主動送出兩大承諾

特朗普受邀訪華,不到24小時,法國致電中方,主動送出兩大承諾

獵火照狼山
2025-06-08 19:55:52
僅6年!一大學老師哭訴,從系主任到學術帶頭人,到被徹底邊緣化

僅6年!一大學老師哭訴,從系主任到學術帶頭人,到被徹底邊緣化

火山詩話
2025-06-09 19:34:51
通縮還在持續

通縮還在持續

振陽筆記
2025-06-09 22:26:24
天吶,孫楠姨化這么嚴重,簡直認不出來,第一眼以為是哪位大媽

天吶,孫楠姨化這么嚴重,簡直認不出來,第一眼以為是哪位大媽

石辰搞笑日常
2025-06-08 19:37:58
除了殲-10CE,“梟龍”戰機最新型號也亮相央視

除了殲-10CE,“梟龍”戰機最新型號也亮相央視

政知新媒體
2025-06-09 22:30:10
德不配位!你配不上2年1.498億,球隊因此將徹底關閉爭冠窗口

德不配位!你配不上2年1.498億,球隊因此將徹底關閉爭冠窗口

大衛的籃球故事
2025-06-09 18:59:31
太慘了!湖南80歲老奶奶坐在餛飩店吃早餐,被沖進屋的小車撞身亡

太慘了!湖南80歲老奶奶坐在餛飩店吃早餐,被沖進屋的小車撞身亡

水晶的視界
2025-06-09 20:25:18
2025-06-10 01:19:00
數字生命卡茲克 incentive-icons
數字生命卡茲克
反復橫跳于不同的AI領域,努力分享一些很酷的AI干貨
314文章數 419關注度
往期回顧 全部

教育要聞

莫名堂觀察:學生懶得學,老師懶得教

頭條要聞

媒體:和紐森正面攤牌 這是特朗普渴望已久的一場戰斗

頭條要聞

媒體:和紐森正面攤牌 這是特朗普渴望已久的一場戰斗

體育要聞

雷霆55號秀,NBA第一“概念神”

娛樂要聞

劉品言閃婚閃孕官宣 崴腳時被照顧打動

財經要聞

重磅級民生文件公布 如何改變你我生活?

科技要聞

中國汽車行業告別"內卷",從"重慶論壇"開始?

汽車要聞

首次搭載奧特能2.0平臺 新別克E5即將煥新上市

態度原創

游戲
時尚
親子
健康
軍事航空

泰國武俠試玩Demo上線Steam!來嘗嘗味兒正不正!

今年夏天最流行的裙子,配這4雙鞋才好看!

親子要聞

喜馬拉雅兒童1.2億條聲音,陪伴中國兒童成長

減重專家破解減肥九大謠言!

軍事要聞

烏方稱俄發動沖突以來最大空襲

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 永顺县| 丹巴县| 常德市| 龙川县| 噶尔县| 临海市| 株洲县| 红安县| 新营市| 葫芦岛市| 陇南市| 南澳县| 田东县| 青川县| 沐川县| 元谋县| 县级市| 扶风县| 陇川县| 越西县| 娄底市| 兖州市| 福州市| 正蓝旗| 阿图什市| 绥德县| 吉安县| 依安县| 顺昌县| 镶黄旗| 阿坝县| 上栗县| 民勤县| 永兴县| 甘南县| 长顺县| 濮阳市| 肃宁县| 中江县| 凤城市| 石泉县|