還記得你高考時被數學最后幾道大題支配的恐懼嗎?今天,知危編輯部想讓各個 AI 大模型也嘗嘗滋味。
這并不是整活兒,大模型在推理上天天高呼“ 取代程序員 ”、“ 取代人類科學家 ”,那從實際層面,它們真的有那么強嗎?他們能贏得過大學生最巔峰狀態 —— 高考時的狀態嗎?
知危通過2025 年高考數學全國卷一卷的最后 5 道解答題( 總分 77 分 ),對當前主流大語言模型的數學推理能力進行了系統性評測。
測試題目涵蓋了統計學、數列、立體幾何、解析幾何和三角函數等多個數學領域,對于考察模型在概率計算、證明推理、空間幾何分析、參數優化等方面的表現,能提供一些線索。
另外,關于推理模型的有趣特性,也通過答題有所展現。
本次參與評測的模型包括:Gemini 2.5 Pro Preview、智譜Z1、豆包1.5、Claude 4 Sonnet、Qwen3-235B-A22B、DeepSeek R1、Kimi K1.5、騰訊T1、文心X1、GPT-4o 和 o3 等11 個主流大語言模型。評測采用百分制打分,重點關注計算準確性、邏輯嚴謹性和解題思路的完整性。
為防止模型解題卡在讀圖這一非核心能力上,知危把所有題目都轉換成了 LaTeX 格式( 一種適用于數學公式的排版格式 ),一些帶圖的題目,其實圖片也不是必須的,后面會詳細說明。
這是知危得到的評測結果概況:
- 總體表現Gemini 2.5 Pro Preview 以 75 分位居第一智譜 Z1( 67 分 )和豆包 1.5( 62 分 )緊隨其后;
- 推理特色:DeepSeek R1在思維鏈細節方面表現突出;
- 普遍短板:最后一道綜合性三角函數題成為各模型的 " 滑鐵盧 ",僅 Gemini 2.5 Pro Preview 給出了相對完整的解答;
通過對各模型思維鏈的深度分析,本文揭示了不同模型在數學推理方面的獨特特點、常見錯誤模式,以及在面對復雜數學問題時的思維策略差異。
對了,友情提示一下各位,不喜歡數學的可以只看每道題開頭的結果表格,或是直接拉到文末看總結哦
第 15 題
真題:
LaTeX 格式:
為研究某疾病與超聲波檢查結果的關系,從做過超聲波檢查的人群中隨機調查了 1000 人,得到如圖中的聯表:
(1)記超聲波檢查結果不正常者患該疾病的概率為 P,求 P 的值;
(2)根據小概率值 \alpha =0.001 的獨立性檢驗,分析超聲波檢查結果是否與患該疾病有關。
附: χ2 =\frac {n(ad-bc)^{2}}{(a+b)(c+d)(a+c)(b+d)}, \frac {p(x=2,k)}{k} =0.821 6.635 10.828
( 一個細節:題目要配合表格一起輸入,但 DeepSeek R1 沒有 OCR 或多模態能力,剛好 Qwen3-235B-A22B 在輸出中將表格用文本的形式表示了,所以我們就順道復制到 DeepSeek R1 的輸入之中了。)
注:我們保留了 LaTeX 公示的表達,看起來抽象,但方便你感興趣的話可以復制測試,以下幾題同理。
測試結果:
這道題主要考查的是列聯表分析中的獨立性檢驗和條件概率的計算,屬于高中統計與概率模塊的內容。
第一小題比較容易,所有模型都答對了。
第二小題需要套用題目中給出的卡方統計量的公式,只要具備相關概念的知識,也能順利做出來,大部分模型也都答對了。
除了 Kimi K1.5 和文心 X1,它們都把最后的卡方統計量算錯了,正確值是 χ2 =765.625,而它們計算出來的值是 761.25,雖然不影響最后的結論,但這個錯誤因為過于低級讓人驚訝。
從思維鏈中追溯,發現 Kimi K1.5 的錯誤是:第一次算出 400 - 140,400 = -139,600,而實際上是 -140,000,最后算出卡方統計量是 760.5,隨后三次因為這個值過大,重新進行了計算,但都算成了 761.25,并接受了這個答案。文心 X1 在執行時直接跳過了深度思考,在解答輸出中也沒有線索,所以錯誤無法追溯。
很多模型在第一次計算后都會因數值太大而產生質疑,會決定重新計算三次左右,比如豆包 1.5、Qwen3-235B-A22B、智譜 Z1 等。
還有的模型會再采用通用公式來算,比如 Qwen3-235B-A22B、DeepSeek R1:
DeepSeek R1 的回答簡直是細節狂魔,不僅思維鏈長度 7000 字之長( 僅次于Kimi K1.5 ),對數值計算做了過多不必要的摳細節,比如把乘法一步一步算給你看中間結果,除法一步一步給你看怎么約分,甚至算到 χ2 = (49/64) × 1000 之后,還在糾結如何把 64 做拆分使得計算更簡便。當然,這不全是缺點,優點會在之后的題目中體現。
實際上,最難能可貴的是,Claude 4 Sonnet 在結果中提及了對卡方統計值如此之大的合理解釋 —— 患病者中 90% 的人超聲波檢查不正常,而未患病者中只有 2.5% 的人超聲波檢查不正常,兩者差異極其顯著,也能直觀上說明超聲波檢查結果與患該疾病相關性極大。Qwen3-235B-A22B 和智譜 Z1 也并給出了類似的合理解釋。這種能力雖然對做題拿分沒什么幫助,但對開放性研究的數據分析是有意義的。相比之下,騰訊 T1 倒是最為干脆,沒有對卡方統計量很大表示質疑,也沒給出解釋,給出答案就結束了。
最后,o3 和 Gemini 2.5 Pro Preview 的思維鏈摘要中沒有關于如何任何思考的線索,這是個大槽點。
本題的評分結果,Kimi K1.5 和文心 X1 各扣 2 分,其它模型滿分。
第 16 題
真題:
LaTeX格式:
已知數列a_ {n}中, a_ {1}=3, \frac {a_ {n+1}}{n}=\frac {a_ {n}}{n+1}+ \frac {1}{n(n+1)}.
(1)證明:數列{ na_ {n} }是等差數列;
(2)給定正整數m,設函數f(x)=a_ {1}x+a_ {2}x^ {2}+\cdots+a_ {m}x^ {m} ,求f'(2).
( 注意,第 2 小題因真題信息源的偏差,把 f'(-2) 改為了 f'(2),但無大礙。)
測試結果:
這一題幾乎所有模型都完美的做出來了。但通過對思維鏈的分析,還是能看出各自的特點。
第一小題沒什么好說的。對于第二小題,主要難點在于處理兩個有限級數的值,以下是 o3 給出的,基于數列的通項將 f(x) 和導數展開為一個有限調和級數和一個有限幾何級數。
GPT-4o 對于較難的有限調和級數部分直接給出了一個求和公式來求解。
不僅是 GPT-4o,豆包 1.5、Qwen3-235B-A22B、DeepSeek R1、Kimi K1.5、文心 X1、騰訊 T1 都采用了這個公式來計算。
當然這個公式可能有些超綱,一般高中階段會用錯位相減法這種更巧妙的方法來解。比如,文心X1、騰訊T1除了公式法,也都使用了錯位相減法。
比如騰訊T1給出的:
一些模型包括豆包 1.5、Kimi K1.5、DeepSeek R1 都會在計算完成后將一些數值代入進行驗證,這是個很好的習慣。
Qwen3-235B-A22B 可以自定義預算 token,展現了比較特別的行為。比如達到預算 token 都會立刻停止,但 1024token 預算不能完成推理,2048token 預算能完成推理,但無論是否推理完,都能得到正確答案。
若推理完成,Qwen3-235B-A22B 會在思維鏈中寫下公式,并在回答中使用。
如果沒有推理完,則會直接給出套用公式計算之后的結果,卻沒出現公式。
DeepSeek R1 的整體思維鏈比較復雜,但有其思考的深度。在求解第 2 小題時,DeepSeek R1 甚至把較難的有限調和級數用求導法推導出了公式。
一開始比較依賴變量推理,后來發現代入底數 2 計算會更加方便,這里耽誤了比較大的時間,Kimi K1.5 也是類似的做法。但 DeepSeek R1 在原函數與導數之間靈活變化的做法值得借鑒。比如幾何級數的和更容易計算,就先計算再求導,調和級數的和更難計算,就先求導變為幾何級數再求和。
值得關注的一個細節是,文心 X1 在推導中使用了奇怪的記號:S = 12^0 + 22^1 + 32^2 + ... + m2^{m-1},兩個相乘的數字中間沒有乘號,Kimi K1.5 中也出現了相同的記號。相比之下,騰訊 T1 使用的記號倒是很標準:S = 1 * 2^0 + 2 * 2^1 + 3 * 2^2 + … + m2^(m-1)。
Claude 4 Sonnet 直接給出了解法,沒毛病也沒亮點。最后再吐槽一次,o3、Gemini 2.5 Pro Preview 的思維鏈摘要沒有關于解法的信息。
第 17 題
真題:
LaTeX 格式:
如圖所示的四棱錐P-ABCD中,PA\bot平面ABCD,BC/\!/AD,AB\bot AD.
(1)證明:平面PAB\bot平面PAD;
(2)若PA=AB=\sqrt {2},AD= \sqrt {3}+1,BC=2,P,B,C,D在同一個球面上,設該球面的球心為O.
(i)證明:O在平面ABCD上;
(ii)求直線AC與直線PO所成角的余弦值.
( 這里再提示一次,由于DeepSeek R1沒有OCR或多模態能力,因此這道題直接以文本形式提供給DeepSeek R1,其它模型因特殊時期暫時無法使用讀圖功能的也是如此處理,因為就算不提供圖片,文字也能完整表達題意。)
測試結果為:
這一次,除了 GPT-4o 和文心 X1,其它模型都答對了。
大部分模型都是采用很常規的解法,比如第一小題引用兩個平面垂直的判定法則來求解,第二小題基于坐標法來求解。
對于第一小題,GPT-4o 參考的關于兩個平面垂直的判定原則是對的,但用錯了對象,應該以 AB 為推理線索,而不是 PA,證明 AB 垂直于 PAD 上兩條不共線的直線。
而在求解第 2 小題第一部分,GPT-4o 的這一段推導基本屬于胡說八道:
后續雖然使用了坐標法來計算 O 的坐標,以及直線 AC 與直線 PO 所成角的余弦值,但都算錯了。
文心 X1 類似,使用坐標法計算 O 的坐標時也算錯了,自然直線 AC 與直線 PO 所成角的余弦值也會算錯。
DeepSeek R1 又一次展示了不一樣的思維方式,推理過程習慣一步一步走,而不是把所有方程集合起來解,就顯得很冗長,在數值驗證上也耗費了不少時間。
第 18 題
真題:
LaTeX 格式:
設橢圓C: \frac{x^{2}}{a^{2}}+\frac{y^{2}}{b^{2}}=1 (a>b>0)的離心率為\frac{2 \sqrt{2}}{3},下頂點為A,右頂點為B,|AB|=\sqrt{10}。
(1) 求C的方程;
(2) 已知動點P不在y軸上,點R在射線AP上,且|AP||AR|=3。
(i) 設點P(m,n),求R的坐標(用m,n表示);
(ii) 設O為坐標原點,Q是C上的動點,直線OR的斜率是直線OP的斜率的 3 倍,求|PQ|的最大值。
測試結果:
這一道題翻車的就多了,而且出錯的方式五花八門。只有 Gemini 2.5 Pro Preview、豆包 1.5、文心 X1、智譜 Z1 全對,其它全部栽在第 2 小題第二部分。
Gemini 2.5 Pro Preview 抓住了解題的關鍵點:PQ 的最大距離應該等于圓心到橢圓上點的最大距離加上圓的半徑。豆包 1.5 則闡述了這個關鍵點背后更本質的邏輯: | PQ|≤|PO| + |OQ|。意識到這一點之后,通過參數化方法求解 P 的軌跡即圓的圓心到橢圓C的最大值即可。
在思維鏈部分,豆包 1.5 嘗試過純參數法( 不借助圓心,直接用參數表示 PQ 距離 ),因為過于復雜而放棄。對正確答案有過懷疑和猶豫,但次數不多,最后并沒有找到好的辦法來驗證。
文心 X1 在 Q 和 P、R 是否有關系這個問題上糾結了很久,并把 P 點的方程重復計算了多遍,在計算出 P 點方程后,要解決 PQ 之間距離時,由于要處理的變量太多而猶豫不前。關鍵點是意識到存在更簡便的方法,比如利用幾何性質或拉格朗日乘數法。用幾何法計算出正確結果后,懷疑了好多次,每次都用同樣的結論說服自己是正確的,但沒有任何信息增量。然后嘗試了拉格朗日乘數法,列出方程后就感覺太復雜直接放棄了,繼續糾結中。最后依靠一些心理暗示停止了思考。
智譜 Z1 得到了正確答案,一次用 y 做參數化,一次用 cosθ 做參數化,每一次都得到了正確的答案,但每一次驗證都失敗了。通過往前回溯也沒有找到合適的線索,導致猶豫不決,重復提問了自己好幾次。
接下來看看答錯的模型是怎么做的。GPT-4o 計算點 P 方程時出現錯誤,自然不可能計算出正確的 PQ 值。Claude 4 Sonnet 也是類似的問題。
此外 GPT-4o 最大化 PQ 的邏輯并不嚴密,在使用代數法發現無法嚴格求解后,直接嘗試了數值試錯法來得出結論。o3 的錯誤更加離譜,一開始誤以為 Q 應該是 P 和橢圓的交點,即便后面意識到 P 和 R 的關系與 Q 無關,也沒有轉換思維。
Qwen3-235B-A22B 有意識到最大距離應該出現在兩圖形的最遠點之間,通過幾何分析找到不同思路,比如分析圓和橢圓的相對位置和重疊部分,但一直都在參數化和幾何方法之間猶豫不決,最后達到 token 預算( 5120 token ),答案中的思路是對的,但計算出來的最大距離是錯誤的,并且缺乏論據,不知道錯在哪里。
Kimi K1.5 也是在參數化方法和幾何方法之間猶豫,無法往前推進。參數化太復雜,幾何方法不夠嚴密。最后是通過 y 軸上的 PQ 距離計算,并加上幾個其它 PQ 實例的比較,下結論說 y 軸上的 PQ 是最大距離。但實際上,P 是不能在 y 軸上的。
騰訊 T1 嘗試了多種參數方法和拉格朗日乘數法、柯西不等式等,因復雜度較高而放棄,然后轉向幾何法。它也找到了解題的關鍵點:點 P 到 Q 的距離可以表示為 |PQ| = |OQ - OP| ≤ |OQ| + |OP|,當且僅當 O, P, Q 共線且 Q 在 OP 的延長線上時取等號,但需要 Q 在橢圓上,所以最大可能的 |PQ| 是 |OP| + 橢圓上離 O 最遠的點在 OP 方向上的距離。
它還有另一個新奇的思路:以橢圓中心為關鍵點,計算 P 到橢圓中心的距離 + 橢圓在該方向上的半長軸。
但這些思路都沒有被執行下去,最后走了容易計算 y 軸上的 PQ 值—— 5 + 3√2,雖然 P 不能在 y 軸上,但可以以無限靠近 y 軸的方式存在。
這個思路也被 DeepSeek R1 繼承了。DeepSeek R1 通過 y 軸上的一個 PQ 距離計算,并加上幾個其它 PQ 實例的比較,得到 y 軸上的 PQ 是最大距離。即便意識到 P 不在 y 軸上,也表示: P 不在 y 軸上,但可無限接近。
和文心 X1 一樣,DeepSeek R1 也糾結 Q 和 P、R 是否有關系。甚至自己改題目,推測 “ P ” 可能是一個筆誤,應為 “ Q ”,即 “ 直線 OR 的斜率是直線 OQ 的斜率的 3 倍 ”。
第 19 題
真題:
LaTeX 格式:
(1)求f(x)=5\cos x-\cos5x在[0,\frac {\pi }{4}]的最大值;
(2)給定\theta\in(0,\pi)和a\in R,證明:存在y \in [a-\theta ,a+\theta ],使得\cos y \leqslant \cos \theta ;
(3)若存在實數 \varphi ,使得對任意實數x,都有5 \cos x- \cos ( 5x+ \varphi ) \leqslant b,求b的最小值.
測試結果:
這一道題太慘烈了,特別對于第 3 小題,幾乎全軍覆沒,只有 Gemini 2.5 Pro Preview 在得到正確答案的同時,也提供了比較令人信服的邏輯,但也還不夠完整。其它模型要么答錯,要么理解錯題意,要么借用第 1 小題的結果投機取巧湊出一個正確答案。
第 2 小題一般有反例法和反證法兩種,所以答案多樣性比較大,也是容易出錯的。
Gemini 2.5 Pro Preview 第一題采用常規解法,無需細說。第 2 小題,Gemini 2.5 Pro Preview 通過余弦函數的區間單調性,找到了滿足 cos x>cos θ 的區間:
然后通過反證法,證明如果假設成立,y 的區間不可能被包含在上述區間內,得出矛盾,從而得證。
第 3 小題,Gemini 2.5 Pro Preview 使用導數法求駐點,獲得了正確的最小值。
思路是合理的,但實際上在最后下結論之前,缺乏對 φ 如何影響 x 的駐點有效取值的分析( 在任意的 k 值下 ),結論仍然是不嚴密的。
但總體而言,Gemini 2.5 Pro Preview給出了最嚴謹的分析過程,甚至知危在網絡參考答案中暫時還沒找到比這個更好的。不過,其推理思維鏈摘要沒有找到特別有用或清晰的線索。
整體上,GPT-4o 是錯得最離譜的,直接零分。
GPT-4o 第一小題只計算了端點的值,得到了暫時的最大值,而對于導數的求解,選擇不執行,并給出了很荒唐的理由:解這個方程不容易在解析范圍內做出更大值。
第2小題GPT-4o強調余弦函數在 [0,π] 上是單調減函數;但把結論基于 a+θ 的取值范圍,并不嚴謹,畢竟這個結論需要在 a 是任意值的情況下成立。
對第 3 小題的求解,GPT-4o 只是通過三角函數最大值為1的特性,進行數值舉例,找到了一個使得上界比較大的 φ 值,就輕易下了結論。而沒有考慮到,這不是找上界,而是最小上界。需要通過特定的 φ 值,讓這個上界最小。
豆包 1.5 和騰訊 T1 做對了第 1 小題,做錯了第 2、3 小題。
豆包 1.5 在第 2 小題通過劃分 3 個區間分別找到反例來求解,但每一句結論要么依賴a的特定取值,要么沒有邏輯嚴謹性。
第 3 小題,豆包 1.5 結合余弦函數的取值范圍特性,通過數值特例找到了 6 作為最小的極大值。但邏輯不嚴謹,答案也是錯誤的。
在思維鏈中,豆包 1.5 嘗試了和 Gemini 2.5 Pro Preview 相似的思路。但后續處理把注意力放在了 k 的取值,而不是 φ 的取值上。
豆包 1.5 一開始對題意的理解還是對的。
但后面即便注意到比如 φ=0 時,b的最大值是3√3,后續看到 φ= π ,b 為 6 的極大值,還是昏了頭。
騰訊 T1 解決第 2 小題時,用區間分析得到了奇怪的結論:“ 區間長度為 2θ,當 θ∈(0,π) 時,無法完全包含在 ( ?θ,θ ) 內( 否則長度超過 2θ ),矛盾?!?求解第 3 小題時采用了第 1 小題的極大值結果,但這不嚴謹,因為這個極大值和 φ 沒有關系,并且局限在有限區間內。
o3 求解第 2 小題使用了比較直觀的反證法,不需要分析區間,不容易出錯。
智譜 Z1 結合余弦函數特性和區間長度,也采用了不同的反證思路。
o3 求解第 3 小題時,沒有足夠的邏輯推導,只表示 “ 通過分析( 三角恒等式或數值搜索 )可知 ”,答案雖然正確,但并不嚴謹。類似地,智譜也沒有給出有說服力的過程,就得到了正確答案。
Claude 4 Sonnet 表示 b 的最小值為 6,通過變分法可以證明,但沒有實際展示如何得到。
Qwen3-235B-A22B 求解第 2 小題時找到了和 Gemini 2.5 Pro Preview 一樣的邏輯。
求解第 3 小題時,對題意的理解是正確的。
考慮了一些復雜的思路:相繼提到了諧波成分抵消、傅里葉級數、切比雪夫多項式、貝塞爾不等式等超綱的方法。感覺行不通后,開始通過數值舉例尋找線索。
嘗試了 Gemini 2.5 Pro Preview 采用的求導法,但沒有把這條路徑走完。最后的答案是準確的,并嘗試了 φ 的多種取值做對比,通過 “ 無論 φ 如何調整,無法通過相位抵消完全消除高頻項的影響,因此最小的 b 應為原函數的最大值 ” 得出了結果,但這并不嚴謹。
DeepSeek R1 求解第 2 小題時采用了正確的反證法,思路和 Gemini 2.5 Pro Preview 相同,但補齊了 Gemini 2.5 Pro Preview 得出滿足 cos x>cos θ 的區間的邏輯前提。
求解第 3 小題時,DeepSeek 也采用了求導分析法。
抓住了 k 變化對最終結果的影響較小,而更多與 φ 相關。但沒有完全分析完成又放棄了,最后還是通過數值比較增大了信心,得到了正確答案,但過程也不是準確的。
Kimi K1.5 的解答過于冗長,似乎是把長思考帶入到了解答部分。第 2 小題找到了和Qwen3-235B-A22B、Gemini 2.5 Pro Preview一樣的反證法。第 3 小題沒有用嚴格的分析,而是用 φ 取值的反復比較得出了結論,不能算準確。和Qwen3-235B-A22B一樣先進行了求導解析,但后面把注意力集中在k的取值比較上。
文心 X1 再次跳過了深度思考,解答中得到了準確答案,但如何得出結論沒有具體過程。
總結
好了,我們的 2025 高考數學大題 AI 大亂斗的測試就到此結束了,下面是各個模型的總成績單:
前三名分別是 Gemini 2.5 Pro Preview、智譜 Z1、豆包 1.5,得到了 75 分、67 分、62 分,后兩者都是在最后一題的最后一部分,才和 Gemini 2.5 Pro Preview 拉開了差距。
其它模型之間整體相差不大,最后一名是 GPT-4o,這并不奇怪,畢竟它不是推理模型。倒是 o3、Claude 4 Sonnet,作為行業領先者的表現還是挺令人失望的,很多錯誤甚至有點離譜。
DeepSeek R1 在思維鏈上的特點比較明顯,字數非常多,細節非常豐富,即便只看部分思維鏈,也能給人類帶來不錯的啟發,會采用復雜、冗長的推理過程來解題,甚至采用比較高階的方法,許多模型都會在這種節點下,停滯不前或繞過去, DeepSeek R1 會進行嘗試,即便最后放棄,也能提供不少細節。相比之下,部分模型( 如 o3、Gemini 2.5 Preview )的思維鏈摘要缺乏關鍵推理細節,影響了可解釋性。
需要特別強調的是,思維鏈長度與準確性并非簡單正相關,過度冗長的推理有時反而影響效率。
在解題層面,目前主流大模型在求解數學推理還會遇到這些共同挑戰:
- 復雜參數優化問題( 如第18、19題第2小題ii部分 )對所有模型都構成較大挑戰;
- 幾何直覺和代數計算的結合是普遍難點( 如第 18 題第 2 小題 ii 部分 );
- 數值計算精度在長推理題目中成為關鍵因素
最后,除了解題本身,模型在進行結果檢驗、衡量方法復雜度和自信度、token 預算控制、輸出長度、輸出多樣性等方面如果做的不好,也會很影響可用性,特別是出現大量重復推理、無效推理時,負面體驗是最強的。
總之,對于這些動輒號稱是 “ 博士水平 ”的各家大模型來說,我們只能說,在中國高考數學面前,你考個 985 沒問題,但你要想考清北,除了 Gemini,其他可能都還得再多練兩年。
現在,你知道你身邊只靠單純的高考成績考上清北的人有多恐怖了嗎?
( 本評測基于2025年6月的模型版本進行,隨著模型的持續更新,相關結論可能會發生變化。)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.