網易首頁 > 網易號 > 正文申請入駐

大模型高考數學：最后一題全體"滑鐵盧"，看來AI想考清北也難

2025-06-12 10:46:27　來源: 知危

浙江舉報

分享至

還記得你高考時被數學最后幾道大題支配的恐懼嗎？今天，知危編輯部想讓各個 AI 大模型也嘗嘗滋味。

這并不是整活兒，大模型在推理上天天高呼“ 取代程序員 ”、“ 取代人類科學家 ”，那從實際層面，它們真的有那么強嗎？他們能贏得過大學生最巔峰狀態 —— 高考時的狀態嗎？

知危通過2025 年高考數學全國卷一卷的最后 5 道解答題（總分 77 分），對當前主流大語言模型的數學推理能力進行了系統性評測。

測試題目涵蓋了統計學、數列、立體幾何、解析幾何和三角函數等多個數學領域，對于考察模型在概率計算、證明推理、空間幾何分析、參數優化等方面的表現，能提供一些線索。

另外，關于推理模型的有趣特性，也通過答題有所展現。

本次參與評測的模型包括：Gemini 2.5 Pro Preview、智譜Z1、豆包1.5、Claude 4 Sonnet、Qwen3-235B-A22B、DeepSeek R1、Kimi K1.5、騰訊T1、文心X1、GPT-4o 和 o3 等11 個主流大語言模型。評測采用百分制打分，重點關注計算準確性、邏輯嚴謹性和解題思路的完整性。

為防止模型解題卡在讀圖這一非核心能力上，知危把所有題目都轉換成了 LaTeX 格式（一種適用于數學公式的排版格式），一些帶圖的題目，其實圖片也不是必須的，后面會詳細說明。

這是知危得到的評測結果概況：

總體表現Gemini 2.5 Pro Preview 以 75 分位居第一智譜 Z1（ 67 分）和豆包 1.5（ 62 分）緊隨其后；
推理特色：DeepSeek R1在思維鏈細節方面表現突出；
普遍短板：最后一道綜合性三角函數題成為各模型的 " 滑鐵盧 "，僅 Gemini 2.5 Pro Preview 給出了相對完整的解答；

通過對各模型思維鏈的深度分析，本文揭示了不同模型在數學推理方面的獨特特點、常見錯誤模式，以及在面對復雜數學問題時的思維策略差異。

對了，友情提示一下各位，不喜歡數學的可以只看每道題開頭的結果表格，或是直接拉到文末看總結哦

第 15 題

真題：

LaTeX 格式：

為研究某疾病與超聲波檢查結果的關系,從做過超聲波檢查的人群中隨機調查了 1000 人,得到如圖中的聯表:

(1)記超聲波檢查結果不正常者患該疾病的概率為 P,求 P 的值;

(2)根據小概率值 \alpha =0.001 的獨立性檢驗,分析超聲波檢查結果是否與患該疾病有關。

附: χ2 =\frac {n(ad-bc)^{2}}{(a+b)(c+d)(a+c)(b+d)}, \frac {p(x=2,k)}{k} =0.821 6.635 10.828

（一個細節：題目要配合表格一起輸入，但 DeepSeek R1 沒有 OCR 或多模態能力，剛好 Qwen3-235B-A22B 在輸出中將表格用文本的形式表示了，所以我們就順道復制到 DeepSeek R1 的輸入之中了。）

注：我們保留了 LaTeX 公示的表達，看起來抽象，但方便你感興趣的話可以復制測試，以下幾題同理。

測試結果：

這道題主要考查的是列聯表分析中的獨立性檢驗和條件概率的計算，屬于高中統計與概率模塊的內容。

第一小題比較容易，所有模型都答對了。

第二小題需要套用題目中給出的卡方統計量的公式，只要具備相關概念的知識，也能順利做出來，大部分模型也都答對了。

除了 Kimi K1.5 和文心 X1，它們都把最后的卡方統計量算錯了，正確值是 χ2 =765.625，而它們計算出來的值是 761.25，雖然不影響最后的結論，但這個錯誤因為過于低級讓人驚訝。

從思維鏈中追溯，發現 Kimi K1.5 的錯誤是：第一次算出 400 - 140,400 = -139,600，而實際上是 -140,000，最后算出卡方統計量是 760.5，隨后三次因為這個值過大，重新進行了計算，但都算成了 761.25，并接受了這個答案。文心 X1 在執行時直接跳過了深度思考，在解答輸出中也沒有線索，所以錯誤無法追溯。

很多模型在第一次計算后都會因數值太大而產生質疑，會決定重新計算三次左右，比如豆包 1.5、Qwen3-235B-A22B、智譜 Z1 等。

還有的模型會再采用通用公式來算，比如 Qwen3-235B-A22B、DeepSeek R1：

DeepSeek R1 的回答簡直是細節狂魔，不僅思維鏈長度 7000 字之長（僅次于Kimi K1.5 ），對數值計算做了過多不必要的摳細節，比如把乘法一步一步算給你看中間結果，除法一步一步給你看怎么約分，甚至算到 χ2 = (49/64) × 1000 之后，還在糾結如何把 64 做拆分使得計算更簡便。當然，這不全是缺點，優點會在之后的題目中體現。

實際上，最難能可貴的是，Claude 4 Sonnet 在結果中提及了對卡方統計值如此之大的合理解釋 —— 患病者中 90% 的人超聲波檢查不正常，而未患病者中只有 2.5% 的人超聲波檢查不正常，兩者差異極其顯著，也能直觀上說明超聲波檢查結果與患該疾病相關性極大。Qwen3-235B-A22B 和智譜 Z1 也并給出了類似的合理解釋。這種能力雖然對做題拿分沒什么幫助，但對開放性研究的數據分析是有意義的。相比之下，騰訊 T1 倒是最為干脆，沒有對卡方統計量很大表示質疑，也沒給出解釋，給出答案就結束了。

最后，o3 和 Gemini 2.5 Pro Preview 的思維鏈摘要中沒有關于如何任何思考的線索，這是個大槽點。

本題的評分結果，Kimi K1.5 和文心 X1 各扣 2 分，其它模型滿分。

第 16 題

真題：

LaTeX格式：

已知數列a_ {n}中, a_ {1}=3, \frac {a_ {n+1}}{n}=\frac {a_ {n}}{n+1}+ \frac {1}{n(n+1)}.

(1)證明:數列{ na_ {n} }是等差數列;

(2)給定正整數m,設函數f(x)=a_ {1}x+a_ {2}x^ {2}+\cdots+a_ {m}x^ {m} ,求f'(2).

（注意，第 2 小題因真題信息源的偏差，把 f'(-2) 改為了 f'(2)，但無大礙。）

測試結果：

這一題幾乎所有模型都完美的做出來了。但通過對思維鏈的分析，還是能看出各自的特點。

第一小題沒什么好說的。對于第二小題，主要難點在于處理兩個有限級數的值，以下是 o3 給出的，基于數列的通項將 f(x) 和導數展開為一個有限調和級數和一個有限幾何級數。

GPT-4o 對于較難的有限調和級數部分直接給出了一個求和公式來求解。

不僅是 GPT-4o，豆包 1.5、Qwen3-235B-A22B、DeepSeek R1、Kimi K1.5、文心 X1、騰訊 T1 都采用了這個公式來計算。

當然這個公式可能有些超綱，一般高中階段會用錯位相減法這種更巧妙的方法來解。比如，文心X1、騰訊T1除了公式法，也都使用了錯位相減法。

比如騰訊T1給出的：

一些模型包括豆包 1.5、Kimi K1.5、DeepSeek R1 都會在計算完成后將一些數值代入進行驗證，這是個很好的習慣。

Qwen3-235B-A22B 可以自定義預算 token，展現了比較特別的行為。比如達到預算 token 都會立刻停止，但 1024token 預算不能完成推理，2048token 預算能完成推理，但無論是否推理完，都能得到正確答案。

若推理完成，Qwen3-235B-A22B 會在思維鏈中寫下公式，并在回答中使用。

如果沒有推理完，則會直接給出套用公式計算之后的結果，卻沒出現公式。

DeepSeek R1 的整體思維鏈比較復雜，但有其思考的深度。在求解第 2 小題時，DeepSeek R1 甚至把較難的有限調和級數用求導法推導出了公式。

一開始比較依賴變量推理，后來發現代入底數 2 計算會更加方便，這里耽誤了比較大的時間，Kimi K1.5 也是類似的做法。但 DeepSeek R1 在原函數與導數之間靈活變化的做法值得借鑒。比如幾何級數的和更容易計算，就先計算再求導，調和級數的和更難計算，就先求導變為幾何級數再求和。

值得關注的一個細節是，文心 X1 在推導中使用了奇怪的記號：S = 12^0 + 22^1 + 32^2 + ... + m2^{m-1}，兩個相乘的數字中間沒有乘號，Kimi K1.5 中也出現了相同的記號。相比之下，騰訊 T1 使用的記號倒是很標準：S = 1 * 2^0 + 2 * 2^1 + 3 * 2^2 + … + m2^(m-1)。

Claude 4 Sonnet 直接給出了解法，沒毛病也沒亮點。最后再吐槽一次，o3、Gemini 2.5 Pro Preview 的思維鏈摘要沒有關于解法的信息。

第 17 題

真題：

LaTeX 格式：

如圖所示的四棱錐P-ABCD中,PA\bot平面ABCD,BC/\!/AD,AB\bot AD.

(1)證明:平面PAB\bot平面PAD;

(2)若PA=AB=\sqrt {2},AD= \sqrt {3}+1,BC=2,P,B,C,D在同一個球面上,設該球面的球心為O.

(i)證明:O在平面ABCD上;

(ii)求直線AC與直線PO所成角的余弦值.

（這里再提示一次，由于DeepSeek R1沒有OCR或多模態能力，因此這道題直接以文本形式提供給DeepSeek R1，其它模型因特殊時期暫時無法使用讀圖功能的也是如此處理，因為就算不提供圖片，文字也能完整表達題意。）

測試結果為：

這一次，除了 GPT-4o 和文心 X1，其它模型都答對了。

大部分模型都是采用很常規的解法，比如第一小題引用兩個平面垂直的判定法則來求解，第二小題基于坐標法來求解。

對于第一小題，GPT-4o 參考的關于兩個平面垂直的判定原則是對的，但用錯了對象，應該以 AB 為推理線索，而不是 PA，證明 AB 垂直于 PAD 上兩條不共線的直線。

而在求解第 2 小題第一部分，GPT-4o 的這一段推導基本屬于胡說八道：

后續雖然使用了坐標法來計算 O 的坐標，以及直線 AC 與直線 PO 所成角的余弦值，但都算錯了。

文心 X1 類似，使用坐標法計算 O 的坐標時也算錯了，自然直線 AC 與直線 PO 所成角的余弦值也會算錯。

DeepSeek R1 又一次展示了不一樣的思維方式，推理過程習慣一步一步走，而不是把所有方程集合起來解，就顯得很冗長，在數值驗證上也耗費了不少時間。

第 18 題

真題：

LaTeX 格式：

設橢圓C: \frac{x^{2}}{a^{2}}+\frac{y^{2}}{b^{2}}=1 (a>b>0)的離心率為\frac{2 \sqrt{2}}{3}，下頂點為A，右頂點為B，|AB|=\sqrt{10}。

(1) 求C的方程；

(2) 已知動點P不在y軸上，點R在射線AP上，且|AP||AR|=3。

(i) 設點P(m,n)，求R的坐標（用m,n表示）；

(ii) 設O為坐標原點，Q是C上的動點，直線OR的斜率是直線OP的斜率的 3 倍，求|PQ|的最大值。

測試結果：

這一道題翻車的就多了，而且出錯的方式五花八門。只有 Gemini 2.5 Pro Preview、豆包 1.5、文心 X1、智譜 Z1 全對，其它全部栽在第 2 小題第二部分。

Gemini 2.5 Pro Preview 抓住了解題的關鍵點：PQ 的最大距離應該等于圓心到橢圓上點的最大距離加上圓的半徑。豆包 1.5 則闡述了這個關鍵點背后更本質的邏輯： | PQ|≤|PO| + |OQ|。意識到這一點之后，通過參數化方法求解 P 的軌跡即圓的圓心到橢圓C的最大值即可。

在思維鏈部分，豆包 1.5 嘗試過純參數法（不借助圓心，直接用參數表示 PQ 距離），因為過于復雜而放棄。對正確答案有過懷疑和猶豫，但次數不多，最后并沒有找到好的辦法來驗證。

文心 X1 在 Q 和 P、R 是否有關系這個問題上糾結了很久，并把 P 點的方程重復計算了多遍，在計算出 P 點方程后，要解決 PQ 之間距離時，由于要處理的變量太多而猶豫不前。關鍵點是意識到存在更簡便的方法，比如利用幾何性質或拉格朗日乘數法。用幾何法計算出正確結果后，懷疑了好多次，每次都用同樣的結論說服自己是正確的，但沒有任何信息增量。然后嘗試了拉格朗日乘數法，列出方程后就感覺太復雜直接放棄了，繼續糾結中。最后依靠一些心理暗示停止了思考。

智譜 Z1 得到了正確答案，一次用 y 做參數化，一次用 cosθ 做參數化，每一次都得到了正確的答案，但每一次驗證都失敗了。通過往前回溯也沒有找到合適的線索，導致猶豫不決，重復提問了自己好幾次。

接下來看看答錯的模型是怎么做的。GPT-4o 計算點 P 方程時出現錯誤，自然不可能計算出正確的 PQ 值。Claude 4 Sonnet 也是類似的問題。

此外 GPT-4o 最大化 PQ 的邏輯并不嚴密，在使用代數法發現無法嚴格求解后，直接嘗試了數值試錯法來得出結論。o3 的錯誤更加離譜，一開始誤以為 Q 應該是 P 和橢圓的交點，即便后面意識到 P 和 R 的關系與 Q 無關，也沒有轉換思維。

Qwen3-235B-A22B 有意識到最大距離應該出現在兩圖形的最遠點之間，通過幾何分析找到不同思路，比如分析圓和橢圓的相對位置和重疊部分，但一直都在參數化和幾何方法之間猶豫不決，最后達到 token 預算（ 5120 token ），答案中的思路是對的，但計算出來的最大距離是錯誤的，并且缺乏論據，不知道錯在哪里。

Kimi K1.5 也是在參數化方法和幾何方法之間猶豫，無法往前推進。參數化太復雜，幾何方法不夠嚴密。最后是通過 y 軸上的 PQ 距離計算，并加上幾個其它 PQ 實例的比較，下結論說 y 軸上的 PQ 是最大距離。但實際上，P 是不能在 y 軸上的。

騰訊 T1 嘗試了多種參數方法和拉格朗日乘數法、柯西不等式等，因復雜度較高而放棄，然后轉向幾何法。它也找到了解題的關鍵點：點 P 到 Q 的距離可以表示為 |PQ| = |OQ - OP| ≤ |OQ| + |OP|，當且僅當 O, P, Q 共線且 Q 在 OP 的延長線上時取等號，但需要 Q 在橢圓上，所以最大可能的 |PQ| 是 |OP| + 橢圓上離 O 最遠的點在 OP 方向上的距離。

它還有另一個新奇的思路：以橢圓中心為關鍵點，計算 P 到橢圓中心的距離 + 橢圓在該方向上的半長軸。

但這些思路都沒有被執行下去，最后走了容易計算 y 軸上的 PQ 值—— 5 + 3√2，雖然 P 不能在 y 軸上，但可以以無限靠近 y 軸的方式存在。

這個思路也被 DeepSeek R1 繼承了。DeepSeek R1 通過 y 軸上的一個 PQ 距離計算，并加上幾個其它 PQ 實例的比較，得到 y 軸上的 PQ 是最大距離。即便意識到 P 不在 y 軸上，也表示： P 不在 y 軸上，但可無限接近。

和文心 X1 一樣，DeepSeek R1 也糾結 Q 和 P、R 是否有關系。甚至自己改題目，推測 “ P ” 可能是一個筆誤，應為 “ Q ”，即 “ 直線 OR 的斜率是直線 OQ 的斜率的 3 倍 ”。

第 19 題

真題：

LaTeX 格式：

(1)求f(x)=5\cos x-\cos5x在[0,\frac {\pi }{4}]的最大值;

(2)給定\theta\in(0,\pi)和a\in R,證明:存在y \in [a-\theta ,a+\theta ],使得\cos y \leqslant \cos \theta ;

(3)若存在實數 \varphi ,使得對任意實數x,都有5 \cos x- \cos ( 5x+ \varphi ) \leqslant b,求b的最小值.

測試結果：

這一道題太慘烈了，特別對于第 3 小題，幾乎全軍覆沒，只有 Gemini 2.5 Pro Preview 在得到正確答案的同時，也提供了比較令人信服的邏輯，但也還不夠完整。其它模型要么答錯，要么理解錯題意，要么借用第 1 小題的結果投機取巧湊出一個正確答案。

第 2 小題一般有反例法和反證法兩種，所以答案多樣性比較大，也是容易出錯的。

Gemini 2.5 Pro Preview 第一題采用常規解法，無需細說。第 2 小題，Gemini 2.5 Pro Preview 通過余弦函數的區間單調性，找到了滿足 cos x>cos θ 的區間：

然后通過反證法，證明如果假設成立，y 的區間不可能被包含在上述區間內，得出矛盾，從而得證。

第 3 小題，Gemini 2.5 Pro Preview 使用導數法求駐點，獲得了正確的最小值。

思路是合理的，但實際上在最后下結論之前，缺乏對 φ 如何影響 x 的駐點有效取值的分析（在任意的 k 值下），結論仍然是不嚴密的。

但總體而言，Gemini 2.5 Pro Preview給出了最嚴謹的分析過程，甚至知危在網絡參考答案中暫時還沒找到比這個更好的。不過，其推理思維鏈摘要沒有找到特別有用或清晰的線索。

整體上，GPT-4o 是錯得最離譜的，直接零分。

GPT-4o 第一小題只計算了端點的值，得到了暫時的最大值，而對于導數的求解，選擇不執行，并給出了很荒唐的理由：解這個方程不容易在解析范圍內做出更大值。

第2小題GPT-4o強調余弦函數在 [0,π] 上是單調減函數；但把結論基于 a+θ 的取值范圍，并不嚴謹，畢竟這個結論需要在 a 是任意值的情況下成立。

對第 3 小題的求解，GPT-4o 只是通過三角函數最大值為1的特性，進行數值舉例，找到了一個使得上界比較大的 φ 值，就輕易下了結論。而沒有考慮到，這不是找上界，而是最小上界。需要通過特定的 φ 值，讓這個上界最小。

豆包 1.5 和騰訊 T1 做對了第 1 小題，做錯了第 2、3 小題。

豆包 1.5 在第 2 小題通過劃分 3 個區間分別找到反例來求解，但每一句結論要么依賴a的特定取值，要么沒有邏輯嚴謹性。

第 3 小題，豆包 1.5 結合余弦函數的取值范圍特性，通過數值特例找到了 6 作為最小的極大值。但邏輯不嚴謹，答案也是錯誤的。

在思維鏈中，豆包 1.5 嘗試了和 Gemini 2.5 Pro Preview 相似的思路。但后續處理把注意力放在了 k 的取值，而不是 φ 的取值上。

豆包 1.5 一開始對題意的理解還是對的。

但后面即便注意到比如 φ=0 時，b的最大值是3√3，后續看到 φ= π ，b 為 6 的極大值，還是昏了頭。

騰訊 T1 解決第 2 小題時，用區間分析得到了奇怪的結論：“ 區間長度為 2θ，當 θ∈(0,π) 時，無法完全包含在 ( ?θ,θ ) 內（否則長度超過 2θ ），矛盾?！?求解第 3 小題時采用了第 1 小題的極大值結果，但這不嚴謹，因為這個極大值和 φ 沒有關系，并且局限在有限區間內。

o3 求解第 2 小題使用了比較直觀的反證法，不需要分析區間，不容易出錯。

智譜 Z1 結合余弦函數特性和區間長度，也采用了不同的反證思路。

o3 求解第 3 小題時，沒有足夠的邏輯推導，只表示 “ 通過分析（三角恒等式或數值搜索）可知 ”，答案雖然正確，但并不嚴謹。類似地，智譜也沒有給出有說服力的過程，就得到了正確答案。

Claude 4 Sonnet 表示 b 的最小值為 6，通過變分法可以證明，但沒有實際展示如何得到。

Qwen3-235B-A22B 求解第 2 小題時找到了和 Gemini 2.5 Pro Preview 一樣的邏輯。

求解第 3 小題時，對題意的理解是正確的。

考慮了一些復雜的思路：相繼提到了諧波成分抵消、傅里葉級數、切比雪夫多項式、貝塞爾不等式等超綱的方法。感覺行不通后，開始通過數值舉例尋找線索。

嘗試了 Gemini 2.5 Pro Preview 采用的求導法，但沒有把這條路徑走完。最后的答案是準確的，并嘗試了 φ 的多種取值做對比，通過 “ 無論 φ 如何調整，無法通過相位抵消完全消除高頻項的影響，因此最小的 b 應為原函數的最大值 ” 得出了結果，但這并不嚴謹。

DeepSeek R1 求解第 2 小題時采用了正確的反證法，思路和 Gemini 2.5 Pro Preview 相同，但補齊了 Gemini 2.5 Pro Preview 得出滿足 cos x>cos θ 的區間的邏輯前提。

求解第 3 小題時，DeepSeek 也采用了求導分析法。

抓住了 k 變化對最終結果的影響較小，而更多與 φ 相關。但沒有完全分析完成又放棄了，最后還是通過數值比較增大了信心，得到了正確答案，但過程也不是準確的。

Kimi K1.5 的解答過于冗長，似乎是把長思考帶入到了解答部分。第 2 小題找到了和Qwen3-235B-A22B、Gemini 2.5 Pro Preview一樣的反證法。第 3 小題沒有用嚴格的分析，而是用 φ 取值的反復比較得出了結論，不能算準確。和Qwen3-235B-A22B一樣先進行了求導解析，但后面把注意力集中在k的取值比較上。

文心 X1 再次跳過了深度思考，解答中得到了準確答案，但如何得出結論沒有具體過程。

總結

好了，我們的 2025 高考數學大題 AI 大亂斗的測試就到此結束了，下面是各個模型的總成績單：

前三名分別是 Gemini 2.5 Pro Preview、智譜 Z1、豆包 1.5，得到了 75 分、67 分、62 分，后兩者都是在最后一題的最后一部分，才和 Gemini 2.5 Pro Preview 拉開了差距。

其它模型之間整體相差不大，最后一名是 GPT-4o，這并不奇怪，畢竟它不是推理模型。倒是 o3、Claude 4 Sonnet，作為行業領先者的表現還是挺令人失望的，很多錯誤甚至有點離譜。

DeepSeek R1 在思維鏈上的特點比較明顯，字數非常多，細節非常豐富，即便只看部分思維鏈，也能給人類帶來不錯的啟發，會采用復雜、冗長的推理過程來解題，甚至采用比較高階的方法，許多模型都會在這種節點下，停滯不前或繞過去， DeepSeek R1 會進行嘗試，即便最后放棄，也能提供不少細節。相比之下，部分模型（如 o3、Gemini 2.5 Preview ）的思維鏈摘要缺乏關鍵推理細節，影響了可解釋性。

需要特別強調的是，思維鏈長度與準確性并非簡單正相關，過度冗長的推理有時反而影響效率。

在解題層面，目前主流大模型在求解數學推理還會遇到這些共同挑戰：

復雜參數優化問題（如第18、19題第2小題ii部分）對所有模型都構成較大挑戰；
幾何直覺和代數計算的結合是普遍難點（如第 18 題第 2 小題 ii 部分）；
數值計算精度在長推理題目中成為關鍵因素

最后，除了解題本身，模型在進行結果檢驗、衡量方法復雜度和自信度、token 預算控制、輸出長度、輸出多樣性等方面如果做的不好，也會很影響可用性，特別是出現大量重復推理、無效推理時，負面體驗是最強的。

總之，對于這些動輒號稱是 “ 博士水平 ”的各家大模型來說，我們只能說，在中國高考數學面前，你考個 985 沒問題，但你要想考清北，除了 Gemini，其他可能都還得再多練兩年。

現在，你知道你身邊只靠單純的高考成績考上清北的人有多恐怖了嗎？

（本評測基于2025年6月的模型版本進行，隨著模型的持續更新，相關結論可能會發生變化。）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.