新智元報道
編輯:Aeneas 犀牛
【新智元導讀】高考數學滿分AI出現了!豆包愛學App首次公開挑戰高考數學全國卷,由6位資深名師嚴格把關,主觀題步驟全打分,竟然斬獲Ⅰ卷144分、Ⅱ卷150分滿分戰績。這個驚艷的成績或許預示著,AI教育真要變天了。
大模型來做高考數學真題,最近可是太火了。
不過對于各個版本的AI解題評分是否公正,坊間一直頗多爭議。
我們突然發現,一位高考數學滿分選手出現!
我們在豆包愛學的官方賬號看到,考試結束后,豆包愛學第一時間將結果放到了網上。
豆包愛學App的AI深度解題能力(即豆包大模型教育版),直接獲得了高考數學全國Ⅰ卷144分、全國Ⅱ卷150分滿分。
而且它的得分,是由六位平均教齡超10年的一線資深數學教師給出的,甚至對解答題的步驟進行了嚴格打分,可以說,這個分數十分有含金量了。
2025高考數學卷
豆包大模型教育版接近滿分!
下面我們來看看,豆包大模型教育版對于2025高考數學全國卷中部分選擇題、填空題、問答題的解答情況。
先來看一道讓一眾大模型聞風喪膽的選擇題,全國Ⅰ卷第6題。
這道題AI之所以很難做對,是因為它既有文字、又有圖表、圖片。
不僅需要模型的多模態能力,還要有很好的信息整合能力。
尤其是模型還要理解圖中向量的方向,然后進行推理計算,這對模型極其困難。
來看看豆包大模型教育版的表現。
它的回答有兩點讓人印象深刻,甚至驚艷。
首先,它在思考過程中消耗的token數非常少,比行業里其他大模型都要精簡很多。盡管在整個過程中檢查了3次。
經常用推理模型的同學肯定都見過那些長到可以讓人發狂的思考過程。
其次是它的公式渲染能力,基礎的絕對值、根號這些就不說了,它連向量上邊的小箭頭都渲染的很好了。
讀起來專業又舒服。
最后簡單說下它的解題過程,流暢又有邏輯,簡潔而準確。
說完了最讓模型撓頭的題,再來看試卷中最難的題——壓軸題。
這是一道導數計算證明題,使用的三角函數。
我們來看豆包大模型教育版是如何應對的。
思路同樣清晰。
這個過程中,模型還有幾個有趣的表現。
例如,拿到簡化結果后,它會驚訝。
對變量替換法、反證法這些常用的方法,掌握得非常嫻熟。
還有就是可以快速鎖定問題的本質。
完整思考過程及結果如下。
接下來,看一下模型對于II卷的解題結果。
對于幾道選擇題,模型是手拿把掐、不在話下,解題過程非常絲滑。
單項選擇題1:
這道題涉及到實數和虛數的知識點,模型在分布推理后,得到了正確答案A。
單項選擇題2:
這道選擇題,應用到了余弦定理。
模型在思考過程中,找出解題關鍵——需要用余弦定理求角A,最終得出了正確答案A。
單項選擇題3:
在解題過程中,模型利用了拋物線的定義和直線方程的性質,最后得出正確答案C。
多項選擇題,模型也是不會放過一個正確答案。
多項選擇題4:
這道題涉及到知識點是等比數列,模型通過構建了一個關于首項a_1和公比q的方程組來求解,最終得出了正確選項A、D。
多項選擇題5:
這道題涉及到了雙曲線的知識點,模型通過求解以F_1F_2為直徑的圓與漸近線的交點,再推導a、b的關系,利用向量點積公式,得出了A、C、D三個正確答案。
對于填空題,模型的求解過程也是十分絲滑。
填空題1:
在這道填空題中,模型推理出要計算結果,就需要讓鐵球滿足「與圓柱底面、頂面、側面相切,且兩球自身相切」的極限條件,最終通過計算和驗證,得出正確答案5/2cm。
然后到了真刀真槍測實力的大題環節。
解答題1:
對于這道幾何題,模型首先將直線A’B的方向向量與屏幕CD’F的法向量進行點積運算,通過結果為0,成功證明直線A’B平行于平面CD’F。
隨后在第二步中,通過轉向二面角計算、求解第一和第二個法向量、計算法向量夾角的余弦,最終得出了正確的正弦值。
解答題2:
這道大題既包括計算,還包括證明,難度不小。
模型通過求導,分析f’(x)在(0,+∞)的符號,證明了存在唯一零點。隨后通過分析g’(t)的正負確定了g(t)單調性,進而并完成了大小比較,三個問題全部給出了正確解答。
解答題3:
對于這道概率題,模型首先計算出了p_3,p_4的概率,然后得到關于p和q的簡潔關系式,得出了p正確的值。
到了最后一問的證明,題目難度已經飆到極高。
為了成功完成證明,模型引入了一個輔助數列,這樣就將需要證明的不等式轉化為了分析新數列項與項之間的差值。
經過嚴謹的推理后,最終它成功完成了證明。
看完這些解題過程,可能你會疑問:這么好的成績,真的是全靠模型做出來的嗎?會不會是每次都取最好成績,才有的這個結果?
看完下面這個過程,你就可以打消顧慮了——豆包大模型教育版的數學解題能力,就是這么牛!
評分過程超嚴,絕不放水
5次都答對,才算過關
經常使用AI做題的小伙伴肯定都有體會,那就是現階段的AI答題并不穩定。
有些模型很不穩定,簡單些的還好,遇到難一點的題目,需要試好幾次才能得到一個滿意的答復。
如果模型性能不行就更別提了,徹底擺爛,答不對不說,還會時常一本正經地胡言亂語。
這就使得AI解題看上去不那么實用:你很難判斷它首次給出的答案是不是對的——我如果知道正確答案,還請AI干嘛呢?
所以,AI答題正確的穩定性至關重要。
為了避免隨機性,根據公布的結果看,此次豆包愛學測了五次,同時前五遍結果發到了HuggingFace上。
可以看出,每道題分別列出了思考過程 與輸出答案 ,只有每次都答對才算過關。
要求相當嚴苛,結果相對公正。
這也說明了豆包大模型教育版解題穩定性很高。
6大資深數學名師把關,AI滿分交卷
不僅,如此,豆包大模型教育版此次答題的評分過程,還經過了不少名師把關!
為了得到足夠嚴謹的測評結果,豆包愛學App特意邀請了6位平均教齡超10年、畢業于知名高校的一線教學、閱卷崗位的資深數學教師,對作答結果進行了詳細的交叉評分。
最終評分結果為——全國Ⅰ卷:144分、全國Ⅱ卷:150分(滿分)。
這一結果充分證明了豆包大模型教育版在解題結果方面出色的能力,能在幾位名師手里拿到滿分,更是說明了模型在解題過程中推理邏輯縝密、步驟精準,符合評分細則。
而在測評過程中,這些資深數學老師們也發現了豆包大模型教育版的一些有意思的細節。
比如,趙武俊老師發現,模型再在解Ⅰ卷最后一題的最后一問時,推理的過程「特別像考生作答的這種感覺」。
所以,看模型的解題思考過程就好像是在看自己的解答過程一樣,十分有啟發。
李想老師則給出了更加詳細的使用建議。
例如,他建議利用模型解答立體幾何部分的題目時,可以讓AI給出常規定義法和空間向量法兩種方法。
這樣,就可以直觀地比較出到底哪種方法更加適合自己,而且也更加貼近高中的教學內容。
當然,在測評過程中名師們也發現了模型現在在解題過程中存在的一些問題。
比如,曾多次參與高考集中閱卷的楊春暉老師就發現,部分解題過程可能會出現高中未學的技巧與公式。
韓曉樂老師也發現了數字之間的乘法符號使用點乘、點坐標結果未化簡等問題。
當然,上面出現的這些問題也不是沒有解決辦法。
比如,我們可以要求模型解題時使用高中的知識,解題步驟中即時化簡等。
在經過深入的體驗與測試后,李偉景老師對豆包大模型教育版給出了高度評價,總結道:豆包大模型教育版無論是「對教師授課還是學生自學都非常有用,未來將有很大幫助。」
對于教師來說,豆包大模型教育版就像一位得力的教學助手。
它能夠快速生成多樣化的教學思路,涵蓋課程設計、課堂互動到知識點講解等方方面面,幫助老師更高效地備課和授課。
無論是需要梳理復雜的知識框架,還是設計生動有趣的教學活動,模型都能提供全面且實用的建議,讓課堂更加生動、條理清晰,大大提升教學效果。
對于學生,這款模型同樣是一個強大的學習伙伴。
它能夠根據學生的需求,清晰地拆解題目,提供詳細且易懂的解題步驟,幫助學生快速掌握解題方法和核心知識點。
無論是數學的邏輯推導、語文作文的分析,還是其他學科的疑難問題,豆包大模型教育版都能以通俗易懂的方式引導學生逐步攻克難點,從而有效提高學習效率和考試成績。
堪稱學習神器!
AI教育新形態來了
在親自實測了豆包大模型教育版的解題過程后,小編最強烈的感受就是——
它的思考過程完全透明,每一步的解析都很明確,不僅能拿高分,還能講明白。這樣,就能讓學生獲得高質量的一對一講解。
從此,學數學可以不再只靠「刷題」,而是通過大模型的幫忙,養成嚴謹的推理能力,和直覺式的解題思路。
在AI做題和講解的幫助下,學生可以給自己來一個「自我診斷」,搞清楚自己是錯在哪里,是計算失誤、邏輯混亂還是審題不清?
在教育資源不均的地區,弱勢學生也能更公平地獲得好「老師」。
總之,豆包大模型教育版這位「高考數學」滿分選手的驚艷表現,不僅展示了目前AI大模型做題的實力,更是對未來教育模式的一次前瞻性預演。
AI教育,未來可期!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.