整理 | 屠敏
出品 | CSDN
盛夏六月,蟬鳴漸盛,又是一年高考時。
隨著上午的結束,2025 年高考語文作文題如期揭曉。每年這個時刻,作文題目總能迅速登上熱搜,引發一波全民關注熱潮。而當有人問起“你還記得自己那年高考的作文題嗎?”,作為已經畢業十年的筆者,竟一時啞語,但是猶記得有一年的「本手、妙手、俗手」讓很多考生“破防”。
今年的作文題剛剛出爐之際,我們恰好也站在一個新的 AI 技術節點上。去年 AI 圈還在上演“百模大戰”,時隔一年,這一領域已進入智能體(Agent)系統層的比拼。這些新一代 AI,不僅生成能力更強,更強調“思考與深度推理能力”。那么,如果讓它們來面對同樣的高考作文題,會交出一份怎樣的答卷?
今天,我們就用幾款主流 AI 模型來實測一下今年的高考作文題,一探它們的真實的進化水平。
話不多說,先上很多考生直呼“看不懂”的全國一卷作文試題:
閱讀下面的材料,根據要求寫作。(60分)
- 他想要給孩子們唱上一段,可是心里直翻騰,開不了口。
- ——老舍《鼓書藝人》
- 假如我是一只鳥,
- 我也應該用嘶啞的喉嚨歌唱
- ——艾青《我愛這土地》
- 我要以帶血的手和你們一一擁抱,
- 因為一個民族已經起來
- ——穆旦《贊美》
- 以上材料引發了你怎樣的聯想和思考?請寫一篇文章。
- 要求:選準角度,確定立意,明確文體,自擬標題;不要套作,不得抄襲;不得泄露個人信息;不少于800字。
乍一看,很難想象這三個人說的話該如何聯系到一起,接下來,我們就來看看各家 AI 的表現吧~
注:排序按產品名稱首字母,排名不分先后
ChatGPT :《以喉為歌,為民族發聲》
率先接受作文大挑戰的 AI 考生為 ChatGPT,使用的模式為“深度研究”。當把上面原題給到它時,其先是詢問了一句想要哪種文體的文章:
讓其“自行定義”之后,ChatGPT 經過深度研究進行了推理思考,過程如下:
而后產出了一篇《以喉為歌,為民族發聲》的議論文:
我們進一步要求 ChatGPT 以“高考作文評分標準”對自己的文章進行打分。在滿分 60 分的情況下,ChatGPT 自行參考、引用了一些高考作文評分標準,對上文自評得分:50 分,屬于較高檔次的作文范例。
Claude:《聲音的力量》
Anthropic 發布的 Claude 4 大模型在編程領域的實力早已有目共睹。那么,若將它應用于中文寫作,尤其是面對今年的高考作文題,它又會有怎樣的表現?今天我們測試的是 Claude Sonnet 4,來看它在寫作方面的能力展現。
在分析作文題目的過程中,Claude 逐條解析了題干中提供的三個材料,試圖從中提煉出共同的情感基調和寫作方向,并在此基礎上提出自己的寫作立意:
最終生成的文章題為《聲音的力量》:
詳細來看,這篇的整體風格與 Gemini 2.5 Pro(Preview)類似,更偏向于材料解讀與概念闡述,而非傳統意義上的議論文或記敘文。
當被問及這篇文章可以得多少分時,Claude 并未給出具體數值,而是給出了一個得分區間:48 至 52 分(滿分 60 分),并附上了一些評分理由作為參考:
DeepSeek:《血喉》
第三位參賽選手為 DeepSeek R1。
今年 2 月,DeepSeek R1 的發布震動了國內外技術圈。它沒有采用傳統的有監督微調(SFT)方法來優化模型,而是通過大規模強化學習(RL)提升推理能力,使得模型在回答問題時能呈現出完整的思考過程。那么,當面對這道高考作文題時,DeepSeek R1 是如何思考的?
結果顯示,DeepSeek R1 僅用了 27 秒就完成了深度思考。雖然用時不長,但它在“大腦”中演繹出的思路卻并不簡單:
DeepSeek R1 最終撰寫了一篇包含標題《血喉》兩個字在內剛剛好 800 字的作文,全文如下:
同樣,當讓它自評打分時,令人意外的是,DeepSeek 給出了57 分的高分,也同步了詳細的評分理由:
扣分點在于全文稍有瑕疵之處:
Google Gemini:《于無聲與嘶啞處,聽時代的贊美詩》
就在兩天前,Google 推出了 Gemini 2.5 Pro 的升級預覽版,并宣稱這是“迄今為止最智能的模型”。發布時,谷歌 CEO Sundar Pichai 表示:“它在編程、推理、科學和數學等方面表現更出色,在多個關鍵基準測試(如 AIDER Polyglot、GPQA、HLE 等)中成績提升,自上一個版本以來,在 @lmarena_ai 上的 Elo 分數也提高了 24 分?!?/p>
而當面對一篇中文高考作文題目時,這款海外模型 Gemini 2.5 Pro(Preview)選擇以中英混合的方式進行解析與作答。
整體思考過程如下:
作文標題為《于無聲與嘶啞處,聽時代的贊美詩》:
僅從內容上來看,Gemini 2.5 Pro(Preview)不像是在寫作文,而更像是材料解析。同時,這篇作文字數超過了很多,共有 1818 個字。
不過,Gemini 2.5 Pro(Preview)似乎沒有考慮到字數這一點,同樣打出了57 分這樣的高分,在立意、結構等方面給出了滿分的分析結果:
Kimi:《勇于表達,奏響生命樂章》
我們來看看 Kimi 的長思考模式 —— Kimi 1.5 的表現。它通過完整的推理過程,逐步分析題干中的三則材料,最終提煉出“表達”這一核心關鍵詞:
基于這個立意,Kimi 寫下了題為《勇于表達,奏響生命樂章》的作文。
不過,相比其他幾款大模型的自評,Kimi 給出的得分最低,僅為45 分。在評分解析過程中,它倒是沒有指出文章存在的一些問題,只是進行了中規中矩的評價:
通義千問:《嘶啞的喉嚨與不滅的火種》
相比 DeepSeek R1,于一個多月以前發布的Qwen 3的深度思考要更短一些,只有 18 秒。
詳細過程如下:
Qwen 3 給出的作文標題為《嘶啞的喉嚨與不滅的火種》,正文中引用了不少中國戲曲的詞名,文化底蘊較為深厚,只是全文篇幅只有 718 個字。
讓它自行打分時,Qwen 3 也頗為低調,給出了52 分的成績,稱可以寫得更好:
豆包:《以心之聲,唱時代華章》
再來看看字節跳動的豆包表現如何?
把高考作文題目作為 Prompt 發給豆包后,其整體反應較快。在思考過程中,自己還嘗試先寫了一段開頭:
最終形成了一篇主題為《以心之聲,唱時代華章》的作文,篇幅為 1057 個字。
就這篇作文本身來說,筆者個人還是比較認可的,表達也有一定張力。那么如果交給豆包來打分,它給出的成績是54 分。下面是它給出的具體評分與分析:
騰訊元寶:《沉默中的吶喊:論時代的精神困境與心靈表達》
騰訊元寶目前提供兩款模型支持,分別是 Hunyuan 和 DeepSeek。本次測試中,我們選擇的是 Hunyuan T1 的深度思考模型。在所有參與測試的模型中,騰訊元寶的深度思考耗時最短,僅為 9 秒。
它撰寫的作文題目為《沉默中的吶喊:論時代的精神困境與心靈表達》。
這篇文章的最終得分為54 分。騰訊元寶在文章立意、邏輯結構、論據、語言表達等多個維度,均有少量扣分:
文心一言:《生命的絕唱:在沉默與嘶吼之間》
接下來,來看百度文心一言的表現。
測試中,我們同樣啟用了“文心一言”的深度思考模式(X1 Turbo),在作答過程中不僅展示了完整的思考與行動鏈,還對高考作文題中的三則材料進行了詳細分析,并主動尋找充分的論據來支撐每一個觀點:
作文標題為《生命的絕唱:在沉默與嘶吼之間》:
問及文心一言如何評價自己撰寫的作文時,其給出了很高的評價。在滿分為 60 分的情況下,這篇文章獲得了58 分,這也是今天測試的所有模型中得分最高的一篇:
具體的理由如下所示:
訊飛星火:《以歌為刃 破浪前行》
科大訊飛的訊飛星火在深度推理(X1)的模型下,在思考和行動過程中,自行定義了要寫一篇議論文文體的作文:
進而生成了一篇《以歌為刃 破浪前行》為主題的文章。
作文得分為54 分。
以上,便是幾款大模型大戰今年高考作文的結果!你覺得它們的表現如何,你最看好哪家的模型?歡迎分享你對今年高考作文的看法,以及目前 AI 工具的表現~
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.