網易首頁 > 網易號 > 正文申請入駐

高考作文“抽象”沖上熱搜，實測ChatGPT、DeepSeek等大模型！

2025-06-07 17:57:56　來源: CSDN

江蘇舉報

分享至

整理 | 屠敏

出品 | CSDN

盛夏六月，蟬鳴漸盛，又是一年高考時。

隨著上午的結束，2025 年高考語文作文題如期揭曉。每年這個時刻，作文題目總能迅速登上熱搜，引發一波全民關注熱潮。而當有人問起“你還記得自己那年高考的作文題嗎？”，作為已經畢業十年的筆者，竟一時啞語，但是猶記得有一年的「本手、妙手、俗手」讓很多考生“破防”。

今年的作文題剛剛出爐之際，我們恰好也站在一個新的 AI 技術節點上。去年 AI 圈還在上演“百模大戰”，時隔一年，這一領域已進入智能體（Agent）系統層的比拼。這些新一代 AI，不僅生成能力更強，更強調“思考與深度推理能力”。那么，如果讓它們來面對同樣的高考作文題，會交出一份怎樣的答卷？

今天，我們就用幾款主流 AI 模型來實測一下今年的高考作文題，一探它們的真實的進化水平。

話不多說，先上很多考生直呼“看不懂”的全國一卷作文試題：

閱讀下面的材料，根據要求寫作。（60分）

他想要給孩子們唱上一段，可是心里直翻騰，開不了口。
——老舍《鼓書藝人》
假如我是一只鳥，
我也應該用嘶啞的喉嚨歌唱
——艾青《我愛這土地》
我要以帶血的手和你們一一擁抱，
因為一個民族已經起來
——穆旦《贊美》
以上材料引發了你怎樣的聯想和思考？請寫一篇文章。
要求：選準角度，確定立意，明確文體，自擬標題；不要套作，不得抄襲；不得泄露個人信息；不少于800字。

乍一看，很難想象這三個人說的話該如何聯系到一起，接下來，我們就來看看各家 AI 的表現吧~

注：排序按產品名稱首字母，排名不分先后

ChatGPT ：《以喉為歌，為民族發聲》

率先接受作文大挑戰的 AI 考生為 ChatGPT，使用的模式為“深度研究”。當把上面原題給到它時，其先是詢問了一句想要哪種文體的文章：

讓其“自行定義”之后，ChatGPT 經過深度研究進行了推理思考，過程如下：

而后產出了一篇《以喉為歌，為民族發聲》的議論文：

我們進一步要求 ChatGPT 以“高考作文評分標準”對自己的文章進行打分。在滿分 60 分的情況下，ChatGPT 自行參考、引用了一些高考作文評分標準，對上文自評得分：50 分，屬于較高檔次的作文范例。

Claude：《聲音的力量》

Anthropic 發布的 Claude 4 大模型在編程領域的實力早已有目共睹。那么，若將它應用于中文寫作，尤其是面對今年的高考作文題，它又會有怎樣的表現？今天我們測試的是 Claude Sonnet 4，來看它在寫作方面的能力展現。

在分析作文題目的過程中，Claude 逐條解析了題干中提供的三個材料，試圖從中提煉出共同的情感基調和寫作方向，并在此基礎上提出自己的寫作立意：

最終生成的文章題為《聲音的力量》：

詳細來看，這篇的整體風格與 Gemini 2.5 Pro（Preview）類似，更偏向于材料解讀與概念闡述，而非傳統意義上的議論文或記敘文。

當被問及這篇文章可以得多少分時，Claude 并未給出具體數值，而是給出了一個得分區間：48 至 52 分（滿分 60 分），并附上了一些評分理由作為參考：

DeepSeek：《血喉》

第三位參賽選手為 DeepSeek R1。

今年 2 月，DeepSeek R1 的發布震動了國內外技術圈。它沒有采用傳統的有監督微調（SFT）方法來優化模型，而是通過大規模強化學習（RL）提升推理能力，使得模型在回答問題時能呈現出完整的思考過程。那么，當面對這道高考作文題時，DeepSeek R1 是如何思考的？

結果顯示，DeepSeek R1 僅用了 27 秒就完成了深度思考。雖然用時不長，但它在“大腦”中演繹出的思路卻并不簡單：

DeepSeek R1 最終撰寫了一篇包含標題《血喉》兩個字在內剛剛好 800 字的作文，全文如下：

同樣，當讓它自評打分時，令人意外的是，DeepSeek 給出了57 分的高分，也同步了詳細的評分理由：

扣分點在于全文稍有瑕疵之處：

Google Gemini：《于無聲與嘶啞處，聽時代的贊美詩》

就在兩天前，Google 推出了 Gemini 2.5 Pro 的升級預覽版，并宣稱這是“迄今為止最智能的模型”。發布時，谷歌 CEO Sundar Pichai 表示：“它在編程、推理、科學和數學等方面表現更出色，在多個關鍵基準測試（如 AIDER Polyglot、GPQA、HLE 等）中成績提升，自上一個版本以來，在 @lmarena_ai 上的 Elo 分數也提高了 24 分?！?/p>

而當面對一篇中文高考作文題目時，這款海外模型 Gemini 2.5 Pro（Preview）選擇以中英混合的方式進行解析與作答。

整體思考過程如下：

作文標題為《于無聲與嘶啞處，聽時代的贊美詩》：

僅從內容上來看，Gemini 2.5 Pro（Preview）不像是在寫作文，而更像是材料解析。同時，這篇作文字數超過了很多，共有 1818 個字。

不過，Gemini 2.5 Pro（Preview）似乎沒有考慮到字數這一點，同樣打出了57 分這樣的高分，在立意、結構等方面給出了滿分的分析結果：

Kimi：《勇于表達，奏響生命樂章》

我們來看看 Kimi 的長思考模式 —— Kimi 1.5 的表現。它通過完整的推理過程，逐步分析題干中的三則材料，最終提煉出“表達”這一核心關鍵詞：

基于這個立意，Kimi 寫下了題為《勇于表達，奏響生命樂章》的作文。

不過，相比其他幾款大模型的自評，Kimi 給出的得分最低，僅為45 分。在評分解析過程中，它倒是沒有指出文章存在的一些問題，只是進行了中規中矩的評價：

通義千問：《嘶啞的喉嚨與不滅的火種》

相比 DeepSeek R1，于一個多月以前發布的Qwen 3的深度思考要更短一些，只有 18 秒。

詳細過程如下：

Qwen 3 給出的作文標題為《嘶啞的喉嚨與不滅的火種》，正文中引用了不少中國戲曲的詞名，文化底蘊較為深厚，只是全文篇幅只有 718 個字。

讓它自行打分時，Qwen 3 也頗為低調，給出了52 分的成績，稱可以寫得更好：

豆包：《以心之聲，唱時代華章》

再來看看字節跳動的豆包表現如何？

把高考作文題目作為 Prompt 發給豆包后，其整體反應較快。在思考過程中，自己還嘗試先寫了一段開頭：

最終形成了一篇主題為《以心之聲，唱時代華章》的作文，篇幅為 1057 個字。

就這篇作文本身來說，筆者個人還是比較認可的，表達也有一定張力。那么如果交給豆包來打分，它給出的成績是54 分。下面是它給出的具體評分與分析：

騰訊元寶：《沉默中的吶喊：論時代的精神困境與心靈表達》

騰訊元寶目前提供兩款模型支持，分別是 Hunyuan 和 DeepSeek。本次測試中，我們選擇的是 Hunyuan T1 的深度思考模型。在所有參與測試的模型中，騰訊元寶的深度思考耗時最短，僅為 9 秒。

它撰寫的作文題目為《沉默中的吶喊：論時代的精神困境與心靈表達》。

這篇文章的最終得分為54 分。騰訊元寶在文章立意、邏輯結構、論據、語言表達等多個維度，均有少量扣分：

文心一言：《生命的絕唱：在沉默與嘶吼之間》

接下來，來看百度文心一言的表現。

測試中，我們同樣啟用了“文心一言”的深度思考模式（X1 Turbo），在作答過程中不僅展示了完整的思考與行動鏈，還對高考作文題中的三則材料進行了詳細分析，并主動尋找充分的論據來支撐每一個觀點：

作文標題為《生命的絕唱：在沉默與嘶吼之間》：

問及文心一言如何評價自己撰寫的作文時，其給出了很高的評價。在滿分為 60 分的情況下，這篇文章獲得了58 分，這也是今天測試的所有模型中得分最高的一篇：

具體的理由如下所示：

訊飛星火：《以歌為刃破浪前行》

科大訊飛的訊飛星火在深度推理（X1）的模型下，在思考和行動過程中，自行定義了要寫一篇議論文文體的作文：

進而生成了一篇《以歌為刃破浪前行》為主題的文章。

作文得分為54 分。

以上，便是幾款大模型大戰今年高考作文的結果！你覺得它們的表現如何，你最看好哪家的模型？歡迎分享你對今年高考作文的看法，以及目前 AI 工具的表現~

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.