高考作文“抽象”沖上熱搜，ChatGPT、DeepSeek等推理大模型集體上場，實測來了！

2025-06-07 17:57:10　來源: CSDN

北京舉報

分享至

整理 | 屠敏

出品 | CSDN（ID：CSDNnews）

盛夏六月，蟬鳴漸盛，又是一年高考時。

隨著上午的結(jié)束，2025 年高考語文作文題如期揭曉。每年這個時刻，作文題目總能迅速登上熱搜，引發(fā)一波全民關(guān)注熱潮。而當有人問起“你還記得自己那年高考的作文題嗎？”，作為已經(jīng)畢業(yè)十年的筆者，竟一時啞語，但是猶記得有一年的「本手、妙手、俗手」讓很多考生“破防”。

今年的作文題剛剛出爐之際，我們恰好也站在一個新的 AI 技術(shù)節(jié)點上。去年 AI 圈還在上演“百模大戰(zhàn)”，時隔一年，這一領(lǐng)域已進入智能體（Agent）系統(tǒng)層的比拼。這些新一代 AI，不僅生成能力更強，更強調(diào)“思考與深度推理能力”。那么，如果讓它們來面對同樣的高考作文題，會交出一份怎樣的答卷？

今天，我們就用幾款主流 AI 模型來實測一下今年的高考作文題，一探它們的真實的進化水平。

話不多說，先上很多考生直呼“看不懂”的全國一卷作文試題：

閱讀下面的材料，根據(jù)要求寫作。（60分）

他想要給孩子們唱上一段，可是心里直翻騰，開不了口。

——老舍《鼓書藝人》

假如我是一只鳥，

我也應(yīng)該用嘶啞的喉嚨歌唱

——艾青《我愛這土地》

我要以帶血的手和你們一一擁抱，

因為一個民族已經(jīng)起來

——穆旦《贊美》

以上材料引發(fā)了你怎樣的聯(lián)想和思考？請寫一篇文章。

要求：選準角度，確定立意，明確文體，自擬標題；不要套作，不得抄襲；不得泄露個人信息；不少于800字。

乍一看，很難想象這三個人說的話該如何聯(lián)系到一起，接下來，我們就來看看各家 AI 的表現(xiàn)吧~

注：排序按產(chǎn)品名稱首字母，排名不分先后

超 3000 人的「AI 產(chǎn)品及應(yīng)用交流」社群，不錯過 AI 產(chǎn)品風云！誠邀所有 AI 產(chǎn)品及應(yīng)用從業(yè)者、產(chǎn)品經(jīng)理、開發(fā)者和創(chuàng)業(yè)者，掃碼加群：

進群后，您將有機會得到：

· 最新、最值得關(guān)注的 AI 產(chǎn)品資訊及大咖洞見

· 獨家視頻及文章解讀 AGI 時代的產(chǎn)品方法論及實戰(zhàn)經(jīng)驗

· 不定期贈送熱門 AI 產(chǎn)品邀請碼

ChatGPT ：《以喉為歌，為民族發(fā)聲》

率先接受作文大挑戰(zhàn)的 AI 考生為 ChatGPT，使用的模式為“深度研究”。當把上面原題給到它時，其先是詢問了一句想要哪種文體的文章：

讓其“自行定義”之后，ChatGPT 經(jīng)過深度研究進行了推理思考，過程如下：

而后產(chǎn)出了一篇《以喉為歌，為民族發(fā)聲》的議論文：

我們進一步要求 ChatGPT 以“高考作文評分標準”對自己的文章進行打分。在滿分 60 分的情況下，ChatGPT 自行參考、引用了一些高考作文評分標準，對上文自評得分：50 分，屬于較高檔次的作文范例。

Claude：《聲音的力量》

Anthropic 發(fā)布的 Claude 4 大模型在編程領(lǐng)域的實力早已有目共睹。那么，若將它應(yīng)用于中文寫作，尤其是面對今年的高考作文題，它又會有怎樣的表現(xiàn)？今天我們測試的是 Claude Sonnet 4，來看它在寫作方面的能力展現(xiàn)。

在分析作文題目的過程中，Claude 逐條解析了題干中提供的三個材料，試圖從中提煉出共同的情感基調(diào)和寫作方向，并在此基礎(chǔ)上提出自己的寫作立意：

最終生成的文章題為《聲音的力量》：

詳細來看，這篇的整體風格與 Gemini 2.5 Pro（Preview）類似，更偏向于材料解讀與概念闡述，而非傳統(tǒng)意義上的議論文或記敘文。

當被問及這篇文章可以得多少分時，Claude 并未給出具體數(shù)值，而是給出了一個得分區(qū)間：48 至 52 分（滿分 60 分），并附上了一些評分理由作為參考：

DeepSeek：《血喉》

第三位參賽選手為 DeepSeek R1。

今年 2 月，DeepSeek R1 的發(fā)布震動了國內(nèi)外技術(shù)圈。它沒有采用傳統(tǒng)的有監(jiān)督微調(diào)（SFT）方法來優(yōu)化模型，而是通過大規(guī)模強化學(xué)習(xí)（RL）提升推理能力，使得模型在回答問題時能呈現(xiàn)出完整的思考過程。那么，當面對這道高考作文題時，DeepSeek R1 是如何思考的？

結(jié)果顯示，DeepSeek R1 僅用了 27 秒就完成了深度思考。雖然用時不長，但它在“大腦”中演繹出的思路卻并不簡單：

DeepSeek R1 最終撰寫了一篇包含標題《血喉》兩個字在內(nèi)剛剛好 800 字的作文，全文如下：

同樣，當讓它自評打分時，令人意外的是，DeepSeek 給出了57 分的高分，也同步了詳細的評分理由：

扣分點在于全文稍有瑕疵之處：

Google Gemini：《于無聲與嘶啞處，聽時代的贊美詩》

就在兩天前，Google 推出了 Gemini 2.5 Pro 的升級預(yù)覽版，并宣稱這是“迄今為止最智能的模型”。發(fā)布時，谷歌 CEO Sundar Pichai 表示：“它在編程、推理、科學(xué)和數(shù)學(xué)等方面表現(xiàn)更出色，在多個關(guān)鍵基準測試（如 AIDER Polyglot、GPQA、HLE 等）中成績提升，自上一個版本以來，在 @lmarena_ai 上的 Elo 分數(shù)也提高了 24 分。”

而當面對一篇中文高考作文題目時，這款海外模型 Gemini 2.5 Pro（Preview）選擇以中英混合的方式進行解析與作答。

整體思考過程如下：

作文標題為《于無聲與嘶啞處，聽時代的贊美詩》：

僅從內(nèi)容上來看， Gemini 2.5 Pro（Preview）不像是在寫作文，而更像是材料解析。同時，這篇作文字數(shù)超過了很多，共有 1818 個字。

不過， Gemini 2.5 Pro（Preview）似乎沒有考慮到字數(shù)這一點，同樣打出了57 分這樣的高分，在立意、結(jié)構(gòu)等方面給出了滿分的分析結(jié)果：

Kimi：《勇于表達，奏響生命樂章》

我們來看看 Kimi 的長思考模式 —— Kimi 1.5 的表現(xiàn)。它通過完整的推理過程，逐步分析題干中的三則材料，最終提煉出“表達”這一核心關(guān)鍵詞：

基于這個立意，Kimi 寫下了題為《勇于表達，奏響生命樂章》的作文。

不過，相比其他幾款大模型的自評，Kimi 給出的得分最低，僅為45 分。在評分解析過程中，它倒是沒有指出文章存在的一些問題，只是進行了中規(guī)中矩的評價：

通義千問：《嘶啞的喉嚨與不滅的火種》

相比 DeepSeek R1，于一個多月以前發(fā)布的的深度思考要更短一些，只有 18 秒。

詳細過程如下：

Qwen 3 給出的作文標題為《嘶啞的喉嚨與不滅的火種》，正文中引用了不少中國戲曲的詞名，文化底蘊較為深厚，只是全文篇幅只有 718 個字。

讓它自行打分時，Qwen 3 也頗為低調(diào)，給出了52 分的成績，稱可以寫得更好：

豆包：《以心之聲，唱時代華章》

再來看看字節(jié)跳動的豆包表現(xiàn)如何？

把高考作文題目作為 Prompt 發(fā)給豆包后，其整體反應(yīng)較快。在思考過程中，自己還嘗試先寫了一段開頭：

最終形成了一篇主題為《以心之聲，唱時代華章》的作文，篇幅為 1057 個字。

就這篇作文本身來說，筆者個人還是比較認可的，表達也有一定張力。那么如果交給豆包來打分，它給出的成績是54 分。下面是它給出的具體評分與分析：

騰訊元寶：《沉默中的吶喊：論時代的精神困境與心靈表達》

騰訊元寶目前提供兩款模型支持，分別是 Hunyuan 和 DeepSeek。本次測試中，我們選擇的是 Hunyuan T1 的深度思考模型。在所有參與測試的模型中，騰訊元寶的深度思考耗時最短，僅為 9 秒。

它撰寫的作文題目為《沉默中的吶喊：論時代的精神困境與心靈表達》。

這篇文章的最終得分為54 分。騰訊元寶在文章立意、邏輯結(jié)構(gòu)、論據(jù)、語言表達等多個維度，均有少量扣分：

文心一言：《生命的絕唱：在沉默與嘶吼之間》

接下來，來看百度文心一言的表現(xiàn)。

測試中，我們同樣啟用了“文心一言”的深度思考模式（X1 Turbo），在作答過程中不僅展示了完整的思考與行動鏈，還對高考作文題中的三則材料進行了詳細分析，并主動尋找充分的論據(jù)來支撐每一個觀點：

作文標題為《生命的絕唱：在沉默與嘶吼之間》：

問及文心一言如何評價自己撰寫的作文時，其給出了很高的評價。在滿分為 60 分的情況下，這篇文章獲得了58 分，這也是今天測試的所有模型中得分最高的一篇：

具體的理由如下所示：

訊飛星火：《以歌為刃破浪前行》

科大訊飛的訊飛星火在深度推理（X1）的模型下，在思考和行動過程中，自行定義了要寫一篇議論文文體的作文：

進而生成了一篇《以歌為刃破浪前行》為主題的文章。

作文得分為54 分。

以上，便是幾款大模型大戰(zhàn)今年高考作文的結(jié)果！你覺得它們的表現(xiàn)如何，你最看好哪家的模型？歡迎分享你對今年高考作文的看法，以及目前 AI 工具的表現(xiàn)~

—— 對話 IEEE 首位華人主席、美國雙院院士劉國瑞 | 萬有引力

2025 全球產(chǎn)品經(jīng)理大會

8 月 15–16 日

北京·威斯汀酒店

2025 全球產(chǎn)品經(jīng)理大會將匯聚互聯(lián)網(wǎng)大廠、AI 創(chuàng)業(yè)公司、ToB/ToC 實戰(zhàn)一線的產(chǎn)品人，圍繞產(chǎn)品設(shè)計、用戶體驗、增長運營、智能落地等核心議題，展開 12 大專題分享，洞察趨勢、拆解路徑、對話未來。

更多詳情與報名，請掃碼下方二維碼。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.