整理 | 屠敏
出品 | CSDN(ID:CSDNnews)
盛夏六月,蟬鳴漸盛,又是一年高考時。
隨著上午的結(jié)束,2025 年高考語文作文題如期揭曉。每年這個時刻,作文題目總能迅速登上熱搜,引發(fā)一波全民關(guān)注熱潮。而當有人問起“你還記得自己那年高考的作文題嗎?”,作為已經(jīng)畢業(yè)十年的筆者,竟一時啞語,但是猶記得有一年的「本手、妙手、俗手」讓很多考生“破防”。
今年的作文題剛剛出爐之際,我們恰好也站在一個新的 AI 技術(shù)節(jié)點上。去年 AI 圈還在上演“百模大戰(zhàn)”,時隔一年,這一領(lǐng)域已進入智能體(Agent)系統(tǒng)層的比拼。這些新一代 AI,不僅生成能力更強,更強調(diào)“思考與深度推理能力”。那么,如果讓它們來面對同樣的高考作文題,會交出一份怎樣的答卷?
今天,我們就用幾款主流 AI 模型來實測一下今年的高考作文題,一探它們的真實的進化水平。
話不多說,先上很多考生直呼“看不懂”的全國一卷作文試題:
閱讀下面的材料,根據(jù)要求寫作。(60分)
他想要給孩子們唱上一段,可是心里直翻騰,開不了口。
——老舍《鼓書藝人》
假如我是一只鳥,
我也應(yīng)該用嘶啞的喉嚨歌唱
——艾青《我愛這土地》
我要以帶血的手和你們一一擁抱,
因為一個民族已經(jīng)起來
——穆旦《贊美》
以上材料引發(fā)了你怎樣的聯(lián)想和思考?請寫一篇文章。
要求:選準角度,確定立意,明確文體,自擬標題;不要套作,不得抄襲;不得泄露個人信息;不少于800字。
乍一看,很難想象這三個人說的話該如何聯(lián)系到一起,接下來,我們就來看看各家 AI 的表現(xiàn)吧~
注:排序按產(chǎn)品名稱首字母,排名不分先后
超 3000 人的「AI 產(chǎn)品及應(yīng)用交流」社群,不錯過 AI 產(chǎn)品風云!誠邀所有 AI 產(chǎn)品及應(yīng)用從業(yè)者、產(chǎn)品經(jīng)理、開發(fā)者和創(chuàng)業(yè)者,掃碼加群:
進群后,您將有機會得到:
· 最新、最值得關(guān)注的 AI 產(chǎn)品資訊及大咖洞見
· 獨家視頻及文章解讀 AGI 時代的產(chǎn)品方法論及實戰(zhàn)經(jīng)驗
· 不定期贈送熱門 AI 產(chǎn)品邀請碼
ChatGPT :《以喉為歌,為民族發(fā)聲》
率先接受作文大挑戰(zhàn)的 AI 考生為 ChatGPT,使用的模式為“深度研究”。當把上面原題給到它時,其先是詢問了一句想要哪種文體的文章:
讓其“自行定義”之后,ChatGPT 經(jīng)過深度研究進行了推理思考,過程如下:
而后產(chǎn)出了一篇《以喉為歌,為民族發(fā)聲》的議論文:
我們 進一步要求 ChatGPT 以“高考作文評分標準”對自己的文章進行打分。在滿分 60 分的情況下,ChatGPT 自行參考、引用了一些高考作文評分標準,對上文自評得分:50 分,屬于較高檔次的作文范例。
Claude:《聲音的力量》
Anthropic 發(fā)布的 Claude 4 大模型在編程領(lǐng)域的實力早已有目共睹。那么,若將它應(yīng)用于中文寫作,尤其是面對今年的高考作文題,它又會有怎樣的表現(xiàn)?今天我們測試的是 Claude Sonnet 4,來看它在寫作方面的能力展現(xiàn)。
在分析作文題目的過程中,Claude 逐條解析了題干中提供的三個材料,試圖從中提煉出共同的情感基調(diào)和寫作方向,并在此基礎(chǔ)上提出自己的寫作立意:
最終生成的文章題為《聲音的力量》:
詳細來看,這篇的整體風格與 Gemini 2.5 Pro(Preview)類似,更偏向于材料解讀與概念闡述,而非傳統(tǒng)意義上的議論文或記敘文。
當被問及這篇文章可以得多少分時,Claude 并未給出具體數(shù)值,而是給出了一個得分區(qū)間:48 至 52 分(滿分 60 分),并附上了一些評分理由作為參考:
DeepSeek:《血喉》
第三位參賽選手為 DeepSeek R1。
今年 2 月,DeepSeek R1 的發(fā)布震動了國內(nèi)外技術(shù)圈。它沒有采用傳統(tǒng)的有監(jiān)督微調(diào)(SFT)方法來優(yōu)化模型,而是通過大規(guī)模強化學(xué)習(xí)(RL)提升推理能力,使得模型在回答問題時能呈現(xiàn)出完整的思考過程。那么,當面對這道高考作文題時,DeepSeek R1 是如何思考的?
結(jié)果顯示,DeepSeek R1 僅用了 27 秒就完成了深度思考。雖然用時不長,但它在“大腦”中演繹出的思路卻并不簡單:
DeepSeek R1 最終撰寫了一篇包含標題《血喉》兩個字 在內(nèi)剛剛好 800 字的作文,全文如下:
同樣,當讓它自評打分時,令人意外的是,DeepSeek 給出了57 分的高分,也同步了詳細的評分理由:
扣分點在于全文稍有瑕疵之處:
Google Gemini:《于無聲與嘶啞處,聽時代的贊美詩》
就在兩天前,Google 推出了 Gemini 2.5 Pro 的升級預(yù)覽版,并宣稱這是“迄今為止最智能的模型”。發(fā)布時,谷歌 CEO Sundar Pichai 表示:“它在編程、推理、科學(xué)和數(shù)學(xué)等方面表現(xiàn)更出色,在多個關(guān)鍵基準測試(如 AIDER Polyglot、GPQA、HLE 等)中成績提升,自上一個版本以來,在 @lmarena_ai 上的 Elo 分數(shù)也提高了 24 分。”
而當面對一篇中文高考作文題目時,這款海外模型 Gemini 2.5 Pro(Preview)選擇以中英混合的方式進行解析與作答。
整體思考過程如下:
作文標題為《于無聲與嘶啞處,聽時代的贊美詩》:
僅從內(nèi)容上來看, Gemini 2.5 Pro(Preview)不像是在寫作文,而更像是材料解析。同時 ,這篇作文字數(shù)超過了很多,共有 1818 個字。
不過, Gemini 2.5 Pro(Preview)似乎沒有考慮到字數(shù)這一點,同樣打出了57 分這樣的高分,在立意、結(jié)構(gòu)等方面給出了滿分的分析結(jié)果:
Kimi:《勇于表達,奏響生命樂章》
我們來看看 Kimi 的長思考模式 —— Kimi 1.5 的表現(xiàn)。它通過完整的推理過程,逐步分析題干中的三則材料,最終提煉出“表達”這一核心關(guān)鍵詞:
基于這個立意,Kimi 寫下了題為《勇于表達,奏響生命樂章》的作文。
不過,相比其他幾款大模型的自評,Kimi 給出的得分最低,僅為45 分。在評分解析過程中,它倒是沒有指出文章存在的一些問題,只是進行了中規(guī)中矩的評價:
通義千問:《嘶啞的喉嚨與不滅的火種》
相比 DeepSeek R1,于一個多月以前發(fā)布的 的深度思考要更短一些,只有 18 秒。
詳細過程如下:
Qwen 3 給出的作文標題為《嘶啞的喉嚨與不滅的火種》,正文中引用了不少中國戲曲的詞名,文化底蘊較為深厚, 只是全文篇幅只有 718 個字。
讓它自行打分時,Qwen 3 也頗為低調(diào),給出了52 分的成績,稱可以寫得更好:
豆包:《以心之聲,唱時代華章》
再來看看字節(jié)跳動的豆包表現(xiàn)如何?
把高考作文題目作為 Prompt 發(fā)給豆包后,其整體反應(yīng)較快。在思考過程中,自己還嘗試先寫了一段開頭:
最終形成了一篇主題為《以心之聲,唱時代華章》的作文,篇幅為 1057 個字。
就這篇作文本身來說,筆者個人還是比較認可的,表達也有一定張力。那么如果交給豆包來打分,它給出的成績是54 分。下面是它給出的具體評分與分析:
騰訊元寶:《沉默中的吶喊:論時代的精神困境與心靈表達》
騰訊元寶目前提供兩款模型支持,分別是 Hunyuan 和 DeepSeek。本次測試中,我們選擇的是 Hunyuan T1 的深度思考模型。在所有參與測試的模型中,騰訊元寶的深度思考耗時最短,僅為 9 秒。
它撰寫的作文題目為《沉默中的吶喊:論時代的精神困境與心靈表達》。
這篇文章的最終得分為54 分。騰訊元寶在文章立意、邏輯結(jié)構(gòu)、論據(jù)、語言表達等多個維度,均有少量扣分:
文心一言:《生命的絕唱:在沉默與嘶吼之間》
接下來,來看百度文心一言的表現(xiàn)。
測試中,我們同樣啟用了“文心一言”的深度思考模式(X1 Turbo),在作答過程中不僅展示了完整的思考與行動鏈,還對高考作文題中的三則材料進行了詳細分析,并主動尋找充分的論據(jù)來支撐每一個觀點:
作文標題為《生命的絕唱:在沉默與嘶吼之間》:
問及文心一言如何評價自己撰寫的作文時,其給出了很高的評價。在滿分為 60 分的情況下,這篇文章獲得了58 分,這也是今天測試的所有模型中得分最高的一篇:
具體的理由如下所示:
訊飛星火:《以歌為刃 破浪前行》
科大訊飛的訊飛星火在深度推理(X1)的模型下,在思考和行動過程中,自行定義了要寫一篇議論文文體的作文:
進而生成了一篇《以歌為刃 破浪前行》為主題的文章。
作文得分為54 分。
以上,便是幾款大模型大戰(zhàn)今年高考作文的結(jié)果!你覺得它們的表現(xiàn)如何,你最看好哪家的模型?歡迎分享你對今年高考作文的看法,以及目前 AI 工具的表現(xiàn)~
—— 對話 IEEE 首位華人主席、美國雙院院士劉國瑞 | 萬有引力
2025 全球產(chǎn)品經(jīng)理大會
8 月 15–16 日
北京·威斯汀酒店
2025 全球產(chǎn)品經(jīng)理大會將匯聚互聯(lián)網(wǎng)大廠、AI 創(chuàng)業(yè)公司、ToB/ToC 實戰(zhàn)一線的產(chǎn)品人,圍繞產(chǎn)品設(shè)計、用戶體驗、增長運營、智能落地等核心議題,展開 12 大專題分享,洞察趨勢、拆解路徑、對話未來。
更多詳情與報名,請掃碼下方二維碼。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.