AI 寫作文早不是啥新鮮事了。比起幾年前的稚拙,現在的 AI 寫起文章來已經更加得心應手,只要給它的提示詞合適,那它們還真能寫出挺像模像樣的文章。不僅如此,AI 還能對文章做出品評,指出文章的優點和不足,還有學生根據 AI 的建議修改作文后,獲得了老師的好評。
那么問題來了,如果讓 AI 自己寫作文,自己評分數,會出現什么情況呢?
今天是 2025 年高考第一天,我們拿高考作文題,讓 AI 之間來個了大 PK,并讓它們互相評價,結果竟然出乎意料。
測驗方法
本次測驗選取了 7 位本地 AI 考生/考官,為了保障大家的隱私,這里全部使用了化名。AI 考生寫作文的時候,為了防止作弊,均關閉了聯網搜索選項。為了保證考生的文章深度配得上高考題,均打開了類似“深度思考”類選項。
每位考生收到的考題均為全國卷一作文題,沒有其他提示詞。
每位考生收到的“全國卷一作文題”
每位考官收到的評分標準和提示詞也是一樣的,作文部分則直接粘貼各個 AI 考生的作文。
為防止干擾,每批改一位考生的作文,就新建一個對話。
每位考官收到的不同考生作文并要求打分
測驗結果
經過我們的一番操作,所有 AI 考生均順利完成了作文,所有的 AI 考官也都完成了批改!結果真的太好玩了!
注:每一列的分數,表示一位 AI 考官分別給每位 AI 考生的大作打的分數
結合各位“AI 考生”的作文和“AI 老師”給出的評分,我們來一一看看結果如何。
首先,我們來給 AI 考生頒獎。
最佳作文獎
獲獎者:智言同學
智言同學作文的得分平均分為 56.6 分,這個分數是所有考生里最高的, 實至名歸的——全場最佳作文獎。
值得一提的是,全場唯一一個獲得過一次滿分的作文也是出自智言同學之手哦,文章最后我們也會放出滿分作文,供大家閱讀。
進步潛力獎
獲獎者:K 米同學
K 米同學獲得了 50.6 分的平均分,上升空間巨大,不過相比于人類考生……有百分之幾的考生敢說能拿到更好的成績?而且,說不定 K 米同學比較偏科,這次發揮不理想呢?
毫無爭議獎
獲獎者:心言同學
7 位 AI 閱卷老師對心言同學的打分非常接近(方差僅 2.4 ),所以它的作文成為了成績爭議最小的作文。
爭議最大獎
獲獎者:通問同學
7 位閱卷老師對通問同學的作文打分差異非常大,欣賞通問作文的老師,給出了 58 分的高分,而不欣賞的老師,給出了 49 分。
而且 K 米作為閱卷老師時候,拒絕給通問同學的作文打分(但并沒有給出具體理由)。但無論如何通問同學毫無爭議地獲得了“爭議最大獎”。
看完了 AI 作為考生時候的表現,接下來我們再對 AI 作為閱卷老師的表現,進行評價和頒獎。
鐵面無私獎
獲獎者:K 米老師
K 米老師給所有同學打出的分數平均分為 51.7分,甚至對通問同學的作文拒絕評分,成為了最嚴厲的閱卷老師,大家最好不要落到它手上。
甚至K 米老師給自己的作文僅打出了 47 的分數,確實客觀又鐵面無私,真是“狠起來連自己都不放過”,因此,獲得了“最鐵面無私獎”。
大家都不容易獎
獲獎者:心言老師
心言老師給所有同學打出的分數平均分是 57.1 分,算是非常仁慈了,你是不是也希望它是你的閱卷老師呢?
心如止水獎
獲獎者:智言老師
智言老師給出的分數波動最小(最高 56,最低 54),方差僅為 0.6,或許在它看來,別太卷,大家都一樣最好。
愛憎分明獎
獲獎者:通問老師
通問老師給出的分數波動最大(最高 58,最低 47),方差 14.7。或許正是這樣的性格,才讓它寫出了連 K 米老師都拒絕打分的文章吧。
不過這里我們得說明一下,如果我們把拒絕打分視作 0分,那愛憎分明獎非通問老師莫屬。
慧眼識人獎
獲獎者:DS 老師
DS 老師給智言同學打出了全場唯一一個滿分 60 分,給到的是都認可的。
而且,DS老師還為智言同學寫下了這樣熱情洋溢的評語:
圖源:自己做的
金標準獎
獲獎者:D 包老師
針對每篇作文,D 包老師給出的分數與平均值的綜合差距比其他老師要小(標準差1.6)。所以,它給出的分數,堪稱打分的“金標準”。
品味獨特獎
獲獎者:K 米老師
和金標準獎相對,對于每篇作文,K 米老師給出的分數與平均值的綜合差距比別的老師的大(標準差 4.1),所以它給出的分數總是那么獨特,就授予它品味獨特獎吧。
最高、最低、最具爭議
作文分享
先來看“滿分作文”,來自智言同學。
圖片:自己做的
接下來是“低分作文”:
圖片:自己做的
當然,作文畢竟主觀性很強,而且 AI 每次生成和評判,可能都會有一些偏差。因時間有限,測試次數較少,本次結果無法全面體現參賽 AI 的能力,僅供參考。
為了嚴謹起見,我們還邀請了一位人類考官(蘇哲倫 上海市語文高級教師 上海市徐匯區語文骨干教師),對這次的最佳作文做出了銳評:
蘇老師:我給這篇作文打 45 分(滿分 60 )。我對全國卷評分標準不大了解,但是既然第一則材料來自閱讀II《鼓書藝人》,當然不能對閱讀II的基本情節理解有很大偏差。然而,就我看到的《鼓書藝人》內容,AI 作者恐怕是在一本正經地胡說八道,或者說出現了幻覺。老舍的原文中,鼓書藝人“開不了口”,是面對被戰爭摧殘的孩子,想給他們唱一段,又唱不出。但這篇文章,變成了不知哪來的角色“白傻子”面對日寇的刀劍保持沉默。出現這樣嚴重的失誤,所以我無法給出高分。
截自本次AI最佳作文,然而老舍原文中主角名為方寶慶
看來,想讓 AI 寫好高考作文還是任重道遠啊!最后,想問下:上面的高分和低分作文,你會打多少分呢?留言區告訴我吧~
策劃制作
作者丨丁崝 田達瑋
點評丨蘇哲倫 上海市語文高級教師 上海市徐匯區語文骨干教師
策劃丨丁崝 林林
責編丨林林
審校丨徐來
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.