南方財(cái)經(jīng)記者譚硯文 廣州報(bào)道
2025高考已經(jīng)落幕,這場(chǎng)千萬(wàn)學(xué)子的人生大考,也成了檢驗(yàn)人工智能賦能教育的試金石。
“今年深度推理大模型在高考中的表現(xiàn)堪稱亮眼,數(shù)學(xué)成績(jī)已達(dá)到130分以上,而去年,大模型的高考數(shù)學(xué)成績(jī)普遍只能達(dá)到四五十分。”一位大型科技公司人工智能工程師說(shuō)。
今年,大模型在高考中表現(xiàn)優(yōu)異,有個(gè)別表現(xiàn)出色的大模型,已能在滿分60分的語(yǔ)文作文取得53分、總分150分的數(shù)學(xué)取得145分、滿分20分的英語(yǔ)作文取得19.5分,展現(xiàn)出強(qiáng)大的綜合實(shí)力。
一個(gè)大模型能成為高考尖子生,靠的是什么?
專(zhuān)家指出,大模型決戰(zhàn)高考,不僅僅比拼的是“題庫(kù)資源+生成式大模型能力”,人工智能技術(shù)能力維度只有足夠多、足夠廣、足夠垂直,才能真正賦能教育。
更重要的是,成為高考尖子生并非大模型進(jìn)階的終點(diǎn),人工智能不僅懂考試,也懂教學(xué),將為教育打開(kāi)新的天地。
那個(gè)在高考語(yǔ)文作文、數(shù)學(xué)、英語(yǔ)作文中全部表現(xiàn)突出的大模型,是誰(shuí)?
6月7日高考語(yǔ)文結(jié)束后,“全國(guó)一卷 難”的話題迅速被推上熱搜。
但這難不住大模型。據(jù)某媒體6月7日高考語(yǔ)文結(jié)束當(dāng)日進(jìn)行的測(cè)評(píng),訊飛星火大模型的一篇《以歌為刃破長(zhǎng)夜 且將熱血鑄山河》,被曾參與省級(jí)“新課標(biāo)新技術(shù)背景下課堂教學(xué)探索”系列重點(diǎn)課題的楊小晴老師、海南省名校校本教材編者曹越老師分別打出了52分、54分的高分,名列六款國(guó)內(nèi)主流大模型測(cè)評(píng)第一。
這篇文章的“叫座”之處是采用了六段式結(jié)構(gòu),并且每段都有分論點(diǎn)、分析和論據(jù)。比如,文章的骨干部分分別以“個(gè)體的沉默往往是覺(jué)醒的前奏”“藝術(shù)的表達(dá)從來(lái)都是穿越荊棘的利刃”“文明的火種需要在代際傳遞中永續(xù)”牽引各段,緊扣“在逆境中堅(jiān)守信念,用藝術(shù)或行動(dòng)承擔(dān)家國(guó)責(zé)任”的論點(diǎn),層次分明,起承有序。
評(píng)分老師給出了“結(jié)構(gòu)如交響樂(lè)章,選材如歷史長(zhǎng)卷,語(yǔ)言如金石擲地,是一篇兼具思辨性與感染力的考場(chǎng)佳作”的評(píng)價(jià)。
數(shù)學(xué)是對(duì)深度推理大模型的一場(chǎng)“硬核”檢驗(yàn)。據(jù)某媒體6月7日高考數(shù)學(xué)結(jié)束當(dāng)日進(jìn)行的測(cè)評(píng),7款國(guó)內(nèi)外主流深度推理大模型中,訊飛星火表現(xiàn)突出,是唯二突破140分,即便在考生中也達(dá)到了“尖子生”標(biāo)準(zhǔn)。而在6月10日另一個(gè)自媒體博主進(jìn)行的測(cè)評(píng)里,訊飛星火又取得了145分。
參加考試的訊飛星火大模型是在4月20日升級(jí),版本較早,比同場(chǎng)考試的DeepSeek R1早了一個(gè)月,但在模型量級(jí)更小(70b)的情況下,依然取得了141分的高分。
英語(yǔ)作文與語(yǔ)文作文有一定的相似性,考察的都是語(yǔ)言理解和生成能力。在某媒體的測(cè)評(píng)中,北京市十一學(xué)校一分校英語(yǔ)老師韓憲昌、深圳中學(xué)英語(yǔ)教師趙文嘉對(duì)訊飛星火的作文分別給出了20分、19分的高分,位列第一。
語(yǔ)文作文的六段式結(jié)構(gòu)體現(xiàn)了訊飛星火的謀篇布局能力,而在這篇英語(yǔ)作文里,訊飛星火的作品同樣句式多樣,結(jié)構(gòu)精致。比如采用了比較巧妙的“twofold”結(jié)構(gòu),這在選詞準(zhǔn)確但句式不夠豐富的大模型作文里顯得獨(dú)樹(shù)一幟。
在多項(xiàng)測(cè)試?yán)铮嶏w星火大模型紛紛拿下語(yǔ)文作文、數(shù)學(xué)、英語(yǔ)作文的高分,成為高考尖子生靠的是什么?
研究人員給出了詳細(xì)解讀。
語(yǔ)文和英語(yǔ)作文考驗(yàn)的是大模型的文本生成能力,但高考作文側(cè)重的不是生成一篇文學(xué)作品,抑或一篇辦公文稿,而是在精準(zhǔn)分析題目基礎(chǔ)上的作答。
在數(shù)據(jù)層面,“我們?cè)趯?duì)訊飛星火大模型進(jìn)行預(yù)訓(xùn)練時(shí),會(huì)注重從海量的通用數(shù)據(jù)中有針對(duì)性地挖掘有價(jià)值的數(shù)據(jù)。”訊飛星火研發(fā)人員說(shuō)。
科大訊飛扎根教育已經(jīng)21年,服務(wù)了全國(guó)5萬(wàn)多所中小學(xué)、1.3億師生,這些數(shù)字背后,是科大訊飛對(duì)教育的深刻理解與實(shí)踐沉淀。且科大訊飛深入各地,積累了海量區(qū)域化教育數(shù)據(jù),能夠精準(zhǔn)理解各地考情差異。
在算法層面,寫(xiě)作文場(chǎng)景與生成其他文本的場(chǎng)景頗為不同,更加考驗(yàn)大模型的指令跟隨能力。這是因?yàn)椋谏善渌谋镜倪^(guò)程中,用戶會(huì)不斷提問(wèn)和提出要求,大模型從而得到特別具體、精確的提示(prompt);但寫(xiě)作文場(chǎng)景下,大模型得到的只有題目要求,且審題難度極高,學(xué)生的習(xí)作則差別很大,也就是說(shuō),一個(gè)理解難度高的題目對(duì)應(yīng)著數(shù)以萬(wàn)計(jì)的差異化文本,這加大了大模型在訓(xùn)練時(shí)進(jìn)行指令跟隨的難度。
對(duì)此,“訊飛星火大模型基于‘機(jī)器思維鏈’的深厚基礎(chǔ),深度融合優(yōu)秀教師的實(shí)踐智慧,研發(fā)出以‘教學(xué)思維鏈’為驅(qū)動(dòng)的教育深度推理大模型。”訊飛星火研發(fā)人員說(shuō)。
這就能夠理解,為什么在一眾大模型作文中,訊飛星火能寫(xiě)出結(jié)構(gòu)精妙的六段式結(jié)構(gòu)。
“訓(xùn)練訊飛星火大模型的優(yōu)質(zhì)數(shù)據(jù)里,曾出現(xiàn)過(guò)這種結(jié)構(gòu)的高分作文。深度思維鏈大模型理解了這樣的優(yōu)質(zhì)數(shù)據(jù),并通過(guò)不斷地強(qiáng)化學(xué)習(xí),學(xué)會(huì)了寫(xiě)出這種結(jié)構(gòu)的高分作文。”
據(jù)介紹,科大訊飛在教育行業(yè)深耕21年,深度參與中考、高考、英語(yǔ)四六級(jí)考試、全國(guó)普通話水平測(cè)試、全國(guó)碩士研究生統(tǒng)一招生考試、全國(guó)翻譯資格水平考試等重大考試服務(wù),掌握中高考智能閱卷、口語(yǔ)評(píng)測(cè)、作文批改等同源技術(shù)。這也讓星火對(duì)相關(guān)教育數(shù)據(jù)的清洗更加精準(zhǔn),沉淀下來(lái)價(jià)值更高的數(shù)據(jù)。
“深度思考+強(qiáng)化學(xué)習(xí)”的技術(shù)方案,也推動(dòng)大模型今年在高考數(shù)學(xué)上普遍超過(guò)130分。
但為何訊飛星火大模型能取得140分以上的更高分?
“我們做了一些技術(shù)創(chuàng)新,包括算法上更加強(qiáng)調(diào)目標(biāo)導(dǎo)向,即強(qiáng)調(diào)解題過(guò)程與答案的一致性;增加了評(píng)語(yǔ)模型,以提高大模型解題每一步驟的準(zhǔn)確性,并避免用超綱解法答題;對(duì)知識(shí)點(diǎn)和解題思路進(jìn)行了數(shù)據(jù)合成,從而提高大模型解題的泛化能力。”訊飛星火研發(fā)人員說(shuō)。
值得注意的是,擅長(zhǎng)深度思考并不必然擅長(zhǎng)解數(shù)學(xué)題。一位數(shù)學(xué)自媒體博主對(duì)今年高考題目進(jìn)行測(cè)評(píng)時(shí)發(fā)現(xiàn),“一些大模型的推理思維鏈很長(zhǎng),而有的考題并沒(méi)有那么復(fù)雜,所以導(dǎo)致它想著想著,就想歪了”。
如何將深度推理精準(zhǔn)匹配高考答題?
訊飛星火首個(gè)推出了,基于快慢思考的統(tǒng)一模型訓(xùn)練推理方法,充分發(fā)揮快慢思考數(shù)據(jù)相互促進(jìn)作用,實(shí)現(xiàn)基于系統(tǒng)指令控制模型是否深度思考。基于問(wèn)題難度的大規(guī)模多階段強(qiáng)化學(xué)習(xí)方法,在復(fù)雜推理、數(shù)學(xué)、代碼、語(yǔ)言理解等場(chǎng)景全面提升模型效果及泛化性;同時(shí)強(qiáng)化學(xué)習(xí)動(dòng)態(tài)更新算法,基于樣本采樣長(zhǎng)度動(dòng)態(tài)調(diào)整強(qiáng)化學(xué)習(xí)更新速度,進(jìn)一步提升深度思考強(qiáng)化學(xué)習(xí)效率及效果。
答題還建立在一些底層技術(shù)基礎(chǔ)上,比如OCR能力。只有更加準(zhǔn)確地識(shí)別,才能讓大模型更加準(zhǔn)確地理解、更加準(zhǔn)確地思考、更加準(zhǔn)確地答題。科大訊飛的語(yǔ)音、圖文識(shí)別技術(shù)則屢獲國(guó)際大賽冠軍。正是因?yàn)樵趫D文識(shí)別、自然語(yǔ)言理解、智能評(píng)測(cè)等方面的突破,科大訊飛10年前率先在高考中參與了智能輔助評(píng)卷的探索。
當(dāng)大模型能輕松超過(guò)絕大多數(shù)考生,成為高考尖子生,這是否會(huì)給廣大學(xué)子帶來(lái)焦慮和不安?
其實(shí)完全不會(huì),高考的目的是考查學(xué)生的關(guān)鍵能力和核心素養(yǎng),人工智能賦能培養(yǎng)學(xué)生關(guān)鍵能力和核心素養(yǎng)的表現(xiàn),遠(yuǎn)遠(yuǎn)超過(guò)了在高考考場(chǎng)上的表現(xiàn)。
當(dāng)人工智能具備深度推理能力,人工智能賦能教育正在從提升學(xué)習(xí)成績(jī)升級(jí)到提升學(xué)業(yè)能力。一方面,人工智能實(shí)現(xiàn)了作業(yè)批改、學(xué)情分析、類(lèi)題推送等方面的重大突破,從而幫助老師和學(xué)生更好地教與學(xué)、提升學(xué)業(yè)成績(jī);另一方面,人工智能基于問(wèn)題鏈與思維鏈進(jìn)行深度推理,通過(guò)蘇格拉底式引導(dǎo)幫助學(xué)生真正掌握學(xué)習(xí)方法,做到因材施教。
“同學(xué)們,我現(xiàn)在將立方體的這一面填滿紅色,我們?cè)僖黄鹂聪逻@個(gè)立方體的展開(kāi)圖是什么樣的。”在棗莊市第九中學(xué)的課堂上,數(shù)學(xué)老師王寧在AI黑板上畫(huà)出一個(gè)立方體,點(diǎn)擊“展開(kāi)”功能,立方體隨即動(dòng)態(tài)展開(kāi),呈現(xiàn)出不同的平面圖。“這種動(dòng)態(tài)的展示,不僅讓數(shù)學(xué)知識(shí)‘活’起來(lái),讓抽象的知識(shí)變得更直觀,還能進(jìn)一步激發(fā)學(xué)生的學(xué)習(xí)興趣和探索欲望。”王寧老師笑道。
目前,AI黑板所屬的訊飛智慧窗系列產(chǎn)品已在全國(guó)4.5萬(wàn)所學(xué)校使用,覆蓋33個(gè)省級(jí)行政區(qū)、1000多個(gè)區(qū)縣。
“我們正在和七年級(jí)16班的學(xué)生們一起上課,我們?cè)谟懻撘患榫w商品,叫做情緒盒子,這是一種管理情緒的卡片游戲,請(qǐng)問(wèn)星火你是怎么看待情緒盒子的呢?”
在合肥四十六中南校區(qū)的《改良“情緒商品”》項(xiàng)目化學(xué)習(xí)課堂上,王亞運(yùn)老師通過(guò)星火教師助手提問(wèn),為學(xué)生們引入“第三方視角”的看法,同時(shí)通過(guò)“分組作答”“實(shí)物展臺(tái)”“課堂討論”等互動(dòng)形式,給每位同學(xué)展示自己創(chuàng)意的機(jī)會(huì)。
只要真正用上人工智能,就能打消畏難情緒。成都英華學(xué)校以“人人擁有教育教學(xué)‘智能體’”為宗旨,組織開(kāi)展首屆教學(xué)智能體創(chuàng)建比賽,鼓勵(lì)教師人人參與,通過(guò)訊飛星火大模型“喂養(yǎng)”屬于自己的學(xué)科教學(xué)智能體。
成都英華學(xué)校的周老師設(shè)計(jì)了一節(jié)英語(yǔ)寫(xiě)作課,借助人工智能技術(shù)引導(dǎo)學(xué)生經(jīng)歷自主作文、自主修改、生生相互評(píng)閱后自主完善等學(xué)習(xí)過(guò)程。作文自評(píng)自改環(huán)節(jié),AI作為教學(xué)助手在2秒鐘內(nèi)實(shí)現(xiàn)了對(duì)全班學(xué)生作文的檢錯(cuò)和評(píng)改,完成了老師們平時(shí)2小時(shí)甚至更長(zhǎng)時(shí)間的作文批改工作,并同步生成班級(jí)作文報(bào)告,學(xué)生的共性問(wèn)題和個(gè)性問(wèn)題一目了然。
“我們要有一桶水,才能倒出一碗水。”科大訊飛董事長(zhǎng)劉慶峰表示,科大訊飛做教育絕非止步于解題批改的技術(shù)層面,而是要因材施教,要五育并舉,要能激發(fā)人的創(chuàng)造力,要心理健康全面發(fā)展。高考提分只是起點(diǎn),而非終點(diǎn)。大模型對(duì)教育的深層變革,在于讓每個(gè)個(gè)體獲得適配的學(xué)習(xí)方法,發(fā)現(xiàn)成長(zhǎng)的樂(lè)趣,這才是技術(shù)賦能教育的終極意義。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.