網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

“北極星”基礎(chǔ)教育大模型評(píng)測(cè)場(chǎng)V1.0及榜單正式發(fā)布

2025-07-12 17:54:09　來源: 多知

北京舉報(bào)

分享至

含有基礎(chǔ)教育特色的大模型測(cè)評(píng)場(chǎng)。

來源|多知

多知7月12日消息，北京師范大學(xué)智能技術(shù)與教育應(yīng)用教育部工程研究中心（以下簡稱“工程研究中心”）發(fā)布“北極星”基礎(chǔ)教育大模型評(píng)測(cè)場(chǎng)V1.0及榜單。

“北極星”由北京師范大學(xué)智能技術(shù)與教育應(yīng)用教育部工程研究中心、北京教育科學(xué)研究院、?北京智源人工智能研究院聯(lián)合建設(shè)，是一款含有基礎(chǔ)教育特色的大模型評(píng)測(cè)場(chǎng)。

在團(tuán)體標(biāo)準(zhǔn)《人工智能基礎(chǔ)教育大模型評(píng)測(cè)指標(biāo)和方法》（標(biāo)準(zhǔn)編號(hào)：T/CESA 1395-2025）的指導(dǎo)下，“北極星”具有緊扣新課標(biāo)、聚焦教育應(yīng)用、多學(xué)科多場(chǎng)景的特點(diǎn)，更加關(guān)注啟發(fā)引導(dǎo)、素養(yǎng)導(dǎo)向、情境創(chuàng)設(shè)等能力評(píng)估。

目前“北極星”評(píng)測(cè)場(chǎng)已覆蓋初中“語文/數(shù)學(xué)/英語/物理/化學(xué)/生物/歷史/地理/信息技術(shù)”9門學(xué)科、“備/教/練/考/評(píng)/管”6大教育場(chǎng)景，支持110多個(gè)維度的評(píng)測(cè)。

據(jù)官方介紹，現(xiàn)有大模型大多數(shù)能力離實(shí)際應(yīng)用尚有差距，例如解題性能會(huì)因題目改寫受到較大影響，實(shí)驗(yàn)探究方面效果欠佳；智能出題方面，大模型題目和解析的準(zhǔn)確性仍有待提升。

經(jīng)過測(cè)評(píng)，“北極星”評(píng)測(cè)結(jié)果與具備豐富教學(xué)經(jīng)驗(yàn)的資深教師越來越相近。

“北極星”V1.0版本已正式上線（www.bnueval.com），同時(shí)其全面評(píng)測(cè)50多個(gè)主流大模型，評(píng)測(cè)榜單通過網(wǎng)站向公眾公布。

對(duì)于接下來的布局思路，據(jù)介紹“北極星”基礎(chǔ)教育大模型評(píng)測(cè)場(chǎng)將繼續(xù)迭代更新，以更全面的評(píng)測(cè)維度、更科學(xué)的評(píng)測(cè)方法推動(dòng)基礎(chǔ)教育大模型應(yīng)用安全、健康發(fā)展。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.