含有基礎教育特色的大模型測評場。
來源|多知
多知7月12日消息,北京師范大學智能技術與教育應用教育部工程研究中心(以下簡稱“工程研究中心”)發布“北極星”基礎教育大模型評測場V1.0及榜單。
“北極星”由北京師范大學智能技術與教育應用教育部工程研究中心、北京教育科學研究院、?北京智源人工智能研究院聯合建設,是一款含有基礎教育特色的大模型評測場。
在團體標準《人工智能 基礎教育大模型評測指標和方法》(標準編號:T/CESA 1395-2025)的指導下,“北極星”具有緊扣新課標、聚焦教育應用、多學科多場景的特點,更加關注啟發引導、素養導向、情境創設等能力評估。
目前“北極星”評測場已覆蓋初中“語文/數學/英語/物理/化學/生物/歷史/地理/信息技術”9門學科、“備/教/練/考/評/管”6大教育場景,支持110多個維度的評測。
據官方介紹,現有大模型大多數能力離實際應用尚有差距,例如解題性能會因題目改寫受到較大影響,實驗探究方面效果欠佳;智能出題方面,大模型題目和解析的準確性仍有待提升。
經過測評,“北極星”評測結果與具備豐富教學經驗的資深教師越來越相近。
“北極星”V1.0版本已正式上線(www.bnueval.com),同時其全面評測50多個主流大模型,評測榜單通過網站向公眾公布。
對于接下來的布局思路,據介紹“北極星”基礎教育大模型評測場將繼續迭代更新,以更全面的評測維度、更科學的評測方法推動基礎教育大模型應用安全、健康發展。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.