近日,美國的艾倫人工智能研究所(Ai2)開發了一款名為SciArena的基礎模型基準測試平臺,采用類似Chatbot Arena的眾包、頭對頭評估方法,主要針對科學文獻任務。
該平臺現已公開發布:https://sciarena.allen.ai/
截至6月30日,該團隊對全球23個大型語言模型(LLM)進行了排名,邀請了102名研究人員進行了超過13,000次投票,涉及自然科學、醫療保健、工程學以及人文社科的四個類別。
OpenAI o3奪冠 五家各有所長
曾打造出ChatGPT的OpenAI公司,憑借最新的o3模型實現了斷層領先。該模型對引用的科學論文進行了更詳細的闡述,并且其輸出在工程學科中更具技術性。
其余模型的性能因學科而異,被譽為編程之王的Claude-4-Opus在醫療保健方面表現出色,而DeepSeek-R1-0528在自然科學方面表現良好。
值得注意的是,即使是實驗中表現最好的模型o3在預測人類偏好方面的準確率也只有65.1%。
與斯坦福的LLM排行榜AlpacaEval和GPT系列對話數據集WildChat 等通用基準相比有明顯差距,后者的成對評估協議的準確率超過 70%。
Ai2的Arman Cohan表示:用戶對o3的偏好可能源于該模型傾向于在引用的文獻中提供大量細節,并產生技術上細致入微的回答。
但相關報道也提醒,LLM可能會生成與引用論文沖突的文本,也會誤解術語,并且可能無法準確回答問題,閱讀 LLM 生成的研究論文摘要并不能替代閱讀論文。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.