99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

全球首個科研LLM競技場上線!23款頂尖模型火拼:o3奪冠,DeepSeek第四

0
分享至


新智元報道

編輯:海貍 好困

【新智元導讀】最近,Ai2耶魯NYU聯合推出了一個科研版「Chatbot Arena」——SciArena。全球23款頂尖大模型火拼真實科研任務,OpenAI o3領跑全場,DeepSeek緊追Gemini擠入前四!不過從結果來看,要猜中科研人的偏好,自動評估系統遠未及格。

如今,用AI大模型輔助寫論文早已成為科研工作者的家常便飯。

ZIPDO 2025教育報告顯示,AI已經無縫融入70%的研究實驗室,并在五年內推動相關科研論文數量增長了150%。


AI在輔助科研的路上一路狂飆,但一個關鍵問題卻長期懸而未解:

「大模型科研能力究竟怎么樣?」

傳統benchmark靜態且片面,難以衡量科研任務所需的上下文理解與推理能力。

為此,Ai2聯合耶魯大學和紐約大學推出了科研界的Chatbot Arena——SciArena,正式開啟科學智能的「擂臺賽」時代!


論文鏈接:https://arxiv.org/pdf/2507.01001

目前,已有23個最前沿的大語言模型登上SciArena的擂臺,涵蓋OpenAI、Anthropic、DeepSeek、Google等巨頭產品。


其中,OpenAI o3斷崖式領先,坐上了科學任務的頭把交椅,在所有科學領域都穩居第一,輸出的論文講解也更有技術含量。


其他模型在不同領域各有千秋:

例如Claude-4-Opus的醫療健康知識很強,而DeepSeek-R1-0528在自然科學表現搶眼。


值得一提的是,SciArena剛發布沒多久就得到了Nature的特別報道,并被盛贊為「解釋大模型知識結構的新窗口」。


下面我們就來看看,評估基礎模型科研能力,SciArena究竟靠譜在哪里?

SciArena:科研AI新「試金石」

SciArena是首個專為科學文獻任務量身定制的大模型「開放式評估平臺」。


在這里,科研人員可以對不同基礎模型處理科學文獻任務的表現進行比較和投票。

團隊引入了Chatbot Arena式的眾包、匿名、雙盲對決機制,用真實科研問題來驗貨大模型。

SciArena專門針對科學探究的復雜性與開放性進行了優化,解決通用基準測試在科研場景中「失效」的問題。

該平臺主要由三大核心組件構成:

  • SciArena平臺: 科研人員在此提交問題,并「同臺對比」查看不同基礎模型的回復,選出自己更偏好的輸出。

  • 排行榜: 平臺采用Elo評分系統對各大模型進行動態排名,從而提供一份實時更新的性能評估報告。

  • SciArena-Eval: 基于SciArena平臺收集的人類偏好數據構建的元評估基準集,其核心目標是檢驗用模型來猜測人類偏好的準確性。


對決背后:評測機制大揭秘



從提問到投票:SciArena評估全流程

SciArena的工作流程包括檢索論文、調用模型回復、用戶評估三個環節。

與通用問答相比,科研問答最大的壁壘在于要以嚴謹的科學文獻為依據。

為了確保檢索信息的質量與相關性,團隊改編了Allen Institute for AI的Scholar QA系統,搭建了一套先進的多階段檢索流水線。


該流水線包含查詢分解、段落檢索和結果重排序等多個步驟。

收到用戶提交的問題后,平臺啟用流水線,檢索相關的科學論文作為上下文。

隨后,平臺把上下文和用戶的問題合在一起,同時發送給兩個隨機選擇的基礎模型。

兩個模型各自生成內容詳實、附帶標準引文的長篇回復。

平臺會統一處理兩份回復,變成格式一致的標準化純文本,以免用戶「認出」模型的回答風格。

最后,用戶對這兩個純文本輸出進行評估,并投票選出自己偏好的答案。


值得注意的是,SciArena的注意力主要集中于可橫向評估的「通用基礎模型」。

至于OpenAI Deep Research等定制型智能體或閉源研究系統,則不在平臺的考慮范疇內。

102位專家,13000票

要想評測準,數據必須信得過。

SciArena團隊對數據的把關嚴格得令人發指。

在平臺上線的前四個月里,他們收集了不同科研領域的102位專家的13000多次投票。


這102位專家絕非隨意參與的路人,而是科研一線的在讀研究生,人均手握兩篇以上論文。

而且,所有的標注員都接受了一小時的線上培訓,確保評價標準一致。

再加上盲評盲選機制,SciArena的每一條評估結果都有據可依。

在SciArena的高標準和嚴要求下,平臺的標注數據自我一致性極高(加權科恩系數κ=0.91),標注者間一致性也達到了較高水平(κ=0.76)。


這13000多次投票為SciArena平臺打下了值得信賴的評估基礎。

最強AI,猜不透科研人的心

在SciArena平臺上,研究團隊基于元評估基本集SciArena-Eval,測試了「模型評模型」的自動評估方法:

給一個評估模型一條科研問題和兩個模型的回答,讓它猜哪個更可能被人類選中。

結果很扎心。

哪怕是表現最好的o3模型,準確率也只有65.1%,而像Gemini-2.5-Flash和LLaMA-4系列,幾乎跟「擲硬幣選答案」的準確率差不多。


對比一下通用領域,像AlpacaEval、WildChat這些基準的評估模型,準確率都能跑到70%以上,相比之下,科研任務顯得難多了。

看來,「讓模型理解科研人的偏好」并非易事。

不過也不是全無亮點。

加入了推理能力的模型,在判斷答案優劣上普遍表現更好。

例如,o4-mini比GPT-4.1高出 2.9%,DeepSeek-R1也小勝自家模型DeepSeek-V3。

這說明,會推理的AI更懂科研問題的本質。

研究團隊表示,SciArena-Eval未來有望成為科研AI評估的「新標準」。

它能幫我們看清AI到底有沒有真正「讀懂」科研人的心思。

參考資料:

https://allenai.org/blog/sciarena

https://arxiv.org/pdf/2507.01001

https://the-decoder.com/sciarena-lets-scientists-compare-llms-on-real-research-questions/


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
還沒來得及查,全美已經一搶而空…

還沒來得及查,全美已經一搶而空…

觀察者網
2025-07-11 14:17:17
嬰兒鉛中毒新進展:寶媽曝毒源,卻被老板威脅,內容堪比黑社會!

嬰兒鉛中毒新進展:寶媽曝毒源,卻被老板威脅,內容堪比黑社會!

閱微札記
2025-07-11 19:19:21
五年,十八個冤魂!2000年麻城市“8·30”稻田腐尸案偵破始末

五年,十八個冤魂!2000年麻城市“8·30”稻田腐尸案偵破始末

路之意
2025-07-11 08:10:01
【舊事】李肇星:金無怠是美國為反華編的,中國不認識這中國間諜

【舊事】李肇星:金無怠是美國為反華編的,中國不認識這中國間諜

年之父
2025-07-11 06:10:03
7億,折價48%!貝萊德斷貸的上海寫字樓,內資接盤了

7億,折價48%!貝萊德斷貸的上海寫字樓,內資接盤了

選址中國
2025-07-11 17:32:06
流落中國的外國公主,拒絕回國說:我是中國人,中國就是我的家

流落中國的外國公主,拒絕回國說:我是中國人,中國就是我的家

比利
2025-07-09 15:38:28
生完孩子后,我出軌的欲望非常強烈!(女性勿入)

生完孩子后,我出軌的欲望非常強烈!(女性勿入)

性學研究僧
2025-06-17 22:37:40
“水果姐”演都不演了!

“水果姐”演都不演了!

下水道男孩
2025-07-10 19:45:06
東方集團三板已上市4天,每天僅漲1分,50萬股東要熬到什么時候?

東方集團三板已上市4天,每天僅漲1分,50萬股東要熬到什么時候?

小舟談歷史
2025-07-11 14:47:17
能攻善傳!丹尼斯16中8拿到26分4籃板9助攻2搶斷 正負值+5

能攻善傳!丹尼斯16中8拿到26分4籃板9助攻2搶斷 正負值+5

直播吧
2025-07-11 07:28:09
告訴爸媽別舍不得開空調!研究發現:溫度適當調低,能產生抑癌效果!

告訴爸媽別舍不得開空調!研究發現:溫度適當調低,能產生抑癌效果!

人民日報健康客戶端
2025-07-10 07:35:42
水拉生涯合同,29歲被交易5次,從頂薪到白菜合同,超模女友很美

水拉生涯合同,29歲被交易5次,從頂薪到白菜合同,超模女友很美

大西體育
2025-07-11 17:01:45
明天還有大到暴雨!下周沖37度

明天還有大到暴雨!下周沖37度

上海黃浦
2025-07-11 18:55:50
今晚見分曉!辛納會是現役第二位在溫網賽場擊敗德約的球員嗎?

今晚見分曉!辛納會是現役第二位在溫網賽場擊敗德約的球員嗎?

西門吹灰2020
2025-07-11 12:38:28
烏克蘭聲稱抓獲中國間諜,網友發現其在閑魚倒賣裝備

烏克蘭聲稱抓獲中國間諜,網友發現其在閑魚倒賣裝備

DoNews
2025-07-10 19:53:26
天水幼兒被下毒后續,官媒犀利發問要作案動機,句句說到網友心坎

天水幼兒被下毒后續,官媒犀利發問要作案動機,句句說到網友心坎

米果說識
2025-07-09 13:31:12
馬筱梅要帶倆孩子回北京了!小楊阿姨說,再給他們娘仨炸次油條吃

馬筱梅要帶倆孩子回北京了!小楊阿姨說,再給他們娘仨炸次油條吃

鑫鑫說說
2025-07-11 13:38:01
莊則棟臨終前照片,最放心不下日本妻子,如今妻子的選擇令人淚目

莊則棟臨終前照片,最放心不下日本妻子,如今妻子的選擇令人淚目

不寫散文詩
2025-07-05 00:23:34
溥儀的親妹妹,活到2004年,臨終前說了一句話讓所有人愣住了

溥儀的親妹妹,活到2004年,臨終前說了一句話讓所有人愣住了

大千世界觀
2025-06-14 17:30:09
打起來了,以色列被炸?20架戰機連夜出擊,美失聲,以總理要出國

打起來了,以色列被炸?20架戰機連夜出擊,美失聲,以總理要出國

阿七說史
2025-07-09 18:28:29
2025-07-11 21:36:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
13041文章數 66093關注度
往期回顧 全部

科技要聞

稚暉君神操作 宇樹痛失"人形機器人第一股"

頭條要聞

媒體:王毅魯比奧首次會晤 美方被指正安排特朗普訪華

頭條要聞

媒體:王毅魯比奧首次會晤 美方被指正安排特朗普訪華

體育要聞

從無畏金蘭到薪火相傳,中國女籃新的花期來了

娛樂要聞

新聞聯播鏡頭下的宋佳面相變了

財經要聞

管濤:百年美元信用將崩塌?

汽車要聞

最便宜滿血版華為智駕和鴻蒙座艙 嵐圖FREE+閉眼沖

態度原創

時尚
房產
親子
家居
軍事航空

今日熱點:賈斯汀比伯回歸;宋佳回應獲獎感言出圈……

房產要聞

8大新盤曝光!2025下半場,廣州主城開卷廝殺!

親子要聞

哈哈哈

家居要聞

生活憧憬 自由浪漫之境

軍事要聞

俄羅斯對烏克蘭發動最大規模無人機襲擊

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 龙江县| 信丰县| 长汀县| 瑞金市| 株洲县| 连南| 凤阳县| 微博| 绥宁县| 蓝山县| 神木县| 方正县| 勐海县| 罗定市| 贺州市| 孟州市| 武宁县| 顺昌县| 苏州市| 衡阳县| 平遥县| 三原县| 田东县| 高邮市| 赞皇县| 绥江县| 台山市| 杭州市| 仁布县| 江安县| 福清市| 津南区| 叙永县| 交口县| 镇康县| 桃源县| 临夏市| 天门市| 大宁县| 南部县| 大兴区|