99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<pre id="53gum"></pre>

<em id="53gum"></em>

<sub id="53gum"></sub>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

全球首個科研LLM競技場上線！23款頂尖模型火拼：o3奪冠，DeepSeek第四

2025-07-11 12:14:58　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：海貍好困

【新智元導讀】最近，Ai2耶魯NYU聯合推出了一個科研版「Chatbot Arena」——SciArena。全球23款頂尖大模型火拼真實科研任務，OpenAI o3領跑全場，DeepSeek緊追Gemini擠入前四！不過從結果來看，要猜中科研人的偏好，自動評估系統遠未及格。

如今，用AI大模型輔助寫論文早已成為科研工作者的家常便飯。

ZIPDO 2025教育報告顯示，AI已經無縫融入70%的研究實驗室，并在五年內推動相關科研論文數量增長了150%。

AI在輔助科研的路上一路狂飆，但一個關鍵問題卻長期懸而未解：

「大模型科研能力究竟怎么樣？」

傳統benchmark靜態且片面，難以衡量科研任務所需的上下文理解與推理能力。

為此，Ai2聯合耶魯大學和紐約大學推出了科研界的Chatbot Arena——SciArena，正式開啟科學智能的「擂臺賽」時代！

論文鏈接：https://arxiv.org/pdf/2507.01001

目前，已有23個最前沿的大語言模型登上SciArena的擂臺，涵蓋OpenAI、Anthropic、DeepSeek、Google等巨頭產品。

其中，OpenAI o3斷崖式領先，坐上了科學任務的頭把交椅，在所有科學領域都穩居第一，輸出的論文講解也更有技術含量。

其他模型在不同領域各有千秋：

例如Claude-4-Opus的醫療健康知識很強，而DeepSeek-R1-0528在自然科學表現搶眼。

值得一提的是，SciArena剛發布沒多久就得到了Nature的特別報道，并被盛贊為「解釋大模型知識結構的新窗口」。

下面我們就來看看，評估基礎模型科研能力，SciArena究竟靠譜在哪里？

SciArena：科研AI新「試金石」

SciArena是首個專為科學文獻任務量身定制的大模型「開放式評估平臺」。

在這里，科研人員可以對不同基礎模型處理科學文獻任務的表現進行比較和投票。

團隊引入了Chatbot Arena式的眾包、匿名、雙盲對決機制，用真實科研問題來驗貨大模型。

SciArena專門針對科學探究的復雜性與開放性進行了優化，解決通用基準測試在科研場景中「失效」的問題。

該平臺主要由三大核心組件構成：

SciArena平臺: 科研人員在此提交問題，并「同臺對比」查看不同基礎模型的回復，選出自己更偏好的輸出。
排行榜: 平臺采用Elo評分系統對各大模型進行動態排名，從而提供一份實時更新的性能評估報告。
SciArena-Eval: 基于SciArena平臺收集的人類偏好數據構建的元評估基準集，其核心目標是檢驗用模型來猜測人類偏好的準確性。

對決背后：評測機制大揭秘

從提問到投票：SciArena評估全流程

SciArena的工作流程包括檢索論文、調用模型回復、用戶評估三個環節。

與通用問答相比，科研問答最大的壁壘在于要以嚴謹的科學文獻為依據。

為了確保檢索信息的質量與相關性，團隊改編了Allen Institute for AI的Scholar QA系統，搭建了一套先進的多階段檢索流水線。

該流水線包含查詢分解、段落檢索和結果重排序等多個步驟。

收到用戶提交的問題后，平臺啟用流水線，檢索相關的科學論文作為上下文。

隨后，平臺把上下文和用戶的問題合在一起，同時發送給兩個隨機選擇的基礎模型。

兩個模型各自生成內容詳實、附帶標準引文的長篇回復。

平臺會統一處理兩份回復，變成格式一致的標準化純文本，以免用戶「認出」模型的回答風格。

最后，用戶對這兩個純文本輸出進行評估，并投票選出自己偏好的答案。

值得注意的是，SciArena的注意力主要集中于可橫向評估的「通用基礎模型」。

至于OpenAI Deep Research等定制型智能體或閉源研究系統，則不在平臺的考慮范疇內。

102位專家，13000票

要想評測準，數據必須信得過。

SciArena團隊對數據的把關嚴格得令人發指。

在平臺上線的前四個月里，他們收集了不同科研領域的102位專家的13000多次投票。

這102位專家絕非隨意參與的路人，而是科研一線的在讀研究生，人均手握兩篇以上論文。

而且，所有的標注員都接受了一小時的線上培訓，確保評價標準一致。

再加上盲評盲選機制，SciArena的每一條評估結果都有據可依。

在SciArena的高標準和嚴要求下，平臺的標注數據自我一致性極高（加權科恩系數κ=0.91），標注者間一致性也達到了較高水平（κ=0.76）。

這13000多次投票為SciArena平臺打下了值得信賴的評估基礎。

最強AI，猜不透科研人的心

在SciArena平臺上，研究團隊基于元評估基本集SciArena-Eval，測試了「模型評模型」的自動評估方法：

給一個評估模型一條科研問題和兩個模型的回答，讓它猜哪個更可能被人類選中。

結果很扎心。

哪怕是表現最好的o3模型，準確率也只有65.1%，而像Gemini-2.5-Flash和LLaMA-4系列，幾乎跟「擲硬幣選答案」的準確率差不多。

對比一下通用領域，像AlpacaEval、WildChat這些基準的評估模型，準確率都能跑到70%以上，相比之下，科研任務顯得難多了。

看來，「讓模型理解科研人的偏好」并非易事。

不過也不是全無亮點。

加入了推理能力的模型，在判斷答案優劣上普遍表現更好。

例如，o4-mini比GPT-4.1高出 2.9%，DeepSeek-R1也小勝自家模型DeepSeek-V3。

這說明，會推理的AI更懂科研問題的本質。

研究團隊表示，SciArena-Eval未來有望成為科研AI評估的「新標準」。

它能幫我們看清AI到底有沒有真正「讀懂」科研人的心思。

參考資料：

https://allenai.org/blog/sciarena

https://arxiv.org/pdf/2507.01001

https://the-decoder.com/sciarena-lets-scientists-compare-llms-on-real-research-questions/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

獎勵模型迎來預訓練時代!上海AI Lab、復旦POLAR,Scaling新范式

機器之心Pro 2025-07-10 12:55:25
0 跟貼 0
微軟研究院BioEmu登上Science，用生成式AI重塑蛋白質功能研究

機器之心Pro 2025-07-11 17:24:20
1 跟貼 1

一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0

“最強AI模型”Grok 4發布馬斯克稱超越人類的推理水平

經濟觀察報 2025-07-11 20:15:03
1 跟貼 1
傳統MVP模型不成立了，AI時代要更多預測剛需場景

量子位 2025-04-22 14:14:16
0 跟貼 0

物流業deepseek時刻，中國無人車火爆全球

華商韜略 2025-06-17 10:58:23
0 跟貼 0

逆天！被質疑造假后，作者竟將同行評審和頂刊雙雙告上法庭，要求賠償 7000 萬

生物學霸 2025-05-24 17:11:59
2 跟貼 2
我讀了 1000 篇文獻，卻想不出 1 個創新點......導師冷笑：別找了，先照貓畫虎

生物學霸 2025-07-06 17:10:12
2 跟貼 2

踏出"去美元化"第一步，東盟推動本幣結算機制，離亞元還有多遠？

閆樹軍論評 2025-07-10 07:00:00
1 跟貼 1
“天地與我并生，萬物與我唯一”還是相信科學最可靠

奔跑的貓咪 2025-07-10 12:07:45
0 跟貼 0
10 萬人調查顯示，新人獲得科研經費的訣竅是頻繁申請

生物學霸 2025-07-11 17:27:37
0 跟貼 0
"天堂島"總統來華尋根在族譜里看到自己名字驚喜萬分

上游新聞 2025-07-10 22:01:08
20273 跟貼 20273
男子往魚塘放冰塊降溫，每天損耗200多條魚

荔枝新聞 2025-07-11 10:38:56
676 跟貼 676
全球人才競爭背景下中法博士后制度比較研究

中國教育新聞網 2025-07-11 16:11:04
0 跟貼 0
28 名研究生，被退學處理

生物學霸 2025-07-11 17:28:31
2 跟貼 2
為了在論文中幫因讀博后而自殺的好友鳴不平，他不惜被眾多頂刊拒稿

生物學霸 2025-07-08 17:20:19
4 跟貼 4
有些東西，既然科學解釋不了的，那就信以為真吧！

詩晏 2025-07-11 08:58:09
0 跟貼 0
中國學者連發4篇Cell論文，登上Cell期刊封面

生物世界 2025-07-11 17:07:56
1 跟貼 1
新華全媒+｜我國科研人員在南海北部成功開展“無人集群”科考試驗

新華社 2025-07-10 15:42:16
0 跟貼 0
3109 萬大單：統一部署 DeepSeek、通義千問等

云頭條 2025-07-10 22:15:36
0 跟貼 0
再有人問為什么沒發論文，就把這條轉發給他

七七呼呼睡大覺 2025-07-10 23:54:24
0 跟貼 0
謝賽寧被爆論文里用提示詞求好評對抗AI審稿

量子位 2025-07-09 17:59:04
0 跟貼 0
科研人員首次在我國南沙群島永暑礁發現保護動物綠海龜

新華社 2025-07-10 09:51:32
0 跟貼 0
四十萬人在線吃瓜《他為什么換了導師》這篇論文

追星少女孫小寒 2025-07-11 18:09:27
0 跟貼 0
陳夢終于憋不住講大實話了！透露國乒大賽如何選人，公開內部機制

國足未贏夠 2025-07-09 12:53:32
3 跟貼 3
DeepSeek七條建議，讓孩子過一個充實、成長、有內容的暑假

男孩派 2025-07-11 11:24:50
0 跟貼 0
把280萬篇論文繪制成星空，探索知識最浪漫的方式之一

量子位 2025-05-20 18:25:54
0 跟貼 0
哈醫大腫瘤醫院師生在哈醫大首屆實驗室安全技能大賽中榮獲佳績

黑龍江網 2025-07-11 19:45:28
0 跟貼 0
科學的盡頭是神話！科學的盡頭是神話！

太吾車神 2025-07-10 12:39:29
1 跟貼 1
盛夏時節如何安全運動？如何科學、快速降溫？解答梳理↓

北青網-北京青年報 2025-07-11 19:23:29
1 跟貼 1
以書為媒啟智思以科為翼助成長

人民資訊 2025-07-11 18:11:23
0 跟貼 0
14所全球頂尖大學論文，竟暗藏AI好評指令

機器之心Pro 2025-07-02 20:27:59
0 跟貼 0
鄉村振興職稱評審大突破：不看論文看實績

職稱論文大助手 2025-07-11 09:00:00
0 跟貼 0
喜報｜長泰檢察1篇論文在這個全省主題研討會征文活動中獲獎！

漳州市長泰區人民檢察院 2025-07-11 19:09:40
0 跟貼 0
食安“童”守護活動，科學點亮青少年食品安全教育

上海靜安 2025-07-11 21:09:15
0 跟貼 0
人類群星論文閃耀時，探索arXiv星空，280萬篇論文浪漫集結

機器之心Pro 2025-05-21 17:16:15
0 跟貼 0
科技揭秘，礦山機械工作原理與大型重型設備技術解析

全球見聞筆記 2025-07-11 08:29:13
1 跟貼 1
美國專家徹底懵了！中國到底多發達，一場免簽震撼全球？

AI次世代 2025-07-09 21:13:36
4 跟貼 4
今年上半年，重慶新招收博士后469人

上游新聞 2025-07-11 17:36:08
0 跟貼 0
洞見未來十年！“集智”叢書：掌握產業話語權的必讀指南

通信世界 2025-07-11 19:25:50
0 跟貼 0

還沒來得及查，全美已經一搶而空…

還沒來得及查，全美已經一搶而空…

觀察者網

2025-07-11 14:17:17

嬰兒鉛中毒新進展：寶媽曝毒源，卻被老板威脅，內容堪比黑社會！

嬰兒鉛中毒新進展：寶媽曝毒源，卻被老板威脅，內容堪比黑社會！

閱微札記

2025-07-11 19:19:21

五年，十八個冤魂！2000年麻城市“8·30”稻田腐尸案偵破始末

五年，十八個冤魂！2000年麻城市“8·30”稻田腐尸案偵破始末

路之意

2025-07-11 08:10:01

【舊事】李肇星：金無怠是美國為反華編的，中國不認識這中國間諜

【舊事】李肇星：金無怠是美國為反華編的，中國不認識這中國間諜

年之父

2025-07-11 06:10:03

7億，折價48%！貝萊德斷貸的上海寫字樓，內資接盤了

7億，折價48%！貝萊德斷貸的上海寫字樓，內資接盤了

選址中國

2025-07-11 17:32:06

流落中國的外國公主，拒絕回國說：我是中國人，中國就是我的家

流落中國的外國公主，拒絕回國說：我是中國人，中國就是我的家

比利

2025-07-09 15:38:28

生完孩子后，我出軌的欲望非常強烈！（女性勿入）

生完孩子后，我出軌的欲望非常強烈！（女性勿入）

性學研究僧

2025-06-17 22:37:40

“水果姐”演都不演了！

下水道男孩

2025-07-10 19:45:06

東方集團三板已上市4天，每天僅漲1分，50萬股東要熬到什么時候？

東方集團三板已上市4天，每天僅漲1分，50萬股東要熬到什么時候？

小舟談歷史

2025-07-11 14:47:17

能攻善傳！丹尼斯16中8拿到26分4籃板9助攻2搶斷正負值+5

能攻善傳！丹尼斯16中8拿到26分4籃板9助攻2搶斷正負值+5

直播吧

2025-07-11 07:28:09

告訴爸媽別舍不得開空調！研究發現：溫度適當調低，能產生抑癌效果！

告訴爸媽別舍不得開空調！研究發現：溫度適當調低，能產生抑癌效果！

人民日報健康客戶端

2025-07-10 07:35:42

水拉生涯合同，29歲被交易5次，從頂薪到白菜合同，超模女友很美

水拉生涯合同，29歲被交易5次，從頂薪到白菜合同，超模女友很美

大西體育

2025-07-11 17:01:45

明天還有大到暴雨！下周沖37度

明天還有大到暴雨！下周沖37度

上海黃浦

2025-07-11 18:55:50

今晚見分曉！辛納會是現役第二位在溫網賽場擊敗德約的球員嗎？

今晚見分曉！辛納會是現役第二位在溫網賽場擊敗德約的球員嗎？

西門吹灰2020

2025-07-11 12:38:28

烏克蘭聲稱抓獲中國間諜，網友發現其在閑魚倒賣裝備

烏克蘭聲稱抓獲中國間諜，網友發現其在閑魚倒賣裝備

DoNews

2025-07-10 19:53:26

天水幼兒被下毒后續，官媒犀利發問要作案動機，句句說到網友心坎

天水幼兒被下毒后續，官媒犀利發問要作案動機，句句說到網友心坎

米果說識

2025-07-09 13:31:12

馬筱梅要帶倆孩子回北京了！小楊阿姨說，再給他們娘仨炸次油條吃

馬筱梅要帶倆孩子回北京了！小楊阿姨說，再給他們娘仨炸次油條吃

鑫鑫說說

2025-07-11 13:38:01

莊則棟臨終前照片，最放心不下日本妻子，如今妻子的選擇令人淚目

莊則棟臨終前照片，最放心不下日本妻子，如今妻子的選擇令人淚目

不寫散文詩

2025-07-05 00:23:34

溥儀的親妹妹，活到2004年，臨終前說了一句話讓所有人愣住了

溥儀的親妹妹，活到2004年，臨終前說了一句話讓所有人愣住了

大千世界觀

2025-06-14 17:30:09

打起來了，以色列被炸？20架戰機連夜出擊，美失聲，以總理要出國

打起來了，以色列被炸？20架戰機連夜出擊，美失聲，以總理要出國

阿七說史

2025-07-09 18:28:29

AI產業主平臺領航智能+時代

13041文章數 66093關注度

往期回顧全部

科技要聞

稚暉君神操作宇樹痛失"人形機器人第一股"

頭條要聞

媒體：王毅魯比奧首次會晤美方被指正安排特朗普訪華

頭條要聞

媒體：王毅魯比奧首次會晤美方被指正安排特朗普訪華

體育要聞

從無畏金蘭到薪火相傳，中國女籃新的花期來了

娛樂要聞

新聞聯播鏡頭下的宋佳面相變了

財經要聞

管濤：百年美元信用將崩塌？

汽車要聞

最便宜滿血版華為智駕和鴻蒙座艙嵐圖FREE+閉眼沖

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

房產

親子

家居

軍事航空

今日熱點：賈斯汀比伯回歸；宋佳回應獲獎感言出圈……

房產要聞

8大新盤曝光！2025下半場，廣州主城開卷廝殺！

親子要聞

哈哈哈

家居要聞

生活憧憬自由浪漫之境

美式簡約奢華不失優雅
好太太斬獲2025葵花獎四項大獎
以光為境國寶花園別墅

軍事要聞

俄羅斯對烏克蘭發動最大規模無人機襲擊

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：龙江县| 信丰县| 长汀县| 瑞金市| 株洲县| 连南| 凤阳县| 微博| 绥宁县| 蓝山县| 神木县| 方正县| 勐海县| 罗定市| 贺州市| 孟州市| 武宁县| 顺昌县| 苏州市| 衡阳县| 平遥县| 三原县| 田东县| 高邮市| 赞皇县| 绥江县| 台山市| 杭州市| 仁布县| 江安县| 福清市| 津南区| 叙永县| 交口县| 镇康县| 桃源县| 临夏市| 天门市| 大宁县| 南部县| 大兴区|

<cite id="niasp"><track id="niasp"></track></cite>

<cite id="niasp"></cite>

<sub id="niasp"><p id="niasp"></p></sub>

<s id="niasp"></s>

<blockquote id="niasp"><i id="niasp"><video id="niasp"></video></i></blockquote>