99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

北大物院200人合作,金牌得主超50人!大模型究竟能不能懂物理?

0
分享至




本項(xiàng)目由北京大學(xué)物理學(xué)院朱華星老師、曹慶宏副院長(zhǎng)統(tǒng)籌指導(dǎo)?;鶞?zhǔn)設(shè)計(jì)、項(xiàng)目管理以及數(shù)據(jù)整合的主要工作由學(xué)生核心團(tuán)隊(duì)完成,核心成員包括仇是、郭紹陽(yáng)、宋卓洋、孫韞博、蔡則宇、衛(wèi)家燊、羅天宇等。項(xiàng)目還得到了北京大學(xué)計(jì)算中心羅民興院士和人工智能研究院張牧涵老師的鼎力支持。

PHYBench 項(xiàng)目匯聚了來(lái)自物理學(xué)院及兄弟院系的 200 余名學(xué)生,共同承擔(dān)題目編寫(xiě)、審核及人類(lèi)基準(zhǔn)測(cè)試等工作。這支高水平的參與者團(tuán)隊(duì)中,包含至少 50 位全國(guó)中學(xué)生物理競(jìng)賽金牌得主,更有亞洲物理奧賽和國(guó)際物理奧賽的金牌獲得者。這場(chǎng)大規(guī)模、高質(zhì)量的協(xié)作,不僅充分展現(xiàn)了北大學(xué)子深厚的學(xué)術(shù)功底和卓越的組織協(xié)調(diào)能力,也為 PHYBench 產(chǎn)出高質(zhì)量成果提供了堅(jiān)實(shí)保障。

在大語(yǔ)言模型(LLMs)飛速發(fā)展的當(dāng)下,模型的推理能力儼然成為模型能力的代名詞。OpenAI 的 o 系列、DeepSeek R1 等前沿模型相繼發(fā)布,這些大模型憑借強(qiáng)化學(xué)習(xí)技術(shù)的助力,在許多科學(xué)評(píng)測(cè)基準(zhǔn)上頻頻刷新紀(jì)錄,甚至聲稱(chēng) “超越人類(lèi)專(zhuān)家”。

但是,隨著模型能力和評(píng)測(cè)基準(zhǔn)的軍備競(jìng)賽白熱化,越來(lái)越多的基準(zhǔn)不得不轉(zhuǎn)向生僻的知識(shí)點(diǎn)、或者抽象的數(shù)學(xué)競(jìng)賽題。這些題目雖然能 “區(qū)分” 模型,但是逐漸脫離實(shí)際場(chǎng)景,可能難以真正反映模型的實(shí)際表現(xiàn)。

近日,北京大學(xué)物理學(xué)院聯(lián)合人工智能研究院等多個(gè)院系,推出了全新評(píng)測(cè)基準(zhǔn) PHYBench。PHYBench 包含 500 道經(jīng)過(guò)精心設(shè)計(jì)的高質(zhì)量物理題(如圖 1),難度橫跨高中物理、大學(xué)物理以及物理奧林匹克競(jìng)賽。這些題目以真實(shí)的物理場(chǎng)景為基礎(chǔ),對(duì)人類(lèi)來(lái)說(shuō)并不抽象,卻把一眾大模型考得七零八落。大模型在解決物理題時(shí)的思維鏈也暴露了它們?cè)?strong>感知(Perception)和推理(Reasoning)能力上的缺陷。



  • 論文鏈接:https://arxiv.org/abs/2504.16074
  • 項(xiàng)目網(wǎng)址:https://phybench-official.github.io/phybench-demo/
  • 數(shù)據(jù)集:https://huggingface.co/datasets/Eureka-Lab/PHYBench

也許,物理才是最適合考察 AI 推理能力的學(xué)科?PHYBench 的嘗試為評(píng)估大模型真正有效的推理能力提供了全新的工具和視角。



圖 1:題目樣例與兩種評(píng)估方法:表達(dá)式樹(shù)編輯距離、正確率。



表 1:與現(xiàn)有 benchmark 對(duì)比,PHYBench 在高難度數(shù)據(jù)集中,有著相對(duì)大的規(guī)模,同時(shí)引入了創(chuàng)新的分?jǐn)?shù)度量:表達(dá)式樹(shù)編輯距離。

評(píng)測(cè)方法創(chuàng)新

表達(dá)式樹(shù)編輯距離(EED Score)

傳統(tǒng)基準(zhǔn)通常依賴(lài) Accuracy 這一單一指標(biāo):設(shè)置唯一正確答案,模型只有在完全匹配時(shí)才能得分。為了方便評(píng)分,問(wèn)答題通常被改寫(xiě)成選擇題或要求代入數(shù)值。這樣會(huì)導(dǎo)致答案的信息量被嚴(yán)重壓縮,而且給出過(guò)多條件可能導(dǎo)致模型 “根據(jù)選項(xiàng)猜過(guò)程”,或者缺乏使用解析表達(dá)式表達(dá)普適關(guān)系的能力。同時(shí)在高難度的樣本上,0/1 打分會(huì)使得所有模型在分?jǐn)?shù)層面都被歸零,強(qiáng)弱差異無(wú)從體現(xiàn)。

EED Score(Expression?tree Edit Distance)帶來(lái)了更貼近人類(lèi)閱卷的方案。它將數(shù)學(xué)表達(dá)式解析成表達(dá)式樹(shù),再計(jì)算模型答案與參考答案之間的編輯距離:樹(shù)的結(jié)構(gòu)越接近,得分越高。這一機(jī)制輸出的是連續(xù)、細(xì)粒度的分?jǐn)?shù),能在更多題目上顯示區(qū)分度,顯著提高了統(tǒng)計(jì)效力。

實(shí)驗(yàn)表明,采用 EED Score 的 500 題,其區(qū)分能力相當(dāng)于 1500 道使用 0/1 Accuracy 的題目。上圖(圖 1)展示了同一道題三種不同答案在 Accuracy 與 EED Score 下的對(duì)比:前者只能給出 “全錯(cuò) / 全對(duì)” 的粗糙評(píng)價(jià),而后者則定量刻畫(huà)了模型解答與正確答案之間的 “距離”。

實(shí)驗(yàn)結(jié)果

前沿模型與人類(lèi)專(zhuān)家的差距

PHYBench 團(tuán)隊(duì)招募了 81 名北大學(xué)子,在 3 小時(shí)時(shí)限內(nèi)做 8 道題目,與最先進(jìn)的 AI 模型展開(kāi)了一場(chǎng) "人機(jī)大戰(zhàn)"。

結(jié)果顯示,即使是最強(qiáng)的 Gemini 2.5 pro,也只能答對(duì) 36.9% 的題目,EED 評(píng)分 49.5%。而 “人類(lèi)專(zhuān)家” 們則輕松碾壓,平均正確率高達(dá) 61.9%,EED 評(píng)分高達(dá) 70.5%。排名前 25% 的受試者更是達(dá)到了 71.4% 的正確率 —— 幾乎是最強(qiáng) AI 的兩倍。其他模型與人類(lèi)的差距則更為顯著。這一顯著差距揭示了現(xiàn)階段 LLM 在在物理推理場(chǎng)景中的瓶頸。



PHYBench 對(duì)模型的能力也進(jìn)行了細(xì)粒度的對(duì)比??梢钥吹?,Gemini 2.5 pro、o3 等強(qiáng)推理模型雖然和人類(lèi)還有較大差距,但是相比前代推理模型已經(jīng)有了明顯的進(jìn)步。DeepSeek-V3 等基座模型雖未能超越主流推理模型,但也展現(xiàn)出了亮眼的成績(jī)。QwQ-32B 和 DeepSeek32B 蒸餾模型等小型推理模型在 PHYBench 上的表現(xiàn)很令人失望,這可能歸因于其物理感知能力的不足。

基于思維鏈的錯(cuò)因分析:PP × RR

PHYBench 團(tuán)隊(duì)對(duì)模型的錯(cuò)誤進(jìn)行了系統(tǒng)性總結(jié)分析,將模型的推理過(guò)程和推理能力劃分為了兩個(gè)關(guān)鍵模塊:物理感知(Physical Perception,PP)和魯棒推理(Robust Reasoning,RR):



  • 物理感知(PP):在此階段,模型進(jìn)行密集的文字推理,模型需要識(shí)別問(wèn)題相關(guān)的物理對(duì)象、變量和動(dòng)力學(xué)關(guān)系,定性判斷哪些物理效應(yīng)是重要的,哪些可以忽略不計(jì)。若 PP 出錯(cuò),后續(xù)整個(gè)推理都會(huì)偏離軌道。(示例 1 展示典型 PP 失誤)
  • 魯棒推理(RR):在此階段,模型寫(xiě)下大量的 “草稿”,一步步化簡(jiǎn)表達(dá)式,解方程。現(xiàn)階段的推理模型在此階段的推理效率尚不高,“草稿” 長(zhǎng)度遠(yuǎn)長(zhǎng)于人類(lèi),而且經(jīng)常犯 “低級(jí)錯(cuò)誤”。(示例 2 展示典型 RR 失誤)

PP 和 RR 交替進(jìn)行,組成了典型的物理解題思維鏈。



未來(lái)展望

推動(dòng) AI 的物理理解與推理能力發(fā)展

PHYBench 的愿景遠(yuǎn)不止于 “評(píng)測(cè)”,更在于 “引領(lǐng)” AI 探索物理世界的無(wú)限可能。

PHYBench 的發(fā)布,不僅為評(píng)估大語(yǔ)言模型在物理感知與推理方面的能力提供了一個(gè)全新且權(quán)威的基準(zhǔn),更為未來(lái) AI 系統(tǒng)的發(fā)展指明了攻堅(jiān)方向。我們精心設(shè)計(jì)的真實(shí)、復(fù)雜的物理場(chǎng)景,旨在深度激發(fā)并驗(yàn)證 AI 理解世界并進(jìn)行可靠推理的能力,推動(dòng) AI 系統(tǒng)真正實(shí)現(xiàn)對(duì)世界的認(rèn)知、融入與變革。

面向未來(lái),PHYBench 團(tuán)隊(duì)將持續(xù)致力于數(shù)據(jù)集的拓展與創(chuàng)新,計(jì)劃納入更多前沿物理課題、跨學(xué)科交叉內(nèi)容,甚至挑戰(zhàn)人類(lèi)尚未解開(kāi)的科學(xué)謎題。我們相信,通過(guò)提供更具深度和廣度的物理挑戰(zhàn),PHYBench 將有力催化 AI 向著突破認(rèn)知邊界、探索未知領(lǐng)域的 “智能伙伴” 或 “超級(jí)助手” 發(fā)展。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
NBA季后賽懸念不大,8強(qiáng)誕生7席,還有一組搶七大戰(zhàn),勇士要出局

NBA季后賽懸念不大,8強(qiáng)誕生7席,還有一組搶七大戰(zhàn),勇士要出局

毒舌NBA
2025-05-04 11:08:06
妖星傷心落淚!巴薩6分鐘精彩逆轉(zhuǎn),名記吐槽:為什么MVP是他?

妖星傷心落淚!巴薩6分鐘精彩逆轉(zhuǎn),名記吐槽:為什么MVP是他?

話(huà)體壇
2025-05-04 05:47:55
汪小菲妻子海量不雅照曝光,穿著大膽疑整容,父母真實(shí)職業(yè)曝光

汪小菲妻子海量不雅照曝光,穿著大膽疑整容,父母真實(shí)職業(yè)曝光

鑫鑫說(shuō)說(shuō)
2025-05-04 10:24:10
馬英九:若大陸統(tǒng)一臺(tái)灣的手段不和平,過(guò)程不民主,臺(tái)灣人不接受

馬英九:若大陸統(tǒng)一臺(tái)灣的手段不和平,過(guò)程不民主,臺(tái)灣人不接受

紅色鑒史官
2025-04-11 20:15:02
工地男子和女人同居4年,工程款結(jié)算離開(kāi)時(shí)她攔下男子:該給錢(qián)了

工地男子和女人同居4年,工程款結(jié)算離開(kāi)時(shí)她攔下男子:該給錢(qián)了

荔枝人物記
2025-05-01 15:40:12
僅一夜,再見(jiàn)詹姆斯,湖人三方交易出爐,這讓其他隊(duì)怎么打

僅一夜,再見(jiàn)詹姆斯,湖人三方交易出爐,這讓其他隊(duì)怎么打

青山隱隱啊
2025-05-03 10:08:44
中國(guó)不宰游客的六座城市,游客幾乎零差評(píng)!70歲前一定要去一次!

中國(guó)不宰游客的六座城市,游客幾乎零差評(píng)!70歲前一定要去一次!

背包旅行
2025-03-22 06:05:27
3年1.9億頂薪,只能賣(mài)老大!季后賽首支解散隊(duì),連擺爛都沒(méi)資格

3年1.9億頂薪,只能賣(mài)老大!季后賽首支解散隊(duì),連擺爛都沒(méi)資格

夕落秋山
2025-05-04 08:57:29
人社部定調(diào)!2025退休“雙延長(zhǎng)”,1965-1978年的開(kāi)心了

人社部定調(diào)!2025退休“雙延長(zhǎng)”,1965-1978年的開(kāi)心了

晨曦徐徐
2025-03-31 10:27:48
現(xiàn)在國(guó)內(nèi)外貿(mào)行業(yè)達(dá)成了一個(gè)三不做的共識(shí)

現(xiàn)在國(guó)內(nèi)外貿(mào)行業(yè)達(dá)成了一個(gè)三不做的共識(shí)

清暉有墨
2025-05-02 18:56:44
巴基斯坦果然聰明:不全靠中國(guó),喊話(huà)另4大國(guó)介入,莫迪不敢動(dòng)了

巴基斯坦果然聰明:不全靠中國(guó),喊話(huà)另4大國(guó)介入,莫迪不敢動(dòng)了

起喜電影
2025-05-04 11:18:16
莫迪瘋了!印巴大戰(zhàn)已經(jīng)開(kāi)打,南亞要炸鍋了?

莫迪瘋了!印巴大戰(zhàn)已經(jīng)開(kāi)打,南亞要炸鍋了?

大嘴說(shuō)天下
2025-05-01 22:44:25
小沈陽(yáng)五一在劉老根演出,和趙本山兒子同框好帥,沒(méi)離開(kāi)本山傳媒

小沈陽(yáng)五一在劉老根演出,和趙本山兒子同框好帥,沒(méi)離開(kāi)本山傳媒

鄭丁嘉話(huà)
2025-05-04 11:50:28
山寨霆鋒入場(chǎng)支持真謝霆鋒演唱會(huì),粉絲都認(rèn)錯(cuò)誤當(dāng)本尊經(jīng)過(guò)

山寨霆鋒入場(chǎng)支持真謝霆鋒演唱會(huì),粉絲都認(rèn)錯(cuò)誤當(dāng)本尊經(jīng)過(guò)

粵睇先生
2025-05-03 14:33:07
中美關(guān)稅戰(zhàn),打出大功臣

中美關(guān)稅戰(zhàn),打出大功臣

叮當(dāng)當(dāng)科技
2025-05-03 09:45:01
“金城武44歲狀態(tài)”上熱搜!眼睛如星空銀河

“金城武44歲狀態(tài)”上熱搜!眼睛如星空銀河

魯中晨報(bào)
2025-04-14 22:43:04
終破魔咒,約基奇生涯首次淘汰常規(guī)賽50+勝場(chǎng)球隊(duì),此前5戰(zhàn)0勝

終破魔咒,約基奇生涯首次淘汰常規(guī)賽50+勝場(chǎng)球隊(duì),此前5戰(zhàn)0勝

懂球帝
2025-05-04 10:26:38
新王加冕!吉達(dá)國(guó)民2-0川崎 3進(jìn)決賽終首次奪得亞冠冠軍 菲米2助

新王加冕!吉達(dá)國(guó)民2-0川崎 3進(jìn)決賽終首次奪得亞冠冠軍 菲米2助

我愛(ài)英超
2025-05-04 02:52:20
中方走了一步妙棋,事前沒(méi)有半點(diǎn)風(fēng)聲?

中方走了一步妙棋,事前沒(méi)有半點(diǎn)風(fēng)聲?

領(lǐng)英前沿
2025-05-04 06:00:05
賈平凹 :人老了,躺在病床上才明白,廢掉身體最快速的方式,不是抽煙、喝酒、打麻將,而是這2件事

賈平凹 :人老了,躺在病床上才明白,廢掉身體最快速的方式,不是抽煙、喝酒、打麻將,而是這2件事

感覺(jué)會(huì)火
2025-02-18 12:12:18
2025-05-04 12:31:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
10436文章數(shù) 142301關(guān)注度
往期回顧 全部

教育要聞

【紅色青春守護(hù)人】跨越時(shí)空的畫(huà)筆

頭條要聞

牛彈琴:武契奇被公開(kāi)警告后突然發(fā)病 或不參加俄閱兵

頭條要聞

牛彈琴:武契奇被公開(kāi)警告后突然發(fā)病 或不參加俄閱兵

體育要聞

北京請(qǐng)神馬布里?許利民真有“玄學(xué)”!

娛樂(lè)要聞

55歲王菲跟“李亞鵬時(shí)期”完全不同!

財(cái)經(jīng)要聞

一個(gè)時(shí)代的結(jié)束!巴菲特年底將卸任

科技要聞

新勢(shì)力車(chē)企,誰(shuí)領(lǐng)先?誰(shuí)危險(xiǎn)?

汽車(chē)要聞

小米SU7大優(yōu)惠!5月限時(shí)購(gòu)車(chē)權(quán)益送輔助駕駛

態(tài)度原創(chuàng)

藝術(shù)
本地
旅游
數(shù)碼
家居

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

本地新聞

春色滿(mǎn)城關(guān)不住 | 花漾千陽(yáng)!塬上秘境藏幾重詩(shī)意?

旅游要聞

熱聞|清明假期將至,熱門(mén)目的地有哪些?

數(shù)碼要聞

首次!芝奇展示128GB DDR5-8400 CL44豪華內(nèi)存

家居要聞

意式輕奢 低飽和質(zhì)感美學(xué)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 神池县| 潍坊市| 湖南省| 彭水| 六盘水市| 拉萨市| 贞丰县| 阳谷县| 读书| 紫云| 井陉县| 平山县| 奇台县| 长岛县| 遂昌县| 安阳市| 竹溪县| 信宜市| 登封市| 乐平市| 宁化县| 全椒县| 绥化市| 根河市| 沙河市| 子洲县| 义乌市| 肥乡县| 五峰| 洪雅县| 许昌市| 寿光市| 微博| 会泽县| 郑州市| 博湖县| 江门市| 铁岭县| 高台县| 庆云县| 武山县|