99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

北大出手,物理學(xué)院天才們教AI「做人」!PHYBench成大模型物理能力試金石

0
分享至


新智元報(bào)道

編輯:定慧

【新智元導(dǎo)讀】在「學(xué)」與「思」之間,AI需要跨越的不只是算力的堆砌。北大物理學(xué)院聯(lián)合多個(gè)院系,推出了首個(gè)專注于物理感知與推理能力的大模型基準(zhǔn)——PHYBench。首次系統(tǒng)性揭示了當(dāng)前大語言模型在理解物理世界時(shí)的巨大短板。

學(xué)而不思則罔,思而不學(xué)則殆。

——《論語》

如果說大模型的訓(xùn)練是「學(xué)」的過程,那么各種基準(zhǔn)測(cè)試就是大模型停下來「思」的片刻。

現(xiàn)在模型訓(xùn)練需要的算力和電量已經(jīng)遠(yuǎn)超碳基人類的范疇,AI的學(xué)習(xí)只需要更多的卡和更多的電。


AI學(xué)習(xí)不成問題,但是AI能「思」嗎?

但是對(duì)于AI的評(píng)估,似乎有些「迷惘」——AI的基準(zhǔn)測(cè)試到底應(yīng)該如何設(shè)計(jì)才能體現(xiàn)模型真正的能力?


來自datalearner.com上AI評(píng)測(cè)基準(zhǔn),只是一些還有很多

像DeepSeek-R1和OpenAI-o3等推理模型展現(xiàn)了復(fù)雜推理能力,這些推理模型能夠理解、建模并回答奧林匹克級(jí)別的難題。

但是目前的這些基準(zhǔn)有點(diǎn)像是「為了考試而考試」制作的考卷,AI們只需要在特定的數(shù)據(jù)集上完成訓(xùn)練,就可以做一個(gè)高分的考生。

這就像從學(xué)校走向社會(huì)的高分考生,不一定能從象牙塔一下子適應(yīng)到外部社會(huì)的弱肉強(qiáng)食。

既然AI的能力需要輻射到現(xiàn)實(shí)生活,那么也許一個(gè)針對(duì)「物理」的評(píng)測(cè)指標(biāo)是不是更能驗(yàn)證AI的現(xiàn)實(shí)可用性?

最近,由北大物理學(xué)院、人工智能研究院、計(jì)算科學(xué)研究中心、集成電路學(xué)院和元培學(xué)院共同組成的「天團(tuán)」,推出了一個(gè)用于評(píng)估大語言模型在物理情境中的推理能力的高質(zhì)量基準(zhǔn)——PHYBench。

值得一提的是,這其中有很多人都是物理競(jìng)賽金牌得主。


論文地址:https://arxiv.org/abs/2504.16074

具體來說,PHYBench包含500個(gè)精心挑選的基于現(xiàn)實(shí)的物理問題。

涵蓋了力學(xué)、電磁學(xué)、熱力學(xué)、光學(xué)、現(xiàn)代物理學(xué)和高級(jí)物理學(xué)等領(lǐng)域,難度從高中習(xí)題到大學(xué)生問題,再到物理奧林匹克挑戰(zhàn)題目不等。

有沒有想起被高中物理支配的恐懼?

如何評(píng)價(jià)一個(gè)評(píng)測(cè)基準(zhǔn)到底好與壞,適合與不適合?這里引用北大團(tuán)隊(duì)的一句話最為適合不過。

基準(zhǔn)測(cè)試不會(huì)神化或貶低模型;它們引導(dǎo)人類和AI共同朝著AGI前進(jìn)。

先來看下目前的推理基準(zhǔn)通常會(huì)有的三個(gè)問題:

1. 過度簡化的推理任務(wù):隨著模型性能越來越高,現(xiàn)有的基準(zhǔn)已經(jīng)不再足夠。

2. 過度抽象的問題:雖然現(xiàn)有的基準(zhǔn)測(cè)試通過抽象或建模建立了足夠的推理難度,但它們往往缺乏物理現(xiàn)實(shí)和實(shí)際應(yīng)用的基礎(chǔ)。說人話就是,評(píng)測(cè)太抽象冷門,現(xiàn)實(shí)里大概率遇不到,通過了可能也無法指導(dǎo)現(xiàn)實(shí)。

3. 缺乏精確的評(píng)估指標(biāo):當(dāng)前的自動(dòng)化評(píng)估方法在捕捉復(fù)雜推理的細(xì)微方面仍然不足。簡單說就是,評(píng)測(cè)結(jié)果不能簡單的分段,最好是能具體到1-100比較精確的分?jǐn)?shù)。

PHYBench就是為了解決這些問題,PHYBench涵蓋了物理學(xué)中的多個(gè)領(lǐng)域,使用明確定義的物理表達(dá)式作為答案。

這確保了對(duì)模型的物理感知和穩(wěn)健推理能力的準(zhǔn)確評(píng)估。

基于策劃的數(shù)據(jù)集,進(jìn)一步提出了表達(dá)式編輯距離(EED)得分,這是一種利用樹表達(dá)式和編輯距離的自動(dòng)、細(xì)粒度的評(píng)估指標(biāo),展示了LLMs給出的表達(dá)式與真實(shí)值之間的「接近」程度。


來自 PHYBench的一個(gè)示例問題。使用兩個(gè)主要指標(biāo)來評(píng)估模型性能:表達(dá)式編輯距離(EED)得分和準(zhǔn)確率。

上圖展示了三個(gè)不同回答的得分,其中答案1和模型答案2分別由DeepSeek-R1和GPT-4o生成。

除了評(píng)估語言模型外,北大團(tuán)隊(duì)還通過招募北京大學(xué)的物理系本科生來解決相同的問題,建立了人類水平基線(這水平有點(diǎn)高了)。

結(jié)果顯示,機(jī)器和人類的能力之間存在顯著的性能差距。

即使是最先進(jìn)的LLM——Gemini 2.5 Pro——也僅達(dá)到了36.9%的準(zhǔn)確率,遠(yuǎn)低于人類基線的61.9%。

PHYBench基準(zhǔn)測(cè)試

PHYBench的每道題目都基于一個(gè)具體的物理情景,要求模型根據(jù)給定條件推導(dǎo)出關(guān)鍵物理量的符號(hào)表達(dá)式。

所有問題都有明確的標(biāo)準(zhǔn)答案,且均可通過物理原理獨(dú)立求解,無需依賴外部知識(shí)。

真正的挑戰(zhàn)在于,模型需要能根據(jù)文本描述準(zhǔn)確構(gòu)建空間和相互作用關(guān)系,選擇性地應(yīng)用多條物理定律和定理,并在動(dòng)態(tài)系統(tǒng)的演化與相互作用中進(jìn)行復(fù)雜計(jì)算。

此外,大多數(shù)題目都涉及長鏈推理,模型必須在多步推導(dǎo)中剔除無關(guān)的物理作用和排除不合理的代數(shù)解,以避免計(jì)算復(fù)雜度急劇上升。

不同于以往注重高強(qiáng)度推理或窮舉搜索空間的基準(zhǔn)測(cè)試,PHYBench更加注重真實(shí)物理場(chǎng)景中的逐步感知與推理能力。

簡單地說,就是希望LLMs像人一樣進(jìn)行邏輯推理,而不是類似「鳥槍法」的暴力解法。

數(shù)據(jù)集整理

PHYBench基準(zhǔn)測(cè)試題目改編自面向人類的物理練習(xí)題,難度涵蓋高中至大學(xué)物理競(jìng)賽水平。

邀請(qǐng)了來自北京大學(xué)物理學(xué)院的178名學(xué)生參與題目的貢獻(xiàn)與打磨。


上圖展示了數(shù)據(jù)整理的流程。數(shù)據(jù)來源包括非公開和公開的問題,這些題目無法通過直接的網(wǎng)絡(luò)搜索或常規(guī)參考資料輕松獲得。

在改編過程中,每一道題目都被視為一個(gè)具體的物理情景。整理人員會(huì)確定一個(gè)核心物理量作為目標(biāo)變量,并設(shè)計(jì)問題,要求解題者根據(jù)給定條件推導(dǎo)出該物理量的符號(hào)表達(dá)式。

隨后,每道題目都會(huì)經(jīng)過多輪審核、篩選和打磨。首先,所有題目會(huì)被存入內(nèi)部平臺(tái)托管的題庫中。接著,這些題目會(huì)分配給審閱人員進(jìn)行評(píng)估。

審閱人員檢查題目是否符合上述標(biāo)準(zhǔn),如有不符合的地方會(huì)進(jìn)行修改,必要時(shí)退回給原作者進(jìn)一步編輯。

在審核過程中,內(nèi)部平臺(tái)會(huì)展示多種大語言模型(LLM)生成的解答,供審閱人員參考,以判斷題目是否表述清晰、全面,并根據(jù)需要調(diào)整描述,直到不會(huì)再引發(fā)理解上的歧義。

一旦題目獲得審閱人員批準(zhǔn)并附上評(píng)語,就會(huì)進(jìn)入審閱者題庫。

題目進(jìn)入審閱者題庫后,還會(huì)經(jīng)過多輪模型測(cè)試。

通過觀察模型生成的答案,判斷題目是否能促使模型產(chǎn)生符合標(biāo)準(zhǔn)的解答。

同時(shí),使用GPT-4o對(duì)題目的語法和格式進(jìn)行檢查。根據(jù)模型測(cè)試的結(jié)果,會(huì)反復(fù)修訂題目,直到所有題目的輸出結(jié)果完全符合基準(zhǔn)測(cè)試的格式要求。

最后,邀請(qǐng)了109位人類專家參與解題。

他們進(jìn)一步評(píng)估題目的表述是否恰當(dāng),并根據(jù)專家反饋對(duì)題目進(jìn)行最終的細(xì)致打磨。

評(píng)估指標(biāo)

正如最開始介紹,PHYBench使用了兩個(gè)指標(biāo),其中一個(gè)叫做表達(dá)式編輯距離得分(EED Score),另一個(gè)是準(zhǔn)確率比較好理解。

EED Score是一種自動(dòng)化、無需模型輔助的評(píng)估指標(biāo),用來判斷AI生成解答的正確性。

EED Score通過計(jì)算兩個(gè)符號(hào)表達(dá)式的表達(dá)式樹編輯距離來評(píng)估它們的相似性。

所謂表達(dá)式樹編輯距離,指的是將一個(gè)樹狀結(jié)構(gòu)的表達(dá)式變換成另一個(gè)所需的最少節(jié)點(diǎn)級(jí)別編輯操作次數(shù)(包括插入、刪除和更新)。


比如Answer 1中,大模型給出的答案和正確答案只差了一個(gè)系數(shù)。

而Answer 2中,和標(biāo)準(zhǔn)答案差的比較多,所以EED score要明顯低于第一個(gè)答案。

選擇使用EED Score而非傳統(tǒng)的二分類評(píng)分,主要是為了更細(xì)致地反映模型解答的正確程度。

即便生成的答案存在一些小的計(jì)算錯(cuò)誤或系數(shù)偏差,也能體現(xiàn)出模型對(duì)物理原理的部分理解,而不是完全錯(cuò)誤。

模型實(shí)驗(yàn)

有了基準(zhǔn),就來看下各個(gè)模型的表現(xiàn)。

在PHYBench基準(zhǔn)上測(cè)試了一系列不同類型的模型,包括最先進(jìn)的模型和一些廣泛應(yīng)用或具有代表性的模型。

在基于API的評(píng)估中,選取了GPT-4o、o1、Gemini 2.0 Flash Thinking、DeepSeek-V3、DeepSeek-R1、Qwen2.5-max、o3-mini、Grok 3 Beta、Claude 3.7 Sonnet、Claude 3.7 Sonnet Thinking、Gemini 2.5 pro、o4-mini和o3。

其余模型DeepSeek-R1-Distill-Qwen-32B和QwQ-32B則在本地進(jìn)行評(píng)估。

人類基線

招募了來自北京大學(xué)物理學(xué)院的81名學(xué)生,每人解答了8道取自PHYBench數(shù)據(jù)集的問題。

總共收集到了559份有效答卷,這些答卷對(duì)應(yīng)于公開發(fā)布的PHYBench數(shù)據(jù)集范圍內(nèi)的問題。

人類答題的平均準(zhǔn)確率為61.9±2.1%,EED分?jǐn)?shù)為70.4±1.8,這里的不確定性是通過10,000次重采樣獲得的自助法標(biāo)準(zhǔn)誤。

在99%的置信水平下,專家組在兩個(gè)指標(biāo)上均明顯優(yōu)于所有被評(píng)估的LLM。

此外,人類成績分布的上四分位數(shù)達(dá)到了71.4%的準(zhǔn)確率和80.4的EED分?jǐn)?shù)。

主要結(jié)果

在PHYBench數(shù)據(jù)集上評(píng)估了多個(gè)模型,它們的準(zhǔn)確率和EED分?jǐn)?shù)可視化展示在下圖。


結(jié)果表明,即使是最先進(jìn)的推理模型,在物理推理任務(wù)中的表現(xiàn)仍然有限。

表現(xiàn)最好的模型是Gemini 2.5 pro,其準(zhǔn)確率為36.9%,EED分?jǐn)?shù)為49.5,仍然明顯低于人類基線。

這種差距凸顯了基準(zhǔn)測(cè)試的高度復(fù)雜性。

值得注意的是,盡管專門為推理設(shè)計(jì)的模型整體上優(yōu)于通用語言模型,但一些近期發(fā)布的通用模型,如 DeepSeek-V3、GPT-4.1 和 Claude 3.7 Sonnet,也表現(xiàn)出具有競(jìng)爭力的成績,準(zhǔn)確率分別達(dá)到 13.6%、12.9% 和 13.2%。

此外,32B參數(shù)的模型,包括DeepSeek-Distill-32B和QwQ-32B,在PHYBench上的表現(xiàn)明顯較弱,準(zhǔn)確率分別只有2.6%和1.2%,EED分?jǐn)?shù)分別為4.5和3.2,這與它們?cè)谄渌鶞?zhǔn)測(cè)試中的強(qiáng)勁表現(xiàn)形成了鮮明對(duì)比。


各模型在不同領(lǐng)域的平均原始得分。(縮寫:ALL=所有問題;Mech.=力學(xué);Elec.=電學(xué);Thmo.=熱力學(xué);Opt.=光學(xué);Mod.=近代物理;Adv.=高級(jí)內(nèi)容)

大模型在PHYBench上表現(xiàn)不佳,可能歸因于任務(wù)具有長推理鏈特性或?qū)ξ锢碇庇X的挑戰(zhàn),這些超出了傳統(tǒng)快速問答(QA)設(shè)置的能力范圍。

在數(shù)據(jù)集上采用了準(zhǔn)確率和EED分?jǐn)?shù)兩種評(píng)估指標(biāo)。

雖然這兩種指標(biāo)在模型排序上幾乎一致,但EED分?jǐn)?shù)提供了更廣泛的數(shù)值分布和更小的統(tǒng)計(jì)不確定性。

分析顯示,EED指標(biāo)在樣本效率上平均提升了304%,標(biāo)準(zhǔn)差為80%。

換句話說,使用EED指標(biāo)評(píng)估500道題目的效果,相當(dāng)于用準(zhǔn)確率指標(biāo)評(píng)估約1500道題目的區(qū)分能力。

這種提升使得模型性能之間的差異可以更加可靠地體現(xiàn)出來。


不同領(lǐng)域下的模型性能

為了更清晰地展示各模型在不同領(lǐng)域的相對(duì)優(yōu)勢(shì),引入了兩個(gè)指標(biāo):絕對(duì)優(yōu)勢(shì)相對(duì)優(yōu)勢(shì)

值得注意的是,相對(duì)優(yōu)勢(shì)是在對(duì)領(lǐng)域平均分進(jìn)行歸一化之后計(jì)算的,這樣可以減小某些低分問題對(duì)整體結(jié)果的不成比例影響。

進(jìn)一步分析了模型在不同物理領(lǐng)域下的得分分布情況,在細(xì)分的領(lǐng)域中:

  • 力學(xué):主要考察空間推理和對(duì)動(dòng)態(tài)過程的理解;

  • 電磁學(xué):評(píng)估模型理解場(chǎng)分布與空間劃分的能力;

  • 熱力學(xué):測(cè)試模型在多物理場(chǎng)交互和復(fù)雜過程理解方面的水平;

  • 光學(xué):同樣強(qiáng)調(diào)空間推理能力;

  • 近代與高等物理:則需要模型具備對(duì)復(fù)雜物理概念的深入理解與應(yīng)用能力。

通過分析發(fā)現(xiàn),傳統(tǒng)模型(如GPT-4o)在力學(xué)領(lǐng)域的表現(xiàn)相對(duì)較差,這可能是因?yàn)樗鼈冊(cè)谏婕叭S幾何和動(dòng)態(tài)過程的數(shù)據(jù)上訓(xùn)練不足。

專注于推理能力的模型(如o1和QwQ-32B)在力學(xué)領(lǐng)域表現(xiàn)較好。

熱力學(xué)問題通常涉及多步推理和復(fù)雜過程分析,在這里,推理型模型與非推理型模型之間的性能差異尤為明顯。

而在近代與高等物理領(lǐng)域的結(jié)果也表明,各大語言模型在知識(shí)深度上存在顯著差異。

通用型模型GPT-4.1在這些領(lǐng)域中,相比GPT-4o、o1和DeepSeek V3展現(xiàn)出了明顯的優(yōu)勢(shì),突出了其在科學(xué)問題解決任務(wù)中的卓越能力。

相對(duì)優(yōu)勢(shì)這一指標(biāo)突出了各模型在特定領(lǐng)域內(nèi)相對(duì)于同類模型的優(yōu)勢(shì)。

圖4a中的雷達(dá)圖展示了部分典型模型的相對(duì)優(yōu)勢(shì),直觀地呈現(xiàn)了前文所討論的各模型優(yōu)勢(shì)分布情況。

圖4b則展示了模型優(yōu)勢(shì)在不同問題難度等級(jí)下的分布情況。

錯(cuò)誤分析

本節(jié)將詳細(xì)分析在評(píng)估過程中發(fā)現(xiàn)的錯(cuò)誤。

將PHYBench基準(zhǔn)測(cè)試所評(píng)估的能力分為兩個(gè)主要維度:物理感知(Physical Perception,簡稱PP)和穩(wěn)健推理(Robust Reasoning,簡稱RR)。

為了更好地說明這兩個(gè)類別,分析了大型語言模型(LLMs)的推理過程,特別是DeepSeek-R1的表現(xiàn)。


正如上面的例子所示,DeepSeek-R1的推理過程可以明顯分為兩個(gè)階段,分別對(duì)應(yīng)PP和RR。

在各種模型中,都能一致地觀察到與這兩個(gè)階段相關(guān)的錯(cuò)誤,說明這兩個(gè)分類具有很好的代表性。

此外,提出的EED指標(biāo)能夠有效量化模型在PP和RR兩個(gè)方面的表現(xiàn)。

理解模型推理過程

在分析多個(gè)模型的解題過程時(shí),發(fā)現(xiàn)它們的推理鏈條具有典型的結(jié)構(gòu)特征,與定義的兩個(gè)挑戰(zhàn)類別高度對(duì)應(yīng):

物理感知(PP):在這個(gè)階段,模型需要進(jìn)行大量的語義推理,花費(fèi)較多認(rèn)知資源來識(shí)別相關(guān)的物理對(duì)象、變量和動(dòng)態(tài)過程。模型需要定性判斷哪些物理效應(yīng)是重要的,哪些可以忽略。PP主要體現(xiàn)在推理鏈中的關(guān)鍵決策節(jié)點(diǎn)上。

穩(wěn)健推理(RR):在這個(gè)階段,模型會(huì)推導(dǎo)出大量方程,并進(jìn)行符號(hào)推理。這一過程將感知節(jié)點(diǎn)通過推理鏈條連接起來。RR主要包括連續(xù)的數(shù)學(xué)推導(dǎo)、解方程和正確應(yīng)用已知條件等環(huán)節(jié)。

從結(jié)構(gòu)上看,PP對(duì)應(yīng)推理鏈中的關(guān)鍵決策點(diǎn),而RR則是連接這些節(jié)點(diǎn)的推理鏈條。

如果在PP節(jié)點(diǎn)出錯(cuò),可能會(huì)導(dǎo)致對(duì)物理情景的根本性誤解,最終給出錯(cuò)誤的答案;同時(shí),也可能引入不必要的物理效應(yīng),增加后續(xù)符號(hào)推理的復(fù)雜度。

而RR階段的錯(cuò)誤,通常表現(xiàn)為推導(dǎo)表達(dá)式不一致、解方程錯(cuò)誤或條件應(yīng)用不當(dāng),這些問題會(huì)不斷累積,使最終的結(jié)果越來越偏離正確答案。


物理感知(Physical Perception)

第一個(gè)典型挑戰(zhàn)來自對(duì)物理過程理解不足和建模能力欠缺。


如上圖所示,示例問題1描述了一個(gè)經(jīng)典力學(xué)場(chǎng)景:三顆小球通過一根不可伸長的繩子連接在一起。

大型語言模型(LLM)的錯(cuò)誤解答源于對(duì)這些小球之間運(yùn)動(dòng)關(guān)系的誤解,特別是錯(cuò)誤地認(rèn)為中間繩段的角速度為零。

即使后續(xù)符號(hào)推導(dǎo)過程是正確的,最終得到的答案依然是錯(cuò)誤的。

這個(gè)問題中的PP挑戰(zhàn),對(duì)于一般大學(xué)生來說并不難,但即便是像Gemini-2.5-Pro、o3和DeepSeek-R1這樣最先進(jìn)的模型,也未能正確處理這道運(yùn)動(dòng)學(xué)題目。

實(shí)驗(yàn)進(jìn)一步發(fā)現(xiàn),32B參數(shù)規(guī)模的模型在PP階段表現(xiàn)尤為糟糕,甚至在基礎(chǔ)問題上也頻頻出錯(cuò)。這種失敗不僅暴露了模型在物理感知能力上的根本性局限,也反映了其在語義推理方面的不足。

PHYBench基準(zhǔn)測(cè)試正是有意設(shè)計(jì)來區(qū)分真正理解物理過程的模型與那些僅靠記憶或模式識(shí)別解題的模型。

穩(wěn)健推理(Robust Reasoning)


另一種常見錯(cuò)誤出現(xiàn)在長且復(fù)雜的推理過程中,模型難以保持推理的一致性,或者在解方程時(shí)出錯(cuò)。

例如,在上圖示例問題2中,場(chǎng)景是一個(gè)以相對(duì)論速度運(yùn)動(dòng)的鏡子受到高能光子的反沖。雖然LLM正確理解了物理設(shè)定,也選用了恰當(dāng)?shù)姆匠蹋诼L的符號(hào)推導(dǎo)后,最終未能得出正確解答。

這種情況典型地反映了模型在數(shù)學(xué)推理穩(wěn)健性方面的不足。

物理問題通常需要大量符號(hào)推導(dǎo)。由于篇幅限制,這里展示的兩個(gè)示例問題都相對(duì)較短,但前文提到,PHYBench中一份完整解答的平均長度約為3000字符,人工解答通常需要使用幾十步中間推導(dǎo)。

而未經(jīng)外部數(shù)學(xué)工具輔助的LLMs,往往會(huì)比人類解答步驟更多,從而增加出錯(cuò)的風(fēng)險(xiǎn)。

這一觀察說明,物理問題實(shí)際上是一種受多種明確規(guī)則約束的長鏈推理任務(wù)。

實(shí)驗(yàn)結(jié)果表明,長鏈符號(hào)推理仍然是當(dāng)前模型面臨的重要挑戰(zhàn)。

用EED指標(biāo)捕捉錯(cuò)誤

EED分?jǐn)?shù)能有效捕捉模型在PP和RR兩個(gè)階段的錯(cuò)誤。

PP階段的錯(cuò)誤通常導(dǎo)致中間推導(dǎo)過程中的術(shù)語缺失或多余——小錯(cuò)誤會(huì)引起系數(shù)偏差,大錯(cuò)誤則可能增加或漏掉整個(gè)術(shù)語,顯著拉低EED得分。

而RR階段的錯(cuò)誤則表現(xiàn)為推導(dǎo)過程中的表達(dá)式逐步偏離,EED能夠平滑地捕捉到這種變化。

通過在PHYBench框架下對(duì)這些問題的分析,進(jìn)一步驗(yàn)證了該基準(zhǔn)測(cè)試在評(píng)估AI模型物理感知和邏輯推理能力上的有效性。

PHYBench通過提供真實(shí)且復(fù)雜的物理場(chǎng)景,迫使模型展示其真正的理解與推理能力。這不僅提升了評(píng)估AI推理能力的標(biāo)準(zhǔn),也為開發(fā)更先進(jìn)、能夠理解并與物理世界互動(dòng)的模型提供了方向。

這些問題的分析也是PHYBench被創(chuàng)建的核心目標(biāo)。

通過呈現(xiàn)真實(shí)復(fù)雜的物理情景,PHYBench考察了超越傳統(tǒng)物理解題的推理能力。

這兩種能力——物理感知(PP)和穩(wěn)健推理(RR)——可以作為衡量AI模型在多規(guī)則推理任務(wù)中表現(xiàn)的重要指標(biāo),不僅適用于物理學(xué)領(lǐng)域,也適用于更廣泛的科學(xué)和工程任務(wù)。

它們反映了模型從現(xiàn)實(shí)信息中抽象出結(jié)構(gòu),并執(zhí)行復(fù)雜長鏈推理任務(wù)的能力。

因此,PHYBench不僅為評(píng)估AI推理能力設(shè)定了新標(biāo)準(zhǔn),也為開發(fā)能真正理解和與現(xiàn)實(shí)世界互動(dòng)的更高級(jí)模型提供了指導(dǎo)。

要讓AI在真實(shí)環(huán)境中有效運(yùn)作,光靠模仿視頻或文本學(xué)習(xí),或者單純積累專家知識(shí)是不夠的,模型還必須具備自主構(gòu)建內(nèi)部表示并通過合理推理推導(dǎo)出可靠物理關(guān)系的能力。

參考資料:

https://arxiv.org/abs/2504.16074

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“這0.001克,直接影響我國主戰(zhàn)戰(zhàn)機(jī)性能!”

“這0.001克,直接影響我國主戰(zhàn)戰(zhàn)機(jī)性能!”

環(huán)球網(wǎng)資訊
2025-05-01 18:32:45
協(xié)和小四父親公司原來造了大名鼎鼎的KK園區(qū)!

協(xié)和小四父親公司原來造了大名鼎鼎的KK園區(qū)!

灣區(qū)零零柒
2025-05-01 11:36:06
女子扔鼻涕紙后續(xù):身份被扒,同事都知道工作堪憂!華東師大淪陷

女子扔鼻涕紙后續(xù):身份被扒,同事都知道工作堪憂!華東師大淪陷

阿傖說事
2025-05-01 22:29:36
肖飛后宮之一護(hù)士長石玉慧,年齡大能力強(qiáng),卻架不住中年戀愛美夢(mèng)

肖飛后宮之一護(hù)士長石玉慧,年齡大能力強(qiáng),卻架不住中年戀愛美夢(mèng)

觀星賞月
2025-05-01 15:17:37
79歲李保田,定居山東,滿頭白發(fā)完全老態(tài),過著隱士的生活

79歲李保田,定居山東,滿頭白發(fā)完全老態(tài),過著隱士的生活

娛樂白名單
2025-04-30 22:06:12
恒大的許老板在法庭上公開表示,不準(zhǔn)備披露自己的資產(chǎn)情況。

恒大的許老板在法庭上公開表示,不準(zhǔn)備披露自己的資產(chǎn)情況。

流蘇晚晴
2025-05-01 21:53:44
國家衛(wèi)健委啟動(dòng)對(duì)肖某、董某調(diào)查之際,曾正面硬剛的醫(yī)生火了,還是知名樂隊(duì)成員

國家衛(wèi)健委啟動(dòng)對(duì)肖某、董某調(diào)查之際,曾正面硬剛的醫(yī)生火了,還是知名樂隊(duì)成員

新民周刊
2025-05-01 17:53:27
啟動(dòng)最高層級(jí)醫(yī)政調(diào)查,維護(hù)醫(yī)學(xué)一方凈土

啟動(dòng)最高層級(jí)醫(yī)政調(diào)查,維護(hù)醫(yī)學(xué)一方凈土

澎湃新聞
2025-05-01 14:41:02
蘇迪曼杯第5天!產(chǎn)生2大不可思議,淘汰賽對(duì)陣出爐:中國隊(duì)下下簽

蘇迪曼杯第5天!產(chǎn)生2大不可思議,淘汰賽對(duì)陣出爐:中國隊(duì)下下簽

知軒體育
2025-05-01 22:32:22
罕見!神十九3名航天員回家:居然降落在東風(fēng)著陸場(chǎng)東區(qū),為何?

罕見!神十九3名航天員回家:居然降落在東風(fēng)著陸場(chǎng)東區(qū),為何?

獵火照狼山
2025-05-01 21:45:54
遼寧二老面臨退役抉擇:韓德君18季+李曉旭20季 未來誰扛內(nèi)線重任

遼寧二老面臨退役抉擇:韓德君18季+李曉旭20季 未來誰扛內(nèi)線重任

醉臥浮生
2025-05-01 21:35:23
突然,大跳水!關(guān)稅,傳來新消息

突然,大跳水!關(guān)稅,傳來新消息

證券時(shí)報(bào)
2025-05-01 12:05:02
特朗普:將任命美國國務(wù)卿魯比奧擔(dān)任臨時(shí)國家安全顧問

特朗普:將任命美國國務(wù)卿魯比奧擔(dān)任臨時(shí)國家安全顧問

財(cái)聯(lián)社
2025-05-02 02:22:08
吹貝林絕殺+紅牌罰下!皇馬TV:本輪主裁是近年來最大丑聞的主角

吹貝林絕殺+紅牌罰下!皇馬TV:本輪主裁是近年來最大丑聞的主角

直播吧
2025-05-01 22:13:09
商家吐槽女子網(wǎng)購綠色內(nèi)衣用穿了半年的黑色內(nèi)衣退貨:這羊毛薅得太過分了

商家吐槽女子網(wǎng)購綠色內(nèi)衣用穿了半年的黑色內(nèi)衣退貨:這羊毛薅得太過分了

揚(yáng)子晚報(bào)
2025-05-01 17:49:37
董小姐已從北京轉(zhuǎn)到廊坊醫(yī)院!你以為這下老實(shí)了?答案震碎你三觀

董小姐已從北京轉(zhuǎn)到廊坊醫(yī)院!你以為這下老實(shí)了?答案震碎你三觀

美美談情感
2025-05-01 12:49:39
0-3橫掃!揪出遼籃兩大罪人,創(chuàng)兩恥辱紀(jì)錄,誰注意趙繼偉舉動(dòng)

0-3橫掃!揪出遼籃兩大罪人,創(chuàng)兩恥辱紀(jì)錄,誰注意趙繼偉舉動(dòng)

樂聊球
2025-05-01 21:28:23
美烏礦產(chǎn)協(xié)議“靴子”落地:烏克蘭真能“松一口氣”?

美烏礦產(chǎn)協(xié)議“靴子”落地:烏克蘭真能“松一口氣”?

上觀新聞
2025-05-01 19:29:13
支持恐怖組織的 “正能量”們居然以為幫對(duì)方吹牛就能贏得戰(zhàn)爭

支持恐怖組織的 “正能量”們居然以為幫對(duì)方吹牛就能贏得戰(zhàn)爭

大風(fēng)文字
2024-12-26 20:18:10
SU7 Ultra限制最大馬力,小米汽車回應(yīng):確保新手安全

SU7 Ultra限制最大馬力,小米汽車回應(yīng):確保新手安全

FM93浙江交通之聲
2025-05-01 17:36:17
2025-05-02 04:20:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
12628文章數(shù) 66023關(guān)注度
往期回顧 全部

科技要聞

DeepSeek新數(shù)學(xué)模型刷爆記錄

頭條要聞

魯比奧將兼任美總統(tǒng)國家安全顧問 沃爾茲被提名美大使

頭條要聞

魯比奧將兼任美總統(tǒng)國家安全顧問 沃爾茲被提名美大使

體育要聞

無敵17歲vs飛翔泥頭車,歐冠史詩對(duì)決

娛樂要聞

梅婷慶50歲生日,兒女和她一起許愿

財(cái)經(jīng)要聞

知情人士:美方正多渠道主動(dòng)與中方接觸

汽車要聞

預(yù)售32.98萬起 魏牌高山家族將于5月13日上市

態(tài)度原創(chuàng)

藝術(shù)
手機(jī)
親子
教育
公開課

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機(jī)要聞

盡管產(chǎn)量較低 三星Exynos 2500仍將在Galaxy Z Flip 7中首次亮相

親子要聞

家長不清楚的兒童體能訓(xùn)練五大誤區(qū)和建議

教育要聞

告訴你a-b和a乘b的值,求a+b的平方等于多少

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 庆安县| 东丽区| 卫辉市| 乌鲁木齐市| 卓资县| 鸡东县| 濮阳市| 迁安市| 平乡县| 乾安县| 分宜县| 始兴县| 贵州省| 冷水江市| 芜湖市| 孝感市| 普定县| 华坪县| 华池县| 马鞍山市| 桂阳县| 汕头市| 张家港市| 赤壁市| 桦甸市| 平乐县| 重庆市| 建始县| 东台市| 大连市| 阿拉善右旗| 航空| 云林县| 吉安县| 姜堰市| 柞水县| 句容市| 隆子县| 河津市| 合作市| 偏关县|