網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

北大出手，物理學(xué)院天才們教AI「做人」！PHYBench成大模型物理能力試金石

2025-05-01 17:00:56　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：定慧

【新智元導(dǎo)讀】在「學(xué)」與「思」之間，AI需要跨越的不只是算力的堆砌。北大物理學(xué)院聯(lián)合多個(gè)院系，推出了首個(gè)專注于物理感知與推理能力的大模型基準(zhǔn)——PHYBench。首次系統(tǒng)性揭示了當(dāng)前大語言模型在理解物理世界時(shí)的巨大短板。

學(xué)而不思則罔，思而不學(xué)則殆。

——《論語》

如果說大模型的訓(xùn)練是「學(xué)」的過程，那么各種基準(zhǔn)測(cè)試就是大模型停下來「思」的片刻。

現(xiàn)在模型訓(xùn)練需要的算力和電量已經(jīng)遠(yuǎn)超碳基人類的范疇，AI的學(xué)習(xí)只需要更多的卡和更多的電。

AI學(xué)習(xí)不成問題，但是AI能「思」嗎？

但是對(duì)于AI的評(píng)估，似乎有些「迷惘」——AI的基準(zhǔn)測(cè)試到底應(yīng)該如何設(shè)計(jì)才能體現(xiàn)模型真正的能力？

來自datalearner.com上AI評(píng)測(cè)基準(zhǔn)，只是一些還有很多

像DeepSeek-R1和OpenAI-o3等推理模型展現(xiàn)了復(fù)雜推理能力，這些推理模型能夠理解、建模并回答奧林匹克級(jí)別的難題。

但是目前的這些基準(zhǔn)有點(diǎn)像是「為了考試而考試」制作的考卷，AI們只需要在特定的數(shù)據(jù)集上完成訓(xùn)練，就可以做一個(gè)高分的考生。

這就像從學(xué)校走向社會(huì)的高分考生，不一定能從象牙塔一下子適應(yīng)到外部社會(huì)的弱肉強(qiáng)食。

既然AI的能力需要輻射到現(xiàn)實(shí)生活，那么也許一個(gè)針對(duì)「物理」的評(píng)測(cè)指標(biāo)是不是更能驗(yàn)證AI的現(xiàn)實(shí)可用性？

最近，由北大物理學(xué)院、人工智能研究院、計(jì)算科學(xué)研究中心、集成電路學(xué)院和元培學(xué)院共同組成的「天團(tuán)」，推出了一個(gè)用于評(píng)估大語言模型在物理情境中的推理能力的高質(zhì)量基準(zhǔn)——PHYBench。

值得一提的是，這其中有很多人都是物理競(jìng)賽金牌得主。

論文地址：https://arxiv.org/abs/2504.16074

具體來說，PHYBench包含500個(gè)精心挑選的基于現(xiàn)實(shí)的物理問題。

涵蓋了力學(xué)、電磁學(xué)、熱力學(xué)、光學(xué)、現(xiàn)代物理學(xué)和高級(jí)物理學(xué)等領(lǐng)域，難度從高中習(xí)題到大學(xué)生問題，再到物理奧林匹克挑戰(zhàn)題目不等。

有沒有想起被高中物理支配的恐懼？

如何評(píng)價(jià)一個(gè)評(píng)測(cè)基準(zhǔn)到底好與壞，適合與不適合？這里引用北大團(tuán)隊(duì)的一句話最為適合不過。

基準(zhǔn)測(cè)試不會(huì)神化或貶低模型；它們引導(dǎo)人類和AI共同朝著AGI前進(jìn)。

先來看下目前的推理基準(zhǔn)通常會(huì)有的三個(gè)問題：

1. 過度簡化的推理任務(wù)：隨著模型性能越來越高，現(xiàn)有的基準(zhǔn)已經(jīng)不再足夠。

2. 過度抽象的問題：雖然現(xiàn)有的基準(zhǔn)測(cè)試通過抽象或建模建立了足夠的推理難度，但它們往往缺乏物理現(xiàn)實(shí)和實(shí)際應(yīng)用的基礎(chǔ)。說人話就是，評(píng)測(cè)太抽象冷門，現(xiàn)實(shí)里大概率遇不到，通過了可能也無法指導(dǎo)現(xiàn)實(shí)。

3. 缺乏精確的評(píng)估指標(biāo)：當(dāng)前的自動(dòng)化評(píng)估方法在捕捉復(fù)雜推理的細(xì)微方面仍然不足。簡單說就是，評(píng)測(cè)結(jié)果不能簡單的分段，最好是能具體到1-100比較精確的分?jǐn)?shù)。

PHYBench就是為了解決這些問題，PHYBench涵蓋了物理學(xué)中的多個(gè)領(lǐng)域，使用明確定義的物理表達(dá)式作為答案。

這確保了對(duì)模型的物理感知和穩(wěn)健推理能力的準(zhǔn)確評(píng)估。

基于策劃的數(shù)據(jù)集，進(jìn)一步提出了表達(dá)式編輯距離（EED）得分，這是一種利用樹表達(dá)式和編輯距離的自動(dòng)、細(xì)粒度的評(píng)估指標(biāo)，展示了LLMs給出的表達(dá)式與真實(shí)值之間的「接近」程度。

來自 PHYBench的一個(gè)示例問題。使用兩個(gè)主要指標(biāo)來評(píng)估模型性能：表達(dá)式編輯距離（EED）得分和準(zhǔn)確率。

上圖展示了三個(gè)不同回答的得分，其中答案1和模型答案2分別由DeepSeek-R1和GPT-4o生成。

除了評(píng)估語言模型外，北大團(tuán)隊(duì)還通過招募北京大學(xué)的物理系本科生來解決相同的問題，建立了人類水平基線（這水平有點(diǎn)高了）。

結(jié)果顯示，機(jī)器和人類的能力之間存在顯著的性能差距。

即使是最先進(jìn)的LLM——Gemini 2.5 Pro——也僅達(dá)到了36.9%的準(zhǔn)確率，遠(yuǎn)低于人類基線的61.9%。

PHYBench基準(zhǔn)測(cè)試

PHYBench的每道題目都基于一個(gè)具體的物理情景，要求模型根據(jù)給定條件推導(dǎo)出關(guān)鍵物理量的符號(hào)表達(dá)式。

所有問題都有明確的標(biāo)準(zhǔn)答案，且均可通過物理原理獨(dú)立求解，無需依賴外部知識(shí)。

真正的挑戰(zhàn)在于，模型需要能根據(jù)文本描述準(zhǔn)確構(gòu)建空間和相互作用關(guān)系，選擇性地應(yīng)用多條物理定律和定理，并在動(dòng)態(tài)系統(tǒng)的演化與相互作用中進(jìn)行復(fù)雜計(jì)算。

此外，大多數(shù)題目都涉及長鏈推理，模型必須在多步推導(dǎo)中剔除無關(guān)的物理作用和排除不合理的代數(shù)解，以避免計(jì)算復(fù)雜度急劇上升。

不同于以往注重高強(qiáng)度推理或窮舉搜索空間的基準(zhǔn)測(cè)試，PHYBench更加注重真實(shí)物理場(chǎng)景中的逐步感知與推理能力。

簡單地說，就是希望LLMs像人一樣進(jìn)行邏輯推理，而不是類似「鳥槍法」的暴力解法。

數(shù)據(jù)集整理

PHYBench基準(zhǔn)測(cè)試題目改編自面向人類的物理練習(xí)題，難度涵蓋高中至大學(xué)物理競(jìng)賽水平。

邀請(qǐng)了來自北京大學(xué)物理學(xué)院的178名學(xué)生參與題目的貢獻(xiàn)與打磨。

上圖展示了數(shù)據(jù)整理的流程。數(shù)據(jù)來源包括非公開和公開的問題，這些題目無法通過直接的網(wǎng)絡(luò)搜索或常規(guī)參考資料輕松獲得。

在改編過程中，每一道題目都被視為一個(gè)具體的物理情景。整理人員會(huì)確定一個(gè)核心物理量作為目標(biāo)變量，并設(shè)計(jì)問題，要求解題者根據(jù)給定條件推導(dǎo)出該物理量的符號(hào)表達(dá)式。

隨后，每道題目都會(huì)經(jīng)過多輪審核、篩選和打磨。首先，所有題目會(huì)被存入內(nèi)部平臺(tái)托管的題庫中。接著，這些題目會(huì)分配給審閱人員進(jìn)行評(píng)估。

審閱人員檢查題目是否符合上述標(biāo)準(zhǔn)，如有不符合的地方會(huì)進(jìn)行修改，必要時(shí)退回給原作者進(jìn)一步編輯。

在審核過程中，內(nèi)部平臺(tái)會(huì)展示多種大語言模型（LLM）生成的解答，供審閱人員參考，以判斷題目是否表述清晰、全面，并根據(jù)需要調(diào)整描述，直到不會(huì)再引發(fā)理解上的歧義。

一旦題目獲得審閱人員批準(zhǔn)并附上評(píng)語，就會(huì)進(jìn)入審閱者題庫。

題目進(jìn)入審閱者題庫后，還會(huì)經(jīng)過多輪模型測(cè)試。

通過觀察模型生成的答案，判斷題目是否能促使模型產(chǎn)生符合標(biāo)準(zhǔn)的解答。

同時(shí)，使用GPT-4o對(duì)題目的語法和格式進(jìn)行檢查。根據(jù)模型測(cè)試的結(jié)果，會(huì)反復(fù)修訂題目，直到所有題目的輸出結(jié)果完全符合基準(zhǔn)測(cè)試的格式要求。

最后，邀請(qǐng)了109位人類專家參與解題。

他們進(jìn)一步評(píng)估題目的表述是否恰當(dāng)，并根據(jù)專家反饋對(duì)題目進(jìn)行最終的細(xì)致打磨。

評(píng)估指標(biāo)

正如最開始介紹，PHYBench使用了兩個(gè)指標(biāo)，其中一個(gè)叫做表達(dá)式編輯距離得分（EED Score），另一個(gè)是準(zhǔn)確率比較好理解。

EED Score是一種自動(dòng)化、無需模型輔助的評(píng)估指標(biāo)，用來判斷AI生成解答的正確性。

EED Score通過計(jì)算兩個(gè)符號(hào)表達(dá)式的表達(dá)式樹編輯距離來評(píng)估它們的相似性。

所謂表達(dá)式樹編輯距離，指的是將一個(gè)樹狀結(jié)構(gòu)的表達(dá)式變換成另一個(gè)所需的最少節(jié)點(diǎn)級(jí)別編輯操作次數(shù)（包括插入、刪除和更新）。

比如Answer 1中，大模型給出的答案和正確答案只差了一個(gè)系數(shù)。

而Answer 2中，和標(biāo)準(zhǔn)答案差的比較多，所以EED score要明顯低于第一個(gè)答案。

選擇使用EED Score而非傳統(tǒng)的二分類評(píng)分，主要是為了更細(xì)致地反映模型解答的正確程度。

即便生成的答案存在一些小的計(jì)算錯(cuò)誤或系數(shù)偏差，也能體現(xiàn)出模型對(duì)物理原理的部分理解，而不是完全錯(cuò)誤。

模型實(shí)驗(yàn)

有了基準(zhǔn)，就來看下各個(gè)模型的表現(xiàn)。

在PHYBench基準(zhǔn)上測(cè)試了一系列不同類型的模型，包括最先進(jìn)的模型和一些廣泛應(yīng)用或具有代表性的模型。

在基于API的評(píng)估中，選取了GPT-4o、o1、Gemini 2.0 Flash Thinking、DeepSeek-V3、DeepSeek-R1、Qwen2.5-max、o3-mini、Grok 3 Beta、Claude 3.7 Sonnet、Claude 3.7 Sonnet Thinking、Gemini 2.5 pro、o4-mini和o3。

其余模型DeepSeek-R1-Distill-Qwen-32B和QwQ-32B則在本地進(jìn)行評(píng)估。

人類基線

招募了來自北京大學(xué)物理學(xué)院的81名學(xué)生，每人解答了8道取自PHYBench數(shù)據(jù)集的問題。

總共收集到了559份有效答卷，這些答卷對(duì)應(yīng)于公開發(fā)布的PHYBench數(shù)據(jù)集范圍內(nèi)的問題。

人類答題的平均準(zhǔn)確率為61.9±2.1%，EED分?jǐn)?shù)為70.4±1.8，這里的不確定性是通過10,000次重采樣獲得的自助法標(biāo)準(zhǔn)誤。

在99%的置信水平下，專家組在兩個(gè)指標(biāo)上均明顯優(yōu)于所有被評(píng)估的LLM。

此外，人類成績分布的上四分位數(shù)達(dá)到了71.4%的準(zhǔn)確率和80.4的EED分?jǐn)?shù)。

主要結(jié)果

在PHYBench數(shù)據(jù)集上評(píng)估了多個(gè)模型，它們的準(zhǔn)確率和EED分?jǐn)?shù)可視化展示在下圖。

結(jié)果表明，即使是最先進(jìn)的推理模型，在物理推理任務(wù)中的表現(xiàn)仍然有限。

表現(xiàn)最好的模型是Gemini 2.5 pro，其準(zhǔn)確率為36.9%，EED分?jǐn)?shù)為49.5，仍然明顯低于人類基線。

這種差距凸顯了基準(zhǔn)測(cè)試的高度復(fù)雜性。

值得注意的是，盡管專門為推理設(shè)計(jì)的模型整體上優(yōu)于通用語言模型，但一些近期發(fā)布的通用模型，如 DeepSeek-V3、GPT-4.1 和 Claude 3.7 Sonnet，也表現(xiàn)出具有競(jìng)爭力的成績，準(zhǔn)確率分別達(dá)到 13.6%、12.9% 和 13.2%。

此外，32B參數(shù)的模型，包括DeepSeek-Distill-32B和QwQ-32B，在PHYBench上的表現(xiàn)明顯較弱，準(zhǔn)確率分別只有2.6%和1.2%，EED分?jǐn)?shù)分別為4.5和3.2，這與它們?cè)谄渌鶞?zhǔn)測(cè)試中的強(qiáng)勁表現(xiàn)形成了鮮明對(duì)比。

各模型在不同領(lǐng)域的平均原始得分。（縮寫：ALL=所有問題；Mech.=力學(xué)；Elec.=電學(xué)；Thmo.=熱力學(xué)；Opt.=光學(xué)；Mod.=近代物理；Adv.=高級(jí)內(nèi)容）

大模型在PHYBench上表現(xiàn)不佳，可能歸因于任務(wù)具有長推理鏈特性或?qū)ξ锢碇庇X的挑戰(zhàn)，這些超出了傳統(tǒng)快速問答（QA）設(shè)置的能力范圍。

在數(shù)據(jù)集上采用了準(zhǔn)確率和EED分?jǐn)?shù)兩種評(píng)估指標(biāo)。

雖然這兩種指標(biāo)在模型排序上幾乎一致，但EED分?jǐn)?shù)提供了更廣泛的數(shù)值分布和更小的統(tǒng)計(jì)不確定性。

分析顯示，EED指標(biāo)在樣本效率上平均提升了304%，標(biāo)準(zhǔn)差為80%。

換句話說，使用EED指標(biāo)評(píng)估500道題目的效果，相當(dāng)于用準(zhǔn)確率指標(biāo)評(píng)估約1500道題目的區(qū)分能力。

這種提升使得模型性能之間的差異可以更加可靠地體現(xiàn)出來。

不同領(lǐng)域下的模型性能

為了更清晰地展示各模型在不同領(lǐng)域的相對(duì)優(yōu)勢(shì)，引入了兩個(gè)指標(biāo)：絕對(duì)優(yōu)勢(shì)和相對(duì)優(yōu)勢(shì)。

值得注意的是，相對(duì)優(yōu)勢(shì)是在對(duì)領(lǐng)域平均分進(jìn)行歸一化之后計(jì)算的，這樣可以減小某些低分問題對(duì)整體結(jié)果的不成比例影響。

進(jìn)一步分析了模型在不同物理領(lǐng)域下的得分分布情況，在細(xì)分的領(lǐng)域中：

力學(xué)：主要考察空間推理和對(duì)動(dòng)態(tài)過程的理解；
電磁學(xué)：評(píng)估模型理解場(chǎng)分布與空間劃分的能力；
熱力學(xué)：測(cè)試模型在多物理場(chǎng)交互和復(fù)雜過程理解方面的水平；
光學(xué)：同樣強(qiáng)調(diào)空間推理能力；
近代與高等物理：則需要模型具備對(duì)復(fù)雜物理概念的深入理解與應(yīng)用能力。

通過分析發(fā)現(xiàn)，傳統(tǒng)模型（如GPT-4o）在力學(xué)領(lǐng)域的表現(xiàn)相對(duì)較差，這可能是因?yàn)樗鼈冊(cè)谏婕叭S幾何和動(dòng)態(tài)過程的數(shù)據(jù)上訓(xùn)練不足。

專注于推理能力的模型（如o1和QwQ-32B）在力學(xué)領(lǐng)域表現(xiàn)較好。

熱力學(xué)問題通常涉及多步推理和復(fù)雜過程分析，在這里，推理型模型與非推理型模型之間的性能差異尤為明顯。

而在近代與高等物理領(lǐng)域的結(jié)果也表明，各大語言模型在知識(shí)深度上存在顯著差異。

通用型模型GPT-4.1在這些領(lǐng)域中，相比GPT-4o、o1和DeepSeek V3展現(xiàn)出了明顯的優(yōu)勢(shì)，突出了其在科學(xué)問題解決任務(wù)中的卓越能力。

相對(duì)優(yōu)勢(shì)這一指標(biāo)突出了各模型在特定領(lǐng)域內(nèi)相對(duì)于同類模型的優(yōu)勢(shì)。

圖4a中的雷達(dá)圖展示了部分典型模型的相對(duì)優(yōu)勢(shì)，直觀地呈現(xiàn)了前文所討論的各模型優(yōu)勢(shì)分布情況。

圖4b則展示了模型優(yōu)勢(shì)在不同問題難度等級(jí)下的分布情況。

錯(cuò)誤分析

本節(jié)將詳細(xì)分析在評(píng)估過程中發(fā)現(xiàn)的錯(cuò)誤。

將PHYBench基準(zhǔn)測(cè)試所評(píng)估的能力分為兩個(gè)主要維度：物理感知（Physical Perception，簡稱PP）和穩(wěn)健推理（Robust Reasoning，簡稱RR）。

為了更好地說明這兩個(gè)類別，分析了大型語言模型（LLMs）的推理過程，特別是DeepSeek-R1的表現(xiàn)。

正如上面的例子所示，DeepSeek-R1的推理過程可以明顯分為兩個(gè)階段，分別對(duì)應(yīng)PP和RR。

在各種模型中，都能一致地觀察到與這兩個(gè)階段相關(guān)的錯(cuò)誤，說明這兩個(gè)分類具有很好的代表性。

此外，提出的EED指標(biāo)能夠有效量化模型在PP和RR兩個(gè)方面的表現(xiàn)。

理解模型推理過程

在分析多個(gè)模型的解題過程時(shí)，發(fā)現(xiàn)它們的推理鏈條具有典型的結(jié)構(gòu)特征，與定義的兩個(gè)挑戰(zhàn)類別高度對(duì)應(yīng)：

物理感知（PP）：在這個(gè)階段，模型需要進(jìn)行大量的語義推理，花費(fèi)較多認(rèn)知資源來識(shí)別相關(guān)的物理對(duì)象、變量和動(dòng)態(tài)過程。模型需要定性判斷哪些物理效應(yīng)是重要的，哪些可以忽略。PP主要體現(xiàn)在推理鏈中的關(guān)鍵決策節(jié)點(diǎn)上。

穩(wěn)健推理（RR）：在這個(gè)階段，模型會(huì)推導(dǎo)出大量方程，并進(jìn)行符號(hào)推理。這一過程將感知節(jié)點(diǎn)通過推理鏈條連接起來。RR主要包括連續(xù)的數(shù)學(xué)推導(dǎo)、解方程和正確應(yīng)用已知條件等環(huán)節(jié)。

從結(jié)構(gòu)上看，PP對(duì)應(yīng)推理鏈中的關(guān)鍵決策點(diǎn)，而RR則是連接這些節(jié)點(diǎn)的推理鏈條。

如果在PP節(jié)點(diǎn)出錯(cuò)，可能會(huì)導(dǎo)致對(duì)物理情景的根本性誤解，最終給出錯(cuò)誤的答案；同時(shí)，也可能引入不必要的物理效應(yīng)，增加后續(xù)符號(hào)推理的復(fù)雜度。

而RR階段的錯(cuò)誤，通常表現(xiàn)為推導(dǎo)表達(dá)式不一致、解方程錯(cuò)誤或條件應(yīng)用不當(dāng)，這些問題會(huì)不斷累積，使最終的結(jié)果越來越偏離正確答案。

物理感知（Physical Perception）

第一個(gè)典型挑戰(zhàn)來自對(duì)物理過程理解不足和建模能力欠缺。

如上圖所示，示例問題1描述了一個(gè)經(jīng)典力學(xué)場(chǎng)景：三顆小球通過一根不可伸長的繩子連接在一起。

大型語言模型（LLM）的錯(cuò)誤解答源于對(duì)這些小球之間運(yùn)動(dòng)關(guān)系的誤解，特別是錯(cuò)誤地認(rèn)為中間繩段的角速度為零。

即使后續(xù)符號(hào)推導(dǎo)過程是正確的，最終得到的答案依然是錯(cuò)誤的。

這個(gè)問題中的PP挑戰(zhàn)，對(duì)于一般大學(xué)生來說并不難，但即便是像Gemini-2.5-Pro、o3和DeepSeek-R1這樣最先進(jìn)的模型，也未能正確處理這道運(yùn)動(dòng)學(xué)題目。

實(shí)驗(yàn)進(jìn)一步發(fā)現(xiàn)，32B參數(shù)規(guī)模的模型在PP階段表現(xiàn)尤為糟糕，甚至在基礎(chǔ)問題上也頻頻出錯(cuò)。這種失敗不僅暴露了模型在物理感知能力上的根本性局限，也反映了其在語義推理方面的不足。

PHYBench基準(zhǔn)測(cè)試正是有意設(shè)計(jì)來區(qū)分真正理解物理過程的模型與那些僅靠記憶或模式識(shí)別解題的模型。

穩(wěn)健推理（Robust Reasoning）

另一種常見錯(cuò)誤出現(xiàn)在長且復(fù)雜的推理過程中，模型難以保持推理的一致性，或者在解方程時(shí)出錯(cuò)。

例如，在上圖示例問題2中，場(chǎng)景是一個(gè)以相對(duì)論速度運(yùn)動(dòng)的鏡子受到高能光子的反沖。雖然LLM正確理解了物理設(shè)定，也選用了恰當(dāng)?shù)姆匠蹋诼L的符號(hào)推導(dǎo)后，最終未能得出正確解答。

這種情況典型地反映了模型在數(shù)學(xué)推理穩(wěn)健性方面的不足。

物理問題通常需要大量符號(hào)推導(dǎo)。由于篇幅限制，這里展示的兩個(gè)示例問題都相對(duì)較短，但前文提到，PHYBench中一份完整解答的平均長度約為3000字符，人工解答通常需要使用幾十步中間推導(dǎo)。

而未經(jīng)外部數(shù)學(xué)工具輔助的LLMs，往往會(huì)比人類解答步驟更多，從而增加出錯(cuò)的風(fēng)險(xiǎn)。

這一觀察說明，物理問題實(shí)際上是一種受多種明確規(guī)則約束的長鏈推理任務(wù)。

實(shí)驗(yàn)結(jié)果表明，長鏈符號(hào)推理仍然是當(dāng)前模型面臨的重要挑戰(zhàn)。

用EED指標(biāo)捕捉錯(cuò)誤

EED分?jǐn)?shù)能有效捕捉模型在PP和RR兩個(gè)階段的錯(cuò)誤。

PP階段的錯(cuò)誤通常導(dǎo)致中間推導(dǎo)過程中的術(shù)語缺失或多余——小錯(cuò)誤會(huì)引起系數(shù)偏差，大錯(cuò)誤則可能增加或漏掉整個(gè)術(shù)語，顯著拉低EED得分。

而RR階段的錯(cuò)誤則表現(xiàn)為推導(dǎo)過程中的表達(dá)式逐步偏離，EED能夠平滑地捕捉到這種變化。

通過在PHYBench框架下對(duì)這些問題的分析，進(jìn)一步驗(yàn)證了該基準(zhǔn)測(cè)試在評(píng)估AI模型物理感知和邏輯推理能力上的有效性。

PHYBench通過提供真實(shí)且復(fù)雜的物理場(chǎng)景，迫使模型展示其真正的理解與推理能力。這不僅提升了評(píng)估AI推理能力的標(biāo)準(zhǔn)，也為開發(fā)更先進(jìn)、能夠理解并與物理世界互動(dòng)的模型提供了方向。

這些問題的分析也是PHYBench被創(chuàng)建的核心目標(biāo)。

通過呈現(xiàn)真實(shí)復(fù)雜的物理情景，PHYBench考察了超越傳統(tǒng)物理解題的推理能力。

這兩種能力——物理感知（PP）和穩(wěn)健推理（RR）——可以作為衡量AI模型在多規(guī)則推理任務(wù)中表現(xiàn)的重要指標(biāo)，不僅適用于物理學(xué)領(lǐng)域，也適用于更廣泛的科學(xué)和工程任務(wù)。

它們反映了模型從現(xiàn)實(shí)信息中抽象出結(jié)構(gòu)，并執(zhí)行復(fù)雜長鏈推理任務(wù)的能力。

因此，PHYBench不僅為評(píng)估AI推理能力設(shè)定了新標(biāo)準(zhǔn)，也為開發(fā)能真正理解和與現(xiàn)實(shí)世界互動(dòng)的更高級(jí)模型提供了指導(dǎo)。

要讓AI在真實(shí)環(huán)境中有效運(yùn)作，光靠模仿視頻或文本學(xué)習(xí)，或者單純積累專家知識(shí)是不夠的，模型還必須具備自主構(gòu)建內(nèi)部表示并通過合理推理推導(dǎo)出可靠物理關(guān)系的能力。

參考資料：

https://arxiv.org/abs/2504.16074

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.