99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI連電路圖都看不懂?SeePhys新基準暴擊多模態短板,正確率僅55%

0
分享至

SeePhys團隊 投稿
量子位 | 公眾號 QbitAI

當前頂尖AI模型是否真能“看懂”物理圖像?

全譜系多模態物理推理新基準來了,結果SOTA級模型準確率都不足55%

新基準名為SeePhys,強調了圖形感知對于模型認識和理解物理世界的重要性。

內容涵蓋經典與現代物理的各個知識等級和領域,包括從初中到博士資格考試的全譜系多模態物理問題



它由中山大學、蘇黎世聯邦理工學院、華為諾亞方舟實驗室和香港大學的研究團隊聯合推出,于近日正式開源

團隊在實驗中系統性評估了LLM/MLLM在復雜科學圖表與理論推導耦合任務中的表現。

結果表明即使是Gemini-2.5-Pro和o4-mini等SOTA模型準確率都不足55%,暴露出多模態推理的巨大挑戰。

團隊表示,目前該基準正在ICML 2025 AI for MATH Workshop中開放評估,歡迎學界與工業界的團隊來挑戰。



為什么需要SeePhys?

近年來,數學在大語言模型(LLMs)的推理能力評估中大放異彩,而物理學由于其具有與真實場景的強相關性和更復雜的圖像信息,正在多模態測評中得到越來越多的重視。

物理學不僅知識體系龐大、邏輯鏈條復雜,而且天然地將抽象世界規律與千變萬化的視覺圖像緊密結合。無論是電路圖、受力分析圖,還是費曼圖等,都挑戰了多模態大模型根據圖表理解世界本質規律的能力。

現有物理學基準或缺乏視覺組件,或僅覆蓋單一的知識層級,難以全面評估模型的物理思維能力。

SeePhys的誕生填補了這一空白,它旨在回答當前的頂尖AI模型是否真的“看懂”了物理圖像,并能像人類科學家一樣結合圖像進行思考。

SeePhys的獨特之處在于:

  • 知識層級跨度大:從初中到博士,從經典力學到量子場論,全面覆蓋了不同知識階段和研究領域;
  • 強視覺依賴:根據圖表是否包含必要解題信息進行分類,優先選擇具有強視覺依賴的問題;
  • 跨模態耦合:純多模態基準,需同步處理符號公式、幾何關系與真實世界建模。



具體來看,SeePhys具有以下幾個關鍵屬性。

首先是全譜系覆蓋

  • 2000道題目+2245張圖表,涵蓋7大物理領域(經典力學、電磁學、量子物理等);
  • 8個知識層級:初中、高中、奧賽(初級/高級)、本科(低年級/高年級)、碩士、博士資格考試;
  • 21類異構圖表:包括電路圖、時空曲率圖、光電效應示意圖等。

其次是不同的視覺富集程度

  • Vision-Essential(75%):圖表含解題必需信息(如坐標系數值、電路拓撲、費曼圖);
  • Vision-Optional(25%):圖表僅輔助說明(如場景示意圖)。

還有多模態增強設計

  • 提供純視覺副本(問題文本與圖表融合為單張高分辨率圖像);
  • 四種評估模式:文本+圖表(TV)、文本+描述(TC)、純文本(TO)、純視覺(VO)。



實驗發現

通過對28個主流模型(包括o4-mini、Gemini-2.5-Pro、Claude-3.7-Sonnet等)的大規模測試,研究團隊總結以下結論:

視覺-文本對齊能力的缺陷:

  • 最佳模型Gemini-2.5-Pro準確率僅54.9%,即使是初中物理題正確率也不及70%。
  • 純語言模型表現意外接近多模態模型,如DeepSeek-R1(42.2%)vs o3-mini(40.3%),且模型在視覺依賴性較低的問題中準確率遠高于視覺信息富集的問題,暴露了當前頂尖MLLM仍存在巨大的視覺-文本對齊問題。
  • 模型對特定圖表類型(波動方程圖、電路圖)存在系統性識別障礙。



“看見”對于“思考”的重要性:

  • 對于視覺富集的問題,添加對圖像的文本描述和直接輸入圖文交織問題均相對純文本問題提升巨大。
  • 即使是非必要性圖表也能輔助模型理解問題(如Claude-3.7-Sonnet在Text+Vision條件下相對Vision Only準確率提升30.2%),表明適當的視覺提示能夠幫助模型理解問題本質。



知識注入顯現出邊際效應:

  • 較弱模型(如Qwen2.5-VL-3B和LLaVA-OneVision-7B)由于災難性遺忘現象,在高年級問題上精度下降幅度巨大,而較強模型則下降較為平緩,表明知識注入帶來的性能提升已經初步顯現邊際效應。
  • 當前模型更擅長記憶而非邏輯推理(如高級奧賽題反而比知識考察更深的博資考的準確率更低)。
  • 即使是初中和高中難度的物理題也并未被AI完全解決,物理學對于MLLM依然十分困難。

錯誤推理模式歸納

研究團隊對強模型o4-mini, Gemini-2.5-Pro與弱模型Qwen2.5-VL-3B共同錯誤的100個樣本進行人工分析。

然后,歸納得出了9種錯誤的推理模式,包括視覺誤讀、文本誤讀、建模錯誤、錯誤假設、數值計算錯誤、過度簡化、總結錯誤、過度思考和重復輸出。

所有三個模型都表現出明顯的建模缺陷(例如定理和公式誤用),同時表現出相對較少的文本誤讀和數值計算錯誤。

而過度思考和過度簡化的錯誤頻率在模型之間存在顯著差異,且較小的Qwen2.5-VL-3B出現了高重復輸出率(21%)。



參賽鏈接:https://www.codabench.org/competitions/7925/
挑戰賽詳細信息:https://sites.google.com/view/ai4mathworkshopicml2025/challenge
ICML workshop 主頁:https://sites.google.com/view/ai4mathworkshopicml2025/home

論文:https://arxiv.org/pdf/2505.19099
項目主頁:https://github.com/SeePhys/seephys-project

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
1992年上海5·29流氓案:四人當眾扒掉女子衣服,主犯被從輕判死緩

1992年上海5·29流氓案:四人當眾扒掉女子衣服,主犯被從輕判死緩

歷來都很現實
2025-05-30 16:52:35
1950年宋時輪在飯店,聽到老板的名字后對服務員說:我要見她!

1950年宋時輪在飯店,聽到老板的名字后對服務員說:我要見她!

紀實文錄
2025-05-14 15:59:11
中國隊喜獲“上上簽”,抽中兩大魚腩隊,力拼澳大利亞爭第一!

中國隊喜獲“上上簽”,抽中兩大魚腩隊,力拼澳大利亞爭第一!

綠茵舞著
2025-05-29 23:44:29
事前沒有任何征兆,大批解放軍突現臺海,只因2波不速之客登島?

事前沒有任何征兆,大批解放軍突現臺海,只因2波不速之客登島?

阿傖說事
2025-05-30 14:55:26
“火箭軍女神”李莉:因多次預判美軍陰謀,被美國列入制裁黑名單

“火箭軍女神”李莉:因多次預判美軍陰謀,被美國列入制裁黑名單

跳跳歷史
2025-05-14 10:24:39
工藝員竟成負責人!山東高密化工廠爆炸,要從源頭找原因了!

工藝員竟成負責人!山東高密化工廠爆炸,要從源頭找原因了!

匹夫來搞笑
2025-05-30 16:48:06
隨著鄭欽文2-0進法網16強后,產生了4個意想不到,還賺214萬獎金

隨著鄭欽文2-0進法網16強后,產生了4個意想不到,還賺214萬獎金

侃球熊弟
2025-05-30 18:43:53
聯合國:加沙援助不能沒我,以色列:你才是問題...

聯合國:加沙援助不能沒我,以色列:你才是問題...

移光幻影
2025-05-28 07:44:48
鄭欽文大戰姆博科!CCTV5直播時間大變,別錯過!

鄭欽文大戰姆博科!CCTV5直播時間大變,別錯過!

商城鳳笙
2025-05-30 09:40:43
埃及下場,與以色列發生交火

埃及下場,與以色列發生交火

文雅筆墨
2025-05-29 10:06:48
鼓勵學生相互舉報,是一個危險信號

鼓勵學生相互舉報,是一個危險信號

末名先生
2025-05-29 15:34:15
媒體人:周琦全運600萬合同是遼寧籃協副會長透露,因為待遇問題未能說服周琦

媒體人:周琦全運600萬合同是遼寧籃協副會長透露,因為待遇問題未能說服周琦

雷速體育
2025-05-30 16:43:13
32隊爭10億美元!世俱杯奪冠賠率:皇馬領跑+曼城排第2 巴薩缺席

32隊爭10億美元!世俱杯奪冠賠率:皇馬領跑+曼城排第2 巴薩缺席

風過鄉
2025-05-30 08:24:19
曾攀附省委原書記的楊慧,貪婪腐化、大搞權錢交易

曾攀附省委原書記的楊慧,貪婪腐化、大搞權錢交易

政知新媒體
2025-05-30 10:36:55
新加坡羽毛球公開賽:陳雨菲2-0安洗瑩晉級四強,終結對手27連勝

新加坡羽毛球公開賽:陳雨菲2-0安洗瑩晉級四強,終結對手27連勝

懂球帝
2025-05-30 14:26:14
離譜!香港男子在香港銀行借出數百萬元移民英國開啟新生活?還在網上炫耀永不還錢!香港網友:人無恥便無敵

離譜!香港男子在香港銀行借出數百萬元移民英國開啟新生活?還在網上炫耀永不還錢!香港網友:人無恥便無敵

澳門月刊
2025-05-29 09:33:23
“昨天上牌今天賣”“價格僅為新車的75%”,消費者撿漏“零公里二手車”,價格誘惑和權益風險如何抉擇?

“昨天上牌今天賣”“價格僅為新車的75%”,消費者撿漏“零公里二手車”,價格誘惑和權益風險如何抉擇?

華夏時報
2025-05-30 13:54:09
G5步行者94-111尼克斯,賽后4壞消息,哈利伯頓與球隊曝隱患!

G5步行者94-111尼克斯,賽后4壞消息,哈利伯頓與球隊曝隱患!

籃球資訊達人
2025-05-30 12:15:29
歐爾班強調:匈牙利反對烏克蘭加入歐盟

歐爾班強調:匈牙利反對烏克蘭加入歐盟

參考消息
2025-05-30 11:26:08
老美送大禮!3400留學生加速東流,哈佛校長直言“為中國做嫁衣”

老美送大禮!3400留學生加速東流,哈佛校長直言“為中國做嫁衣”

南生今世說
2025-05-30 11:21:15
2025-05-30 19:08:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10595文章數 176158關注度
往期回顧 全部

科技要聞

理想真正硬仗是i8/i6!要如何迎戰小米YU7

頭條要聞

小伙睡夢中被貸款5萬:看手機在自己輸密碼頭皮都麻了

頭條要聞

小伙睡夢中被貸款5萬:看手機在自己輸密碼頭皮都麻了

體育要聞

當我終于回國時,可能已認不出我的家

娛樂要聞

趙麗穎新劇撲街?演技扛劇能力遭質疑

財經要聞

美國政府殺瘋了,全世界目瞪口呆

汽車要聞

可城能野更智能 猛士M817把硬派SUV玩出花

態度原創

本地
藝術
旅游
健康
公開課

本地新聞

云游中國 |來仰天湖大草原,一起策馬奔騰

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

唇皰疹和口腔潰瘍是"同伙"嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 喀喇| 上杭县| 海原县| 新巴尔虎右旗| 阿鲁科尔沁旗| 泸西县| 石柱| 宁海县| 民和| 花垣县| 阿巴嘎旗| 雷波县| 青海省| 富裕县| 沧州市| 昌邑市| 六枝特区| 奇台县| 隆林| 南涧| 丁青县| 清原| 甘肃省| 耿马| 独山县| 和平县| 沅陵县| 万宁市| 宜良县| 舞钢市| 宁德市| 凌云县| 东源县| 浦东新区| 淮北市| 肃宁县| 大竹县| 会东县| 东港市| 涞源县| 囊谦县|