99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI連電路圖都看不懂?SeePhys新基準暴擊多模態短板,正確率僅55%

0
分享至

SeePhys團隊 投稿
量子位 | 公眾號 QbitAI

當前頂尖AI模型是否真能“看懂”物理圖像?

全譜系多模態物理推理新基準來了,結果SOTA級模型準確率都不足55%

新基準名為SeePhys,強調了圖形感知對于模型認識和理解物理世界的重要性。

內容涵蓋經典與現代物理的各個知識等級和領域,包括從初中到博士資格考試的全譜系多模態物理問題



它由中山大學、蘇黎世聯邦理工學院、華為諾亞方舟實驗室和香港大學的研究團隊聯合推出,于近日正式開源

團隊在實驗中系統性評估了LLM/MLLM在復雜科學圖表與理論推導耦合任務中的表現。

結果表明即使是Gemini-2.5-Pro和o4-mini等SOTA模型準確率都不足55%,暴露出多模態推理的巨大挑戰。

團隊表示,目前該基準正在ICML 2025 AI for MATH Workshop中開放評估,歡迎學界與工業界的團隊來挑戰。



為什么需要SeePhys?

近年來,數學在大語言模型(LLMs)的推理能力評估中大放異彩,而物理學由于其具有與真實場景的強相關性和更復雜的圖像信息,正在多模態測評中得到越來越多的重視。

物理學不僅知識體系龐大、邏輯鏈條復雜,而且天然地將抽象世界規律與千變萬化的視覺圖像緊密結合。無論是電路圖、受力分析圖,還是費曼圖等,都挑戰了多模態大模型根據圖表理解世界本質規律的能力。

現有物理學基準或缺乏視覺組件,或僅覆蓋單一的知識層級,難以全面評估模型的物理思維能力。

SeePhys的誕生填補了這一空白,它旨在回答當前的頂尖AI模型是否真的“看懂”了物理圖像,并能像人類科學家一樣結合圖像進行思考。

SeePhys的獨特之處在于:

  • 知識層級跨度大:從初中到博士,從經典力學到量子場論,全面覆蓋了不同知識階段和研究領域;
  • 強視覺依賴:根據圖表是否包含必要解題信息進行分類,優先選擇具有強視覺依賴的問題;
  • 跨模態耦合:純多模態基準,需同步處理符號公式、幾何關系與真實世界建模。



具體來看,SeePhys具有以下幾個關鍵屬性。

首先是全譜系覆蓋

  • 2000道題目+2245張圖表,涵蓋7大物理領域(經典力學、電磁學、量子物理等);
  • 8個知識層級:初中、高中、奧賽(初級/高級)、本科(低年級/高年級)、碩士、博士資格考試;
  • 21類異構圖表:包括電路圖、時空曲率圖、光電效應示意圖等。

其次是不同的視覺富集程度

  • Vision-Essential(75%):圖表含解題必需信息(如坐標系數值、電路拓撲、費曼圖);
  • Vision-Optional(25%):圖表僅輔助說明(如場景示意圖)。

還有多模態增強設計

  • 提供純視覺副本(問題文本與圖表融合為單張高分辨率圖像);
  • 四種評估模式:文本+圖表(TV)、文本+描述(TC)、純文本(TO)、純視覺(VO)。



實驗發現

通過對28個主流模型(包括o4-mini、Gemini-2.5-Pro、Claude-3.7-Sonnet等)的大規模測試,研究團隊總結以下結論:

視覺-文本對齊能力的缺陷:

  • 最佳模型Gemini-2.5-Pro準確率僅54.9%,即使是初中物理題正確率也不及70%。
  • 純語言模型表現意外接近多模態模型,如DeepSeek-R1(42.2%)vs o3-mini(40.3%),且模型在視覺依賴性較低的問題中準確率遠高于視覺信息富集的問題,暴露了當前頂尖MLLM仍存在巨大的視覺-文本對齊問題。
  • 模型對特定圖表類型(波動方程圖、電路圖)存在系統性識別障礙。



“看見”對于“思考”的重要性:

  • 對于視覺富集的問題,添加對圖像的文本描述和直接輸入圖文交織問題均相對純文本問題提升巨大。
  • 即使是非必要性圖表也能輔助模型理解問題(如Claude-3.7-Sonnet在Text+Vision條件下相對Vision Only準確率提升30.2%),表明適當的視覺提示能夠幫助模型理解問題本質。



知識注入顯現出邊際效應:

  • 較弱模型(如Qwen2.5-VL-3B和LLaVA-OneVision-7B)由于災難性遺忘現象,在高年級問題上精度下降幅度巨大,而較強模型則下降較為平緩,表明知識注入帶來的性能提升已經初步顯現邊際效應。
  • 當前模型更擅長記憶而非邏輯推理(如高級奧賽題反而比知識考察更深的博資考的準確率更低)。
  • 即使是初中和高中難度的物理題也并未被AI完全解決,物理學對于MLLM依然十分困難。

錯誤推理模式歸納

研究團隊對強模型o4-mini, Gemini-2.5-Pro與弱模型Qwen2.5-VL-3B共同錯誤的100個樣本進行人工分析。

然后,歸納得出了9種錯誤的推理模式,包括視覺誤讀、文本誤讀、建模錯誤、錯誤假設、數值計算錯誤、過度簡化、總結錯誤、過度思考和重復輸出。

所有三個模型都表現出明顯的建模缺陷(例如定理和公式誤用),同時表現出相對較少的文本誤讀和數值計算錯誤。

而過度思考和過度簡化的錯誤頻率在模型之間存在顯著差異,且較小的Qwen2.5-VL-3B出現了高重復輸出率(21%)。



參賽鏈接:https://www.codabench.org/competitions/7925/
挑戰賽詳細信息:https://sites.google.com/view/ai4mathworkshopicml2025/challenge
ICML workshop 主頁:https://sites.google.com/view/ai4mathworkshopicml2025/home

論文:https://arxiv.org/pdf/2505.19099
項目主頁:https://github.com/SeePhys/seephys-project

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
一年一CT,十年進ICU?關于CT檢查致癌的真相,我們不能再沉默了!

一年一CT,十年進ICU?關于CT檢查致癌的真相,我們不能再沉默了!

讀史
2025-04-26 06:58:44
隨著葡萄牙力壓西班牙,歐國聯奪冠!金球先生基本出爐:21球23助

隨著葡萄牙力壓西班牙,歐國聯奪冠!金球先生基本出爐:21球23助

球場沒跑道
2025-06-09 07:38:22
韋東奕旋風向外圍擴散,北大小心翼翼的回應耐人尋味|封面評論

韋東奕旋風向外圍擴散,北大小心翼翼的回應耐人尋味|封面評論

封面新聞
2025-06-09 16:31:03
明天開始喜鵲登門報喜,這3生肖事業、財運高漲,回報豐厚

明天開始喜鵲登門報喜,這3生肖事業、財運高漲,回報豐厚

人閒情事
2025-06-09 18:12:56
難怪炸不死烏高官,普京意識到不對勁:原來基輔藏著大秘密

難怪炸不死烏高官,普京意識到不對勁:原來基輔藏著大秘密

訪史
2025-06-09 17:13:18
突發!俄軍挺進烏重要礦業和工業中心!“烏方愿意停火!”澤連斯基:美將2萬枚援烏導彈調往中東,系專為攔截俄“見證者”無人機設計

突發!俄軍挺進烏重要礦業和工業中心!“烏方愿意停火!”澤連斯基:美將2萬枚援烏導彈調往中東,系專為攔截俄“見證者”無人機設計

每日經濟新聞
2025-06-09 01:09:14
從小被允許吃冷飲和不允許吃的孩子,長大后真的不一樣,要注意!

從小被允許吃冷飲和不允許吃的孩子,長大后真的不一樣,要注意!

特約前排觀眾
2025-06-02 00:10:05
腿部的粗細,與壽命長短相關?腿越細的人,暗示壽命越短,真的嗎

腿部的粗細,與壽命長短相關?腿越細的人,暗示壽命越短,真的嗎

華庭講美食
2025-06-09 10:47:20
特斯拉第800萬輛電動汽車已下線 是1輛烈焰紅Model Y

特斯拉第800萬輛電動汽車已下線 是1輛烈焰紅Model Y

TechWeb
2025-06-09 12:20:15
申裕斌乒超聯賽美照來襲,穿新隊服單手比耶又萌又可愛!

申裕斌乒超聯賽美照來襲,穿新隊服單手比耶又萌又可愛!

手工制作阿殲
2025-06-09 15:52:27
事發在廣州一小區內,現場多人參與救援!

事發在廣州一小區內,現場多人參與救援!

小南看城市
2025-06-09 13:58:31
查違規吃喝查到律師了!有律所通知外出吃飯要報備

查違規吃喝查到律師了!有律所通知外出吃飯要報備

煙語法明
2025-06-09 14:53:34
殲10CE含金量還在上升!巴鐵前外長爆料:提前鎖定印度001號陣風

殲10CE含金量還在上升!巴鐵前外長爆料:提前鎖定印度001號陣風

一頁史書
2025-06-09 16:03:40
65年李宗仁歸國,毛主席問他想要什么職務,李宗仁:人大副委員長

65年李宗仁歸國,毛主席問他想要什么職務,李宗仁:人大副委員長

臨云史策
2025-06-08 20:17:18
瑞典“環保少女”去加沙遭“綁架”?哈馬斯回應

瑞典“環保少女”去加沙遭“綁架”?哈馬斯回應

環球時報國際
2025-06-09 15:23:56
2024年中國對外援助1.28萬億元,躍居世界第一!

2024年中國對外援助1.28萬億元,躍居世界第一!

霹靂炮
2025-05-17 23:55:41
DeepSeek寫25年高考作文,以血為墨,以魂為歌,共赴民族復興之約

DeepSeek寫25年高考作文,以血為墨,以魂為歌,共赴民族復興之約

麓谷隱士
2025-06-07 16:28:34
敘利亞將重新接入跨境支付系統SWIFT

敘利亞將重新接入跨境支付系統SWIFT

界面新聞
2025-06-09 14:34:42
俄羅斯的民主屬于什么性質的民主?

俄羅斯的民主屬于什么性質的民主?

熊倌兒
2025-06-07 22:01:02
上海第一批女光棍進了養老院,如今再看她們的處境,費翔全說對了

上海第一批女光棍進了養老院,如今再看她們的處境,費翔全說對了

聯友說娛
2025-06-09 13:38:50
2025-06-09 22:51:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10619文章數 176166關注度
往期回顧 全部

科技要聞

今年618平臺集體想通了,主打一個簡單粗暴

頭條要聞

退休刑警被返聘協助破大案 以其為原型劇還沒播人被抓

頭條要聞

退休刑警被返聘協助破大案 以其為原型劇還沒播人被抓

體育要聞

雷霆55號秀,NBA第一“概念神”

娛樂要聞

劉品言閃婚閃孕官宣 崴腳時被照顧打動

財經要聞

重磅級民生文件公布 如何改變你我生活?

汽車要聞

首次搭載奧特能2.0平臺 新別克E5即將煥新上市

態度原創

藝術
教育
手機
健康
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

孩子弄壞同學東西,家長不肯賠償,我們老師能做點什么?

手機要聞

余承東曬華為Pura80 Pro系列新機 展示其視頻拍攝能力

減重專家破解減肥九大謠言!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 务川| 阳谷县| 临清市| 同江市| 台东县| 垣曲县| 即墨市| 新巴尔虎右旗| 克东县| 会东县| 汤阴县| 融水| 赞皇县| 手游| 乌拉特前旗| 崇阳县| 邹城市| 宁南县| 十堰市| 汶上县| 汾西县| 佛教| 石河子市| 福海县| 武穴市| 潍坊市| 义乌市| 徐水县| 贵德县| 什邡市| 宝坻区| 专栏| 社旗县| 辽阳县| 冷水江市| 天长市| 句容市| 本溪| 巫溪县| 杭州市| 洪雅县|