99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

推理正確率下降65.5%!斯坦福、MIT等用「不等式」拷問AI邏輯極限

0
分享至


新智元報道

編輯:LRST

【新智元導讀】大語言模型在數學證明中常出現推理漏洞,如跳步或依賴特殊值。斯坦福等高校團隊提出IneqMath基準,將不等式證明拆解為可驗證的子任務。結果顯示,模型的推理正確率遠低于答案正確率,暴露出其在數學推理上的缺陷。

在大模型頻頻給出「看似完美」答案的今天,我們是否已經迎來了真正「會推理」的AI?

多位網友分享了自己的經歷,「我試過用LLMs做正割和正切的定理的證明,但是結果錯誤的太多了!」


「大語言模型在解題的時候可能只是從訓練數據集中概括了推理模式,但是并沒有具體問題用具體的方法分析。」


「大語言模型的幻覺始終是諸多人工智能應用(包括數學證明)的主要障礙!」


這些大模型在面對數學證明題目時,自信滿滿地輸出了「解題思路」和「證明過程」,一切看上去井井有條。但你是否注意到,很多推理其實沒有解釋關鍵步驟,甚至直接用一個「看起來合理的句子」替代了邏輯推導?

這不是個別現象,而是結構性問題。近日,來自斯坦福大學、麻省理工學院(MIT)與加州大學伯克利分校的研究團隊聯合提出了一個創新性數學不等式基準IneqMath,專門用于評估語言模型在復雜數學推理中的嚴謹性與合理性


論文鏈接:https://arxiv.org/abs/2506.07927

官方網站:ineqmath.github.io

數據集鏈接:https://huggingface.co/datasets/AI4Math/IneqMath

代碼鏈接:https://github.com/lupantech/ineqmath

在線排行榜:https://huggingface.co/spaces/AI4Math/IneqMath-Leaderboard

題目可視化展示:https://ineqmath.github.io/#visualization



AI會答題,但它真的會「證明」嗎?

過去幾年,像GPT-4、Claude、Gemini等大模型不斷刷新我們對AI能力的認知。它們已經能寫論文、解題,甚至「解釋」自己的推理過程。

但研究者發現一個驚人的現象:很多模型確實能給出正確答案,但它們的推理過程卻漏洞百出,比如:

  • 跳過中間關鍵步驟,直接下結論

  • 用特殊數值代入來「猜測」一般規律

  • 數值近似粗糙,邏輯推導不閉合

  • 寫得像人話,但并不是真正的數學語言

這意味著,當前大模型并不具備穩定、可靠的邏輯結構。它們可以「合理地猜對」,但無法「嚴格地推理對」。


讓AI暴露推理盲點

為了解決這一問題,研究團隊構建了全新的數學評測體系IneqMath,核心思路是:

  1. 不等式證明題作為切入點

  2. 將證明過程拆解為「選擇題」和「填空題」形式的自然語言任務,包括Bound Estimation(界限估計)和Relation Prediction(關系預測)

  3. 構建訓練、驗證與測試數據集,涵蓋奧數級難度題目與復雜定理組合

  4. 引入五種「自動評審器」,構成LLM-as-Judge框架,審查模型每一步推理的合理性

這種「非形式化但可驗證」的方法,比單純要求形式邏輯更貼近人類實際思維,也能同時定量衡量大語言模型的答案和過程的推理準確性。

其中Bound Estimation(界限估計)和Relation Prediction(關系預測)的題目示例如下


Bound Estimation(界限估計)測試集題目示例


Relation Estimation(關系判斷)測試集題目示例

從多維角度審查AI推理過程

為了深入評估大模型的推理嚴謹性,研究團隊設計了一個名為LLM-as-Judge的自動審查框架,內部由五個獨立的「評審器」組成,專門從多個維度對模型的解題過程進行細致分析。

這些「評委」分別是Final Answer Judge用來衡量最終的答案是否正確、和4個Step-wise Judge用來從不同的維度衡量推理的步驟是否是正確的。

借助這一系統,研究者不再僅僅關注模型「猜得準」與否,而是能逐步拆解每一步邏輯鏈,判斷模型是否真正具備嚴密推理的能力,而非只是「蒙對了結論」。

這4個Step-wise Judge分別是Toy Case Judge、Logical Gap Judge、Numerical Approximation Judge、Numerical Computation Judge

Toy Case Judge

它的職責是識別模型是否通過代入個別特殊數值(如a=1, b=2)來推導出對所有情況都成立的結論。


可以看到,該模型在求解過程中借助特定數值的帶入,并依賴代入后表達式的大小關系來推斷其最小上界,這實際上是一種以有限實例推及普遍結論的推理方式。

Toy Case Judge針對模型結果中這種通過特殊取值進行推斷的現象進行了深入剖析,精準地定位了問題,并最終判定為False,說明該結論因基于特例而不具備普遍性,應視為不正確。

Logical Gap Judge

它主要負責判斷模型的推理鏈條中是否存在關鍵步驟的跳過、推導中缺乏解釋的等價變換,或者直接從條件躍遷到結論而沒有交代中間過程。


可以看到,該語句聲稱「數值檢驗確認最小值發生在 x = 1」,卻完全未展示任何實際數值結果、評估過程或可視/分析證據來支撐這一說法,這實際上是一種無充足依據的斷言式推理。

Logical Gap Judge針對這類缺乏實證數據與分析佐證的論斷進行了深入評估,精準定位了其中的邏輯空缺,并最終判定為False,指出該結論因證據不足而不具備說服力,應被視為錯誤。

Numerical Approximation Judge

它會檢查模型是否使用了模糊不清的數值估算替代了精確計算,進而破壞了數學證明所要求的嚴謹性。


可以看到,上述計算依賴于三角函數的近似十進制值。僅通過將S的近似值與114做比較來推斷二者關系,并不具備嚴格的數學依據。

這正是Numerical Approximation Judge所關注的問題:針對這種因過度依賴粗糙近似而產生的誤導性結論,Judge進行了詳盡審查,精確識別了其中的數值近似漏洞,最終判定為False,表明該結論因數值近似失當而不夠嚴謹,應被視為錯誤。

Numerical Computation Judge

它專注于捕捉模型在基礎運算中出現的錯誤,比如簡單的乘法加法算錯,或者代入過程中產生了錯誤的數值推導。


可以看到,Numerical Computation Judge會首先從響應文本中自動識別出所有的數值計算的表達式

然后基于這些等式生成對應的驗證代碼(這里使用了Sympy的Rational類型)執行后卻發現出現了數值計算上的錯誤。

Numerical Computation Judge正是通過這種提取–編碼–執行的數值檢驗流程,精準地定位到計算環節的遺漏或錯誤,并最終判定該推斷為False,指出原步驟因數值計算不正確而錯誤。

令人震驚的「Soundness Gap」

研究團隊使用LLM-as-Judge在GPT-4、Claude、Grok、Gemini、Llama等29款主流模型上進行了系統評估,結果顯示:

  • Grok3 mini最終答案正確率達71.5%,但推理過程正確率僅為6.0%

  • 所有模型推理正確率最多下降65.5%,說明它們經常「猜得準但講不清」

  • 開源模型(如Mistral、Llama)的「邏輯嚴謹性」表現最弱,不超過6%

這意味著目前大語言模型推理鏈條中存在嚴重結構性缺陷,即使答對了,也無法保證中間過程有邏輯閉環。


IneqMath打榜

為了推動大語言模型在嚴謹數學論證上的突破,科研團隊搭建了一個持續更新的IneqMath排行榜,向全球開發者開放提交。

不論你是在調試輕量化模型,還是在優化頂級推理系統,都能將成果上傳平臺,自動化評測其答案正確率與推理完整度。


排行榜鏈接:https://huggingface.co/spaces/AI4Math/IneqMath-Leaderboard

排行榜提供多種篩選功能,讓您輕松挑選感興趣的模型類別;只需點擊表頭,即可按照任意字段自定義排序。頁面還直觀展示了各模型的關鍵參數,便于快速對比與查看。

如需提交自己的模型結果,點擊進入網頁后即可看到提交界面。上傳模型的結果,并填寫對應的模型參數后,您的模型結果就會自動的在后臺進行評估。

提交后,點擊頁面上方的「Process Query」按鈕,輸入「提交時填寫的郵箱地址」,即可查看評估結果。

在此界面,你可以將成績一鍵發布至公共排行榜,向大家展示你的出色表現;如對當前排名不滿意,也可隨時在此將其移除。

參考資料:

https://ineqmath.github.io/


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
11年前,他捐給美國7千萬并叫囂“中國窮關我屁事”,如今已破產

11年前,他捐給美國7千萬并叫囂“中國窮關我屁事”,如今已破產

億通電子游戲
2025-06-22 07:43:51
美國轟炸伊朗,至少有4個國家在“偷著樂”,伊朗真該好好反省了

美國轟炸伊朗,至少有4個國家在“偷著樂”,伊朗真該好好反省了

明月聊史
2025-06-23 16:35:38
收評:滬指低開高走漲0.65% 全市場超4400只個股上漲

收評:滬指低開高走漲0.65% 全市場超4400只個股上漲

財聯社
2025-06-23 15:04:55
記者:烏度卡是引進杜蘭特的堅定支持者,他推進了這筆交易

記者:烏度卡是引進杜蘭特的堅定支持者,他推進了這筆交易

懂球帝
2025-06-23 17:47:17
陸毅女兒長大啦,貝兒長得亭亭玉立,眉眼間透著靈動,嘴唇真好看

陸毅女兒長大啦,貝兒長得亭亭玉立,眉眼間透著靈動,嘴唇真好看

跳跳歷史
2025-06-16 11:28:18
岳父分家產沒我份,我沒鬧,岳父住院,11個人打了196個電話給我

岳父分家產沒我份,我沒鬧,岳父住院,11個人打了196個電話給我

磊子講史
2025-06-21 14:04:13
我52歲,存款15萬,沒有退休金沒有社保,但我決定不再工作了

我52歲,存款15萬,沒有退休金沒有社保,但我決定不再工作了

媛來這樣
2025-06-23 15:08:05
新諾基亞N95突然殺出,這設計太炸了

新諾基亞N95突然殺出,這設計太炸了

搞機小帝
2025-06-23 00:05:58
記者:巴薩談妥巴爾德吉交易,轉會費250萬+15%二次轉會分成

記者:巴薩談妥巴爾德吉交易,轉會費250萬+15%二次轉會分成

懂球帝
2025-06-23 18:00:06
上海海港球迷意難平!不只因為2-3申花,更多原因在于以下五點

上海海港球迷意難平!不只因為2-3申花,更多原因在于以下五點

桃葉渡春
2025-06-23 17:18:08
新股上市第二天大跌超14%,首日進場的股民被一鍋端,全部被套

新股上市第二天大跌超14%,首日進場的股民被一鍋端,全部被套

八百者也
2025-06-23 12:21:58
6月買菜避開這3種反季節菜!老菜農透露:吃錯傷身體還浪費錢

6月買菜避開這3種反季節菜!老菜農透露:吃錯傷身體還浪費錢

江江食研社
2025-06-23 08:30:10
其實,很多單位已經爛透了!

其實,很多單位已經爛透了!

大道微言
2025-06-16 20:00:39
1964年,曹達華在澳門,“輸”掉了1500億,賭王送他一張終身免費吃喝貴賓卡

1964年,曹達華在澳門,“輸”掉了1500億,賭王送他一張終身免費吃喝貴賓卡

坦然風云
2025-06-20 07:23:49
美軍最大弱點曝光?一場伊以沖突,讓美媒驚呼:拿什么和解放軍打

美軍最大弱點曝光?一場伊以沖突,讓美媒驚呼:拿什么和解放軍打

兵器展望
2025-06-23 10:04:57
有且僅有邁阿密!次輪后小組前二16席歐洲+南美占15席,北美1席

有且僅有邁阿密!次輪后小組前二16席歐洲+南美占15席,北美1席

直播吧
2025-06-23 11:35:06
內娛最大的笑話,一個連路都走不利索的歌手,78歲開演唱會撈錢?

內娛最大的笑話,一個連路都走不利索的歌手,78歲開演唱會撈錢?

書雁飛史oh
2025-05-08 21:22:23
謝逸楓:顫抖吧!前5月全國賣地收入斷崖式下滑,怎么辦

謝逸楓:顫抖吧!前5月全國賣地收入斷崖式下滑,怎么辦

謝逸楓看樓市
2025-06-22 21:39:44
哈利哭了,雷霆贏了!搶七大戰結束,聯盟卻付出了代價

哈利哭了,雷霆贏了!搶七大戰結束,聯盟卻付出了代價

籃球掃地僧
2025-06-23 10:57:00
馬蓉脫衣帶貨被舉報!崩潰大哭賣慘,網友:早干嘛去了?

馬蓉脫衣帶貨被舉報!崩潰大哭賣慘,網友:早干嘛去了?

TVB的四小花
2025-06-23 00:05:45
2025-06-23 18:47:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12936文章數 66077關注度
往期回顧 全部

科技要聞

售出千萬臺!他卻說"只想做下一代AI終端"

頭條要聞

奔襲萬里的美B-2轟炸機內部披露 返航通話錄音被截獲

頭條要聞

奔襲萬里的美B-2轟炸機內部披露 返航通話錄音被截獲

體育要聞

比起雷霆三少,他才是真正隊魂

娛樂要聞

魏大勛和秦嵐沒分手!

財經要聞

美國打擊伊朗,為何全球市場依然淡定?

汽車要聞

真香價格+質保承諾 別克E5很難讓人拒絕了

態度原創

本地
時尚
教育
健康
公開課

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

隨手錄的梁朝偉看秀視頻有600萬人看了

教育要聞

重要通知!2025高考查分時間“一覽表”出爐,多省志愿填報時間已定

呼吸科專家破解呼吸道九大謠言!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 安远县| 金山区| 甘洛县| 从江县| 建平县| 大兴区| 庆安县| 宝兴县| 肥城市| 济阳县| 全椒县| 昆山市| 海淀区| 宣城市| 绥棱县| 买车| 怀来县| 通化县| 饶河县| 宝清县| 宜兰市| 朝阳区| 台东市| 昌平区| 永州市| 泰宁县| 容城县| 弋阳县| 滦南县| 文山县| 姜堰市| 长春市| 惠东县| 平邑县| 万全县| 巴塘县| 沂南县| 大名县| 汉寿县| 阿拉善右旗| 自治县|