網易首頁 > 網易號 > 正文申請入駐

港中文&華為聯合提出首個大模型推理可靠性評估基準

2025-07-16 18:13:44　來源: 機器之心Pro

河北舉報

分享至

本文作者是香港中文大學博士三年級薛博陽，導師為黃錦輝教授，目前在倫敦大學學院進行訪問交流，他的研究方向包括可信大模型，模型不確定性，對話系統等，在 ACL, EMNLP, TASLP 等會議期刊作為第一作者發表多篇論文，并長期在知乎寫作大模型、機器學習等專欄文章，個人主頁為：

https://amourwaltz.github.io

研究問題

面對無解問題最強模型也會束手無策？

今年初以 DeepSeek-r1 為代表的大模型在推理任務上展現強大的性能，引起廣泛的熱度。然而在面對一些無法回答或本身無解的問題時，這些模型竟試圖去虛構不存在的信息去推理解答，生成了大量的事實錯誤、無意義思考過程和虛構答案，也被稱為模型「幻覺」問題，如下圖（a）所示，造成嚴重資源浪費且會誤導用戶，嚴重損害了模型的可靠性（Reliability）。

對于復雜的推理任務，一個可靠的模型應當在思考分析后，對可解問題給出正確答案，對不可解問題則指出無解；如果問題超出模型能力范圍無法判斷可解性，一個次優的選擇就是拒答以避免誤導用戶，如上圖（b）和（c）所示，這樣回復才是可靠的，同時也能抑制幻覺發生。

近期由港中文和華為諾亞實驗室聯合提出的ReliableMath基準，旨在探究大模型推理任務的可靠性。該工作文章和數據集均已開源，并持續在 leaderboard 上更新最新模型結果，目前已新增了 Qwen3、豆包、Gemini 等一系列模型的可靠性測試結果，歡迎大家關注補充～

論文題目：ReliableMath: Benchmark of Reliable Mathematical Reasoning on Large Language Models
論文作者：Boyang Xue, Qi Zhu, Rui Wang, Sheng Wang, Hongru Wang, Fei Mi, Yasheng Wang, Lifeng Shang, Qun Liu, Kam-Fai Wong
論文地址：https://arxiv.org/pdf/2507.03133
GitHub 地址：https://github.com/AmourWaltz/ReliableMath
數據集地址：https://huggingface.co/datasets/BeyondHsueh/ReliableMath
Leaderboard 地址：https://huggingface.co/spaces/BeyondHsueh/ReliableMath-Leaderboard

可靠性評估準則

知之為知之，不知為不知，是知也

此前大模型可靠性的研究集中在知識任務上，探究是否知道某個知識，缺乏對更難的推理任務的探索。由于推理問題本身可能無解，并且問題可解性以及模型能否回答都需要經過推理才能得出，增加了研究挑戰。

根據前文對推理任務可靠性的定義，本工作提出一套推理任務可靠性的評估準則，如下圖所示，將問題分為可解（A）和不可解（U），將模型回復分為成功（S），拒答（R）和失敗（F）。成功表示對可解問題匹配到正確答案或對不可解問題指出其無解，這是最好的情況；次優是拒答，即對可解和不可解問題都回復我不知道；其余回復均認為是失敗。

分別使用精度（Prec.）和謹慎度（Prud.）來表示成功率和拒答率，評估可靠性時優先看精度，其次看謹慎度。

ReliableMath 數據集

首個高質量數學無解問題集

由于缺乏無解的數學問題，本文提出一個評估數學推理可靠性的數據集 ReliableMath，包含可解和不可解的問題。可解問題從當前開源數學問題集中收集，不可解問題通過對可解問題進行改寫構造獲得，改寫方式有兩種：刪除必要數學條件或增加與已知條件矛盾的條件，如下圖所示。

為了得到高質量的無解問題，本文提出一套完整的無解解問題構造流程，如下圖所示，包含三步：1）通過對現有可解問題進行改寫使其不可解；2）對改寫問題使用模型驗證，并過濾掉不合格的問題；3）對過濾數據再次進行人工驗證評估問題是否無解，保留確實無解的問題，這樣就得到了高質量的無解問題構成 ReliableMath 數據集。

ReliableMath 包含不同難度的數學任務，包括奧賽級的 AIME、AMC、Minerva、及高中級的 MATH。人工標注時，對判斷問題無解的難度也進行了標注，對那些很容易判斷出無解的，比如幾何題缺失圖片信息等，難度標為 0，而對于需要經過思考才能判斷無解的，難度標為 1，數據統計可參考原文。

實驗分析

揭示大模型推理可靠性的缺陷

本文在一系列慢思考和快思考模型上做了實驗，并指出以下幾條關鍵發現：

對模型直接輸入無解問題時（standard prompt），模型幾乎不具備拒答或指出不可解的能力，可靠性極差；我們發現模型能注意到無解問題本身存在問題，但不敢承認其無解或拒答，反而是會不斷地回溯、反思導致生成大量無意義的思考過程，直到截斷或虛構一個答案，造成嚴重浪費和幻覺，損害了可靠性；
當在提示詞中加入允許模型拒答或指出問題無解的指令后（reliable prompt），我們發現在可解問題上的可靠性變化不大，但大部分模型在不可解問題上可靠性有明顯提升，盡管仍低于可解問題的可靠性，并且生成序列長度也有明顯下降，說明使用 reliable prompt 可以在不損害可解問題性能的前提下，提高不可解問題的可靠性，并減少過度思考。
對較大的模型，使用 reliable prompt 后慢思考模型的可靠性普遍高于對應快思考模型，如 Deepseek-r1 vs. Deepseek-v3；而對于小模型，使用 reliable prompt 后慢思考模型在不可解問題上的可靠性仍然很差，并沒有高于對應的快思考模型，如 Distill-7b vs. Qwen-7b，意味著小模型可靠性有進一步提升空間。
較簡單的數學測試集的可靠性要高于較難的測試集的可靠性。

此外，本文也對 ReliableMath 數據集做了分析，下圖（a）分別測試了使用移除必要條件和增加矛盾條件兩種改寫方式構造的問題的可靠性，結果表明移除條件構造的不可解問題可靠性偏低，這是因為模型傾向于假設缺失條件虛構答案。圖（b）分別展示了不同難度的無解問題的可靠性，發現難度為 1 的不可解問題可靠性偏低，即這些問題需要模型經過推理才能發現問題無解，這種情況更難也符合預期，說明大模型與人類在識別問題無解難度的相關性是一致的，盡管人工評估難度存在主觀性。

可靠性對齊

如何提高大模型可靠性？

本文最后提出一個提高可靠性的對齊策略，在開源訓練集上構造一批無解問題。在較強的模型上蒸餾獲得成功回復，然后在小模型上自采樣獲得拒答回復，最后使用監督學習訓練小模型提升可靠性，如下圖所示。經過對齊后，小模型的可靠性也得到顯著提升。

結語和展望

本文提出首個大模型推理任務的可靠性基準，希望借此拋磚引玉，引出更多對新生代推理模型可靠性的關注和優秀工作，讓人們更加信任模型的輸出，讓 AI 更好地服務于人類～

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.