99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

港中文&華為聯合提出首個大模型推理可靠性評估基準

0
分享至



本文作者是香港中文大學博士三年級薛博陽,導師為黃錦輝教授,目前在倫敦大學學院進行訪問交流,他的研究方向包括可信大模型,模型不確定性,對話系統等,在 ACL, EMNLP, TASLP 等會議期刊作為第一作者發表多篇論文,并長期在知乎寫作大模型、機器學習等專欄文章,個人主頁為:

https://amourwaltz.github.io

研究問題

面對無解問題最強模型也會束手無策?

今年初以 DeepSeek-r1 為代表的大模型在推理任務上展現強大的性能,引起廣泛的熱度。然而在面對一些無法回答或本身無解的問題時,這些模型竟試圖去虛構不存在的信息去推理解答,生成了大量的事實錯誤、無意義思考過程和虛構答案,也被稱為模型「幻覺」 問題,如下圖(a)所示,造成嚴重資源浪費且會誤導用戶,嚴重損害了模型的可靠性(Reliability)。



對于復雜的推理任務,一個可靠的模型應當在思考分析后,對可解問題給出正確答案,對不可解問題則指出無解;如果問題超出模型能力范圍無法判斷可解性,一個次優的選擇就是拒答以避免誤導用戶,如上圖(b)和(c)所示,這樣回復才是可靠的,同時也能抑制幻覺發生。

近期由港中文和華為諾亞實驗室聯合提出的ReliableMath基準,旨在探究大模型推理任務的可靠性。該工作文章和數據集均已開源,并持續在 leaderboard 上更新最新模型結果,目前已新增了 Qwen3、豆包、Gemini 等一系列模型的可靠性測試結果,歡迎大家關注補充~



  • 論文題目:ReliableMath: Benchmark of Reliable Mathematical Reasoning on Large Language Models
  • 論文作者:Boyang Xue, Qi Zhu, Rui Wang, Sheng Wang, Hongru Wang, Fei Mi, Yasheng Wang, Lifeng Shang, Qun Liu, Kam-Fai Wong
  • 論文地址:https://arxiv.org/pdf/2507.03133
  • GitHub 地址:https://github.com/AmourWaltz/ReliableMath
  • 數據集地址:https://huggingface.co/datasets/BeyondHsueh/ReliableMath
  • Leaderboard 地址:https://huggingface.co/spaces/BeyondHsueh/ReliableMath-Leaderboard

可靠性評估準則

知之為知之,不知為不知,是知也

此前大模型可靠性的研究集中在知識任務上,探究是否知道某個知識,缺乏對更難的推理任務的探索。由于推理問題本身可能無解,并且問題可解性以及模型能否回答都需要經過推理才能得出,增加了研究挑戰。

根據前文對推理任務可靠性的定義,本工作提出一套推理任務可靠性的評估準則,如下圖所示,將問題分為可解(A)和不可解(U),將模型回復分為成功(S),拒答(R)和失敗(F)。成功表示對可解問題匹配到正確答案或對不可解問題指出其無解,這是最好的情況;次優是拒答,即對可解和不可解問題都回復我不知道;其余回復均認為是失敗。



分別使用精度(Prec.)和謹慎度(Prud.)來表示成功率和拒答率,評估可靠性時優先看精度,其次看謹慎度。



ReliableMath 數據集

首個高質量數學無解問題集

由于缺乏無解的數學問題,本文提出一個評估數學推理可靠性的數據集 ReliableMath,包含可解和不可解的問題。可解問題從當前開源數學問題集中收集,不可解問題通過對可解問題進行改寫構造獲得,改寫方式有兩種:刪除必要數學條件或增加與已知條件矛盾的條件,如下圖所示。



為了得到高質量的無解問題,本文提出一套完整的無解解問題構造流程,如下圖所示,包含三步:1)通過對現有可解問題進行改寫使其不可解;2)對改寫問題使用模型驗證,并過濾掉不合格的問題;3)對過濾數據再次進行人工驗證評估問題是否無解,保留確實無解的問題,這樣就得到了高質量的無解問題構成 ReliableMath 數據集。



ReliableMath 包含不同難度的數學任務,包括奧賽級的 AIME、AMC、Minerva、及高中級的 MATH。人工標注時,對判斷問題無解的難度也進行了標注,對那些很容易判斷出無解的,比如幾何題缺失圖片信息等,難度標為 0,而對于需要經過思考才能判斷無解的,難度標為 1,數據統計可參考原文。

實驗分析

揭示大模型推理可靠性的缺陷

本文在一系列慢思考和快思考模型上做了實驗,并指出以下幾條關鍵發現:



  1. 對模型直接輸入無解問題時(standard prompt),模型幾乎不具備拒答或指出不可解的能力,可靠性極差;我們發現模型能注意到無解問題本身存在問題,但不敢承認其無解或拒答,反而是會不斷地回溯、反思導致生成大量無意義的思考過程,直到截斷或虛構一個答案,造成嚴重浪費和幻覺,損害了可靠性;
  2. 當在提示詞中加入允許模型拒答或指出問題無解的指令后(reliable prompt),我們發現在可解問題上的可靠性變化不大,但大部分模型在不可解問題上可靠性有明顯提升,盡管仍低于可解問題的可靠性,并且生成序列長度也有明顯下降,說明使用 reliable prompt 可以在不損害可解問題性能的前提下,提高不可解問題的可靠性,并減少過度思考。
  3. 對較大的模型,使用 reliable prompt 后慢思考模型的可靠性普遍高于對應快思考模型,如 Deepseek-r1 vs. Deepseek-v3;而對于小模型,使用 reliable prompt 后慢思考模型在不可解問題上的可靠性仍然很差,并沒有高于對應的快思考模型,如 Distill-7b vs. Qwen-7b,意味著小模型可靠性有進一步提升空間。
  4. 較簡單的數學測試集的可靠性要高于較難的測試集的可靠性。

此外,本文也對 ReliableMath 數據集做了分析,下圖(a)分別測試了使用移除必要條件和增加矛盾條件兩種改寫方式構造的問題的可靠性,結果表明移除條件構造的不可解問題可靠性偏低,這是因為模型傾向于假設缺失條件虛構答案。圖(b)分別展示了不同難度的無解問題的可靠性,發現難度為 1 的不可解問題可靠性偏低,即這些問題需要模型經過推理才能發現問題無解,這種情況更難也符合預期,說明大模型與人類在識別問題無解難度的相關性是一致的,盡管人工評估難度存在主觀性。



可靠性對齊

如何提高大模型可靠性?

本文最后提出一個提高可靠性的對齊策略,在開源訓練集上構造一批無解問題。在較強的模型上蒸餾獲得成功回復,然后在小模型上自采樣獲得拒答回復,最后使用監督學習訓練小模型提升可靠性,如下圖所示。經過對齊后,小模型的可靠性也得到顯著提升。



結語和展望

本文提出首個大模型推理任務的可靠性基準,希望借此拋磚引玉,引出更多對新生代推理模型可靠性的關注和優秀工作,讓人們更加信任模型的輸出,讓 AI 更好地服務于人類~

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
天水人的悲歌

天水人的悲歌

熊太行
2025-07-16 05:45:04
山體塌方致隴海鐵路貨運機車脫線,事發地政府:司機擦傷,上千人參與搶修

山體塌方致隴海鐵路貨運機車脫線,事發地政府:司機擦傷,上千人參與搶修

極目新聞
2025-07-16 18:51:39
老黃投了個120億美元最貴種子輪!小錢:市值一夜暴漲1600億美元

老黃投了個120億美元最貴種子輪!小錢:市值一夜暴漲1600億美元

量子位
2025-07-16 10:17:24
心肺復蘇被指襲胸:質疑者賬號被扒,還是個擦邊博主,已受制裁

心肺復蘇被指襲胸:質疑者賬號被扒,還是個擦邊博主,已受制裁

阿纂看事
2025-07-15 18:36:13
我們正式宣布:“可以開火射擊!”看誰再敢往槍口上撞

我們正式宣布:“可以開火射擊!”看誰再敢往槍口上撞

文雅筆墨
2025-07-17 00:01:55
韓國女足2-0中國臺北女足 韓國女足1勝2平奪冠 中國臺北女足墊底

韓國女足2-0中國臺北女足 韓國女足1勝2平奪冠 中國臺北女足墊底

直播吧
2025-07-16 20:31:48
施幼珍的堅持,道出中國富豪太太的現狀:沒有理由選擇婚姻潔癖!

施幼珍的堅持,道出中國富豪太太的現狀:沒有理由選擇婚姻潔癖!

湯湯慢
2025-07-15 18:39:51
美記:當楊瀚森命中第二記三分時,全場陷入沸騰

美記:當楊瀚森命中第二記三分時,全場陷入沸騰

雷速體育
2025-07-16 11:56:12
杜建英鄰居爆料!孩子不是私生子,但孩子長得不像他們,難以相信

杜建英鄰居爆料!孩子不是私生子,但孩子長得不像他們,難以相信

史書無明
2025-07-16 10:50:24
上海著名大酒店徹底關門?現場已人去樓空!市民不舍:生日宴、結婚宴都在這里辦的

上海著名大酒店徹底關門?現場已人去樓空!市民不舍:生日宴、結婚宴都在這里辦的

東方網
2025-07-15 23:41:12
女籃亞洲杯各國球員誰最美?1號選手——韓國女籃核心后衛申智現

女籃亞洲杯各國球員誰最美?1號選手——韓國女籃核心后衛申智現

雷速體育
2025-07-16 14:57:55
女跑者真實經歷分享:天熱跑步謹慎走光,小心“春光乍泄”

女跑者真實經歷分享:天熱跑步謹慎走光,小心“春光乍泄”

馬拉松跑步健身
2025-05-29 13:53:35
特斯拉官宣新車:Model YL,金秋見!為大六座豪華SUV,已登上工信部新車目錄,售價或在40萬元左右

特斯拉官宣新車:Model YL,金秋見!為大六座豪華SUV,已登上工信部新車目錄,售價或在40萬元左右

每日經濟新聞
2025-07-16 20:54:37
老兵駐藏9年沒提干,提出退伍后,次日電話被領導打爆

老兵駐藏9年沒提干,提出退伍后,次日電話被領導打爆

蕭竹輕語
2025-07-14 20:33:41
“替她說話,能是啥好人?”網友:看過李某視頻,就不會為她辯解

“替她說話,能是啥好人?”網友:看過李某視頻,就不會為她辯解

妍妍教育日記
2025-07-16 18:00:51
官宣!CBA夏聯賽程時間公布!8月8日正式開打,廣東遭遇兩強敵

官宣!CBA夏聯賽程時間公布!8月8日正式開打,廣東遭遇兩強敵

老吳說體育
2025-07-17 00:56:57
美國的擔憂,已經告訴我們,大陸一旦收臺,美國將陷入戰略困境

美國的擔憂,已經告訴我們,大陸一旦收臺,美國將陷入戰略困境

文史旺旺旺
2025-07-15 23:49:08
以防長:警告已結束 將對敘利亞政權開展“痛苦打擊”

以防長:警告已結束 將對敘利亞政權開展“痛苦打擊”

財聯社
2025-07-16 20:52:20
絕地反殺!宗慶后私生子申請鑒定,宗馥莉一舉動表態度,勝券在握

絕地反殺!宗慶后私生子申請鑒定,宗馥莉一舉動表態度,勝券在握

洲洲影視娛評
2025-07-15 18:03:37
男人衰老的10個明顯標志

男人衰老的10個明顯標志

健身廚屋
2025-07-16 23:58:28
2025-07-17 02:00:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10881文章數 142381關注度
往期回顧 全部

科技要聞

網易直擊黃仁勛見面會,他說了這28句話

頭條要聞

日本電機巨頭:已開始為豐田供應99%"中國造"驅動電機

頭條要聞

日本電機巨頭:已開始為豐田供應99%"中國造"驅動電機

體育要聞

不給楊瀚森傳球,他有自己的理由

娛樂要聞

都美竹將參加綜藝,單身媽媽發文抵制

財經要聞

探究萬億市場的休閑零食

汽車要聞

理想i8內飾官圖公布 李想回應"被打臉"

態度原創

藝術
時尚
家居
親子
教育

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

今年夏天流行的“多巴胺運動鞋”太時髦了,誰穿誰好看!

家居要聞

浪漫典雅 法式風格別墅

親子要聞

小寶剛過完生日學著走啦,媳婦做蒜茄子簡單又好吃,啃玉米老香了

教育要聞

即將殺瘋了:港校、坡校留學大亂斗!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 金平| 揭西县| 泰来县| 辽阳市| 泾源县| 大方县| 腾冲县| 房产| 闽清县| 赫章县| 隆子县| 兴山县| 临安市| 洪江市| 湟中县| 房山区| 兖州市| 广南县| 新晃| 新民市| 万载县| 乌鲁木齐县| 神池县| 南陵县| 沂水县| 神农架林区| 双柏县| 泾源县| 白玉县| 合川市| 上林县| 夏邑县| 曲麻莱县| 东乌珠穆沁旗| 吉林省| 孝义市| 武强县| 嘉荫县| 五原县| 西昌市| 卢湾区|