99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

北大、清華、UvA、CMU等聯(lián)合發(fā)布:大模型邏輯推理能力最新綜述

0
分享至



當前大模型研究正逐步從依賴擴展定律(Scaling Law)的預訓練,轉(zhuǎn)向聚焦推理能力的后訓練。鑒于符號邏輯推理的有效性與普遍性,提升大模型的邏輯推理能力成為解決幻覺問題的關鍵途徑。

為推進大語言模型的邏輯推理能力研究,來自北大、清華、阿姆斯特丹大學(UvA)、卡內(nèi)基梅隆大學(CMU)、MBZUAI 等 5 所高校的研究人員全面調(diào)研了該領域最前沿的研究方法和評測基準,聯(lián)合發(fā)布了調(diào)研綜述《Empowering LLMs with Logical Reasoning: A Comprehensive Survey》,針對兩個關鍵科學問題 ——邏輯問答和邏輯一致性,對現(xiàn)有方法進行歸納整理并探討了未來研究方向。

該綜述論文已被 IJCAI 2025 Survey Track 接收,并且作者團隊將于 IJCAI 2025 現(xiàn)場圍繞同一主題進行 Tutorial 演講,全面探討該研究領域的挑戰(zhàn)、方法與機遇。



  • 論文標題:Empowering LLMs with Logical Reasoning: A Comprehensive Survey
  • 論文鏈接:https://arxiv.org/abs/2502.15652

全文概要

大語言模型(LLMs)雖然在很多自然語言任務中取得了顯著成就,但最新研究表明其邏輯推理能力仍存在顯著缺陷。本文將大模型邏輯推理困境主要歸納為兩個方面:

  • 邏輯問答:LLMs 在給定前提和約束條件下進行演繹、歸納或溯因等復雜推理時,往往難以生成正確答案。例如,前提為 “金屬導電;絕緣體不導電;如果某物是由鐵制成的,那么它是金屬;釘子是由鐵制成的”,問題為 “下列斷言是真、假還是無法判斷:釘子不能導電”。為了正確回答這個問題,大語言模型需要自我總結(jié)出邏輯推理鏈“釘子→由鐵制成→金屬→導電”,從而得出該斷言實際為 “假” 的結(jié)論。
  • 邏輯一致性:LLMs 在不同問題間容易產(chǎn)生自相矛盾的回答。例如,Macaw 問答模型對 "喜鵲是鳥嗎?" 和 "鳥有翅膀嗎?" 均回答 "是",但對 "喜鵲有翅膀嗎?" 給出否定答案。

為推進該領域研究,我們系統(tǒng)梳理了最前沿的技術方法并建立了對應的分類體系。具體而言,對于邏輯問答,現(xiàn)有方法可根據(jù)其技術路線分為基于外部求解器、提示工程、預訓練和微調(diào)等類別。對于邏輯一致性,我們探討了常見的邏輯一致性的概念,包括否定一致性、蘊涵一致性、傳遞一致性、事實一致性及其組合形式,并針對每種邏輯一致性歸納整理了其對應的技術手段。

此外,我們總結(jié)了常用基準數(shù)據(jù)集和評估指標,并探討了若干具有前景的研究方向,例如擴展至模態(tài)邏輯以處理不確定性,以及開發(fā)能同時滿足多種邏輯一致性的高效算法等。

具體的文章結(jié)構(gòu)如下圖。



圖 1:大模型邏輯推理綜述分類體系,包含邏輯問答和邏輯一致性兩個關鍵科學問題

大模型邏輯推理困境的兩個方面

盡管大語言模型在文本生成、分類和翻譯等廣泛的自然語言任務中展現(xiàn)出了卓越的性能,大語言模型在復雜邏輯推理上仍然面臨著重大挑戰(zhàn)。這是由于大語言模型的預訓練語料庫主要由人類撰寫的文本組成,這些文本缺乏高質(zhì)量的邏輯推理樣本(如演繹證明),且通過下一詞元預測(next token prediction)掩碼語言建模(masked language modeling)等任務來學習語法、語義和世界知識,并不能確保大語言模型具備邏輯推理能力。以上局限性會導致大語言模型在需要邏輯推理能力在以下兩個任務表現(xiàn)不佳。

邏輯問答

大語言模型在邏輯問答中往往無法生成正確答案,其要求大語言模型在給定一系列前提和推理規(guī)則的情況下,進行復雜的演繹、歸納或溯因推理。具體而言,這些邏輯問題大致可分為兩類:

  • 判斷能否從給定信息中推導出某個斷言,即輸出該斷言的真值:真、假或無法判斷。
  • 從多個選項中找出所有不違背給定前提和約束條件的選項。

令人驚訝的是,在邏輯問題數(shù)據(jù)集 FOLIO 上,LLaMA 13B 參數(shù)模型在 8-shot 下的準確率僅為 33.63%,這只比從真、假和無法判斷中隨機猜測對應的準確率 33.33% 略高一點。這極大地限制了大語言模型在智能問答、自主決策等場景的實際應用。

邏輯一致性

大語言模型在推理復雜問題的過程中回答不同問題時,容易產(chǎn)生自相矛盾的回答,或與知識庫 / 邏輯規(guī)則相矛盾,我們稱其違反了邏輯一致性。

需要注意的是,邏輯一致性的形式可以是多樣的。例如,LLaMa-2 70B 參數(shù)模型對 “信天翁是一種生物嗎?” 和 “信天翁不是一種生物嗎?” 這兩個問題都回答 “真”,這違反了邏輯的矛盾律。又如,Macaw 問答大模型對 “喜鵲是鳥嗎?” 和 “鳥有翅膀嗎?” 這兩個問題都回答 “是”,但對 “喜鵲有翅膀嗎?” 卻回答 “否”,這不符合三段論推理規(guī)則

許多研究表明,僅在大型問答數(shù)據(jù)集上進行訓練并不能確保大語言模型的邏輯一致性。這些相互矛盾的回答引發(fā)了對大語言模型可靠性可信度的擔憂,尤其限制了其在高風險場景中的實際部署,如醫(yī)療診斷、法律咨詢、工業(yè)流程控制等場景。

我們可以將邏輯問答和邏輯一致性視為大語言模型邏輯推理能力的一體兩面。接下來我們將對這兩個方面的最新研究進展進行歸納總結(jié)。

提升邏輯問答能力的方法

為了更好地理解大語言模型邏輯推理能力的邊界,探索更有效的技術方法,研究者們開發(fā)了許多相關的測評任務與基準數(shù)據(jù)集,用于評估大模型在邏輯問答任務的性能。在此基礎上,許多研究探索了增強大語言模型邏輯推理能力的方法,這些方法可以大致分為三類:基于外部求解器的方法、基于提示的方法,和預訓練與微調(diào)方法。下面進行具體介紹。

1. 基于外部求解器的方法

總體思路是將自然語言(NL)表達的邏輯問題翻譯為符號語言(SL)表達式,然后通過外部求解器進行邏輯推理求解,最后基于多數(shù)投票等集成算法生成最終答案,如圖 2 所示。



圖 2:基于外部求解器方法提升大模型邏輯問答能力

2. 基于提示的方法

一類思路是通過設計合理的提示詞,讓 LLMs 在回答問題時顯式地構(gòu)造邏輯推理鏈;另一類思路是通過設計提示實現(xiàn)NL 與 SL 的表達轉(zhuǎn)換,從而增加大模型的邏輯推理能力。

3. 預訓練與微調(diào)方法

考慮到預訓練語料庫中缺乏高質(zhì)量的邏輯多步推理或證明樣本,預訓練和微調(diào)方法通過納入演繹證明或包含邏輯推理過程的自然語言例子來增強數(shù)據(jù)集,并基于該數(shù)據(jù)集對大模型進行預訓練或微調(diào)。

提升邏輯一致性的方法

開發(fā)可靠的大語言模型并確保其安全部署變得越來越重要,尤其是在它們被用作知識來源時。在可信性中,邏輯一致性至關重要:具有邏輯一致性的大模型可以有效避免不同問題的回答之間產(chǎn)生矛盾,從而減少大模型幻覺,增強終端用戶在實踐中對大模型可靠性的信心。

邏輯一致性要求大模型在推理復雜問題的過程中回答不同問題時,不與自身回答、知識庫或邏輯規(guī)則相矛盾。確保大模型能夠在不自相矛盾的情況下進行推理,也被稱為自洽性(self-consistency)。現(xiàn)有大量研究表明,僅通過在大型數(shù)據(jù)集上進行訓練無法保證其回答滿足邏輯一致性。

我們根據(jù)一個、兩個和多個命題之間應具備的邏輯關系,對各種邏輯一致性進行分類,并探討了增強大模型邏輯一致性的不同方法及其測評指標。

1. 否定一致性(Negation Consistency)



例如,Macaw 問答模型對 “喜鵲是鳥嗎?” 和 “鳥有翅膀嗎?” 這兩個問題都回答 “是”,但對 “喜鵲有翅膀嗎?” 卻回答 “否”。根據(jù)傳遞性規(guī)則,前兩個肯定答案可以推出 “喜鵲有翅膀”,這與對最后一個問題回答 “否” 是相互矛盾的。

4. 事實一致性(Fact consistency)

事實一致性指的是大模型生成的回答或推理結(jié)果與給定知識庫(KB)的對齊程度。在事實核查(fact-checking)任務中,通過將模型的回答與可靠的知識庫進行比較,來評估模型的回答是否符合知識庫中給定的事實。

5. 復合一致性(Compositional consistency)

復合一致性要求大模型不僅滿足以上單個邏輯一致性,還應該在組合以上簡單邏輯一致性時對復合邏輯規(guī)則仍具有一致性。具體而言,當模型需要通過邏輯運算符(如蘊涵、合取等)將多種邏輯關系組合成復雜的推理鏈時,應確保對每個推導步驟都符合邏輯規(guī)則,并使最終結(jié)論自洽且邏輯正確。

針對以上每種邏輯一致性,我們都分別探討了其提升方法和評測基準。下圖展示了一類通用的提升大模型回答的邏輯一致性的方法框架,首先對每個問題生成多個候選回答,然后對不同問題的回答計算邏輯一致性的違背程度,最后優(yōu)化求解為每個問題選擇一個最優(yōu)答案使邏輯一致性的違背程度降到最低。更多細節(jié)請參見我們的原文。



圖 3:一類通用的提升大模型回答的邏輯一致性的方法框架

未來研究方向

模態(tài)邏輯推理能力:現(xiàn)有方法多局限于命題邏輯與一階邏輯,未來可考慮將大語言模型的邏輯推理能力擴展至模態(tài)邏輯以處理不確定性命題。

高階邏輯推理:由一階邏輯擴展得到的高階邏輯強調(diào)對屬性(即謂詞)進行量化,未來可考慮訓練大模型的高階邏輯推理能力以處理更復雜的推理問題。

滿足多種邏輯一致性的高效算法:目前增強邏輯一致性的方法仍存在解決的邏輯一致性單一和計算復雜度過高等問題。因此,開發(fā)能同時讓大模型滿足多種邏輯一致性的高效方法至關重要。

結(jié)語

本綜述系統(tǒng)梳理了大語言模型邏輯推理能力的研究現(xiàn)狀。盡管在很多自然語言任務中取得了顯著進展,但大語言模型的邏輯推理能力仍面臨重大挑戰(zhàn),尤其在邏輯問答和邏輯一致性兩個方面。通過建立完整的分類體系,我們對前沿研究方法進行了系統(tǒng)歸納和概述,并整理了用于該領域常用的公開基準數(shù)據(jù)集與評估指標,探討了未來的重要研究方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
波音給中國回信了!要求中方接收飛機,還聲稱要再給中國一個機會

波音給中國回信了!要求中方接收飛機,還聲稱要再給中國一個機會

歸客歷史
2025-05-08 08:35:08
李寧教科級翻臉!全紅嬋徹底破防了!陳芋汐也很尷尬

李寧教科級翻臉!全紅嬋徹底破防了!陳芋汐也很尷尬

西樓知趣雜談
2025-05-08 12:47:10
兩場末節(jié)12中1,卻拿3.5億頂薪!季后賽退步最快超巨,你該出局了

兩場末節(jié)12中1,卻拿3.5億頂薪!季后賽退步最快超巨,你該出局了

老梁體育漫談
2025-05-09 00:05:22
突發(fā)!比爾蓋茨宣布20年內(nèi)捐出幾乎全部財富

突發(fā)!比爾蓋茨宣布20年內(nèi)捐出幾乎全部財富

YOUNG財經(jīng)
2025-05-08 20:51:38
紐約這晚成“照妖鏡”,沒了濾鏡和美顏,LIsa,吉娜個個丑出國際

紐約這晚成“照妖鏡”,沒了濾鏡和美顏,LIsa,吉娜個個丑出國際

逍遙史記
2025-05-08 11:08:58
小米汽車深夜致歉

小米汽車深夜致歉

都市快報橙柿互動
2025-05-08 07:37:41
趙心童父母曾經(jīng)的同事:趙父曾任醫(yī)院副院長,但兩人都退休好幾年了

趙心童父母曾經(jīng)的同事:趙父曾任醫(yī)院副院長,但兩人都退休好幾年了

紅星新聞
2025-05-08 23:08:08
劉國梁辭職24小時驚天反轉(zhuǎn)!四條內(nèi)幕條條致命,國乒進入新紀元

劉國梁辭職24小時驚天反轉(zhuǎn)!四條內(nèi)幕條條致命,國乒進入新紀元

曉風說
2025-04-25 08:42:49
中央決定:公職人員出差伙食費、交通費、住宿費、會議費標準!

中央決定:公職人員出差伙食費、交通費、住宿費、會議費標準!

小江網(wǎng)評
2025-05-07 22:59:08
成都網(wǎng)約車人證暴增達31萬個!市場嚴重飽和,相關部門發(fā)出警示…

成都網(wǎng)約車人證暴增達31萬個!市場嚴重飽和,相關部門發(fā)出警示…

火山詩話
2025-05-08 12:22:47
從33樓換到4樓后,我終于明白,樓層低的居住感受,兩者差別很大

從33樓換到4樓后,我終于明白,樓層低的居住感受,兩者差別很大

小談食刻美食
2025-05-06 18:42:36
29國領導人齊聚莫斯科,普京給中國統(tǒng)一大業(yè),備好一份意外驚喜?

29國領導人齊聚莫斯科,普京給中國統(tǒng)一大業(yè),備好一份意外驚喜?

蘭妮搞笑分享
2025-05-08 15:06:42
人要壞成什么程度,才能堂而皇之地在陽光底下做惡!

人要壞成什么程度,才能堂而皇之地在陽光底下做惡!

胖胖說他不胖
2025-05-07 16:49:17
大跳水!今夜,無眠!

大跳水!今夜,無眠!

中國基金報
2025-05-08 00:11:27
孫儷開300萬邁巴赫逛街被偶遇!新造型陰森壓抑,瘋狂購買奢侈品

孫儷開300萬邁巴赫逛街被偶遇!新造型陰森壓抑,瘋狂購買奢侈品

八星人
2025-05-08 15:13:46
朱俊龍傷情更新!許利民喊話北汽 廣廈傳4壞消息,讓王博如履薄冰

朱俊龍傷情更新!許利民喊話北汽 廣廈傳4壞消息,讓王博如履薄冰

后仰大風車
2025-05-08 07:20:06
天選蘿卜崗,全國符合條件的只有3人,還不如直接點名算了!

天選蘿卜崗,全國符合條件的只有3人,還不如直接點名算了!

小人物看盡人間百態(tài)
2025-05-08 09:31:22
詹姆斯談膝傷:即使我們贏下了首輪G5,我也會缺席后面的比賽

詹姆斯談膝傷:即使我們贏下了首輪G5,我也會缺席后面的比賽

懂球帝
2025-05-09 00:40:16
黃金突然直線大跌!

黃金突然直線大跌!

21世紀經(jīng)濟報道
2025-05-08 16:32:21
湖南美女干部因被查引發(fā)關注,生于1969年師范畢業(yè)晉升迅速。

湖南美女干部因被查引發(fā)關注,生于1969年師范畢業(yè)晉升迅速。

兄弟養(yǎng)牛
2025-05-08 22:12:29
2025-05-09 01:15:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10458文章數(shù) 142304關注度
往期回顧 全部

教育要聞

只要不做作業(yè)就想著看電視,數(shù)學題目也不會做,很多都做不出來

頭條要聞

美財長:特朗普考慮豁免部分商品最高145%關稅

頭條要聞

美財長:特朗普考慮豁免部分商品最高145%關稅

體育要聞

面對一群天賦怪,阿森納只能接受失敗

娛樂要聞

劉畊宏老婆補刀 清場風波口碑翻車!

財經(jīng)要聞

57政策解讀:力度空前的系統(tǒng)性穩(wěn)增長舉措

科技要聞

理想L煥新版來了,輔助駕駛芯片全系升級

汽車要聞

昨天李想點評了AI 今天我讓AI點評了理想

態(tài)度原創(chuàng)

房產(chǎn)
時尚
親子
數(shù)碼
公開課

房產(chǎn)要聞

廣州樓市全線飄紅!二手增長20%,一手暴漲244.7%!

學會這5個萬能公式,好看一整個夏天

親子要聞

孩子舌苔厚口臭家長別著急,中醫(yī)教您一個穴位推拿方法

數(shù)碼要聞

雷蛇喬羅金蛛無線鍵盤發(fā)布:374g & 16.5mm 輕薄機身,999 元

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 湄潭县| 内江市| 隆子县| 阳东县| 汝南县| 张家港市| 凉城县| 永福县| 奉贤区| 澄迈县| 西安市| 鸡泽县| 亳州市| 祁东县| 北流市| 镇原县| 乌拉特后旗| 房产| 亳州市| 肥东县| 平武县| 米林县| 昭苏县| 留坝县| 越西县| 闻喜县| 内乡县| 建德市| 呼图壁县| 收藏| 礼泉县| 天门市| 确山县| 绥芬河市| 柳林县| 松江区| 泾阳县| 上饶市| 原平市| 大荔县| 太湖县|