99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

KAG-Thinker:結構化思考新范式,支持邏輯嚴謹的大模型復雜推理

0
分享至



近日, 螞蟻集團知識引擎團隊協同浙江大學、同濟大學正式發布了其在結構化推理領域的最新成果 —— KAG-Thinker 模型,該模型是 KAG 框架的重要迭代升級,聚焦于為通用或專業領域復雜推理任務構建穩定、可解釋的思考范式。

2025 年以來,OpenAI 推出的 Deep Research 展示了大模型在復雜推理任務中多輪檢索、規劃推理的強大能力。隨后,產學界涌現了較多以模型為中心 (Model-Centric) 的方法,比如 Search-R1、ReSearch等。它們的核心思路是,通過強化學習讓模型自己 “學會” 如何檢索和利用外部知識,從而讓小模型也能像專家一樣 “思考”。然而,這些基于自然語言的推理方法就像讓模型 “自由發揮”,推理不嚴謹、過程不穩定等問題依然突出。而人類專家解決復雜問題時,往往采用結構化的思考方法,把原始問題拆解成多個可獨立驗證的小問題,并依次求解。 受此啟發,研究團隊提出了 KAG-Thinker,為模型的思考過程建立一套清晰、分層的 “腳手架”,從而提升復雜任務中推理過程的邏輯性與穩定性。



  • 技術報告:https://arxiv.org/abs/2506.17728
  • Github:https://github.com/OpenSPG/KAG-Thinker
  • Huggingface: https://huggingface.co/OpenSPG/KAG-Thinker-en-7b-instruct

該模型延續了 KAG 框架 Logical Form 自然語言與邏輯函數雙語義表示機制,以更好地利用結構化知識;并通過廣度拆分與深度求解相結合的方式,提升問題求解的嚴謹性;同時引入以知識點對齊為中心的知識邊界判定機制,以充分利用大模型參數化知識與外部形式化知識,并借助內容抗噪模塊降低檢索信息噪聲,增強檢索內容的可信度。

視頻 1 KAG-Thinker 與 KAG 框架集成,「結構化思考」引導的 「深度推理」 問答產品示例

最終,研究團隊將上述策略集成于一個支持多輪迭代與深度推理的統一架構中,通過監督微調方法訓練出 KAG-Thinker 7B 通用模型。

實驗結果顯示,在 7 個單跳和多跳推理數據集上,其性能相較使用強化學習Search-R1、ZeroSearch、ReSearch 等 SOTA 深度搜索方法平均提升了 4.1%。與 KAG 框架集成后在多跳推理任務上超越 HippoRAG V2、PIKE-RAG 等 In-Context Learning(以 Qwen2.5-72B 為基模)方法。此外,模型也在醫療問答任務中驗證了其在專業領域中的有效性。其他專業領域的精細化定制,可以參考其在醫療問答上的應用及表現。



圖1 KAG-Thinker 語料合成和模型訓練過程概覽

模型方法

模型的架構如下圖所示。模型的核心內容包括:



圖 2 復雜問題求解概覽圖

廣度拆分+ 深度求解:應對復雜決策任務

復雜多跳問題通常需拆分為多個簡單子問題,以更高效地利用外部知識庫進行求解,KAG-Thinker 提出了一種 「廣度拆分 + 深度求解」 的方法(詳見圖 2):

廣度拆分 :將原始問題分解為若干原子問題,各子問題間保持邏輯依賴關系,確保拆分的準確性。每個原子問題由一個 Logical Form 算子表示。每個 Logical Form 具備雙重表示形式 —— 自然語言描述(Step)與邏輯表達式(Action),二者語義一致。

深度求解 :針對需要檢索 (Retrieval) 的子問題,進行深入求解,以獲取充足的外部知識保障答案準確。在檢索前,模型會先執行知識邊界判定:若判斷當前大模型自身知識已足夠回答該子問題,則跳過檢索;否則繼續深度求解。

知識邊界判定:充分利用 LLM 參數化知識

為充分利用大模型的參數化知識、減少不必要的檢索任務,KAG-Thinker 以知識點(如實體、事件)為中心定義 Retrieval 子任務,并通過 SPO 三元組限定檢索粒度,以此為基礎判斷大模型與外部知識庫的邊界。

知識邊界判定任務是一個無監督過程:首先讓大模型直接作答子問題,再由其判斷該答案是否為真實答案。此過程生成兩個標簽:

  • 自然語言輸出的判斷結果(True/False);
  • 答案首次出現時對應 token 的概率,若低于設定閾值則標記為 False,否則為 True。

僅當兩個標簽均為 True 時,才認為大模型自身知識足以回答該子問題,無需額外檢索,可直接采用其生成的答案。



圖3 知識邊界判定

檢索內容抗噪:提升檢索內容的可信度

對于必須檢索的子問題,Thinker 需要判斷當前檢索結果是否能求解出對應子問題。然而,不同檢索器檢索的內容參差不齊,尤其是網頁檢索得到的內容。

為了更好的分析檢索結果,檢索抗噪模塊會分析每篇檢索回來的文章與當前子問題的關系,去掉一些無關內容,再從剩余內容從中提取一些核心信息,作為直接給出子問題的答案還是繼續進行深度檢索的依據。

Logical Form 求解器

在廣度拆分和深度求解時,Thinker 沿用 KAG 框架中定義的 4 種 Logical Form 求解器。每種 Logical Form 算子的定義如圖 4 所示。Retrieval 主要解決檢索類的問題,Deduce 和 Math 主要解決推理分析類問題,Output 主要用于答案匯總。



圖4 4種Logical Form算子的定義

實驗結果

單跳和多跳問答

為了評估模型的效果,研究團隊選了 7 個通用的單跳和多跳推理數據集,并使用相同的檢索器 (E5-base-v2),Baseline 選擇了最新的 ReSearch、Search-R1、ZeroSearch 和 StepSearch 等。并沿用這些 Baseline 方法的評價指標 (EM)。為了使用相同的檢索器,只使用 Logical Form 表示中的 Step 中的純自然語言的內容。整體實驗效果如表 1 所示。

與無檢索基線相比,Thinker 模型的平均性能比 Naive Generation 和 CoT 分別高出 27.1% 和 34.6%。

與檢索增強方法相比,Thinker 模型的平均性能比 Search-o1、IRCoT 和 Naive RAG 分別高出 24.6%、22.6% 和 14.8%。

與基于強化學習的方法相比,Thinker 模型比 SOTA 模型 ReSearch 高出 4.1%。

具體而言,在單跳數據集中平均提升了 4.5%,在多跳數據集中平均提升了 3.9%。主要原因是,知識點粒度的檢索任務拆解降低了檢索的復雜性。



表 1 不同模型 (基座模型 Qwen2.5-7B-Instruct) 在不同數據集上的 EM 性能

KAG 框架升級

KAG V0.8 升級了知識庫的能力。擴展了私域知識庫(含結構化、非結構化數據)、公網知識庫 兩種模式,支持通過 MCP 協議引入 LBS、WebSearch 等公網數據源。此外,升級了私域知識庫索引管理的能力,內置 Outline、Summary、KnowledgeUnit、AtomicQuery、Chunk、Table 等多種基礎索引類型,支持開發者自定義索引 & 產品端聯動 的能力 (如視頻 2 所示)。

用戶可根據場景特點選擇合適的索引類型,在構建成本 & 業務效果之間取得平衡。在本次 0.8 的發版中,KAG 全面擁抱 MCP,提供接入公網 MCP 服務及在 agent 流程中集成 KAG 推理問答(基于 MCP 協議)的能力。

視頻 2 可配置化的知識索引構建能力

KAG 框架的應用

KAG 框架 V0.8 版本為 Thinker 模型應用提供支持,融入 KAG 框架后的 Thinker 模型, Math、Deduce 都使用框架中的求解器進行求解,再用 Thinker 模型進行答案匯總,可以看到 KAG-Thinker 7B 的平均 EM 和 F1 性能相比于 Thinker 模型平均提升 3.0%,3.8%。這也說明 KAG 框架能更好的幫助 Thinker 模型進行求解。



表 2 不同模型在自建檢索庫上的性能

同時,針對 KAG 框架問題拆解不穩定的現象,也做了問題廣度拆解的穩定性測試,將同一個問題,拆解兩次,如果兩次結果相同,則分數為 1,否則為 0。

實驗結果如圖 5 所示,KAG-Thinker 7B 在 HotpotQA、2Wiki 和 Musique 這三個數據集上的穩定性表現優于 KAG-V0.8 7B 和 KAG-V0.8 72B。在常用的溫度參數 0.6 和 0.8 下,KAG with Thinker 7B+72B 分別相對于 KAG-V0.8 7B 和 KAG-V0.8 72B 平均提升了 17.9% 和 7.6%。



圖 5 不同溫度參數下不同模型穩定性測試

KAG-V0.8 with Thinker 在三個數據集上的平均性能要優于 HippoRAGV2 和 PIKE-RAG,詳細的實驗設置參考 KAG-V0.8 release notes。

雖然 KAG-V0.8 with Thinker 大幅度提升了框架的穩定性,但是平均性能要低于 KAG-V0.8 72B,略高于 KAG-V0.8 32B。這說明 7B 的 Thinker 模型的問題拆解能力還有所欠缺,分析 BadCase 發現,對于一些復雜的問題,Thinker 模型的拆分能力還不夠,例如 「Who is the paternal grandmother of John Iii, Duke Of Cleves?」,需要分解出 John Iii, Duke Of Cleves 的媽媽是誰和 John Iii, Duke Of Cleves 的媽媽的媽媽是誰。

這種問題 Thinker 模型拆分不穩定,主要的原因有兩種,第一,LLM 對復雜的純自然語言問題拆分存在不一致,第二,7B 模型的泛化能力有限。為了解決這些問題,研究團隊表示將來會從結構化數據中合成問題拆分樣本,保證模型拆分的一致性。



表 3 不同框架在多跳推理上的性能表現

醫療領域的應用

為了驗證該框架在專業領域的能力,研究團隊在醫療領域做了一系列的改造,訓練出了 KAG-Med-Thinker。實驗結果如表 4 所示,在 DeepSeek-R1-Distill-Qwen-14B 上,與已有的多輪規劃和檢索增強模型 IRCoT 和 ReAct 相比,KAG-Med-Thinker 分別取得了 3.95% 和 4.41% 的顯著性能提升。同時,它還比 Naive RAG 自適應檢索模型高出 3.8%。



表 4、不同模型在 MedQA 上的準確性

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“法官收到的證據能有多離譜??”哈哈哈哈哈哈真的莫名其妙的笑了一下!

“法官收到的證據能有多離譜??”哈哈哈哈哈哈真的莫名其妙的笑了一下!

浪花媽媽
2025-07-07 22:52:27
扎克伯格曬出AI超級團隊名單!11 位核心成員中8位是華人,本科來自清北南科浙

扎克伯格曬出AI超級團隊名單!11 位核心成員中8位是華人,本科來自清北南科浙

TOP大學來了
2025-07-06 16:07:22
國防部回應外國船只為防襲擊掛五星紅旗

國防部回應外國船只為防襲擊掛五星紅旗

界面新聞
2025-07-08 16:02:30
距離9月3日閱兵不足兩月!哪些國家受邀請?哪些國家明確不來?

距離9月3日閱兵不足兩月!哪些國家受邀請?哪些國家明確不來?

浩舞纆畫
2025-07-07 17:09:35
陸偽娘「無套約炮1691男」性愛片外泄!竟是38歲大叔 健身鮮肉也受害

陸偽娘「無套約炮1691男」性愛片外泄!竟是38歲大叔 健身鮮肉也受害

ETtoday星光云
2025-07-08 09:36:11
騰訊怒噴華為鴻蒙系統不穩定,微信適配堪比重做!

騰訊怒噴華為鴻蒙系統不穩定,微信適配堪比重做!

回旋鏢
2025-07-08 17:54:42
紅姐到紅爺再到紅哥 無處不在的影像啊

紅姐到紅爺再到紅哥 無處不在的影像啊

攝影筆記
2025-07-08 13:57:11
外媒:德國財長稱,若不能達成公平貿易協議,歐盟準備采取反制措施

外媒:德國財長稱,若不能達成公平貿易協議,歐盟準備采取反制措施

環球網資訊
2025-07-08 18:46:29
沒板沒籃沒罰球!球迷呼吁宮魯鳴立即裁掉兩人,征召劉禹彤許晨妍

沒板沒籃沒罰球!球迷呼吁宮魯鳴立即裁掉兩人,征召劉禹彤許晨妍

南海浪花
2025-07-08 07:22:07
西媒:若塔車禍經初步調查因輪胎問題和超速,司機為若塔本人

西媒:若塔車禍經初步調查因輪胎問題和超速,司機為若塔本人

懂球帝
2025-07-08 20:53:16
受賄超2.71億元 16歲讀大學的副部級王勇一審被判死緩 通報曾稱其結交政治騙子

受賄超2.71億元 16歲讀大學的副部級王勇一審被判死緩 通報曾稱其結交政治騙子

紅星新聞
2025-07-08 18:32:11
“毒發糕”致天水233名幼兒血鉛異常,家長帶孩子跨省涌向西安醫院“排鉛”

“毒發糕”致天水233名幼兒血鉛異常,家長帶孩子跨省涌向西安醫院“排鉛”

上觀新聞
2025-07-08 19:49:34
坑騙1691名直男的南京紅姐被抓了!其中一位是健身網紅,已有妻兒

坑騙1691名直男的南京紅姐被抓了!其中一位是健身網紅,已有妻兒

古希臘掌管松餅的神
2025-07-07 22:19:12
徒步失聯女大學生遺體附近全是螞蟥,搜救犬身上多處遭到咬傷

徒步失聯女大學生遺體附近全是螞蟥,搜救犬身上多處遭到咬傷

映射生活的身影
2025-07-07 23:20:46
濟公爺爺開始帶貨,引發熱議!網友:人家走出來了,已經出戲了…

濟公爺爺開始帶貨,引發熱議!網友:人家走出來了,已經出戲了…

明月雜談
2025-07-07 18:57:38
警方最新通報:南京紅老頭系38歲男子

警方最新通報:南京紅老頭系38歲男子

微微熱評
2025-07-08 08:04:17
他們逃到文明國家捍衛祖國的野蠻

他們逃到文明國家捍衛祖國的野蠻

通往遠方的路
2025-07-08 14:30:04
南京“紅老頭”事件引發疾病傳播擔憂,疾控部門介入:官方會采取措施

南京“紅老頭”事件引發疾病傳播擔憂,疾控部門介入:官方會采取措施

極目新聞
2025-07-08 12:27:18
男子因熱射病不幸走了!醫生提醒:高溫寧愿啃雪糕,也別干這些事

男子因熱射病不幸走了!醫生提醒:高溫寧愿啃雪糕,也別干這些事

逍遙史記
2025-07-05 10:38:05
美國宣布對烏23億美元新軍援,阿塞拜疆雇傭兵進入烏克蘭對俄作戰

美國宣布對烏23億美元新軍援,阿塞拜疆雇傭兵進入烏克蘭對俄作戰

史政先鋒
2025-07-07 13:32:23
2025-07-09 02:27:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10810文章數 142356關注度
往期回顧 全部

科技要聞

余承東回應開車"睡覺":平生第一次去自首

頭條要聞

美媒問王毅外長會否在東亞外長會會見魯比奧 中方回應

頭條要聞

美媒問王毅外長會否在東亞外長會會見魯比奧 中方回應

體育要聞

17歲的朱正很好,但他救不了中國男籃

娛樂要聞

麻煩大了,鳳凰傳奇再次遭受“重創”

財經要聞

新消費浪潮下的資本敘事能持續嗎?

汽車要聞

遵循“極簡主義” 北京現代ELEXIO發布內飾官圖

態度原創

數碼
本地
時尚
親子
公開課

數碼要聞

AIDA64 發布 7.70 正式版:首次支持 PCIe 7.0,提前支持 Zen 6

本地新聞

云游中國|踏入時光長廊!岐山八景訴說古今歲月風華

顯瘦的夏日通勤搭配,復古又時髦!

親子要聞

天水啊!我們要叫你鉛水嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 河南省| 固原市| 嘉义县| 延庆县| 虞城县| 崇阳县| 得荣县| 九寨沟县| 修文县| 乐平市| 察雅县| 静乐县| 望江县| 榆社县| 罗江县| 铅山县| 牙克石市| 台湾省| 开化县| 阳东县| 长白| 宣化县| 永春县| 鄂托克旗| 永修县| 高安市| 皋兰县| 马边| 定西市| 长泰县| 桦甸市| 西林县| 漾濞| 朝阳区| 崇文区| 靖宇县| 九台市| 夏河县| 交城县| 宣化县| 松滋市|