網易首頁 > 網易號 > 正文申請入駐

Meta團隊重磅突破：讓AI學會說“不”，幻覺問題銳減至5%以下

2025-06-13 17:48:10　來源: 至頂AI實驗室

北京舉報

分享至

當我們向AI提問時，最擔心的是什么？是它信口開河地給出錯誤答案，還是老實地說“我不知道”？

Meta Reality Labs研究團隊發表了一項開創性研究，他們找到了一種讓大型語言模型學會謙遜的方法。這項研究解決了當前AI領域最令人頭疼的問題之一：幻覺現象。

什么是幻覺？就像一個不懂裝懂的人，明明不知道答案卻硬要編造一個看似合理的回答。

為了解決這個問題，研究團隊開發了一種叫做ConfQA的訓練方法。

這個方法的核心思想出奇地簡單：當AI能夠正確回答問題時，就讓它繼續給出答案；當它回答錯誤時，就訓練它老實地說"我不確定"。這就像訓練一個學生，讓他知道什么時候該承認自己不知道，而不是瞎蒙一個答案。

讓這個看似簡單的想法能夠真正發揮出作用，研究團隊發現了兩個關鍵要素。

首先是一個特殊的"約束提示詞"——"只有在你確信的時候才回答"，這個簡單的提示就像給AI裝上了一個內在的"謹慎開關"，沒有這個提示，幻覺率仍然高達15%-25%。其次，他們發現使用簡單的事實陳述來訓練模型效果最好，特別是那些描述實體屬性的基礎知識，比如"埃菲爾鐵塔在哪個城市"這樣的問題。

研究背景：當AI變得過分自信

在深入了解ConfQA方法之前，我們需要理解當前AI面臨的困境。現代大型語言模型在訓練過程中積累了大量知識，但它們往往像一個什么都想回答的熱心學生，即使不確定答案也要硬著頭皮給出回復。

研究團隊首先探索了一個根本問題：AI真的知道自己知道什么嗎？通過大量實驗，他們發現AI確實具備一定的"自我認知"能力，但這種認知存在嚴重偏差。當AI聲稱對某個答案有很高信心時，實際準確率往往遠低于其聲稱的信心水平。這種現象在不同規模的模型中都存在，而且有趣的是，較小的模型往往比較大的模型更加自信，體現了"無知者無畏"的特征。

研究團隊還發現，如果讓AI多次回答同一個問題，然后看答案的一致性，這種一致性與準確性的關聯度要比自我報告的信心分數更可靠。但是這種方法需要多次調用AI，成本高昂且耗時，在實際應用中并不現實。

當前解決幻覺問題的主要方法是檢索增強生成（RAG），也就是讓AI在回答問題時先去查找外部資料，然后基于這些資料給出答案。這就像讓學生考試時可以翻書，確實能提高準確性。但問題是，什么時候該翻書，什么時候應該依靠自己的知識呢？如果每個問題都要查資料，不僅耗費時間和計算資源，還可能被不相關的信息干擾。

ConfQA方法：教AI學會謙遜的藝術

ConfQA方法的核心就像訓練一個誠實的學生。研究團隊首先從DBPedia知識圖譜中提取了大量簡單的問答對，這些問題都是關于實體屬性的基礎事實，比如"巴黎是哪個國家的首都"、"披頭士樂隊有多少成員"等。

訓練過程分為兩個步驟。第一步，研究團隊讓Llama-3.1-70B模型回答這些問題，然后用更強大的Llama-3.1-405B模型來判斷答案是否正確。如果答案正確，就將正確答案作為訓練標簽；如果答案錯誤，就將"我不確定答案"作為訓練標簽。這個過程就像一個老師在批改作業，對于答錯的題目，不是直接給出正確答案，而是告訴學生"你答錯了，下次遇到不確定的時候要承認"。

第二步是加入"約束提示詞"。研究團隊發現，在訓練和推理時都加入"只有在你確信的時候才回答"這個簡單提示，能夠顯著提升效果。這個提示就像給AI設置了一個心理暗示，讓它在回答前先問問自己"我真的確定嗎？"

為什么選擇簡單的事實問題來訓練？研究團隊的想法很巧妙：簡單的事實就像建筑的基礎，如果AI能夠在這些基礎事實上保持誠實和準確，這種行為模式就能推廣到更復雜的問題上。這就像學習數學，先掌握加減法，再學習復雜的方程式。

訓練完成后的ConfQA模型表現出了顯著的改進。在多個基準測試中，幻覺率從原來的20%-40%降低到了5%以下。更令人驚喜的是，雖然訓練數據只來自DBPedia，但模型在其他領域（如IMDb電影數據庫）和其他類型的問題上也表現出了相似的改進，展現出強大的泛化能力。

雙神經知識框架：內外兼修的智能系統

基于ConfQA的成功，研究團隊進一步提出了"雙神經知識框架"（DualKnowl）。這個框架就像給AI配備了兩個大腦：一個是內在的神經網絡知識，另一個是外部的檢索系統。

這個框架的工作原理很像一個聰明的研究員。當遇到問題時，它首先會同時啟動兩個過程：一方面用自己的知識（ConfQA模型）嘗試回答，另一方面開始檢索外部資料。但是，如果滿足以下兩個條件之一，系統就會提前終止外部檢索：第一，如果問題詢問的是動態信息（比如"今天的天氣"或"最新股價"），系統會等待外部檢索結果；第二，如果ConfQA模型回答"我不確定"，系統也會等待外部檢索。

這種設計的巧妙之處在于，它能夠根據AI的信心水平智能地決定是否需要外部信息。當AI對自己的知識有信心時，就直接給出答案，節省時間和資源；當AI不確定時，就求助于外部檢索，確保準確性。

實驗結果顯示，這個雙重框架既保持了準確性（達到95%以上），又將外部檢索的使用頻率降低了30%以上，在CRAG基準測試中節省了600毫秒的響應時間。這就像一個高效的圖書館管理員，既能快速回答常見問題，又知道什么時候該去查閱資料。

實驗驗證：跨領域的驚人表現

研究團隊在多個不同的基準測試上驗證了ConfQA方法的有效性。這些測試覆蓋了從簡單的事實問答到復雜的長篇回答，從流行實體到冷門知識，從單一領域到跨領域應用。

在短篇回答測試中，ConfQA在Head-to-Tail、SimpleQA和CRAG等基準上都表現出色。特別值得注意的是，當使用約束提示詞時，模型的幻覺率在所有測試中都降到了5%以下。雖然這會導致正確答案的數量有所下降（因為模型變得更加保守），但整體的事實準確性得到了顯著提升。

在長篇回答測試中，ConfQA同樣表現優秀。在LongFact和Biography等需要生成多段落回答的任務中，模型不僅保持了較高的準確率，還學會了在不確定時保持沉默，避免了編造虛假信息。

最令人印象深刻的是模型的泛化能力。雖然訓練數據完全來自DBPedia，但ConfQA在電影、音樂、體育等其他領域的表現同樣出色。這說明"學會說不知道"這種能力確實可以從一個領域遷移到其他領域。

研究團隊還特別關注了不同流行度實體的表現。他們發現，ConfQA在處理冷門實體（tail entities）時更加謹慎，這是合理的，因為模型對這些實體的知識本來就比較有限。這種行為模式正是我們希望看到的：對于不太了解的事物保持更多的謙遜。

技術細節與創新點

ConfQA方法的技術實現雖然概念簡單，但在具體執行中有很多巧妙的設計。訓練數據的構建過程經過了精心設計：研究團隊使用了3000個高質量的問答對，平均分布在流行、中等流行和冷門實體之間。訓練過程采用了較小的學習率（1e-6）和短期訓練（1個epoch），避免了過擬合。

研究團隊還進行了詳細的消融實驗，驗證了各個組件的重要性。結果顯示，約束提示詞的作用非常關鍵：沒有它，幻覺率仍然高達15%-25%；有了它，幻覺率能降到5%以下。這個簡單提示詞的巨大效果說明，有時候最有效的解決方案并不復雜，關鍵是找到正確的方向。

另一個重要發現是訓練數據的選擇策略。研究團隊比較了使用DBPedia（簡單事實）和MMLU（混合技能和知識）作為訓練數據的效果，發現專注于簡單事實的訓練效果更好。這支持了他們的假設：通過在基礎事實上建立誠實的行為模式，可以推廣到更復雜的場景。

在與其他方法的對比中，ConfQA展現出了獨特的優勢。與R-Tuning等現有方法相比，ConfQA在保持較低幻覺率的同時，能夠維持更高的正確回答率。這種平衡很重要，因為我們既希望AI不要胡說八道，也希望它能夠充分利用自己確實掌握的知識。

實際應用與未來展望

ConfQA方法不僅在學術實驗中表現出色，在實際應用中也展現出巨大潛力。雙神經知識框架為構建更可靠的AI系統提供了新思路：既要利用AI的內在知識，又要知道什么時候求助于外部資源。

在客服系統中，ConfQA可以幫助AI客服更好地處理用戶詢問。當遇到常見問題時，AI可以直接給出答案；當遇到不熟悉的問題時，AI可以誠實地說"讓我查一下資料"，然后調用檢索系統尋找準確信息。這種做法不僅提高了回答的準確性，還增強了用戶對AI的信任。

在教育場景中，ConfQA可以幫助AI導師成為更好的學習伙伴。一個懂得承認不知道的AI導師，比一個總是給出錯誤答案的AI導師更值得學生信賴。學生也能從AI的謙遜中學會：承認不知道并不丟人，重要的是找到正確的答案。

在醫療和法律等專業領域，ConfQA的價值更加明顯。在這些領域，錯誤信息可能造成嚴重后果，AI系統必須知道自己的能力邊界。一個會說"我需要查閱相關資料"的AI助手，比一個可能給出錯誤建議的AI助手更安全、更有用。

研究團隊也指出了當前方法的一些局限性。ConfQA目前主要針對事實性問題，對于數學推理、編程等其他類型的任務，可能需要進一步的研究和改進。此外，該方法需要對模型進行微調，這意味著只能應用于開源模型，對于只能通過API訪問的專有模型還無法直接使用。

未來的研究方向包括將這種"誠實文化"擴展到更多類型的任務，探索如何在不進行微調的情況下實現類似效果，以及研究如何讓AI在保持謙遜的同時不過度保守。研究團隊還計劃探索使用強化學習等其他訓練方法來進一步改進效果。

至頂AI實驗室洞見

由此可見，ConfQA的價值不僅在于技術創新，更在于它代表了AI發展的一個重要方向：讓AI變得更加誠實和可靠。

在AI能力日益強大的今天，教會AI說"我不知道"可能比教會它回答更多問題更加重要，畢竟，一個誠實的AI助手比一個看似無所不知但經常出錯的AI更值得我們信賴。

未來的AI系統不僅會更加智能，還會更加誠實。當AI學會了謙遜，人機合作就能達到新的高度。

我們期待看到這種"誠實的AI"在更多場景中發揮作用，為人類提供更可靠、更值得信賴的智能服務。

論文地址：

https://arxiv.org/pdf/2506.07309v1

本文來自至頂AI實驗室，一個專注于探索生成式AI前沿技術及其應用的實驗室。致力于推動生成式AI在各個領域的創新與突破，挖掘其潛在的應用場景，為企業和個人提供切實可行的解決方案。

Q&A

Q1：ConfQA是什么？它能解決什么問題？

A：ConfQA是Meta團隊開發的一種訓練方法，能讓大型語言模型學會在不確定時說"我不知道"，而不是編造錯誤答案。它將AI的幻覺率從20-40%降低到5%以下，顯著提高了AI回答的可靠性。

Q2：ConfQA的訓練方法有什么特別之處？

A：ConfQA有兩個關鍵創新：一是使用"只有在你確信時才回答"的約束提示詞，二是專門用簡單的事實性問題進行訓練。當AI回答正確時繼續訓練其給出答案，回答錯誤時訓練其承認不知道。

Q3：雙神經知識框架是如何工作的？

A：這個框架同時調用內部知識（ConfQA模型）和外部檢索系統。當AI對答案有信心時直接回答，當AI說"不確定"或遇到動態信息時才使用外部檢索，既保證準確性又節省了30%以上的檢索成本。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.