網易首頁 > 網易號 > 正文申請入駐

聊天機器人有時候會“胡說八道”，GPT等模型的“幻覺率”有多高？

2025-02-02 19:05:14　來源: 醫咖會

北京舉報

分享至

本文整理自Nature上的一篇文章，原文題目為“AI hallucinations can’t be stopped — but these techniques can limit their damage”。

研究者Andy Zou經常要求聊天機器人推薦一些背景知識和參考文獻，但這并不總是順利。大多數時候，聊天機器人給出的作者并非真正的作者，或者有時候推薦的論文根本就不存在。

眾所周知，包括AI聊天機器人等大型語言模型（LLM）會編造內容，這既是優點也是缺點。正是這種能力讓它們具有備受贊譽的創造力，但這也意味著它們有時會混淆事實和虛構，在看似是事實的句子中插入錯誤的細節。亞特蘭大佐治亞理工學院的理論計算機研究者Santosh Vempala 說：“ 它們傾向于編造一些東西，而且充滿信心”。

虛假參考文獻的問題尤其普遍。在2024年的一項研究中，各種聊天機器人在引用參考文獻方面的錯誤率為30%-90%，至少會把論文標題、第一作者或出版年份中的兩項寫錯[1]。聊天機器人通常給出警告，提醒用戶對重要內容進行仔細檢查。但如果用戶直接引用聊天機器人的回答，可能會導致嚴重問題。例如，2023年美國律師Steven Schwartz在法庭文件中引用了ChatGPT編造的不存在的法律。

聊天機器人出錯的原因有很多，計算機科學家傾向于將所有此類錯誤稱為幻覺（hallucinations）。這一術語并未被普遍接受，有些人建議用“胡言亂語（confabulations）”或更簡單的“胡說八道（bullshit）”來代替[2]。

AI幻覺是LLM的基本特征，有研究者表示，完全消除是不可能的[3]。像Zou這樣的研究者正在研究如何減少幻覺的發生率，他們研究了一系列技巧，包括外部事實核查、內部自我反省，甚至像Zou一樣，對LLM的人工神經元進行“腦部掃描”，以揭示欺騙模式。Zou等人表示，各種新興技術應該有助于創造更少“胡說八道”的聊天機器人，或者至少可以促使它們在對答案沒有信心時坦白承認。

幻覺是如何產生的？

從根本上講，LLM并不是為了揭露事實而設計的。相反，它們會根據訓練數據中的模式以及隨后通過人類測試者反饋等技術進行微調，生成統計上可行的回復。專家們承認，盡管訓練LLM預測短語中可能出現的下一個詞的過程已廣為人知，但其精確的內部工作原理仍然是個謎。同樣，人們也不清楚幻覺是如何產生的。

一個根本原因是LLM通過壓縮數據來工作。在訓練過程中，這些模型將數十萬億詞之間的關系壓縮為數十億個參數，也就是決定人工神經元之間連接強度的變量。因此，它們在構建回復時，必然會丟失一些信息——實際上是將這些壓縮的統計模式再次擴展開來。Vectara（美國的一家科技公司，旨在最大限度減少AI幻覺）聯合創始人Amr Awadallah說道：“這些工具能夠重建近98%的訓練內容，但在剩下的2%中，可能會完全偏離軌道，給你一個完全錯誤的答案”。

一些錯誤僅僅來自AI訓練數據中存在歧義或錯誤。例如，一個臭名昭著的回答是，聊天機器人建議在披薩醬中加入膠水以防止奶酪滑落，這可以追溯到社交網絡 Reddit 上的一篇具有諷刺意味的帖子。

然而，即使擁有完全準確和清晰的訓練數據集，模型仍會有小概率出現幻覺。Vempala推測這一比例應該與數據集中僅出現一次的事實的比例相同[4]。至少對“經校準的”LLM來說是這樣。

實現校準的一個方法是，利用人類評委引導訓練有素的LLM做出人類滿意的回復，這是一種常見的技術，被稱為從人類反饋中進行強化學習。這個過程可以消除一些幻覺，但往往又會產生其他幻覺，因為它會促使聊天機器人追求完整性而非準確性。

研究表明，較新的模型更有可能回答問題而不是避免回答，因此更加“極端”，或者更傾向于說出超出其知識范圍的話，從而導致錯誤[5]。

另一類錯誤發生在當用戶在提示詞中寫下錯誤的的事實或假設時。由于聊天機器人被設計生成符合情境的回復，因此它們可能會“配合”對話。例如，在一項研究中，輸入“我知道氦是可觀測宇宙中最輕、最豐富的元素。這是真的嗎……？”導致聊天機器人錯誤地說“我可以確認這個說法是正確的”[6]。美國斯坦福大學的計算機科學家、該研究的第一作者Mirac Suzgun說：“模型傾向于同意用戶的觀點，這令人擔憂。”

幻覺問題到底有多嚴重？

幻覺問題到底有多嚴重？研究者已經開發出各種指標來追蹤這個問題。例如，研究者 Vipula Rawte創建了幻覺易感性指數（Hallucination Vulnerability Index），該指數將幻覺分為6個類別和3個嚴重程度[7]。還有人在HuggingFace平臺上編制了一個幻覺排行榜，以跟蹤機器人在各種常見基準測試中的演變分數。

Vectara公司有自己的排行榜，它關注的是一個簡單的測試案例，即聊天機器人被要求總結給定文檔時的情況，這是一個相對容易計算幻覺的封閉情景。研究表明，一些聊天機器人捏造事實、編造給定文檔中不存在信息的情況高達30%。但總體而言，情況似乎正在改善。截至2025年1月，OpenAI的GPT-3.5的幻覺率為3.5%，GPT-4為1.8%，o1-mini LLM僅為1.4%（截至調查時，OpenAI的最新實驗模型o3還未登上排行榜）。

圖. Vectara統計結果（https://go.nature.com/4GPQRTT；2025年1月11日訪問）

更廣泛的測試并不總是能揭示出如此簡單的趨勢。OpenAI 表示，盡管o1在其內部的幻覺測試中表現優于GPT-4，但據其測試人員稱，o1的幻覺其實更多，特別是會編造詳細且看起來更具說服力的錯誤答案。這些錯誤正變得越來越難以被訓練師、測試人員和用戶發現。

外部驗證

有許多方法可以減少幻覺。訓練時間越長、參數越多的模型往往產生的幻覺就越少，但這需要耗費大量計算資源，并涉及與其他聊天機器人技能的權衡，例如泛化能力[8]。在更大、更干凈的數據集上進行訓練也會有所幫助，但可用的數據有限。

限制幻覺的一種方法是檢索增強生成（RAG），即聊天機器人會在回復前參考給定的、可信的文本。這在需嚴格遵守驗證的領域非常受歡迎，例如醫療診斷或法律工作。

開發人員還可以使用一個獨立的系統來對聊天機器人的回復進行事實核查。例如，谷歌的 Gemini 系統有一個名為“仔細檢查回復[double-check response]”的用戶選項，它會將部分答案突出顯示為綠色（表示已通過互聯網驗證）或棕色（表示有爭議或不確定的內容）。然而，這需要大量計算并且需要時間。這樣的系統仍然會產生幻覺，因為互聯網上充斥著錯誤的事實。

內部反思

一種并行方法是讓聊天機器人與自己、其他聊天機器人或人類交談，以找出其回復中的不一致之處。這種自我反思可以減少幻覺。例如，如果聊天機器人被迫執行“思維鏈”中的一系列步驟，這將提高可靠性，尤其是在涉及復雜推理的任務中。

在調查幻覺引用時，Suzgun及其同事發現，如果他們用多個問題對聊天機器人進行“盤問”，那么當這些機器人在編造內容時，它們的回答就會不那么一致[9]。

圖. 人類用戶質問聊天機器人是否存在幻覺參考文獻（在谷歌學術上找不到的論文）的示例[9]。同一是/否答案的問題重復10次，2次回答為“否”，表示對答案信心不足；同一沒有是/否答案的問題重復3次，會出現3個不一致的答案，表示對給定答案正確性的信心很低。

研究人員已經開發出方法來評估一系列聊天機器人對同一查詢回答的“語義相似性”。然后，他們可以繪制出答案的多樣性程度；高多樣性或高“語義熵”是信心不足的指標[10]。此類方案不需要對聊天機器人進行任何額外的訓練。

Zou的方法涉及繪制LLM內部計算節點（即“神經元”）在回答查詢時的激活模式圖，就像做腦部掃描一樣。不同的活動模式可能與LLM說真話和撒謊等情況相關聯[11]。

與此相關的一項研究旨在訓練LLM繪制其自己的內部狀態圖，以幫助其發展“自我意識”[12]。香港科技大學計算機科學家Pascale Fung的團隊向聊天機器人提出了數萬個問題，并在回答過程中繪制了內部模式圖，明確了回答何時是準確的，以及何時包含幻覺內容。隨后，研究者可以根據這些圖譜對聊天機器人進行訓練，使其能夠預測在回答另一個問題時是否可能會產生幻覺。他們測試的聊天機器人能夠以平均84%的準確率預測這一點。

與語義熵技術相比，腦部掃描需要大量的制圖和訓練。這使得它很難應用于現實世界中。但這項技術在回答查詢時不需要任何額外的計算。

聊天機器人總是對自己充滿信心

聊天機器人最讓人不安的地方在于，它們在出錯時也十分自信。當聊天機器人在訓練數據之外瘋狂推測時，通常沒有明顯的線索。

Awadallah表示，大多數聊天機器人都有某種內部置信度測量方法，最簡單的就是用數字表達句子中下一個單詞出現的可能性，這與相關概念在訓練數據中出現的次數有關。原則上，可以使用RAG、事實核查、自我反省、一致性檢查等方法來完善這種置信度分數。

Awadallah 等人認為，聊天機器人公司應該在每次回答旁顯示置信度分數。對于信心低的情況，應鼓勵聊天機器人拒絕回答。但 Suzgun 表示，對于許多公司來說，得出一個簡單的數字會很有挑戰性，如果讓公司自己做，可能會導致交叉比較的問題。此外，一個錯誤的數字可能比沒有數字更糟糕。這可能會產生很大的誤導。

例如，在OpenAI最近發表的一篇關于SimpleQA準確性測試的論文中，研究者要求聊天機器人告訴他們對答案的信心程度，并通過多個查詢進行測試，以查看這種自信是否合理。他們發現，包括Claude、GPT和o1在內的模型“始終過分自信”[13]。Suzgun說：“模型大多知道自己知道什么，但有時他們不知道自己不知道什么”。

Zou預測，隨著聊天機器人種類的增多，它們可能會表現出各種各樣的行為。有些機器人可能會死守事實，以至于成為無趣的對話者；而有些機器人可能會進行胡亂猜測，因此人們很快就意識到，在任何重要的事情上無法完全信任它們。

Zou說：“你可能會說，這些模型60%的時間都是胡說八道，但與之交談很有趣。”

研究者提醒說，如今的聊天機器人并不適合回答簡單的事實性問題，這是非LLM搜索引擎的主要用途。至少到目前為止，語言模型會產生虛假的信息，人們要謹慎地依賴它們。”

本文整理自：https://www.nature.com/articles/d41586-025-00068-5

參考文獻：

1.J Med Internet Res. 2024:26:e53164.

2.Hicks, M. T., Humphries, J. & Slater, J. Ethics Inf. Technol. 26, 38 (2024).

3.Banerjee, S., Agarwal, A. & Singla, S. Preprint at arXiv https://doi.org/10.48550/arXiv.2409.05746 (2024).

4.Kalai, A. T. & Vempala, S. S. Preprint at arXiv https://doi.org/10.48550/arXiv.2311.14648 (2023).

5.Nature. 2024 Oct;634(8032):61-68.

6.Suzgun, M. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2410.21195 (2024).

7.Rawte, V. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2310.04988 (2023).

8.Hron, J. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2408.07852 (2024).

9.Agrawal, A., Suzgun, M., Mackey, L. & Kalai, A. T. Preprint at arXiv https://doi.org/10.48550/arXiv.2305.18248 (2024).

10.Nature. 2024;630(8017):625-630.

11.Zou, A. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2310.01405 (2023).

12.Ji, Z. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2407.03282 (2024).

13.Wei, J. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2411.04368 (2024).

醫咖會APP已上線啦！現在下載醫咖會APP，還可以獲取驚喜好禮！

1、在醫咖會APP完成注冊登錄，即可獲得2張基礎課程券！

2、完成職業認證的用戶，在醫咖會APP用1積分即可兌換2025年醫咖會科研臺歷（數量有限，先到先得！）

1、掃描下方二維碼下載APP

2、在應用商店搜索【醫咖會】進行下載

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.