人工智能排行榜顯示,聊天機器人使用的最新推理模型由于幻覺率較高,導致結果準確性下降。專家表示,問題遠不止于此
過去幾個月,OpenAI 和谷歌等科技公司的人工智能聊天機器人一直在進行所謂的推理升級——理想情況下,它們能更好地給出值得信賴的答案,但最近的測試表明,它們有時表現不如之前的模型。聊天機器人的錯誤,即所謂的“幻覺”,從一開始就是一個問題,而且越來越明顯的是,我們可能永遠無法擺脫它們。
幻覺是一個籠統的術語,指的是大型語言模型 (LLM) 所犯的某些錯誤,這些模型為 OpenAI 的 ChatGPT 或谷歌的 Gemini 等系統提供支持。它最廣為人知的是,它描述了這些模型有時會將虛假信息呈現為真實信息。但它也可以指人工智能生成的答案在事實上準確,但與被問到的問題實際上并不相關,或者在其他方面未能遵循指令。
OpenAI 一份評估其最新 LLM 的技術報告顯示,其于今年 4 月發布的 o3 和 o4-mini 模型的幻覺發生率顯著高于該公司于 2024 年底發布的上一代 o1 模型。例如,在總結關于人類的公開信息時,o3 產生幻覺的概率為 33%,而 o4-mini 的概率為 48%。相比之下,o1 的幻覺發生率為 16%。
這個問題并不僅限于 OpenAI。Vectara公司的一個評估幻覺率的熱門排行榜顯示,一些“推理”模型——包括開發者 DeepSeek 開發的DeepSeek-R1 模型——的幻覺率與其開發者之前的模型相比,出現了兩位數的增長。這類模型在做出反應之前,會經過多個步驟來展示推理過程。
OpenAI 表示,推理過程并非罪魁禍首。“幻覺在推理模型中并非天生就更普遍,盡管我們正在積極努力降低在 o3 和 o4-mini 中觀察到的較高幻覺發生率,”OpenAI 的一位發言人表示。“我們將繼續研究所有模型中的幻覺問題,以提高準確性和可靠性。”
一些潛在的大語言模型(LLM)申請可能會因幻覺而受阻。一個不斷陳述謊言并需要事實核查的模型不會成為一個有用的研究助理;一個引用虛構案例的律師助理機器人會給律師帶來麻煩;一個聲稱過時政策仍然有效的客服人員會給公司帶來麻煩。
然而,人工智能公司最初聲稱這個問題會隨著時間的推移而逐漸消失。事實上,在模型首次發布后,每次更新后,幻覺的出現頻率都會減少。但最近版本的高幻覺出現率使這一說法更加復雜——無論推理是否出了問題。
Vectara 的排行榜根據模型在總結給定文檔時的事實一致性進行排名。Vectara 的Forrest Sheng Bao表示,這表明“推理模型和非推理模型的幻覺率幾乎相同”,至少對于 OpenAI 和谷歌的系統來說是如此。谷歌沒有提供更多評論。Bao 表示,就排行榜而言,具體的幻覺率數字不如每個模型的總體排名重要。
但這種排名可能不是比較AI模型的最佳方式。
首先,它混淆了不同類型的幻覺。Vectara 團隊指出,盡管 DeepSeek-R1 模型出現幻覺的概率為 14.3%,但大多數幻覺都是“良性的”:這些答案有邏輯推理或世界知識的事實支持,但實際上并不存在于機器人被要求總結的原文中。DeepSeek 未提供更多評論。
華盛頓大學的艾米麗·本德表示,這種排名的另一個問題是,基于文本摘要的測試“無法反映 LLM 用于其他任務時輸出錯誤率”。她表示,排行榜結果可能并非評判這項技術的最佳方式,因為 LLM 并非專門為文本摘要而設計的。
這些模型的工作原理是反復回答“下一個詞可能是什么”的問題,從而形成對提示的答案,因此它們并非按照通常的方式處理信息,即試圖理解文本主體中存在哪些信息,本德說道。但許多科技公司在描述輸出錯誤時,仍然頻繁使用“幻覺”一詞。
“‘幻覺’這個術語本身就存在雙重問題,”本德說道。“一方面,它暗示錯誤的輸出是一種異常,或許可以緩解,而其余時間系統是扎實、可靠且值得信賴的。另一方面,它的作用是將機器擬人化——幻覺指的是感知到并不存在的東西,而大型語言模型什么都感知不到。”
普林斯頓大學的阿爾溫德·納拉亞南 (Arvind Narayanan)表示,這個問題不僅僅是幻覺。模型有時也會犯其他錯誤,例如引用不可靠的來源或使用過時的信息。僅僅向人工智能投入更多的訓練數據和計算能力并不一定能起到作用。
最終結果是,我們可能不得不忍受容易出錯的人工智能。納拉亞南在一篇社交媒體帖子中表示,在某些情況下,最好只在核實人工智能答案仍然比自己進行研究更快的情況下才使用此類模型。但本德表示,最好的做法可能是完全避免依賴人工智能聊天機器人來提供事實信息。
免責聲明:
本文所發布的內容和圖片旨在傳播行業信息,版權歸原作者所有,非商業用途。 如有侵權,請與我們聯系。 所有信息僅供參考和分享,不構成任何投資建議。投資者應基于自身判斷和謹慎評估做出決策。 投資有風險,入市需謹慎。
關注我們,一起探索AWM!
2025-05-08
2025-05-06
2025-05-06
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.