網易首頁 > 網易號 > 正文申請入駐

【人工智能】谷歌談論 AI 長達兩個小時，卻只字未提幻覺

2025-05-22 06:11:30　來源: 七元宇宙

廣東舉報

分享至

是我們出現了幻覺，還是搜索巨頭根本不關心事實結果？

今年，Google I/O 2025有一個重點：人工智能。

我們已經報道了年度開發者大會的所有重磅新聞：一款名為 Flow 的全新 AI 視頻生成工具、價值 250 美元的 AI Ultra 訂閱計劃、 Gemini 的大量新變化、虛擬購物試穿功能。最重要的是，搜索工具AI Mode 向所有美國用戶推出。

然而，在谷歌領導層談論人工智能的近兩個小時里，我們沒有聽到一個詞，那就是“幻覺”。

幻覺仍然是人工智能模型中最頑固、最令人擔憂的問題之一。該術語指的是大型語言模型在回復中“產生幻覺”，并虛構事實和不準確之處。根據大型人工智能品牌自身的指標，幻覺問題正在惡化——有些模型出現幻覺的時間超過 40%。

但如果你當時在觀看 2025 年 Google I/O 大會，你肯定不知道這個問題的存在。你會認為像 Gemini 這樣的模型永遠不會產生幻覺；但你肯定會驚訝地發現，每篇 Google AI 概述都附有一條警告：“AI 響應可能包含錯誤”。

谷歌最接近承認幻覺問題的一次是在關于AI模式和Gemini深度搜索功能的演示環節。我們被告知，該模型會在給出答案之前檢查自身的工作——但如果沒有更多關于這一過程的細節，這聽起來更像是盲人摸象，而不是真正的事實核查。

對于人工智能懷疑論者來說，硅谷對這些工具的信心程度似乎與實際結果脫節。真正的用戶會注意到，人工智能工具在執行諸如計數、拼寫檢查或回答諸如“水在 27 華氏度（約 0.7 攝氏度）會結冰嗎？ ”之類的簡單任務時會失敗。

谷歌急切地提醒觀眾，其最新的人工智能模型 Gemini 2.5 Pro 在許多人工智能排行榜上名列前茅。但在真實性和回答簡單問題的能力方面，人工智能聊天機器人的評分卻參差不齊。

Gemini 2.5 Pro 是谷歌目前最智能的 AI 模型（據谷歌稱），但在 SimpleQA 功能基準測試中，其得分僅為 52.9% 。OpenAI的一篇研究論文指出，SimpleQA 測試是“評估語言模型回答簡短、事實性問題能力的基準測試”。（重點是我們。）

一位谷歌代表拒絕討論 SimpleQA 基準測試或幻覺相關問題，但他向我們推薦了谷歌官方的AI 模式和 AI 概覽解釋器。以下是它的內容：

[AI 模式] 使用大型語言模型來幫助回答查詢，在極少數情況下，它可能會自信地呈現不準確的信息，這通常被稱為“幻覺”。與 AI 概覽一樣，在某些情況下，此實驗可能會誤解網頁內容或遺漏上下文，就像搜索中的任何自動化系統一樣……我們還利用模型的推理能力，采用新穎的方法來提升事實性。例如，我們與 Google DeepMind 研究團隊合作，在自定義訓練中使用代理強化學習 (RL)，以獎勵模型生成它認為更有可能準確（而非幻覺）且有輸入支持的語句。

谷歌的樂觀是錯的嗎？畢竟，幻覺或許最終還是一個可以解決的問題。但研究似乎越來越清楚地表明，法學碩士（LLM）學生的幻覺問題目前尚無法解決。

但這并沒有阻止谷歌和 OpenAI 等公司沖進人工智能搜索時代——除非我們產生了幻覺，否則這很可能是一個充滿錯誤的時代。

免責聲明：

本文所發布的內容和圖片旨在傳播行業信息，版權歸原作者所有，非商業用途。如有侵權，請與我們聯系。所有信息僅供參考和分享，不構成任何投資建議。投資者應基于自身判斷和謹慎評估做出決策。投資有風險，入市需謹慎。

關注我們，一起探索AWM！

2025-05-08

2025-05-06

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.