是我們出現了幻覺,還是搜索巨頭根本不關心事實結果?
今年,Google I/O 2025有一個重點:人工智能。
我們已經報道了年度開發者大會的所有重磅新聞:一款名為 Flow 的全新 AI 視頻生成工具、價值 250 美元的 AI Ultra 訂閱計劃、 Gemini 的大量新變化、虛擬購物試穿功能。最重要的是,搜索工具AI Mode 向所有美國用戶推出。
然而,在谷歌領導層談論人工智能的近兩個小時里,我們沒有聽到一個詞,那就是“幻覺”。
幻覺仍然是人工智能模型中最頑固、最令人擔憂的問題之一。該術語指的是大型語言模型在回復中“產生幻覺”,并虛構事實和不準確之處。根據大型人工智能品牌自身的指標,幻覺問題正在惡化——有些模型出現幻覺的時間超過 40%。
但如果你當時在觀看 2025 年 Google I/O 大會,你肯定不知道這個問題的存在。你會認為像 Gemini 這樣的模型永遠不會產生幻覺;但你肯定會驚訝地發現,每篇 Google AI 概述都附有一條警告:“AI 響應可能包含錯誤”。
谷歌最接近承認幻覺問題的一次是在關于AI模式和Gemini深度搜索功能的演示環節。我們被告知,該模型會在給出答案之前檢查自身的工作——但如果沒有更多關于這一過程的細節,這聽起來更像是盲人摸象,而不是真正的事實核查。
對于人工智能懷疑論者來說,硅谷對這些工具的信心程度似乎與實際結果脫節。真正的用戶會注意到,人工智能工具在執行諸如計數、拼寫檢查或回答諸如“水在 27 華氏度(約 0.7 攝氏度)會結冰嗎? ”之類的簡單任務時會失敗。
谷歌急切地提醒觀眾,其最新的人工智能模型 Gemini 2.5 Pro 在許多人工智能排行榜上名列前茅。但在真實性和回答簡單問題的能力方面,人工智能聊天機器人的評分卻參差不齊。
Gemini 2.5 Pro 是谷歌目前最智能的 AI 模型(據谷歌稱),但在 SimpleQA 功能基準測試中,其得分僅為 52.9% 。OpenAI的一篇研究論文指出,SimpleQA 測試是“評估語言模型回答簡短、事實性問題能力的基準測試”。(重點是我們。)
一位谷歌代表拒絕討論 SimpleQA 基準測試或幻覺相關問題,但他向我們推薦了谷歌官方的AI 模式和 AI 概覽解釋器。以下是它的內容:
[AI 模式] 使用大型語言模型來幫助回答查詢,在極少數情況下,它可能會自信地呈現不準確的信息,這通常被稱為“幻覺”。與 AI 概覽一樣,在某些情況下,此實驗可能會誤解網頁內容或遺漏上下文,就像搜索中的任何自動化系統一樣……我們還利用模型的推理能力,采用新穎的方法來提升事實性。例如,我們與 Google DeepMind 研究團隊合作,在自定義訓練中使用代理強化學習 (RL),以獎勵模型生成它認為更有可能準確(而非幻覺)且有輸入支持的語句。
谷歌的樂觀是錯的嗎?畢竟,幻覺或許最終還是一個可以解決的問題。但研究似乎越來越清楚地表明,法學碩士(LLM)學生的幻覺問題目前尚無法解決。
但這并沒有阻止谷歌和 OpenAI 等公司沖進人工智能搜索時代——除非我們產生了幻覺,否則這很可能是一個充滿錯誤的時代。
免責聲明:
本文所發布的內容和圖片旨在傳播行業信息,版權歸原作者所有,非商業用途。 如有侵權,請與我們聯系。 所有信息僅供參考和分享,不構成任何投資建議。投資者應基于自身判斷和謹慎評估做出決策。 投資有風險,入市需謹慎。
關注我們,一起探索AWM!
2025-05-08
2025-05-06
2025-05-06
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.