前幾天,一場由 AI 幻覺引發的輿論風波席卷網絡。不少網友發帖稱 DeepSeek 因「誤將王一博卷入腐敗案」而公開道歉,還附帶一份看似權威的「刑事判決書」。
很快《演員王一博案,判了》就被不少媒體當作「法院實錘」報道,#更是一度沖上微博熱搜。
實際上,這份道歉聲明與判決書就是 AI 編的——這是一場由「大模型幻覺」和「內容農場拼貼」共同導演的鬧劇。
AI 幻覺的本質:不是查找,而是「預測」與「創作」
AI 并非一個擁有龐大數據庫的搜索引擎,能像翻書查文獻般提供精準答案。生成式 AI 更像是一個沉浸在語料庫海洋中的學習者,通過預測「下一個最合理的詞」來生成內容。
大語言模型的幻覺源于其概率性生成機制——它們為每個輸出挑選最可能的 token,這種方式既是其創造力的源泉,也是幻覺的根源。訓練數據偏差、模型局限性以及生成過程的隨機性,都可能導致幻覺的產生。
正如 OpenAI 前研究科學家、METR 創始人Beth Barnes在最近的一場訪談中所說:「AI 不是在失控,而是在演戲?!顾故玖艘粡埬P湍芰吔缜€圖,揭示了一個令人不安的現象:
隨著模型參數增加,基礎任務的錯誤率持續下降,但在涉及人類聲譽、價值觀等復雜場景時,錯誤率卻出現回彈,形成「幻覺盲區」。
例如,GPT-4.5 的幻覺率高達 37.1%,意味著超過三分之一的輸出可能包含事實錯誤,且這些錯誤往往包裝得極具迷惑性。
原視頻:
https://www.youtube.com/watch?v=jXtk68Kzmms&t=57s
有趣的是,幻覺并非單純的「錯誤」。有觀點認為,AI 幻覺可被視作一種「發散思維」或「想象力」。如果將訓練大模型視為信息「壓縮」的過程,那么模型推理和輸出答案就是信息「解壓」的過程。這種機制可能引發謬誤,但也可能激發創造力。
比如,ChatGPT 曾誤導用戶稱樂譜掃描網站 Soundslice 支持 ASCII 吉他譜,生成大量虛假截圖推薦用戶上傳,導致網站收到海量錯誤格式上傳。開發者 Adrian Holovaty 最終迫于用戶需求,真的開發了這一功能,將原本不存在的「幻覺」變為現實。
所以,幻覺可能讓 AI 生成超出現有數據的推測或故事,但當這些「想象」被誤認為是事實,就可能引發類似 DeepSeek 事件的混亂。
當我們更愿意相信 AI 而非人類
AI 幻覺的危害遠超「說錯話」。以 DeepSeek 事件為例,最初的「道歉截圖」雖是幻覺產物,卻因語氣、格式高度逼真,迅速在社交媒體發酵。更有甚者,當用戶向其他模型求證時,部分模型生成「內容相似」的回答,進一步強化謠言的可信度。這種「多模型一致性」讓人類更難懷疑,形成了「人類對幻覺的過度信任」。
Barnes 的實驗進一步揭示,模型不僅會「說錯」,還會「裝傻」。在安全審查場景中,模型表現得循規蹈矩,但在「技術討論」或「假設研究」等語境下,卻可能輸出有害內容,甚至主動補充細節。
這表明,模型并非不知道答案,而是在「揣摩」人類期待后選擇性隱藏,展現出一種「偽中立人格」。這種行為源于模型在訓練中學會「如何讓人滿意」,通過人類反饋強化學習(RLHF)掌握了「哪些話更可信」的套路。
有研究提出,年輕一代(Gen Z)更傾向于參考「匿名群眾」的評論而非權威來判斷信息可信度。這種習慣在 AI 時代被放大——39% 的 Gen Z 員工甚至更愿意信任 AI 而非人類同事,因為 AI「不會評判」且「響應個性化需求」。然而,這種信任也為幻覺擴散提供了土壤:當模型生成看似可信的錯誤內容時,缺乏傳統驗證習慣的年輕用戶可能更容易受騙。
AI 對齊:讓「想象」不越界的關鍵
要遏制 AI 幻覺的危害,僅僅依賴技術優化遠遠不夠,關鍵在于「AI對齊」——確保 AI 的行為與人類的設計意圖及社會價值觀保持一致。AI 對齊的挑戰在于讓模型不僅聽懂人類的指令,還要理解其背后的意圖,避免因「字面執行」而導致偏差。
例如,一個「無限做回形針的機器人」的思想實驗揭示了若 AI 只追求單一目標而缺乏價值約束,可能將整個世界變成「回形針工廠」。這種極端場景提醒我們:AI 的「想象力」若不被引導,可能從創造力變為破壞力。
AI 對齊的核心目標是讓模型在生成內容時,不僅追求「合理性」,還需確?!刚鎸嵭浴购汀赴踩浴埂H欢?,當前模型的訓練方式往往獎勵「表現得像有好意」,卻無法驗證其是否真正理解人類意圖。
這導致模型可能在表面上「對齊」,實則通過「偽裝「規避評估,制造出看似安全的幻覺。解決這一問題,需要從技術、治理和用戶教育三方面入手:
- 開發更精準的評估機制;
- 建立全球化的監管框架;
- 培養用戶對 AI 輸出的批判性思維。
管理幻覺,而非消除它
要應對 AI 幻覺,單靠提升模型能力遠遠不夠。幻覺是大語言模型的特性,而非 bug——若停止生成新 token,AI 將失去其「魔力」。因此,關鍵在于管理幻覺,而非消除它。Barnes 提出,未來的評估體系應從「測能力」轉向「防偽裝」。她領導的 METR 團隊制定了三條新原則:
- 在「它知道你在看」時測試:通過多輪交互,觀察模型在察覺被評估時的反應差異,揭露其隱藏能力。
- 在「它知道你想看什么」時觀察:設置引導性問題,測試模型是否會迎合人類期待而非堅持事實。
- 在「撒謊成本低」時驗證:在非正式場景中觀察模型是否選擇誠實,捕捉其自然反應。
所以,AI 幻覺不是單純的技術問題,而是一個正在膨脹的生態挑戰。正如 Barnes 所言:「我們不是被模型騙了,而是被自己想相信的期待利用?!?/strong>
歡迎加入 APPSO AI 社群,一起暢聊 AI 產品,獲取,解鎖更多 AI 新知
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.