“煤炭(Coal)出自《Minecraft》,是可再生資源,收獲來自煤礦石以及擊殺凋靈骷髏獲得1—3個……”當這樣的內容出現在一份售價高達7600元的《2023—2028年中國煤炭行業競爭格局發展趨勢預測報告》中時,著實讓人哭笑不得。
這份本該專業、嚴謹的報告,卻因AI幻覺鬧出了“烏龍”,將游戲《我的世界》中的煤炭獲取方式當成了現實世界的事實。報告發布方上海觀知海內信息咨詢有限公司對此解釋為“網頁BUG”,否認報告由AI生成。
類似事件已屢見不鮮。許多網友不禁質疑:為何我的DeepSeek模型總是在一本正經地“胡說八道”?
有業內人士對未來圖靈表示,“AI產生幻覺,就是因為知道的東西太多了。”
AI的“腦補”能力比編劇還強
AI幻覺(Artificial Intelligence Hallucination)是指大型語言模型生成看似合理、邏輯連貫卻與現實嚴重不符的內容。
正如Anthropic首席執行官Dario Amodei在5月22日舊金山舉行的Anthropic首個開發者活動“Codewith Claude”新聞發布會上所指出的:現有AI模型普遍存在“幻覺”問題,即編造事實并將其包裝成真實情況。
甚至AI編得比真的還真。
4月25日,加拿大安大略省高等法院審理一起涉及已故男子的復雜遺產與家庭法動議案件時,法官邁爾斯(Myers)發現代理律師Hanna Ko的法律文件存在異常:文件中包含不存在案件的鏈接、對真實案件的誤讀,以及疑似“人工智能幻覺”的內容。
在本案中,律師在公開法庭上積極引用了其中三起可疑案件作為其陳述的一部分。上述三個未知案件在West law、Quick law或Google網站上都找不到。也許案件的超鏈接是錯誤的。法院迅速而堅定地明確表示,無論技術如何,律師都不能依賴不存在的權威機構或與提交內容相反的案例。
后來,律師在聽證會前發現了自己的錯誤,向所有人道歉,并撤回了其陳述的事實。
邁爾斯法官在判決中指出:“律師的陳述似乎是由人工智能創建的,在提交陳述并在法庭上依賴它之前,律師可能沒有檢查以確保案件是真實的,或者支持律師以書面形式提交給法庭然后再次口頭提交的法律主張。”
5月6日,加拿大安大略省高等法院認定,該律師使用ChatGPT等AI工具起草包含虛構案例的法律文件、以此作為論證先例的行為,屬于程序濫用。邁爾斯法官認為“律師可能嚴重違反了職責,這在法庭上構成藐視法庭罪。”
5月22日,未來圖靈團隊拜訪上海階躍星辰。據相關負責人分享,在今年2月22日舉辦的2025全球開發者先鋒大會(GDC)上,香港科技大學校董會主席、美國國家工程院外籍院士沈向洋發表了《大模型時代的創新與思考》的演講。
沈向洋院士在發言時舉了個例子,“冬天能穿多少穿多少,夏天能穿多少穿多少。” 他提到,通常大模型很難理解這句話的含義,但使用階躍星辰在2月18日開源的語音模型卻能夠理解。該語音模型的底層也是TTS(Text To Speech),它能夠解讀出,在中國話里,冬天你要盡量多穿,夏天你要盡量少穿。
為什么AI總在“即興創作”?
楓清科技創始人兼CEO高雪峰曾指出,“幻覺”是大模型以概率為核心的技術基底自帶的弊端。
業內人士也指出,“幻覺”是大模型的“基因”問題,它本質上是根據每個詞出現的概率來選擇回答,所以很容易編出一篇看起來很流暢但完全不符合事實的回答。
5月2日,寧波發生保時捷司機彎道超車碰撞摩托車事件,司機更換車牌逃避責任的行為引發輿論關注。5月5日警方通報事故處理結果后,有網友發現寧波交警官方抖音賬號已注銷,隨即引發“賬號注銷與事故相關”的猜測。隨后根據一些網友提出的圖片發現,部分AI搜索軟件更直接將注銷原因指向該交通事故,成為謠言傳播的推手。
事實上,寧波市公安局交通管理支隊已明確澄清,寧波市公安局交通管理支隊政工紀檢室副主任張以杰向《新聞有觀點》表示,賬號注銷流程始于2024年12月13日,系響應上級要求整合新媒體平臺資源,并于2025年2月6日完成注銷,與今年5月的事故在時間上完全錯位。
對此,工信部信息通信經濟專家委員會委員劉興亮表示,AI模型生成內容的原理主要依賴于訓練數據中的語言模式與統計數據關聯,其結果是基于概率的推導,而非對事實的理解。
這種特性可能導致AI在用戶提問時,根據關鍵詞關聯性生成看似合理卻錯誤的回答,具體體現在兩方面關聯:一是數據關聯,例如歷史案例中事故與政務賬號調整存在高概率關聯,AI可能因這種概率統計而輸出錯誤內容;二是時間線關聯,當公眾發現如“寧波交警賬號注銷”事件與“保時捷事故”時間相近,缺乏實時數據更新能力的AI可能基于過去類似案例的概率,將時間接近但風馬牛不相及的事件進行因果勾連,從而產生謠言。
另外,行業從業人員對未來圖靈表示,結合企業本地數據,可以有效解決幻覺問題就像原來在阿里再厲害的員工,到了字節,如果不知道字節的規章制度和歷史資料,估計也是干不好的。
“有時候大模型不知道或者知道的不準確,就對付一個出來,畢竟它靠的是概率預測,只是生成式的智能……也不單看數據,還要看對數據的處理能力,中間會涉及到很多技術方案。首先是要把數據加工成大模型可以理解的知識,其次還得有對數據校驗的能力。”該人員說道。
有人給AI“投毒”?
當前,行業內部對AI幻覺的認知存在明顯分歧。
Dario Amodei提出:“我懷疑AI模型的幻覺可能比人類少,不過它們的幻覺方式更令人驚訝。”他認識幻覺并不是Anthropic通往AGI(具有人類水平或更高智能的AI系統)道路上的限制。
而谷歌DeepMind首席執行官Demis Hassabis則持相反立場,他表示,當今的人工智能模型存在太多“漏洞”,并且在許多明顯的問題上答錯。
頗具戲劇性的是,Anthropic自身近期陷入“幻覺爭議”漩渦。5月初,一位Anthropic的代理律師在法庭上被迫道歉,他們使用Claude(AI聊天機器人)在法庭文件中創建引用時,現了幻覺,寫錯了姓名和職稱。
OpenAI今年發布的技術報告顯示,其4月推出的O3模型在事實總結任務中幻覺率達33%,O4-mini更高達48%,而2024年末的O1模型僅為16%。這一趨勢并非孤例:美國Vectara公司的幻覺率排行榜顯示,包括中國DeepSeek-R1在內的“推理型”模型,幻覺率較前代產品出現兩位數增長。
對此不少網友表示,“推理=幻覺?”
OpenAI表示,推理過程本身不應該受到指責。
OpenAI的一位發言人表示:“幻覺在推理模型中并不是天然地更普遍,我們正在努力降低O3和O4-mini中更高的幻覺率。”Vectara創始人Forrest Sheng Bao則通過文檔總結任務的事實一致性分析指出,推理模型與非推理模型的幻覺率“幾乎持平”,暗示問題根源可能不在推理機制本身。
有知情人士向未來圖靈表示,這時候就不是單單幻覺的問題了,要從數據側來看。其透露,目前市場上存在向AI“投毒”的現象。
階躍星辰的負責人指出,導致AI產生幻覺的因素,除了指令跟隨方面的問題,聯網搜索的情況也必須納入考量。她解釋道,當AI收到一個query(問題)時,關鍵在于能否在互聯網上精準定位到與之真正對應的內容,而不是匹配到那些完全不相關,只是有些許類似的信息。但在實際操作中,這里面依然會出現偏差。當前互聯網上的信息被污染的情況較為嚴重,大量虛假、錯誤或誤導性的信息充斥其中,這使得AI在檢索信息時,很容易受到干擾,從而獲取到不準確的內容。
階躍星辰向未來圖靈透露,團隊正在秘密開發一款與AI幻覺相關的新功能組件。該功能可對各平臺大模型輸出的答案、報告進行核查,且在核查過程中保留用戶高自主性,每條核查均提供來源追溯,便于專業用戶交叉驗證。負責人表示,經研究發現,僅靠語言大模型單向推理無法解決幻覺問題,需單獨采用這套核查方法。目前該功能尚未測試,但團隊計劃推進開發。
近期,大模型之家也針對大模型“幻覺”問題提出一套系統性應對策略。他指出,概念術語、發言、數據等場景是幻覺容易出現的位置。同時強調,在判斷幻覺方面,人依舊是第一責任人,大模型無法取代人類的這一角色。在應對方法上,可通過Prompt(提示詞)限定參考內容的范圍來減少幻覺發生概率。此外,一旦對話中出現幻覺,建議立刻關閉當前對話線程,清空上下文后重啟一輪新的對話。
AI現在只是有點“錯亂”,我們等等他。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.