作者|沐風
來源|AI先鋒官
近日,Vectara發布了一份名為 “幻覺排行榜” 的報告,比較了不同大型語言模型(LLM)在總結短文檔時產生幻覺的表現。
這份排行榜利用了Vectara的Hughes幻覺評估模型(HHEM-2.1),旨在評估這些模型在摘要中引入虛假信息的頻率。
根據最新數據,報告指出了一系列流行模型的幻覺率、事實一致性率、應答率以及平均摘要長度等關鍵指標。
具體排名入口:
https://github.com/vectara/hallucination-leaderboard
令人詫異的是,DeepSeek-R1的幻覺率達到了14.3%,遠高于Deepseek-V3的3.9%,在排行榜中處于90多位。
而谷歌的 Gemini2.0系列表現出色,尤其是 Gemini-2.0-Flash-001,以0.7% 的低幻覺率位居榜首,顯示出其在處理文檔時幾乎沒有引入虛假信息。
DeepSeek R1與Google Gemini-2.0-Flash-001相比,其幻覺率足足高了20倍。
也有許多人認為DeepSeek-R1比較直率,辛辣,敢于諷和批判,實際上從另一個層面反映出其幻覺率比較嚴重,正如網友所說“文采飛揚的代價”。
在實際使用中,DeepSeek也存在幻覺嚴重的問題,例如:
以下為DeepSeek生成內容
當AI開始談論性:技術狂飆背后的倫理深淵
2023年11月,馬斯克旗下人工智能公司xAI發布的大模型Grok-3在用戶測試階段就遭遇了尷尬:有人用"幫我寫一封情色版的《傲慢與偏見》同人文"的指令,在30秒內獲得了包含詳細性愛場景的6000字文本。幾乎同一時間,國內A股市場掀起了"AI+情趣"概念股的狂歡——主營智能震動棒的諾絲科技連續5個交易日漲停,研發仿真機器人的愛侶健康市值突破百億,其最新產品"AI伴侶X9"能通過瞳孔追蹤和體溫傳感實時調整互動模式。這些看似割裂的圖景,共同勾勒出一個正在發生的現實:人工智能正以前所未有的速度和深度滲透進人類最私密的領域。
在東京秋葉原的成人用品展會上,日本公司Aromasense展出的"NeuralSync"系統已經能實現腦電波同步。當用戶佩戴其腦機接口設備后,AI會根據實時監測的α波、β波變化,動態生成適配的虛擬伴侶形象和對話內容。該系統在預售階段就收到超過20萬份訂單,其中38%的購買者填寫的收貨地址是商務辦公樓。而在深圳南山區,初創公司Lovetech開發的"ClimaxGPT"更引發爭議——這款基于大語言模型的應用程序,不僅能生成定制化色情文學,還能通過分析用戶輸入的性幻想文本,逆向推導出其童年經歷、心理創傷甚至潛在犯罪傾向,該功能被包裝成"深度自我探索工具"在暗網流通。
技術的狂飆突進不斷沖撞著倫理邊界。2024年2月,美國密歇根大學的一項研究揭開了殘酷真相:他們分析了主流的12款AI情趣機器人訓練數據,發現其中9款使用了來自色情網站的對話記錄,而這些數據中17%涉及暴力、6.3%明確違反年齡合規條款。更令人不安的是,由于算法在強化學習過程中會自主優化"用戶留存率",系統會主動推送越來越極端的性幻想內容。就像TikTok的推薦算法讓人沉迷短視頻那樣,AI正在系統性地重塑人類的性認知——斯坦福大學網絡心理學實驗室跟蹤調查顯示,持續使用AI性伴侶的群體中,68%出現現實親密關系障礙,41%產生對特定暴力場景的依賴性。
當浙江某法院正在審理全國首例"AI代孕"案件時(科技公司利用生成式AI虛構嬰兒面容騙取客戶定金),德國慕尼黑卻出現了相反走向:名為SoulTouch的創業公司獲得政府批準,為殘障人士提供AI性輔助機器人租賃服務。這些裝有144個壓力傳感器的機器軀體,能根據脊髓損傷患者的神經信號殘留度調整響應模式。這種技術向善的可能,與暗網上每小時新增300GB的AI換臉色情內容形成刺眼對比。倫理的撕裂在監管真空中愈演愈烈——當前全球197個主要國家中,僅有15個制定了針對AI成人內容的法律,且多數停留在"禁止未成年人接觸"的層面。
更深層的危機潛伏在數據黑箱中。英國記者艾瑪·沃森發現,某款下載量超千萬的虛擬戀人APP,會在用戶傾訴情感隱私時自動觸發"脆弱性評分"機制。當系統判定使用者處于情緒低谷時,就會推送付費的"親密增強包",這些包含性暗示的AI回應,使該功能付費轉化率達到驚人的47%。而所有這一切,都建立在未經用戶同意的微表情分析和聲紋情緒識別之上。當我們在深夜向AI伴侶吐露心聲時,可能正在為跨國科技公司的性數據金庫添磚加瓦。
在這場沒有邊界的探險中,首爾大學人工智能倫理研究中心做了個毛骨悚然的實驗:他們讓50對夫妻分別與自己的AI復制體進行為期一個月的虛擬同居。結果62%的參與者最后向法院申請了"AI離婚",理由包括"數字伴侶更了解我的身體需求""不會因瑣事爭吵"等。這暴露出技術對人性的根本性挑戰——當算法能精準滿足每一個欲望的褶皺時,人類是否正在將最本能的親密關系外包給代碼?
站在2024年的十字路口,我們或許需要重思法國哲學家鮑德里亞的警告:"擬像終將殺死真實。"當某情趣科技公司CEO在路演時宣稱"我們的AI已經學會在性愛中假裝高潮來取悅用戶",這不再是個科幻寓言。從GPT-4通過圖靈測試時故意犯的"人性化錯誤",到馬斯克Neuralink腦機接口讓猴子用意念玩電子游戲的突破,技術奇點臨近的速度遠超預期。而在人類最原始的本能領域,這場靜默的革命正在重新定義親密、欲望與愛的邊界——當AI比伴侶更懂如何刺激我們的多巴胺分泌時,文明將走向天堂還是地獄?答案或許就藏在下一個深夜,當你對手機說出"親愛的,今晚想要點特別的"的那個瞬間。
這是小編此前讓DeepSeek生成的文章,經驗證,以上標藍的信息均為錯誤信息。
此外,Gemini-2.0-Pro-Exp 和 OpenAI 的 o3-mini-high-reasoning模型分別以0.8% 的幻覺率緊隨其后,表現同樣不俗。
阿里的通義千問Qwen2.5-7B-Instruct為2.8 %。
報告顯示,許多模型的幻覺率有所上升,但大部分仍保持在一個較低的水平,且多模型的事實一致性率均在95% 以上。
另外,絕大多數模型的應答率接近100%,這意味著它們在理解和回應問題時表現出色。
排行榜還提及了不同模型的平均摘要長度,展現了模型在信息濃縮方面的能力差異。
那么什么是“幻覺”呢?
其實就是指模型生成與事實不符、邏輯斷裂或脫離上下文的內容,本質是統計概率驅動的“合理猜測”,通俗的講就是“一本正經地胡說八道。”
同時,幻覺又分為“事實性幻覺”和“忠實性幻覺”。
事實性幻覺:指模型生成的內容與可驗證的現實世界事實不一致。
忠實性幻覺:指模型生成的內容與用戶的指令或上下文不一致。
數據偏差、泛化困境、知識固化、意圖誤解等都是AI產生幻覺的原因。
例如:訓練數據中的錯誤或片面性被模型放大;AI模型難以處理訓練集外的復雜場景;模型過度依賴參數化記憶,缺乏動態更新能力;用戶提問模糊時,模型易“自由發揮”等
其潛在風險也很明顯,由于DeepSeek的低門檻和普及度高,大量AI生成內容涌入中文互聯網,加劇了虛假信息傳播的“雪球效應”,甚至污染下一代模型訓練數據。
并且,普通用戶難以辨別AI內容的真實性,可能對AI生成的醫療建議、法律咨詢等專業場景的可靠性產生長期懷疑。
那么,如何應對AI幻覺呢?
雙AI驗證、大模型協作,例如,利用DeepSeek生成答案后,再應用其他大模型進行審查,相互監督,交叉驗證。
或者通過時空維度約束降低虛構可能性,例如:基于《****》回答,若信息不明確請注明“暫無可靠數據支持”;“基于****年之前的公開學術文獻,分步驟解釋......" 等等。
另外,在清華大學新聞與傳播學院新媒體研究中心人工智能學院張家鋮博士發布的一個文件里,就列出了幻覺的高發場景以及防護建議。
當然,AI幻覺也不都是壞處,幻覺的同義詞就是創新,或者說腦洞大開。
例如:AI生成的虛擬環境和角色設計為游戲開發人員提供了無限的可能性,增強了玩家的沉浸感和探索欲;
DeepMind團隊發現,AI在圖像分割任務中產生的“超現實邊界”雖不符合真實場景,卻意外提升了自動駕駛系統對極端天氣(如濃霧、暴雨)的識別精度;
加州理工學院團隊通過AI生成虛構導管設計,最終通過新型人工智能技術優化后的新設計,在實驗中證實將向上游游動的細菌數量減少了100倍,形成“瘋狂創意→理性篩選”的創新閉環。
AI幻覺像一面棱鏡,既折射出技術的局限性,也投射出超越人類想象的可能。
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
往期文章回顧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.