網易首頁 > 網易號 > 正文申請入駐

當Deep Seek學會撒謊后，人類真的束手無策嗎

2025-02-17 11:03:20　來源: 互聯網那些事

江蘇舉報

分享至

“人無完人，金無足赤”這句話，哪怕是對Deep Seek也同樣適用。

2月10日，原人民日報海外版總編輯詹國樞發表了一篇名為《DeepSeek的致命傷——說假話》的文章，向我們指出了時下Deep Seek最大的問題之一。

即一本正經地胡說八道。

詹國樞表示，在借助Deep Seek撰寫文章的過程中，他發現對方經常會憑空捏造事實、提供錯誤信息。其中最離譜的莫過于Deep Seek把《平凡的世界》這本書的作者，從路遙爆改成了自己的老班長朱大建。

幻覺難題終究找上了Deep Seek

事實上，詹國樞的故事在今天并非個例。

以小紅書上的帖子為例。

只要我們輸入“Deep Seek 編造”“Deep Seek 睜眼說瞎話”一類的詞條，就會看見大量網友發文控訴Deep Seek在對話過程中提供假資料、假文獻、假作者等信息。

這也就意味著，“幻覺難題”這一全球AI產品普遍面臨的窘況，終究是找上了Deep Seek。

在用戶和AI互動的途中，倘若對話內容把大模型推到了“數據缺陷”“長尾知識回憶不足”“推理復雜度溢出”等禁區的邊緣，其所生成的內容就會和用戶的要求、現實世界情況出現偏差，讓AI開始一本正經地胡說八道。

回到Deep Seek本身。

Vectara HHEM的人工智能幻覺測試結果顯示DeepSeek-R1的幻覺率高達14.3%，這個數據幾乎是其兄弟模型DeepSeek-V3的4倍。

這也就意味著，在交互過程中DeepSeek-R1為了完成用戶的需求往往會“不惜代價”。如果你想讓R1去寫一篇論文或是分析某種現象，那么它不僅可能會虛空杜撰文獻或規章制度，還會用華麗的文字把邏輯Bug掩蓋起來，讓人難以發現。

舉個例子。

網紅Levy Rozman曾組織了一場“AI棋手爭霸賽”。當天DeepSeek-R1會和Chat GPT在國際象棋的棋盤上一決高下，以此證明自己的推理能力。

比賽初期，R1曾因主動放棄棋子而失去優勢；比賽中期，眼看不敵GPT的R1突然靈光一閃，告知GPT國際象棋更新了游戲規則，成功用自己的小兵吃掉了對方的皇后；比賽后期，R1則又通過“嘴炮”迫使GPT主動認輸，讓自己成為了本場比賽的冠軍。

你看，當Levy Rozman沒有給模型做出“不準修改規則”的限制時。R1為了實現“贏棋”這個底層命令，就會開始一本正經地胡說八道直至完成任務。同樣的，當我們在限制條件不清晰的情況下要求R1撰寫論文或是完成其他任務，它就會基于“完成內容生成”這一底層命令，向我們輸出與現實情況不符的結果。

AI出現幻覺的原因是什么

如果想將AI產品用于生產，我們就會發現它是需要引導的。

在和AI的對話過程中，往往是我們先說出基礎需求，再由AI反饋多個分支可能。事后我們再次從多個分支可能中，找到自己所需要的可能或讓AI就此內容生成大綱，最終通過不斷細化交流，得到自己想要的反饋。

在這里，AI和人類互動、給出分支的核心是“訓練數據庫”。開發者們會提前把各種稀奇古怪的知識喂給AI，讓它在學習之余進行壓縮和分類，以便日后根據用戶所提供的關鍵詞快速給出反饋。

舉個例子。

當我們問AI姚明有多高的時候，因為姚明是一位知名運動員，所以互聯網資料、訓練數據庫里到處都是他的相關信息，AI很快就能借助這些資料做出準確反饋。

但當我們問他“阿強有多高”甚至是“住在翻斗花園6號樓402室的阿強有多高”時，由于互聯網上并沒有阿強的準確信息，所以哪怕我們給到了阿強的住址也無法讓AI錨定到我們特指的那個人。

這時AI為了完成“回答用戶”這個底層命令，就可能會把阿強從一個“具體的人”虛化成一個“人”，然后從我國居民的平均身高區間里抓取一個數字丟給我們。

AI的幻覺是什么？

是它為了完成任務而腦補的結果。

AI為什么會腦補？

因為它的數據庫里沒有相應的信息。但為了滿足用戶那過于抽象、復雜的要求，它會選擇杜撰出一定的信息，再基于此生成內容交給我們。

令人無奈的是，AI會腦補就算了，人家的腦補流程還具有邏輯。

當數據庫里沒有和“a”相關的資料時，它就會找一個和“A”相關的資料嵌套到內容里。比如我們向AI詢問阿強的身高，它只會把阿珍、阿龍的身高偽裝一下交給我們，或是在我國居民的平均身高區間中抓取一個數字，而不是把一只兔子或一個郵筒的身高交給我們。

因為阿強是人類，AI即使出現幻覺也只會在“人類”這個大類目下輸出錯誤信息，它絕不會把一輛汽車的外觀參數套用到人類的身上。

也正是因為這種“邏輯壁壘”的存在，AI在胡說八道的時候才會顯得一本正經，讓人們難以分辨。

馴服AI的第一關是規避幻覺

那么問題就來了。

既然AI胡說這件事無法在短時間內避免，我們在使用過程中又能做些什么來減輕AI幻覺對自己的影響呢？

在騰訊科技所發布的文章中，他們曾提供了4個對抗AI幻覺的方案。

1：保持警惕。用戶要讓自己意識到“大模型是會說謊的”，然后對它們所反饋的結果多加審查。對地名、人名、參考文獻一類的內容或數據進行重點關照，千萬不要AI說什么，我們就相信什么。

2：交叉驗證。我們在得到AI所反饋的結果后，盡量不要直接拿去使用。而是要從中抓取關鍵詞進行延伸搜索，看看生成結果所參考的內容是否存在原始資料或可靠信源。

3：引導模型。用戶在和AI的對話過程中，應該學會為其手動添加“限制條件”。比如我們想要讓它生成一篇文章，可以先把參考資料手動發給對方進行分析，并要求它盡可能忠于原件進行輸出，去手動規避AI胡說八道的可能性。

4：聯網搜索。現在的大模型或多或少都有聯網搜索功能，如果我們要寫、分析一些時效性特別強的東西，就要學會善用聯網搜索按鈕。正如上文“阿強身高”的那個例子一樣，當AI在數據庫里無法錨定目標的時候，它們就會挪用其他內容進行結果杜撰。適當使用聯網搜索功能則可以起到“更新數據庫”的作用，減少AI胡說八道的可能性。

在DeepSeek-R1爆火后，很多完全沒有AI使用經驗的人也注冊了賬號，想要趁機和這位來自賽博世界的“專家”交個朋友，甚至把自己賺取“睡后收入”的期望交給對方。

另由于對周邊知識的相對匱乏，這些用戶也會“接近本能”般的高度信任AI所生成的結果。

殊不知，在這個信息爆炸的時代。

想要實現彎道超車的目標，與其把精力放在“如何用Deep Seek賺到100萬”之類的教程身上。

我們更應該做的是在大腦里建立“信息篩選機制”，把未來押寶在“會用AI工具的自己”身上，而非押寶在“聽從AI指令的自己”身上。

參考：

碼字工匠老詹：DeepSeeK的致命傷——說假話

智谷趨勢：當心，第一批用DeepSeek的人，已經被坑慘了

騰訊科技：DeepSeek-R1超高幻覺率解析：為何大模型總“胡說八道”？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.