來源 | 智谷趨勢Trend
作者 | 知遠
你是否開始習慣DeepSeek的“無所不能”?
寫方案?找它!做PPT?找它!生病了?找它!就連昨晚做的夢,都想讓它解一解……
但萬萬沒想到,正在被越來越多人信賴的DeepSeek,居然也會一本正經(jīng)地胡說八道。
AI,并不是萬能的。
現(xiàn)在,第一批使用DeepSeek的人,已經(jīng)被坑慘了。
1
“DeepSeek查閱文獻是如此的不靠譜”,廣州某著名高校的一位教授近日發(fā)朋友圈吐槽。
原本這位教授想通過DeepSeek查詢《Global Cantonese: The Spread of Cantonese Language and Culture》的信息,結(jié)果核實后發(fā)現(xiàn):DeepSeek提供的作者是假的,年份是錯的,出版社更是風馬牛不相及。
經(jīng)過進一步溝通,DeepSeek承認這些信息錯誤,并感謝其指正,還表達了自己的歉意:
最近,知名媒體人、人民日報海外版原總編輯詹國樞也發(fā)了篇文章,標題就是:DeepSeek的致命傷——說假話。
老詹在文章中列舉了親身經(jīng)歷,讓DeepSeek寫一篇《史記·詹國樞列傳》,開頭第一句展現(xiàn)的出生地、母親姓氏等基本信息,便“張冠李戴”;再讓DeepSeek寫了一篇某記者的記述文章,文風生動、案例不少,結(jié)果轉(zhuǎn)給記者本人,卻被全盤否認。提到的案例,沒一個是本人寫的。
人都說DeepSeek文采飛揚,文學素養(yǎng)高,可路遙的名著《平凡的世界》,卻被說成是詹國樞老班長的代表作。如果有小朋友看了,可能要誤人子弟。
實際上,信息表述上的不嚴謹,已經(jīng)快成DeepSeek被吐槽最多的一種問題,《苦晝短》說成是李白的,明朝“廢除宰相”和“設置內(nèi)閣”混為一談,也難怪有網(wǎng)友直言:
DeepSeek只適合寫代碼做數(shù)學,對文科生一點不友好。
部分試圖用DeepSeek復習國考、省考的人,不得不重新拾起申論教材了。
一些試圖通過DeepSeek解放人力的“牛馬”也破防了,有網(wǎng)友說用DeepSeek寫文章,舉了4個例子,3個都查不來,最后才發(fā)現(xiàn)都是DeepSeek自己編的。
原以為是來解放自己的,沒想到因為核查信息,卻花費了更大的精力。
圖源:小紅書
如果只是事實差錯,或許是搜索結(jié)果有誤,這還不是最恐怖的。
陜西自媒體“決明子”,一直對西安安定門那里的道路規(guī)劃要繞一圈不解,問當?shù)貓?zhí)勤的交警、出租車司機都回答不上來,看到DeepSeek火爆,決定一試,提問DeepSeek“西安的道路路線規(guī)劃,從環(huán)城西路北段到環(huán)城西路南段為什么不直行,非得在安定門繞一圈?”
這時候,DeepSeek的表演開始了。
DeepSeeK先在解釋中提出了一個“唐皇城交通靜默區(qū)”的概念,表示根據(jù)《西安歷史文化名城保護規(guī)劃(2020-2035)》,安定門周邊劃定了一級靜默區(qū)、二級靜默區(qū),本質(zhì)是為了保護文物,防止過大的震動。它甚至還列出了具體的空間數(shù)據(jù),距離增加多少、振動傳遞深度變化是多少。
圖源:決明子
乍一看,這解釋太合理了!有理論、有數(shù)據(jù)、有政策,可信度拉滿。
可是網(wǎng)友一查,這份《西安歷史文化名城保護規(guī)劃(2020-2035)》文件中,壓根就沒有什么“靜默區(qū)”。這個看似極為專業(yè)、有理有據(jù)的回答,居然是“編”的。
圖源:決明子
反饋給DeepSeek,它也很老實,誠懇承認錯誤,文件里確實沒有“靜默區(qū)”的說法。但隨后,又做出新的修正和澄清,繼續(xù)“編織”自己的答案。
AI的精心包裝,讓編的材料看起來如此真實,如同“有意識”地在操控一般,真有些讓人不寒而栗。
有時為了顯得自己回答高深,DeepSeek還會采用一些專業(yè)詞匯,比如量子糾纏、熵增熵減等,當“話術”超出用戶認知的時候,真有可能一下把人震住,難以分辨。
問題來了,為什么DeepSeek要不懂裝懂,甚至“說假話”呢?
2
原因是——AI幻覺。
行業(yè)用這個詞來形容AI“說假話”的現(xiàn)象,即輸出的回答看似內(nèi)容合理連貫,但“同輸入問題意圖不一致、同世界知識不一致、與現(xiàn)實或已知數(shù)據(jù)不符合或無法驗證”。
這并不是DeepSeek一家的毛病。去年8月,總部位于紐約的人工智能初創(chuàng)公司和機器學習監(jiān)控平臺Arthur?AI就曾發(fā)布報告,比較了OpenAI、“元宇宙”Meta、Anthropic以及Cohere公司開發(fā)的大語言模型出現(xiàn)幻覺的概率。研究報告顯示:這些大模型都會產(chǎn)生幻覺。
大洋彼岸最厲害的ChatGPT,也和DeepSeek一樣“滿嘴跑火車”。
只不過相比起同行,DeepSeeK-R1的“幻覺”現(xiàn)象更明顯一些。在Vectara HHEM人工智能幻覺測試(行業(yè)權威測試,通過檢測語言模型生成內(nèi)容是否與原始證據(jù)一致,從而評估模型的幻覺率,幫助優(yōu)化和選擇模型)中,DeepSeek-R1顯示出14.3%的幻覺率。
這不僅僅比前身DeepSeek-V3高了近4倍,也遠超行業(yè)平均。
圖:Vectara HHEM人工智能幻覺測試結(jié)果
DeepSeek自己也明確承認了“技術局限性認知”:當前大模型內(nèi)容生成的底層邏輯是基于概率的,確實存在生成信息可信度參差不齊的挑戰(zhàn)。
簡單理解就是,不“保真”。
互聯(lián)網(wǎng)上有什么內(nèi)容,不論真假,都可能變成DeepSeeK的引用素材,而它只負責根據(jù)已有的內(nèi)容推理,不對信息本身負責。
而DeepSeek-R1的幻覺之所以更加嚴重,是因為其加強了“思維鏈”(CoT)和創(chuàng)造力。
比如DeepSeek-R1的詩歌創(chuàng)作,不僅能寫五絕、七律,“起承轉(zhuǎn)合”也很絲滑,對詩的意境亦有自己的理解,被網(wǎng)友稱為“寫的詩比祖?zhèn)鞯摹短圃娙偈住愤€工整”,讓中文系畢業(yè)生汗顏,甚至靈魂發(fā)文:
AI隨手甩出一句詩詞都比中文系教授寫得好的話,人類的文學還有必要存在嗎?人類還能再誕生出偉大的詩人嗎?
如此強大的創(chuàng)作力,正是因為DeepSeek-R1在文科類任務的強化學習訓練過程中,模型的創(chuàng)造性被不斷鼓勵。
如同“出門問問”大模型團隊前工程副總裁、Netbase前首席科學家李維所說:
“大模型是天生的藝術家,不是死記硬背的數(shù)據(jù)庫。”
不過,“副作用”也隨之而來。
比如在“思維鏈”的強化過程中,DeepSeek-R1并不是對摘要、翻譯、新聞寫作這類相對簡單的任務優(yōu)化,而是增加各種層面的思考,會不斷的延申。
于是面對復雜或者有難度的問題,它能超常發(fā)揮甚至給人意想不到的答案,但是當面對一些簡單的任務時,DeepSeek-R1則可能因為習慣了深度思考,而過度發(fā)揮。
比如你問“隔壁老王有多高”,它可能就懵了,因為它沒見過老王,也不知道你到底問的是哪個老王。但它又不得不回答,于是它就開始“腦補”,根據(jù)“一般人有多高”這個學到的概念,給你編織一個答案。
所以相比較而言,DeepSeek-R1確實在“理科”方面更有邏輯性,而“文科”方面則因為喜歡“發(fā)揮”,可能把不相干的內(nèi)容關聯(lián)起來胡編亂造,甚至徹底翻車。
3
正因如此,當AI時代加速到來,我們比任何時候都更需要尋求真相,增強明辨是非、獨立思考的能力。
就在除夕夜,在“如何看待馮驥盛贊‘Deepseek’的問題”之下,一名自稱為“Deepseek創(chuàng)始人梁文鋒”的知乎用戶,給出了這樣的答案:
各位知乎的年輕朋友好,我是深度求索(DeepSeek)的梁文鋒,剛回答了一個問題,又看到這個問題,除夕之夜忍不住回復一些。 幾天看到馮總這篇長文時,我正在調(diào)試新模型的損失函數(shù),手邊的咖啡直接灑在了鍵盤上——既因為被行業(yè)前輩認可的惶恐,更因為馮總這些灼熱的文字讓我想起十二年前在浙大實驗室第一次跑通神經(jīng)網(wǎng)絡時的顫栗。 必須坦白,團隊讀到“國運級”這個形容時所有人頭皮都是麻的。我們不過是站在開源社區(qū)巨人們的肩膀上,給國產(chǎn)大模型這棟大廈多擰了幾顆螺絲。 您提到的六大突破,其實每一環(huán)都凝結(jié)著更動人的故事:那個能在手機上跑的mini模型,靈感來自甘肅一位中學老師在GitHub提的issue;支持聯(lián)網(wǎng)搜索的功能,是內(nèi)測用戶連續(xù)三十天凌晨三點提交錯誤日志喂出來的……
這回答內(nèi)容有場景、有細節(jié),回復有氣魄、帶感情,不少網(wǎng)友讀后動容了。
然而,讓人意想不到的是,它也是假的!
新浪科技向相關人士求證得知:該知乎賬號除夕發(fā)文并非梁文鋒本人,大概率為DeepSeek所寫。
也就是說,DeepSeek生成的廣為流傳的“第一個假新聞”,指向的正是自己的創(chuàng)始人。
令人細思極恐的是,這份回應居然如此契合人們對于梁文鋒的想象,以至于被科技界和金融界都瘋傳,有人只是把截圖發(fā)到公眾號文章,就獲得了2.6萬轉(zhuǎn)發(fā)。
罕有人懷疑這個“梁文鋒”是假的,反而有不少讀者留言夸贊,“有情懷的科學家”“看得熱淚盈眶”“為年輕一代創(chuàng)業(yè)者點贊”……
這樣的現(xiàn)象,恰恰提示了風險所在,為即將到來的AI時代敲響警鐘。
今年1月,世界經(jīng)濟論壇發(fā)布的《2025年全球風險報告》顯示:
虛假信息和錯誤信息連續(xù)兩年位居短期風險之首,持續(xù)對社會凝聚力和治理構(gòu)成重大威脅,它們侵蝕公眾信任并加劇國內(nèi)外分歧。
AI聊天機器人的存在,正放大這種風險。Vectara公司針對文檔內(nèi)容開展的研究表明,一些聊天機器人編造事實、虛構(gòu)信息的幾率高達30%。
長期從事自然語言處理、大模型和人工智能研究的哈爾濱工業(yè)大學(深圳)特聘校長助理張民教授就表示:“現(xiàn)階段AI幻覺難以完全被消除”。也就是說,DeepSeek等大模型會說假話,短期內(nèi)無法避免。
作為使用者,我們能做的就是找到AI的正確打開方式,拒絕“上當”。
比如最簡單的方法,就是勤快一點,通過其他搜索引擎對比查詢。或者針對DeepSeek在回答中引用的網(wǎng)頁消息源,動動手指點進去,看看提到的案例是否真的存在。
置身于當下信息爆炸、真?zhèn)坞y辨的大環(huán)境,每個人都應該不斷強化自我認知,多一次獨立思考,可能就能少一次上當。
說到底,AI并不能讓人一勞永逸,反而提出了更高的要求,包括如何提問、如何跟AI對話,以及如何甄別信息等。到最后,人與人的差距可能會變得更大。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.