2025年DeepSeek的爆火,無異于一場全民AI普及運動。從學術研究到職場文案,從短視頻腳本到理財指南,這款國產AI大模型迅速席卷網絡,它的開源屬性、低廉成本、對標GPT-o1的推理能力,使它成為無數人工作和生活“智能助手”的首選。
但在這股熱潮背后,一個令人不安的事實也隨之浮出水面:DeepSeek-R1的幻覺率,竟高達14.3%。這也意味著,隨著DeepSeek越來越廣泛地應用,它對互聯網原本就脆弱的“信息真實性”基礎,正在進一步侵蝕,對我們的中文互聯網世界來說,這無疑是一場災難。
01 AIGC的頑疾:幻覺
1、推理大模型的幻覺更嚴重了
實事求是地說,幻覺問題是生成式AI從“娘胎”里自帶的“先天性”缺陷,指的是大模型在輸出內容時憑空捏造事實或偏離現實的現象。這個問題如果放到普通對話模型里,或許只是個無傷大雅的小瑕疵。但如果放在在推理大模型身上,幻覺現象就會被進一步放大,其危害程度也會更為嚴重。
雖然所有大模型都或多或少都存在這個問題,但程度上的差別還是很大。據Vectara公司發布的“幻覺排行榜”數據顯示:谷歌的Gemini 2.0 Flash以0.7%的幻覺率,傲視群雄;DeepSeek-V3的幻覺率也僅為3.9%,而DeepSeek-R1的幻覺率卻高達14.3%。也就是說,用DeepSeek每7次輸出,就有超過1次是胡編亂造的答案。對于習慣把DeepSeek的輸出,當成標準答案的人來說,會不會覺得點慌?
事實上,不同大模型間幻覺率的差距,所反映的并不是簡單的技術細節上的差別,而是設計理念上的根本分歧。拿上面例子來說,Gemini 2.0 Flash是通過優化訓練數據和嚴格的事實校驗機制,將幻覺控制在幾乎可忽略的水平;DeepSeek-V3則在預訓練中引入了更多高質量語料,提升了事實一致性。而DeepSeek-R1的研發團隊卻選擇了另一條路,即通過“合理推測”填補信息空白,而非驗證事實。
比如,要求DeepSeek-R1翻譯一句話時,它可能會先腦補上下文、分析潛在意圖,再生成結果,從而有很強的“先畫靶心再射箭”式的迎合感。這樣的好處是通過強化學習(RL)和長鏈推理(Chain-of-Thought, CoT)大幅提升復雜任務的表現,DeepSeek-R1的數學推理準確率在MATH-500測試中達到71%,就是一個很好的說明。但代價就是過度依賴“自我對話”讓模型在面對簡單任務時容易“想太多”,隨意編造細節,甚至炮制出完全子虛烏有的結論。
2、AI創作,頻頻翻車
自從有了AI,不少人想“以逸待勞”用AI幫助人工進行內容創作,但尷尬的翻車事件也是層出不窮。比如,廣州高校一位教授就在朋友圈里吐槽,他本想通過DeepSeek查詢一篇學術論文的相關信息。結果,DeepSeek給出的答案中,論文作者是錯的,年份是錯的,出版社同樣是錯的。
人民日報海外版原總編輯也用DeepSeek做過一次嘗試,讓它寫一篇關于自己好朋友(同為媒體人)的文章。DeepSeek給出的答案洋洋灑灑,文風生動、案例豐富,看上去很像那么回事,但當總編輯把這篇AI寫成的文章,傳給朋友本人看的時候,卻遭到對方的全盤否認,因為文章中關于朋友的案例,沒有一個是對的。
類似的幻覺現象,相信很多朋友都碰到過,當DeepSeek貌似以斬釘截鐵的說法,輸出看上去“有模有樣”的“偽造”內容時,如果我們缺乏足夠的警惕,就可能直接被它震住,甚至將其視為真相,那么我們就很有可能被它帶到坑里,甚至付出代價。
02被濫用的GenAI,失控的營銷號
如果說幻覺是AI的先天原罪,那么自媒體對它毫無節制地濫用,則是造成“內容信任”災難的重要推手。去年10月,新華社曾發表文章《警惕“AI污染”亂象》,直指生成式AI在內容創作中的失控現象,引起很多人的關注和重視。文中提到“有MCN機構利用人工智能程序日產上千篇虛假新聞”、 “每日更新十幾本電子書,行文卻邏輯不通、辭藻空洞;”等不良現象,確實在現實中廣泛存在,尤其在自媒體圈更是泛濫成災。
很多人都知道,以前自媒體圈里有個“山東農婦幫”,不少初中都沒上過的農婦們靠著流水線化、模版化的自媒體創作,月入過萬。但到了現在,善用AI工具的“江西幫”MCN機構成了這個賽道的新王者,他們每天可以輕輕松松批量生成4000至7000篇營銷號文章。這些文章主題五花八門,從“震驚!某明星私生活曝光”到“專家揭秘:喝這種水能長壽20年”,無一例外地以聳人聽聞的標題和言之鑿鑿的細節,收割互聯網流量。
所謂的“江西幫”只是其中的代表,不過是冰山一角。通過各種方式利用AI,生成粗糙甚至偽造內容的營銷和無良機構,數不勝數。如果這一現象不加以遏制,除了會給讀者用戶帶來各種誤導外,被濫用的GenAI還可能導致內容創作領域里出現“劣幣驅逐良幣”的現象。當AI生成的低成本垃圾內容,以極高的傳播效率,瓜分了各大平臺的流量,擠占了優質內容的生存空間,導致一些深度內容的原創作者因耗時長、收益低,或主動放棄或被行業拋棄時,我們還能看什么?
03在AI之前,互聯網早就是垃圾場了
1、互聯網的信息大爆炸
看事情要公正客觀,我們必須要承認,互聯網的墮落并不是始于AI。早在1990年代末,互聯網就開始迎來了信息大爆炸。看一組數據就可以更直觀的理解了,2010年全球網站數量約為2億左右,到了2020年這一數字已經接近13億,翻了6倍多。
信息的指數級增長帶來了空前的便利,也埋下了隱患。2018年,牛津大學互聯網研究所發布了《2018數字新聞報告》該報告指出,由于假新聞泛濫導致的渠道或平臺信用危機,讓社交媒體的新聞發布與索取功能正在被大多數調查者所拋棄,并把矛盾直指當時自媒體生態中的王者Facebook。由此可見互聯網內容的“垃圾化”由來已久,不能讓AI背這個鍋。
但話說回來,現在有了AI,確實大大提高了互聯網垃圾內容的產出效率。以前,一個熟練的寫手一天最多產出10篇千字文,如今借助DeepSeek,一小時就能生成數十篇,且每篇都帶有看似專業的“數據支撐”和“案例分析”。試想,如果規模化運營的營銷號“集群”,實施“飽和式”攻擊,該會是什么情形?
2、要有自我判斷和獨立思考能力
在K哥看來,互聯網垃圾內容的泛濫,給用戶帶來的最直觀影響,就是讓大家逐漸習慣于“速食信息”,對深度閱讀和批判性思考的需求日益降低??纯次覀兩磉叺娜?,有多少人讀文章只看標題,看視頻3秒鐘不勾人就刷走,更不用提還有誰會計較哪篇文章的數據不準確,論據不真實。而“DeepSeek”們的出現,更好地順應了這一趨勢,它的高效產出填滿了用戶對“即時滿足”的渴望,卻也對那些完整展示邏輯和真相的內容越來越不友好,讓它們越來越沒有容身之地。
這反過來提醒我們,在面對各種信息時,哪怕它包裝的很“權威”,我們也不能盲目輕信,而是要保有獨立思考、批判性思考的習慣和能力,學會通過多渠道驗證、邏輯分析等方式,辨別信息的真偽,和結論的可靠性。讓自己始終保持認知上的深刻和清醒,避免上當受騙。
04凈化互聯網環境,從我做起
1、不必談AI色變,積極擁抱未來
說了那么多,K哥絕不是想讓大家談AI色變,將其視為洪水猛獸。相反,K哥想強調的是,即使DeepSeek有時候會“胡說八道”,但我們也不能因噎廢食,因為AI技術的發展和應用是大勢所趨,是時代洪流。就像工業革命雖然帶來了污染,但卻更大程度上推動了人類的進步,AI的普及同樣是一場不可逆的變革,盡管它身上依然存在這樣那樣的“問題”。
看看現在各種工作和生活的場景,從翻譯工具到智能客服,從醫療診斷到金融分析,AI已經開始重塑我們的工作模式和生活方式。面對這些變化,我們最應該做的就是張開雙臂,積極擁抱,學會如何讓AI更好地為我所用,而不是逃避、恐懼或假裝看不見。
2、善用AI工具,減少幻覺產生
對于如何用好AI,減少幻覺的發生,我們也不是什么都不能做。以DeepSeek為例,它的推理能力依賴于強化學習和長鏈推理,但缺乏足夠的事實校驗機制。因此,我們可以通過優化提示詞(Prompt)加以約束。比如,在要求DeepSeek生成內容時,可以明確注明“禁止杜撰事實,所有數據和案例必須引用可信來源并注明出處”、“僅基于已知知識回答,不得推測”等。這樣的做法雖然不能完全消除幻覺,但至少可以一定程度上降低幻覺概率。
另外,結合檢索增強生成(RAG)技術,將外部知識庫接入模型,也能有效提升輸出的準確性。當然,我們還有最后一個殺手锏,通過“AI+人工審核”的方式,對AI生成的內容進行二次把關。尤其是在一些對準確性要求較高的醫療、金融、法律等領域,通過這種方式,既可以充分利用AI的高效性,又能最大程度確保內容的真實性和可靠性。
凱文·凱利曾在《失控》一書說過:“最深刻的技術是那些看不見的技術,它們將自己編織進日常生活的每一個角落”。當前的AI技術就是如此,它已經慢慢滲透到我們工作生活中的各個角落。而我們要做的,就是最大程度地利用它、駕馭它,讓它成為我們趁手的工具,而不是讓自己成為不分真假,隨波逐流的“工具人”。共勉! ?
來源 | 技術領導力(ID:jishulingdaoli)
作者 | Mr.K ; 編輯 | 呼呼大睡
內容僅代表作者獨立觀點,不代表早讀課立場
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.