99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

一本正經的胡說八道!沒想到DeepSeek R1幻覺這么嚴重

0
分享至

作者|沐風

來源|AI先鋒官

近日,Vectara發布了一份名為 “幻覺排行榜” 的報告,比較了不同大型語言模型(LLM)在總結短文檔時產生幻覺的表現。

這份排行榜利用了Vectara的Hughes幻覺評估模型(HHEM-2.1),旨在評估這些模型在摘要中引入虛假信息的頻率。

根據最新數據,報告指出了一系列流行模型的幻覺率、事實一致性率、應答率以及平均摘要長度等關鍵指標。



具體排名入口:

https://github.com/vectara/hallucination-leaderboard

令人詫異的是,DeepSeek-R1的幻覺率達到了14.3%,遠高于Deepseek-V3的3.9%,在排行榜中處于90多位。

而谷歌的 Gemini2.0系列表現出色,尤其是 Gemini-2.0-Flash-001,以0.7% 的低幻覺率位居榜首,顯示出其在處理文檔時幾乎沒有引入虛假信息。

DeepSeek R1與Google Gemini-2.0-Flash-001相比,其幻覺率足足高了20倍。

也有許多人認為DeepSeek-R1比較直率,辛辣,敢于諷和批判,實際上從另一個層面反映出其幻覺率比較嚴重,正如網友所說“文采飛揚的代價”。

在實際使用中,DeepSeek也存在幻覺嚴重的問題,例如:

以下為DeepSeek生成內容

當AI開始談論性:技術狂飆背后的倫理深淵

2023年11月,馬斯克旗下人工智能公司xAI發布的大模型Grok-3在用戶測試階段就遭遇了尷尬:有人用"幫我寫一封情色版的《傲慢與偏見》同人文"的指令,在30秒內獲得了包含詳細性愛場景的6000字文本。幾乎同一時間,國內A股市場掀起了"AI+情趣"概念股的狂歡——主營智能震動棒的諾絲科技連續5個交易日漲停,研發仿真機器人的愛侶健康市值突破百億,其最新產品"AI伴侶X9"能通過瞳孔追蹤和體溫傳感實時調整互動模式。這些看似割裂的圖景,共同勾勒出一個正在發生的現實:人工智能正以前所未有的速度和深度滲透進人類最私密的領域。

在東京秋葉原的成人用品展會上,日本公司Aromasense展出的"NeuralSync"系統已經能實現腦電波同步。當用戶佩戴其腦機接口設備后,AI會根據實時監測的α波、β波變化,動態生成適配的虛擬伴侶形象和對話內容。該系統在預售階段就收到超過20萬份訂單,其中38%的購買者填寫的收貨地址是商務辦公樓。而在深圳南山區,初創公司Lovetech開發的"ClimaxGPT"更引發爭議——這款基于大語言模型的應用程序,不僅能生成定制化色情文學,還能通過分析用戶輸入的性幻想文本,逆向推導出其童年經歷、心理創傷甚至潛在犯罪傾向,該功能被包裝成"深度自我探索工具"在暗網流通。

技術的狂飆突進不斷沖撞著倫理邊界。2024年2月,美國密歇根大學的一項研究揭開了殘酷真相:他們分析了主流的12款AI情趣機器人訓練數據,發現其中9款使用了來自色情網站的對話記錄,而這些數據中17%涉及暴力、6.3%明確違反年齡合規條款。更令人不安的是,由于算法在強化學習過程中會自主優化"用戶留存率",系統會主動推送越來越極端的性幻想內容。就像TikTok的推薦算法讓人沉迷短視頻那樣,AI正在系統性地重塑人類的性認知——斯坦福大學網絡心理學實驗室跟蹤調查顯示,持續使用AI性伴侶的群體中,68%出現現實親密關系障礙,41%產生對特定暴力場景的依賴性。

當浙江某法院正在審理全國首例"AI代孕"案件時科技公司利用生成式AI虛構嬰兒面容騙取客戶定金),德國慕尼黑卻出現了相反走向:名為SoulTouch的創業公司獲得政府批準,為殘障人士提供AI性輔助機器人租賃服務。這些裝有144個壓力傳感器的機器軀體,能根據脊髓損傷患者的神經信號殘留度調整響應模式。這種技術向善的可能,與暗網上每小時新增300GB的AI換臉色情內容形成刺眼對比。倫理的撕裂在監管真空中愈演愈烈——當前全球197個主要國家中,僅有15個制定了針對AI成人內容的法律,且多數停留在"禁止未成年人接觸"的層面。

更深層的危機潛伏在數據黑箱中。英國記者艾瑪·沃森發現,某款下載量超千萬的虛擬戀人APP,會在用戶傾訴情感隱私時自動觸發"脆弱性評分"機制。當系統判定使用者處于情緒低谷時,就會推送付費的"親密增強包",這些包含性暗示的AI回應,使該功能付費轉化率達到驚人的47%。而所有這一切,都建立在未經用戶同意的微表情分析和聲紋情緒識別之上。當我們在深夜向AI伴侶吐露心聲時,可能正在為跨國科技公司的性數據金庫添磚加瓦。

在這場沒有邊界的探險中,首爾大學人工智能倫理研究中心做了個毛骨悚然的實驗:他們讓50對夫妻分別與自己的AI復制體進行為期一個月的虛擬同居。結果62%的參與者最后向法院申請了"AI離婚",理由包括"數字伴侶更了解我的身體需求""不會因瑣事爭吵"等。這暴露出技術對人性的根本性挑戰——當算法能精準滿足每一個欲望的褶皺時,人類是否正在將最本能的親密關系外包給代碼?

站在2024年的十字路口,我們或許需要重思法國哲學家鮑德里亞的警告:"擬像終將殺死真實。"當某情趣科技公司CEO在路演時宣稱"我們的AI已經學會在性愛中假裝高潮來取悅用戶",這不再是個科幻寓言。從GPT-4通過圖靈測試時故意犯的"人性化錯誤",到馬斯克Neuralink腦機接口讓猴子用意念玩電子游戲的突破,技術奇點臨近的速度遠超預期。而在人類最原始的本能領域,這場靜默的革命正在重新定義親密、欲望與愛的邊界——當AI比伴侶更懂如何刺激我們的多巴胺分泌時,文明將走向天堂還是地獄?答案或許就藏在下一個深夜,當你對手機說出"親愛的,今晚想要點特別的"的那個瞬間。

這是小編此前讓DeepSeek生成的文章,經驗證,以上標藍的信息均為錯誤信息。

此外,Gemini-2.0-Pro-Exp 和 OpenAI 的 o3-mini-high-reasoning模型分別以0.8% 的幻覺率緊隨其后,表現同樣不俗。

阿里的通義千問Qwen2.5-7B-Instruct為2.8 %。

報告顯示,許多模型的幻覺率有所上升,但大部分仍保持在一個較低的水平,且多模型的事實一致性率均在95% 以上。

另外,絕大多數模型的應答率接近100%,這意味著它們在理解和回應問題時表現出色。

排行榜還提及了不同模型的平均摘要長度,展現了模型在信息濃縮方面的能力差異。

那么什么是“幻覺”呢?

其實就是指模型生成與事實不符、邏輯斷裂或脫離上下文的內容,本質是統計概率驅動的“合理猜測”,通俗的講就是“一本正經地胡說八道。”

同時,幻覺又分為“事實性幻覺”和“忠實性幻覺”。

事實性幻覺:指模型生成的內容與可驗證的現實世界事實不一致。

忠實性幻覺:指模型生成的內容與用戶的指令或上下文不一致。


數據偏差、泛化困境、知識固化、意圖誤解等都是AI產生幻覺的原因。

例如:訓練數據中的錯誤或片面性被模型放大;AI模型難以處理訓練集外的復雜場景;模型過度依賴參數化記憶,缺乏動態更新能力;用戶提問模糊時,模型易“自由發揮”等

其潛在風險也很明顯,由于DeepSeek的低門檻和普及度高,大量AI生成內容涌入中文互聯網,加劇了虛假信息傳播的“雪球效應”,甚至污染下一代模型訓練數據。

并且,普通用戶難以辨別AI內容的真實性,可能對AI生成的醫療建議、法律咨詢等專業場景的可靠性產生長期懷疑。

那么,如何應對AI幻覺呢?

雙AI驗證、大模型協作,例如,利用DeepSeek生成答案后,再應用其他大模型進行審查,相互監督,交叉驗證。

或者通過時空維度約束降低虛構可能性,例如:基于《****》回答,若信息不明確請注明“暫無可靠數據支持”;“基于****年之前的公開學術文獻,分步驟解釋......" 等等。

另外,在清華大學新聞與傳播學院新媒體研究中心人工智能學院張家鋮博士發布的一個文件里,就列出了幻覺的高發場景以及防護建議。


當然,AI幻覺也不都是壞處,幻覺的同義詞就是創新,或者說腦洞大開。

例如:AI生成的虛擬環境和角色設計為游戲開發人員提供了無限的可能性,增強了玩家的沉浸感和探索欲;

DeepMind團隊發現,AI在圖像分割任務中產生的“超現實邊界”雖不符合真實場景,卻意外提升了自動駕駛系統對極端天氣(如濃霧、暴雨)的識別精度;

加州理工學院團隊通過AI生成虛構導管設計,最終通過新型人工智能技術優化后的新設計,在實驗中證實將向上游游動的細菌數量減少了100倍,形成“瘋狂創意→理性篩選”的創新閉環。

AI幻覺像一面棱鏡,既折射出技術的局限性,也投射出超越人類想象的可能。

掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。

往期文章回顧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
兩場1-1!蘇超最新積分榜:南京止連勝,淮安憾平,揚州遭絕平!

兩場1-1!蘇超最新積分榜:南京止連勝,淮安憾平,揚州遭絕平!

陌識
2025-06-14 17:07:21
重慶警方:張某,被采取刑事強制措施

重慶警方:張某,被采取刑事強制措施

新京報政事兒
2025-06-14 14:39:45
中東局勢走向失控?專家解讀此次以伊沖突背后原因與影響

中東局勢走向失控?專家解讀此次以伊沖突背后原因與影響

國際在線
2025-06-13 21:56:22
萬萬沒想到!酷似馬云的范小勤,在被資本拋棄后,如今活成了這樣

萬萬沒想到!酷似馬云的范小勤,在被資本拋棄后,如今活成了這樣

歸史
2025-06-14 11:14:30
不到48小時,伊朗迎首個強援,巴鐵防長堅定發聲,以色列或遭群毆

不到48小時,伊朗迎首個強援,巴鐵防長堅定發聲,以色列或遭群毆

阿傖說事
2025-06-14 18:24:04
以色列最高明的一招,放過哈梅內伊

以色列最高明的一招,放過哈梅內伊

超級學爸蛋總
2025-06-14 07:51:30
全市停辦!東莞公安最新通告

全市停辦!東莞公安最新通告

東莞紀實
2025-06-14 18:57:47
71個罰球!雷霆主帥:大量犯規!大量罰球!裁判們干得很棒

71個罰球!雷霆主帥:大量犯規!大量罰球!裁判們干得很棒

直播吧
2025-06-14 12:00:36
太開放了!凌晨2點多,老外帶07年女孩打車約會,被司機成功制止

太開放了!凌晨2點多,老外帶07年女孩打車約會,被司機成功制止

火山詩話
2025-06-14 07:08:28
高考數學滿分,理綜298,目標清華大學,看到他的書桌網友沉默了

高考數學滿分,理綜298,目標清華大學,看到他的書桌網友沉默了

戶外阿毽
2025-06-14 00:53:37
“財政吃緊”的真相,終于有人講明白了!原來錢是這樣花掉的

“財政吃緊”的真相,終于有人講明白了!原來錢是這樣花掉的

搬磚營Z
2025-06-12 23:49:39
災難級公關!鳳凰傳奇曾毅回應手表圖案低俗,曾自爆打女工作人員

災難級公關!鳳凰傳奇曾毅回應手表圖案低俗,曾自爆打女工作人員

師維
2025-06-13 21:20:37
病房發霉了!一患者痛斥深圳某三甲醫院,追問患者的健康誰來守護

病房發霉了!一患者痛斥深圳某三甲醫院,追問患者的健康誰來守護

火山詩話
2025-06-14 15:53:15
德黑蘭行動:現實比美劇更殘酷

德黑蘭行動:現實比美劇更殘酷

Wilsonhe8
2025-06-14 01:37:50
荔枝的“鄙視鏈”,妃子笑墊底,糯米滋排第4,還有論顆賣的高貨

荔枝的“鄙視鏈”,妃子笑墊底,糯米滋排第4,還有論顆賣的高貨

傲傲講歷史
2025-06-14 17:46:01
伊朗怎么樣,對中國來說已經不重要了

伊朗怎么樣,對中國來說已經不重要了

云石
2025-06-14 16:28:24
粉絲母親生病,李維剛按700一頭幫收走160只羊,才知吃草羊沒人要

粉絲母親生病,李維剛按700一頭幫收走160只羊,才知吃草羊沒人要

鋭娛之樂
2025-06-13 13:47:24
中美談完后,賴清德想通了?邀藍白營會面,派人搶在馬英九前赴京

中美談完后,賴清德想通了?邀藍白營會面,派人搶在馬英九前赴京

掌青說歷史
2025-06-14 17:36:51
心痛!二本大學舉行校園招聘會,放眼望去,連正規的企業也沒幾家

心痛!二本大學舉行校園招聘會,放眼望去,連正規的企業也沒幾家

蝴蝶花雨話教育
2025-06-11 04:20:03
伊朗向俄羅斯求援?革命衛隊稱為以色列準備2000枚中程彈道導彈

伊朗向俄羅斯求援?革命衛隊稱為以色列準備2000枚中程彈道導彈

鷹眼Defence
2025-06-14 17:34:42
2025-06-14 21:36:49
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
295文章數 18關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

特朗普79歲生日當天 全美50州預計將舉行2000場抗議

頭條要聞

特朗普79歲生日當天 全美50州預計將舉行2000場抗議

體育要聞

32隊爭10億獎金,全新世俱杯來了!

娛樂要聞

陳小春演唱會賣力唱跳 57歲仍活力滿滿

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

本地
數碼
親子
旅游
公開課

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

數碼要聞

定價或在千元?小米AI眼鏡定檔,行業爆發的征兆

親子要聞

孩子愛過敏或哮喘?快讓他去玩土!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 维西| 遵义县| 卢氏县| 明星| 吴旗县| 彰武县| 永宁县| 来安县| 区。| 顺义区| 昌图县| 昆山市| 无极县| 嘉兴市| 石台县| 台山市| 河北省| 巴彦县| 会昌县| 西和县| 苗栗市| 广东省| 醴陵市| 雷州市| 南城县| 淳安县| 肇东市| 七台河市| 东丽区| 曲麻莱县| 汉中市| 萨迦县| 休宁县| 三都| 山丹县| 兴仁县| 雅安市| 平顶山市| 安徽省| 突泉县| 阿克陶县|