99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

【人工智能】AI 幻覺正在變得越來越嚴重——而且這種現象還會持續下去

0
分享至


人工智能排行榜顯示,聊天機器人使用的最新推理模型由于幻覺率較高,導致結果準確性下降。專家表示,問題遠不止于此


過去幾個月,OpenAI 和谷歌等科技公司的人工智能聊天機器人一直在進行所謂的推理升級——理想情況下,它們能更好地給出值得信賴的答案,但最近的測試表明,它們有時表現不如之前的模型。聊天機器人的錯誤,即所謂的“幻覺”,從一開始就是一個問題,而且越來越明顯的是,我們可能永遠無法擺脫它們。

幻覺是一個籠統的術語,指的是大型語言模型 (LLM) 所犯的某些錯誤,這些模型為 OpenAI 的 ChatGPT 或谷歌的 Gemini 等系統提供支持。它最廣為人知的是,它描述了這些模型有時會將虛假信息呈現為真實信息。但它也可以指人工智能生成的答案在事實上準確,但與被問到的問題實際上并不相關,或者在其他方面未能遵循指令。

OpenAI 一份評估其最新 LLM 的技術報告顯示,其于今年 4 月發布的 o3 和 o4-mini 模型的幻覺發生率顯著高于該公司于 2024 年底發布的上一代 o1 模型。例如,在總結關于人類的公開信息時,o3 產生幻覺的概率為 33%,而 o4-mini 的概率為 48%。相比之下,o1 的幻覺發生率為 16%。

這個問題并不僅限于 OpenAI。Vectara公司的一個評估幻覺率的熱門排行榜顯示,一些“推理”模型——包括開發者 DeepSeek 開發的DeepSeek-R1 模型——的幻覺率與其開發者之前的模型相比,出現了兩位數的增長。這類模型在做出反應之前,會經過多個步驟來展示推理過程。


OpenAI 表示,推理過程并非罪魁禍首。“幻覺在推理模型中并非天生就更普遍,盡管我們正在積極努力降低在 o3 和 o4-mini 中觀察到的較高幻覺發生率,”OpenAI 的一位發言人表示。“我們將繼續研究所有模型中的幻覺問題,以提高準確性和可靠性。”

一些潛在的大語言模型(LLM)申請可能會因幻覺而受阻。一個不斷陳述謊言并需要事實核查的模型不會成為一個有用的研究助理;一個引用虛構案例的律師助理機器人會給律師帶來麻煩;一個聲稱過時政策仍然有效的客服人員會給公司帶來麻煩。

然而,人工智能公司最初聲稱這個問題會隨著時間的推移而逐漸消失。事實上,在模型首次發布后,每次更新后,幻覺的出現頻率都會減少。但最近版本的高幻覺出現率使這一說法更加復雜——無論推理是否出了問題。

Vectara 的排行榜根據模型在總結給定文檔時的事實一致性進行排名。Vectara 的Forrest Sheng Bao表示,這表明“推理模型和非推理模型的幻覺率幾乎相同”,至少對于 OpenAI 和谷歌的系統來說是如此。谷歌沒有提供更多評論。Bao 表示,就排行榜而言,具體的幻覺率數字不如每個模型的總體排名重要。

但這種排名可能不是比較AI模型的最佳方式。

首先,它混淆了不同類型的幻覺。Vectara 團隊指出,盡管 DeepSeek-R1 模型出現幻覺的概率為 14.3%,但大多數幻覺都是“良性的”:這些答案有邏輯推理或世界知識的事實支持,但實際上并不存在于機器人被要求總結的原文中。DeepSeek 未提供更多評論。


華盛頓大學的艾米麗·本德表示,這種排名的另一個問題是,基于文本摘要的測試“無法反映 LLM 用于其他任務時輸出錯誤率”。她表示,排行榜結果可能并非評判這項技術的最佳方式,因為 LLM 并非專門為文本摘要而設計的。

這些模型的工作原理是反復回答“下一個詞可能是什么”的問題,從而形成對提示的答案,因此它們并非按照通常的方式處理信息,即試圖理解文本主體中存在哪些信息,本德說道。但許多科技公司在描述輸出錯誤時,仍然頻繁使用“幻覺”一詞。

“‘幻覺’這個術語本身就存在雙重問題,”本德說道。“一方面,它暗示錯誤的輸出是一種異常,或許可以緩解,而其余時間系統是扎實、可靠且值得信賴的。另一方面,它的作用是將機器擬人化——幻覺指的是感知到并不存在的東西,而大型語言模型什么都感知不到。”

普林斯頓大學的阿爾溫德·納拉亞南 (Arvind Narayanan)表示,這個問題不僅僅是幻覺。模型有時也會犯其他錯誤,例如引用不可靠的來源或使用過時的信息。僅僅向人工智能投入更多的訓練數據和計算能力并不一定能起到作用。

最終結果是,我們可能不得不忍受容易出錯的人工智能。納拉亞南在一篇社交媒體帖子中表示,在某些情況下,最好只在核實人工智能答案仍然比自己進行研究更快的情況下才使用此類模型。但本德表示,最好的做法可能是完全避免依賴人工智能聊天機器人來提供事實信息。

免責聲明:

本文所發布的內容和圖片旨在傳播行業信息,版權歸原作者所有,非商業用途。 如有侵權,請與我們聯系。 所有信息僅供參考和分享,不構成任何投資建議。投資者應基于自身判斷和謹慎評估做出決策。 投資有風險,入市需謹慎。

注我們,一起探索AWM

2025-05-08

2025-05-06

2025-05-06

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
上海一女大學生失蹤,父母賣房全國尋找11年,被找到時精神已恍惚

上海一女大學生失蹤,父母賣房全國尋找11年,被找到時精神已恍惚

罪案洞察者
2025-05-23 11:15:45
糯米立大功!醫生提醒:堅持吃糯米一段時間,身體或迎來4個信號

糯米立大功!醫生提醒:堅持吃糯米一段時間,身體或迎來4個信號

墜入二次元的海洋
2025-06-01 08:38:22
“紅二代”眾多,但被授予上將軍銜的僅有4位,他們分別都是誰?

“紅二代”眾多,但被授予上將軍銜的僅有4位,他們分別都是誰?

燭下青史
2025-05-29 16:18:29
彭勃履新職,曾稱“不能做一次性網紅”

彭勃履新職,曾稱“不能做一次性網紅”

政知新媒體
2025-06-02 16:18:54
麻省理工畢業生代表因挺巴言論被禁出席畢業典禮

麻省理工畢業生代表因挺巴言論被禁出席畢業典禮

留學生日報
2025-06-02 21:37:51
全國最“反人類”的機場,逼瘋每個坐飛機的人

全國最“反人類”的機場,逼瘋每個坐飛機的人

果殼
2025-06-02 16:14:00
正式退出,雨果發聲,官宣決定,名記回應,國乒計劃或打亂

正式退出,雨果發聲,官宣決定,名記回應,國乒計劃或打亂

樂聊球
2025-06-02 11:34:37
遭鄰居多次持刀砍門當事人發聲:說我們是腦控組織,入侵她大腦,吵了她13年

遭鄰居多次持刀砍門當事人發聲:說我們是腦控組織,入侵她大腦,吵了她13年

觀威海
2025-06-02 07:55:07
邱繼興職務信息被官網撤下,曾任湖南機場集團董事長,涉性侵被刑拘

邱繼興職務信息被官網撤下,曾任湖南機場集團董事長,涉性侵被刑拘

魯中晨報
2025-06-02 20:22:04
男子買95萬二手房裝修,發現臥室面積少4平米,砸開墻后頓時愣住

男子買95萬二手房裝修,發現臥室面積少4平米,砸開墻后頓時愣住

程哥講堂
2025-06-02 18:21:32
“扶弟魔”已是過去式,“田園女”悄然興起,正被列入相親黑名單

“扶弟魔”已是過去式,“田園女”悄然興起,正被列入相親黑名單

詩詞中國
2025-06-02 14:57:56
鄭爽六一罕見曬娃,一手拉著一個媽媽力爆棚,努力教孩子學習英語

鄭爽六一罕見曬娃,一手拉著一個媽媽力爆棚,努力教孩子學習英語

娛樂團長
2025-06-02 19:37:43
為什么華人很少跟白種女人交往?網友:五大三粗,毛長體臭!

為什么華人很少跟白種女人交往?網友:五大三粗,毛長體臭!

特約前排觀眾
2025-06-02 00:05:12
安徽一姑娘將荔枝核丟水里,20天成“粉森林”,網友:氛圍感絕了

安徽一姑娘將荔枝核丟水里,20天成“粉森林”,網友:氛圍感絕了

小嵩
2025-06-02 10:40:44
人員調整!掘金離隊四人名單確定,威少表現亮眼,杜蘭特亦難及

人員調整!掘金離隊四人名單確定,威少表現亮眼,杜蘭特亦難及

生活新鮮市
2025-06-03 02:55:23
49歲華東師大許鑫教授去世,最后露面瘦到脫相,曾一度胖到200斤

49歲華東師大許鑫教授去世,最后露面瘦到脫相,曾一度胖到200斤

叨嘮
2025-06-02 19:36:38
炸裂!梅根身上的黑人基因正在日益顯現?哈里為啥喜歡這樣的梅根

炸裂!梅根身上的黑人基因正在日益顯現?哈里為啥喜歡這樣的梅根

小寒嫣語
2025-06-02 15:16:16
普京要來中國看閱兵了!人類史上最大閱兵倒計時?國防部做出回應

普京要來中國看閱兵了!人類史上最大閱兵倒計時?國防部做出回應

科技虎虎
2025-05-31 15:49:28
沒料到中方出手會這么重!2記鐵拳就被打懵,莫迪急派團赴華求援

沒料到中方出手會這么重!2記鐵拳就被打懵,莫迪急派團赴華求援

智觀科技
2025-06-02 00:02:14
哈佛女孩畢業典禮上的「橫渠四句」

哈佛女孩畢業典禮上的「橫渠四句」

非典型佛教徒
2025-06-02 00:00:21
2025-06-03 04:52:49
七元宇宙 incentive-icons
七元宇宙
AI、Web3、Meta聚合型精選內容分享。以前沿視角,探索科技未來;讓每一個人,都走在時代的前沿
1125文章數 82關注度
往期回顧 全部

科技要聞

下周的WWDC,蘋果AI依舊不會有“驚喜”

頭條要聞

媒體:烏"奇襲"突破有核國家底線 俄應作出最強烈反擊

頭條要聞

媒體:烏"奇襲"突破有核國家底線 俄應作出最強烈反擊

體育要聞

傲了一輩子的恩里克,心中永遠住著一個小天使

娛樂要聞

大S女兒來北京!馬筱梅帶她喝下午茶

財經要聞

近期大火的"穩定幣、RWA"是什么?誰將受益?

汽車要聞

吉利汽車5月銷量23.52萬輛 同比增長46%

態度原創

房產
旅游
教育
手機
公開課

房產要聞

金地華南落子海南自貿港22萬㎡標桿項目,夯實代建行業領軍者地位

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

收藏:2024山東高考專科平均分投檔表

手機要聞

華為nova 14 Ultra評測:質感長焦人像輕松捕捉

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 裕民县| 新乡市| 广州市| 汾西县| 璧山县| 石河子市| 麻阳| 菏泽市| 西充县| 甘洛县| 吴江市| 苏尼特右旗| 苏尼特左旗| 田林县| 北流市| 三江| 丁青县| 古浪县| 三原县| 墨竹工卡县| 手游| 镇原县| 华宁县| 常州市| 福泉市| 河池市| 望奎县| 婺源县| 东光县| 筠连县| 古田县| 临漳县| 井研县| 芜湖县| 旌德县| 寻甸| 宜昌市| 包头市| 波密县| 巴林右旗| 新竹市|