99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

模型越新幻覺越重!AI幻覺扣住產業發展命脈

0
分享至

自誕生以來,人工智能大模型始終被“幻覺”問題困擾。這里的“幻覺”,指的是大語言模型會將虛構信息當作真實事實輸出。實際上,“幻覺”這一表述相當委婉,它實則暴露出AI的核心缺陷——當前的大語言模型尚未達到真正意義上的智能水平。



就在上個月,編程工具Cursor引發一場風波。用戶收到消息稱,其使用政策將進行調整,未來僅支持在單臺電腦上使用。然而,這條消息很快被證實為假。Cursor首席執行官兼聯合創始人Michael Truell迅速出面澄清:“我們并未制定類似政策,用戶完全可以在多臺設備上使用Cursor。這一錯誤信息源于一線AI機器人的錯誤回復。”

此次事件不僅讓用戶虛驚一場,更直觀展現了人工智能系統的不穩定。

幻覺成為AI進化的攔路虎

經過數年發展,盡管AI技術在諸多領域取得突破,但在判斷信息真假時仍不盡如人意。即使是OpenAI、谷歌、DeepSeek等行業頭部機構研發的模型也存在許多錯誤輸出。

值得警惕的是,這些錯誤并未隨著時間推移而減少,反而呈現增多趨勢。誠然,AI在數學運算、編程領域有所提升,但在處理復雜事實性信息時依然存在明顯短板,難以滿足用戶需求。

今天的AI實際上是根據“復雜數學系統”構建的,它們通過不斷分析海量數字數據,持續優化自身性能。然而,算法系統始終存在一個根本性缺陷——無法有效區分信息真假。在一項測試中,相較于舊版AI系統,新版AI系統的“幻覺率”竟然更高,這說明AI面臨嚴峻挑戰。

Vectara專注于企業級AI工具開發,其首席執行官Amr Awadallah直言:“盡管我們傾盡全力,可‘幻覺’問題還是存在,它并沒有消失。”現狀表明,即便在專業團隊的持續攻堅下,AI“幻覺”依然是難以攻克的技術頑疾。

Okahu致力于解決AI“幻覺”問題,其首席執行官Pratik Verma也指出:“判斷AI回應是事實還是虛假需要耗費大量時間。如果不能妥善處理這些錯誤,就無法保證人工智能系統發揮應有價值,畢竟這些系統的設計初衷是幫助用戶自動完成各項任務。”

AI企業并非不清楚“幻覺”問題的存在,它們付出了巨大努力,但始終無法有效解決這一難題。OpenAI的內部測試顯示,相比老系統,它所開發的新系統“幻覺率”反而更高。

在PersonQA標準測試中,o3模型在33%的回答中產生幻覺,幾乎是o1模型(16%)的兩倍,而最新的o4-mini模型表現更差,“幻覺率”高達48%。若采用SimpleQA標準測試,情況同樣不容樂觀。o3和o4-mini的“幻覺率”分別達到51%和79%,o1模型的“幻覺率”也有44%。

OpenAI指出,AI系統從海量數據中學習,數據量之巨遠超人類專家的理解能力,因此很難確定問題根源究竟在哪里。

人類恐怕不能解決AI幻覺

華盛頓大學及艾倫人工智能研究所研究人員Hannaneh Hajishirzi表示,他們找到一種新方法,能夠追溯AI特定行為在訓練數據中的源頭。但由于系統學習的數據量過于龐大,新工具無法解釋所有情況。Hannaneh Hajishirzi坦言:“我們仍然搞不清這些模型到底是如何運行的。”

Vectara近年來持續對AI系統展開測試,通過讓系統總結新聞內容的方式,觀察“幻覺率”的變化情況。然而,測試結果令人沮喪——“幻覺率”不僅未降低,反而呈上升趨勢。

長期以來,OpenAI認定一個理念:向AI投喂的數據越多,AI就會越聰明。但如今,AI在訓練時幾乎耗盡所有互聯網英文信息,它的幻覺卻愈發嚴重。這一現實表明,若想突破“幻覺”困境必須探尋新的技術路徑。

當前,工程師們開始倚重“強化學習”技術。在數學、編程等領域,強化學習確實能通過試錯機制實現學習與進步,但在部分領域,該技術仍未帶來明顯改善。

此外,推理模型在解答復雜問題時會先進行“思考”,采用分步解決的策略。然而,每個思考步驟都潛藏著產生“幻覺”的風險,思考步驟越多,累積的錯誤也就越多,這無疑給提升AI信息準確性帶來更大挑戰。

如今的AI能夠展示思考過程,使用戶可以看到錯誤產生的環節,這無疑是技術層面的一大進步。然而研究人員發現,AI所展示的思考步驟可能與最終答案毫無關聯。Anthropic研究人員Aryo Pradipta Gema直言:“AI系統聲稱自己正在思考,但它的思考有時并無必要。”

一些研究人員甚至認為,杜絕AI“幻覺”不可能實現,只能通過多種方法降低“幻覺率”。比如讓AI直面自身知識盲區,主動向用戶承認“我不知道”;引入“檢索增強生成”技術,促使AI通過檢索相關文檔輔助作答,而非單純依賴記憶數據直接輸出答案。

美國東北大學體驗式人工智能研究所研究人員Usama Fayyad提出,“幻覺”這一表述存在概念偏差,它過度擬人化。Usama Fayyad強調,AI生成錯誤信息與人類產生幻覺存在本質差異——AI既無意圖,也無意識,應避免用帶有情感色彩的詞匯模糊技術本質。(小刀)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
印度為啥總覺得比東大強?網友:三哥敢喝恒河水,你敢嗎

印度為啥總覺得比東大強?網友:三哥敢喝恒河水,你敢嗎

帶你感受人間冷暖
2025-07-17 00:05:13
據說上海廣州等地流行新的結婚模式,女方不要彩禮,雙方不辦酒席

據說上海廣州等地流行新的結婚模式,女方不要彩禮,雙方不辦酒席

星河也燦爛
2025-07-16 17:24:34
排面,楊瀚森和弗拉格是目前唯二被公布2K26評分的球員

排面,楊瀚森和弗拉格是目前唯二被公布2K26評分的球員

懂球帝
2025-07-16 09:42:11
記者攝像機被砸后續:價格高達27萬,老板賬號被扒,恐被追刑責

記者攝像機被砸后續:價格高達27萬,老板賬號被扒,恐被追刑責

譚談社會
2025-07-15 18:49:00
桃子是血糖的“催化劑”?醫生建議:若想血糖正常,7種水果少吃

桃子是血糖的“催化劑”?醫生建議:若想血糖正常,7種水果少吃

牛鍋巴小釩
2025-07-16 19:35:55
老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

大千世界觀
2025-05-22 16:57:05
娃哈哈財產爭奪迎來反轉!原來是宗馥莉先下手的,大小姐真不簡單

娃哈哈財產爭奪迎來反轉!原來是宗馥莉先下手的,大小姐真不簡單

探源歷史
2025-07-16 14:23:45
“鐵四角”誕生?中俄伊印外長齊聚中國,印度作出承諾,美國要急

“鐵四角”誕生?中俄伊印外長齊聚中國,印度作出承諾,美國要急

混沌錄
2025-07-16 22:38:28
卡德羅夫從忠犬變豺狼,公開挑戰普京權威,俄內政危機加劇

卡德羅夫從忠犬變豺狼,公開挑戰普京權威,俄內政危機加劇

星辰夜語
2025-07-16 16:40:07
特斯拉Model Y加長版正式發布,軸距3040毫米!競爭理想i8?

特斯拉Model Y加長版正式發布,軸距3040毫米!競爭理想i8?

車圈小隆哥
2025-07-17 00:05:28
中醫專家:嚴格反對大家夏天喝冷飲,看到我就會進行教育

中醫專家:嚴格反對大家夏天喝冷飲,看到我就會進行教育

映射生活的身影
2025-07-14 19:33:20
虧損超千億,蔚來大降價

虧損超千億,蔚來大降價

蔣東文
2025-07-16 09:37:55
熱火血賺!用巴特勒換來準全明星+3首輪,這套首發陣容要掀翻東部

熱火血賺!用巴特勒換來準全明星+3首輪,這套首發陣容要掀翻東部

夜白侃球
2025-07-16 23:08:42
趙露思直播驚見「手臂大片白粉」!網憂免疫力再出問題 去年病倒癱瘓

趙露思直播驚見「手臂大片白粉」!網憂免疫力再出問題 去年病倒癱瘓

ETtoday星光云
2025-07-16 18:33:32
梁天:哥哥負債400萬離世后看清英達真面目,對宋丹丹有愧疚

梁天:哥哥負債400萬離世后看清英達真面目,對宋丹丹有愧疚

莫惟
2025-03-29 21:16:49
紅姐到紅爺再到紅哥 無處不在的影像啊

紅姐到紅爺再到紅哥 無處不在的影像啊

攝影筆記
2025-07-08 13:57:11
如果你看過大連工業大學李某完整版,我們不信你還會為她說話

如果你看過大連工業大學李某完整版,我們不信你還會為她說話

魔都囡
2025-07-15 12:25:03
與美國達成協商后,越總理訪華,重申立場,眾多中資企業擬撤出

與美國達成協商后,越總理訪華,重申立場,眾多中資企業擬撤出

一個有靈魂的作者
2025-07-16 16:57:05
Model Y L,金秋見! ???

Model Y L,金秋見! ???

特斯拉
2025-07-16 19:47:06
陳佩斯、黃渤新片《戲臺》第一波真實口碑出爐!觀眾的評價很走心

陳佩斯、黃渤新片《戲臺》第一波真實口碑出爐!觀眾的評價很走心

老吳教育課堂
2025-07-16 12:24:38
2025-07-17 01:23:00
極客網 incentive-icons
極客網
科技使能新商業
2546文章數 2563關注度
往期回顧 全部

科技要聞

網易直擊黃仁勛見面會,他說了這28句話

頭條要聞

日本電機巨頭:已開始為豐田供應99%"中國造"驅動電機

頭條要聞

日本電機巨頭:已開始為豐田供應99%"中國造"驅動電機

體育要聞

不給楊瀚森傳球,他有自己的理由

娛樂要聞

都美竹將參加綜藝,單身媽媽發文抵制

財經要聞

探究萬億市場的休閑零食

汽車要聞

理想i8內飾官圖公布 李想回應"被打臉"

態度原創

時尚
教育
健康
游戲
數碼

今年夏天流行的“多巴胺運動鞋”太時髦了,誰穿誰好看!

教育要聞

即將殺瘋了:港校、坡校留學大亂斗!

呼吸科專家破解呼吸道九大謠言!

Fate全系列游戲入坑指南!從零開始成為月廚

數碼要聞

三星新一代平板電腦通過3C認證,支持25W快充

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 南宫市| 辽宁省| 临漳县| 永川市| 乐都县| 仲巴县| 宁强县| 民和| 孟津县| 武安市| 韶关市| 麟游县| 岐山县| 定远县| 蕉岭县| 文昌市| 新泰市| 滨州市| 南安市| 瓮安县| 临夏县| 墨竹工卡县| 天长市| 舞阳县| 沁水县| 开平市| 文昌市| 洛阳市| 克山县| 察隅县| 乡宁县| 五台县| 眉山市| 黄梅县| 胶州市| 普格县| 岳池县| 庆城县| 宝丰县| 石泉县| 河西区|