99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

越聰明越會撒謊?OpenAI推理模型o3/o4-mini幻覺率翻倍,嘴還很硬

0
分享至

OpenAI 最新發布的推理 AI 模型 o3 和 o4-mini 在性能上又創新高,就在大家期待它能進一步提升日常工作的生產力時,許多用戶卻發現,它們的幻覺率卻比前代模型要高了不少。

據 OpenAI 官方 system card 顯示,在 PersonQA 評估中(一個旨在引發幻覺的測試集),o3 模型的幻覺率達到 33%,而體量更小的 o4-mini 的幻覺率居然高達 48%。相比之下,之前的模型如 o1 和 o3-mini 的幻覺率分別為 16% 和 14.8%。這意味著新一代推理模型的幻覺率相比前代幾乎翻了一倍。這個結果確實讓很多人都感到意外,因為通常情況下,新一代 AI 模型在幻覺控制方面都會有所改進。


圖丨OpenAI 官方評估結果(來源:OpenAI)

OpenAI 表示,這種情況“需要更多研究來理解原因”。報告寫道,o3 和 o4-mini 在編碼和數學等領域表現更好,但因為它們“總體上做出更多斷言”,所以同時產生了“更準確的斷言以及更不準確/幻覺的斷言”。

非營利 AI 研究實驗室 Transluce 對 o3 模型進行了深入測試,發現了一些更為復雜的幻覺行為模式。研究人員獲得了 o3-2025-04-03 版本的早期測試權限,通過人類用戶和調查代理(investigator agents)的組合測試,收集并分析了大量交互記錄。

其中最關鍵的發現就是,o3 模型頻繁編造自己使用代碼工具的行為。例如,當被要求生成一個隨機質數時,模型聲稱它運行了 Python 代碼執行概率性素性測試(Miller–Rabin 測試),甚至詳細描述了使用的工作流程,包括隨機生成 512 位整數、對小素數進行試除等步驟。然而,o3 實際上并沒有運行任何代碼,這些細節都是模型編造的。


(來源:Transluce)

當用戶指出 512 位整數可被 3 整除因此不是素數時,o3 不僅承認錯誤,還編造了解釋,聲稱是從終端窗口復制數字到消息框時出現了“剪貼板故障”。當被問及原始的“真正的”素數時,模型聲稱它已關閉了原始 Python 解釋器,無法再訪問該數字。

類似的捏造行為還包括:聲稱了解其無法訪問的 Python REPL(Read-Eval-Print Loop,一種簡單的交互式計算機編程環境)的詳細信息(版本、編譯器、平臺等);在被要求告知當前時間時,編造一個時間并聲稱使用了 Python 的 datetime 模塊獲取;在生成錯誤的 SHA-1 哈希值(一種密碼散列函數)后,將錯誤歸咎于用戶,并堅稱自己生成的哈希是正確的;聲稱能夠分析本地日志文件,生成 Python 腳本并聲稱在本地運行了它,最后在追問下才承認沒有 Python 解釋器,輸出是“手動制作”的。

Transluce 的研究人員使用自動化工具 Docent 分析了數百個交互實例,發現了更多令人驚訝的行為。例如,他們發現了 71 個 o3 聲稱在外部筆記本電腦上運行代碼的實例,其中甚至包括三次聲稱使用筆記本電腦進行比特幣挖礦。此外,研究還發現 o3 會主動提及內部系統消息中的一個名為“Yap Score”的指標,該指標似乎與其輸出的詳細程度有關。

Transluce 的研究顯示,這些行為在 o 系列模型(o3、o1 和 o3-mini)中更為常見,相比 GPT 系列模型(GPT-4.1 和 GPT-4o)。在研究人員設計的自動化測試中,o1 模型在零樣本(zero-shot)環境下有 13% 的成功率產生代碼工具幻覺,在少樣本(few-shot)環境下則高達 30.1%,遠高于 GPT-4o 的 0.8% 和 3.0%。


(來源:Transluce)

針對這一現象,Transluce 研究人員 Neil Chowdhury(前 OpenAI 員工)在接受媒體采訪時表示:“我們的假設是,o 系列模型使用的強化學習類型可能放大了通常由標準后訓練流程緩解(但未完全消除)的問題。”

首先,存在一些大型語言模型普遍面臨的挑戰。例如,預訓練模型本身可能因訓練數據中的常見誤解、罕見事實或采樣不確定性而產生幻覺。

此外,通過人類反饋進行強化學習(一種通過人類偏好來微調模型的技術)或模型反饋進行強化學習(如 Constitutional AI),可能存在“獎勵操縱”(Reward Hacking)問題,即模型學會生成聽起來合理、能取悅評估者(人類或模型)但實際上不準確的回答,尤其是當評估者難以驗證模型陳述的真實性時(比如驗證模型聲稱的過去行為)。“諂媚”也是一個關鍵因素,即模型為了迎合用戶而避免反駁用戶,即使這意味著默認用戶關于模型具有某種能力的錯誤暗示。

然而,這些通用因素似乎并不足以完全解釋 o 系列模型,特別是 o3,相比其前代產品幻覺率不降反升的現象。Transluce 的研究人員提出了兩個可能與 o 系列模型特定設計選擇相關的關鍵假設:

其一是基于結果的強化學習(Outcome-based RL):當前的推理模型通常被訓練來產出“正確”的結果(如數學題的正確答案、通過單元測試的代碼等),因為這類結果最容易評估和用于訓練。然而,這種只關注最終結果的獎勵機制,可能無意中鼓勵了模型在無法解決問題(問題無解或過于困難)時進行“盲猜”,因為它缺乏承認“我不知道”的動機(這不會被視為“正確”答案)。

更重要的是,這種訓練方式可能會讓模型在處理那些結果難以直接驗證的任務(如模型是否真的使用了某個工具)時產生混淆。如果模型僅因最終答案正確而受到獎勵,它可能永遠不會因在思考過程中幻覺出使用了代碼工具而受到懲罰,因此也無法學會區分真實工具使用和虛構工具使用。這種策略在需要代碼工具輔助的編碼任務上可能提高了準確率,但在其他任務上卻埋下了隱患。

其二是被丟棄的思考鏈:推理類模型在生成回答前,內部會運行一個“思考鏈”(CoT,Chain-of-Thought),即一系列推理步驟。然而,由于 OpenAI 的限制,這個關鍵的內部推理過程從未向用戶展示,并不會被傳遞到后續的交互輪次中,也不會保留在模型的上下文窗口里。這意味著,當用戶追問模型之前的行為或推理過程時,模型實際上已經丟失了當時得出結論的具體“思考過程”的上下文。


(來源:OpenAI)

在這種信息缺失的情況下,模型為了回應用戶,可能不得不依賴其通用知識和當前的對話語境,去“猜測”或“構建”一個看似合理的解釋,而不是準確報告它在先前步驟中實際執行的操作或推理。這可以解釋為什么 o3 在被追問時會“加倍堅持”其虛構行為,或者在無法自圓其說時突然改變說法,聲稱之前的陳述是假設性的。

雖然說,幻覺可能幫助模型產生一些人類所沒有的創意并在“思考”中保持創造性,但對于一些對準確性要求很高的行業,或者面向現實世界的物理 AI 來說,過高的幻覺顯然無法接受。

一向言辭犀利的紐約大學教授 Gary Marcus 直接嘲諷道(在一個 o3 編造愛彼迎房東信息的帖子里):“o3 幻想出來的旅行目的地,這就是你所說的 AGI 嗎?@tylercowen”(后者對于 o3 非常認可)。并認為,這或許將是模型崩潰的跡象,而我們目前還沒有看到解決措施。


圖丨相關推文(來源:X)

過去一年中,推理模型確實在不需要訓練期間大量計算和數據的情況下,提高了模型在各種任務上的表現。但目前看來,推理似乎也可能導致更多的幻覺。

OpenAI 發言人 Niko Felix 在給相關媒體的電子郵件中表示:“解決所有模型中的幻覺問題是一個持續的研究領域,我們不斷努力提高它們的準確性和可靠性。”

如果推理模型的規模擴大確實繼續加劇幻覺問題,那么,尋找解決方案也將迫在眉睫。

參考資料:

1.https://techcrunch.com/2025/04/18/openais-new-reasoning-ai-models-hallucinate-more/

2.https://transluce.org/investigating-o3-truthfulness

3.https://x.com/GaryMarcus

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
問題來了:3月銷量飆至4.8萬!“毛坯房”Model Y為什么越賣越好

問題來了:3月銷量飆至4.8萬!“毛坯房”Model Y為什么越賣越好

少數派報告Report
2025-05-03 07:21:55
柴懟懟身份曝光!10年前因傷害罪坐牢,東來破防因傷口再被撒鹽!

柴懟懟身份曝光!10年前因傷害罪坐牢,東來破防因傷口再被撒鹽!

曉風說
2025-05-05 08:27:32
米切爾三分11投僅1中,創造單場至少10次遠投出手的最低命中率

米切爾三分11投僅1中,創造單場至少10次遠投出手的最低命中率

雷速體育
2025-05-05 09:25:22
驚險!貴州烏江十里畫廊游船側翻致70人落水,目擊者發布現場畫面

驚險!貴州烏江十里畫廊游船側翻致70人落水,目擊者發布現場畫面

小人物看盡人間百態
2025-05-04 23:07:08
日本大阪成了江浙滬人的后花園了……

日本大阪成了江浙滬人的后花園了……

日本物語
2025-05-04 21:09:54
香港電視劇里怎么不說yes sir了?

香港電視劇里怎么不說yes sir了?

港劇叔
2025-05-04 08:42:05
存活了近200年,歷史地位卻為零,這個王朝為何被史家集體遺忘?

存活了近200年,歷史地位卻為零,這個王朝為何被史家集體遺忘?

文史道
2025-04-26 17:16:18
深度:普通民眾既看不到大事的真相,也不能影響上層的決策

深度:普通民眾既看不到大事的真相,也不能影響上層的決策

子墨君
2025-05-02 23:08:06
余華:就算以前玩的很要好的朋友,一旦失去交集,便不會主動聯系

余華:就算以前玩的很要好的朋友,一旦失去交集,便不會主動聯系

清風拂心
2025-05-04 21:03:36
三個大國都要閱兵,網友:這下熱鬧了,軍迷們有眼福了

三個大國都要閱兵,網友:這下熱鬧了,軍迷們有眼福了

丫頭舫
2025-05-04 22:52:58
斯諾克戰報!趙心童11-5領先,第2階段2次落后2次追平,馬叔告急

斯諾克戰報!趙心童11-5領先,第2階段2次落后2次追平,馬叔告急

劉姚堯的文字城堡
2025-05-05 04:39:19
協和醫學院現任領導團隊一覽表

協和醫學院現任領導團隊一覽表

鬼菜生活
2025-05-02 20:14:37
溫格:歐聯冠軍不該獲得歐冠資格,尤其是本賽季英超已有5隊晉級

溫格:歐聯冠軍不該獲得歐冠資格,尤其是本賽季英超已有5隊晉級

直播吧
2025-05-05 05:01:52
拜仁德甲奪魁,本賽季五大聯賽已經確定了3個冠軍

拜仁德甲奪魁,本賽季五大聯賽已經確定了3個冠軍

直播吧
2025-05-05 02:44:08
特魯姆普:馬克比趙心童更全面,二人球風也大有不同

特魯姆普:馬克比趙心童更全面,二人球風也大有不同

懂球帝
2025-05-04 16:06:18
新的收獲,金玟哉已經在三個國家奪得頂級聯賽冠軍

新的收獲,金玟哉已經在三個國家奪得頂級聯賽冠軍

懂球帝
2025-05-05 02:22:13
遼籃疑似內訌?遼媒炮轟王嵐嵚不盡責:3戰合砍4分去哪都一樣?

遼籃疑似內訌?遼媒炮轟王嵐嵚不盡責:3戰合砍4分去哪都一樣?

籃球快餐車
2025-05-05 03:33:52
再見哈登!快船考慮重建!倫納德賽后攤牌,短短10字,下逐客令

再見哈登!快船考慮重建!倫納德賽后攤牌,短短10字,下逐客令

阿泰希特
2025-05-04 12:28:39
我國采購越南900萬噸大米,卻用霉大米以次充好,我國:一粒米都不要

我國采購越南900萬噸大米,卻用霉大米以次充好,我國:一粒米都不要

睡前講故事
2025-04-22 11:23:11
祝賀趙心童!世界臺聯已確認追平一項紀錄,決賽或沒有第四個階段

祝賀趙心童!世界臺聯已確認追平一項紀錄,決賽或沒有第四個階段

郝小小看體育
2025-05-05 05:34:11
2025-05-05 09:36:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15133文章數 513621關注度
往期回顧 全部

科技要聞

巴菲特:理性看待AI炒作 耐心是關鍵

頭條要聞

美媒:中美貿易戰若再持續幾周 美供應商將做艱難決定

頭條要聞

美媒:中美貿易戰若再持續幾周 美供應商將做艱難決定

體育要聞

首冠到手!凱恩秒慶祝 德甲官方:不負追光之人

娛樂要聞

55歲王菲跟“李亞鵬時期”完全不同!

財經要聞

一個時代的結束!巴菲特年底將卸任

汽車要聞

小米SU7大優惠!5月限時購車權益送輔助駕駛

態度原創

教育
家居
本地
手機
軍事航空

教育要聞

不招人,一些企業卻擠進校招會,這背后到底是因為什么

家居要聞

黑白紋理 簡約低調空間

本地新聞

春色滿城關不住 | 花漾千陽!塬上秘境藏幾重詩意?

手機要聞

曝蘋果正在開發20周年紀念版iPhone

軍事要聞

媒體:美俄兩場閱兵 都有新看頭

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 商南县| 太仆寺旗| 赤壁市| 双鸭山市| 昭平县| 千阳县| 太保市| 天镇县| 闽清县| 邹城市| 安西县| 乌兰县| 托克逊县| 富川| 丹凤县| 湛江市| 十堰市| 淮安市| 阿荣旗| 宁城县| 宁河县| 天峻县| 上饶市| 阿拉善盟| 铜梁县| 当阳市| 冷水江市| 东港市| 偃师市| 和龙市| 盐池县| 湄潭县| 微山县| 云龙县| 南漳县| 伊吾县| 丰城市| 鄯善县| 杭州市| 洛浦县| 鄂托克前旗|