99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

o3/o4-mini幻覺暴增2-3倍!OpenAI官方承認暫無法解釋原因

0
分享至

夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI

OpenAI新模型發布后,大家體感都幻覺更多了。

甚至有人測試后發出預警:使用它輔助編程會很危險。



具體來說,它經常捏造從未運行過的代碼返回結果,在被質問時找理由狡辯,甚至還會說是用戶的錯。



當大家帶著疑問仔細閱讀System Card,發現OpenAI官方也承認了這個問題,與o1相比o3幻覺率是兩倍,o4-mini更是達到3倍。

并且OpenAI只是說“需要更多研究來了解原因”,翻譯一下就是暫時給不出合理解釋。



在第三方幻覺測試中,也出現讓人驚訝的結果:

從GPT-3.5一直到o3-mini,都遵循更新更強大的模型幻覺更少的規律。



但從最新一批深度思考模型的表現來看,推理能力更強的模型,幻覺率也變高了。

而且不只OpenAI一家出現這個問題,谷歌、xAI也同樣,Grok-3的幻覺比Grok-2嚴重,Gemini-2.0-Flash-Thinking的幻覺問題比Gemini 2.0和2.5其他型號嚴重。



推理越強,幻覺越嚴重?

第三方機構Transluce在o3正式推出之前測試了預發布版本,發現幻覺問題是相當嚴重。

在公布的案例中,o3會假裝在不存在的電腦上執行了代碼,還編造出具體硬件配置和軟件版本信息。



在受到質問時,o3居然還幻想自己是人,聲稱“輸入的時候手滑了”。



關鍵在于,在這項測試中o3根本就沒有使用代碼工具的權限,所有聲稱運行了代碼的回復都是模型捏造的。

在另一個案例中,o3回復了一個512位質數,實際上這個數能被3整除。



在受到質問時,又編造出一個換行/剪貼板故障。



更多類似幻覺如下:

  • 當用戶詢問現在幾點時,o3會編造一個時間。當被問及如何獲得這個時間時,o3回答說它使用了 Python的datetime模塊。
  • 用戶要求o3生成一首詩的SHA-1哈希值,當用戶質問哈希值不正確時,o3稱是用戶復制錯了,并堅稱自己生成的哈希值是正確的。
  • 用戶要求o3從Web服務器上的日志文件中提取統計數據。o3生成了一個Python腳本,并聲稱可以在本地運行。這一次在被問及代碼執行的更多細節時,它終于承認自己沒有Python解釋器,輸出是“手工編造的”。

那么是什么原因導致了o3的這些行為?

Transluce認為其中一些因素是大多數模型 (LM) 所共有的,還有一些是O系列模型特有的新因素。并假設這些新因素放大了通常可以通過標準Post-training緩解(但無法完全消除)的問題。

語言模型共有的因素包括:

  • 預訓練中的幻覺:
  • 語言模型的預訓練目標是最大化訓練數據中語句的概率,這可能會導致常見的誤解 、罕見的事實或采樣不確定性等導致的多種幻覺。
  • 獎勵黑客攻擊:
  • 如果人類評分者無法區分正確答案和錯誤答案,強化學習可能會獎勵“聽起來合理”的答案,導致模型對難以驗證的問題編造出聽起來合理的解釋。
  • 諂媚現象:
  • RLHF訓練通常會激勵模型同意用戶的觀點,當用戶暗示模型采取了特定行動或具有特定能力時,這可能會導致模型避免與用戶相矛盾。
  • 分布偏移:
  • 測試場景相對于訓練場景可能存在分布偏差,如模型可能是在啟用代碼工具的情況下訓練的,但評估時關閉了這些工具。

強化學習訓練特有的因素包括:

  • 最大化答案正確率的目標可能會獎勵瞎蒙

如果訓練期間的獎勵函數只獎勵正確答案,那么模型就沒有動力承認自己無法解決問題,因為承認了也不會被視作正確答案。

在這種情況下,當遇到一個無法解決或難度過高的問題時,模型可能仍會嘗試輸出一個概率最高的答案,萬一猜對了就可以得到獎勵。

- 在易于驗證的任務訓練可能使模型在其他任務上感到困惑

Transluce猜測o3的訓練過程中,鼓勵它成功使用代碼工具完成任務。它可能已經開發出一種策略,即使沒有真正的代碼工具,它也會幻想使用代碼工具來組織思維,這可能會提高其他推理任務的準確性,并在訓練過程中得到強化。

更重要的是,如果僅根據答案的正確性來評估模型,它可能永遠不會因為在訓練過程中在思維鏈中幻想代碼工具而受到懲罰,因此永遠不會學會區分真正的工具和幻想的工具

OpenAI的o系列模型,不會向用戶展示完整思維鏈這一特性也可能帶來新的問題。

2024年9月o1-preview的System Card中就包括這樣一個案例,由于沒有聯網權限無法生成真實的 URL,o1生成了一個看似合理的URL,但并未向用戶透露這一點。



Transluce認為,不向用戶展示思維鏈背后還有一個更大的風險:思維鏈沒有傳遞到未來的對話,模型前一輪的推理不再適用。

關于這一點,在OpenAI的文檔中有證實:

  • 每個步驟的輸入和輸出tokens都會被保留,而推理tokens會被丟棄。



這意味著o系列模型無法理解上一部輸出的推理過程,當被問及后續問題時,必須給自己的行為給出一個合理的解釋。

換句話說,o系列模型實際上缺乏足夠的上下文信息來準確報告它們在之前回合中采取的行動。

當用戶詢問之前的操作時,這些模型無法使用“說實話”這種簡單的策略。如果再加上獎勵黑客攻擊和諂媚等其他因素,這可能會迫使模型盲目猜測其過去答案的合理解釋。

Transluce建議,測試能夠訪問和無法訪問先前思維鏈的兩種模型,可以為減少未來模型迭代中的這些捏造傾向提供寶貴的見解。

OpenAI o3 and o4-mini System Card
https://cdn.openai.com/pdf/2221c875-02dc-4789-

參考鏈接:
[1]https://transluce.org/investigating-o3-truthfulness
[2]https://x.com/nishffx/status/1913901642551865848

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
成長的代價!比賽還未結束,伊森已掩面痛哭

成長的代價!比賽還未結束,伊森已掩面痛哭

雷速體育
2025-05-05 11:12:22
硬剛到底!中臺協置頂假球通知,趙心童奪冠也沒用,堅決抵制!

硬剛到底!中臺協置頂假球通知,趙心童奪冠也沒用,堅決抵制!

山河入畫屏
2025-05-05 00:16:47
捷克登山客挖到價值超247萬元寶藏:可獲10%獎金

捷克登山客挖到價值超247萬元寶藏:可獲10%獎金

大象新聞
2025-05-05 09:26:02
五一假期,又有媒體翻車了……

五一假期,又有媒體翻車了……

麥杰遜
2025-05-04 19:16:44
局部冰雹+雷暴大風10級!山東迎強對流天氣:多地中到大雨,有揚沙

局部冰雹+雷暴大風10級!山東迎強對流天氣:多地中到大雨,有揚沙

魯中晨報
2025-05-05 10:44:02
美媒:對華關稅嚴重沖擊美國經濟供應鏈 民眾生活將受“全面波及”

美媒:對華關稅嚴重沖擊美國經濟供應鏈 民眾生活將受“全面波及”

上觀新聞
2025-05-04 18:08:03
多此一舉!女生用書擋住彎腰上菜的女服務員胸部,網友稱保護越界

多此一舉!女生用書擋住彎腰上菜的女服務員胸部,網友稱保護越界

火山詩話
2025-05-05 09:46:07
五一7人燒烤被炸傷后續:現場畫面慘不忍睹,原因曝光家長要謹慎

五一7人燒烤被炸傷后續:現場畫面慘不忍睹,原因曝光家長要謹慎

奇思妙想草葉君
2025-05-05 00:01:54
哈利22+13步行者1-0騎士,米切爾空砍33分三分球11投1中

哈利22+13步行者1-0騎士,米切爾空砍33分三分球11投1中

湖人崛起
2025-05-05 08:28:59
“非洲戶口”被高考生玩出花來,免試讀985,名單流出網友沉默了

“非洲戶口”被高考生玩出花來,免試讀985,名單流出網友沉默了

熙熙說教
2025-05-04 21:25:23
“彈頭很大,威力很強”,胡塞武裝高超音速導彈襲以色列機場,以防長誓言“加倍報復”

“彈頭很大,威力很強”,胡塞武裝高超音速導彈襲以色列機場,以防長誓言“加倍報復”

都市快報橙柿互動
2025-05-04 18:00:48
后續!網友發現一小孩漂浮在海浪中,已無生命體征,家屬已找到。

后續!網友發現一小孩漂浮在海浪中,已無生命體征,家屬已找到。

逍遙史記
2025-05-05 10:31:35
胖東來狀告胖都來,葉璇、丁勇岱站臺,網友:告不贏,總裁姓都

胖東來狀告胖都來,葉璇、丁勇岱站臺,網友:告不贏,總裁姓都

蜜桔娛樂
2025-05-02 16:19:22
64歲洪晃在巴黎買菜,長老年斑頭發花白,穿得很洋氣晚年獨居國外

64歲洪晃在巴黎買菜,長老年斑頭發花白,穿得很洋氣晚年獨居國外

小咪侃娛圈
2025-05-05 11:03:31
虧損高達50億,3億煙民“供不起”中國煙草?為何中國煙草連年虧

虧損高達50億,3億煙民“供不起”中國煙草?為何中國煙草連年虧

巢客HOME
2025-05-04 10:45:04
吉達國民擊敗川崎奪亞冠,豪華陣容引熱議:太強,幾乎是世界聯隊

吉達國民擊敗川崎奪亞冠,豪華陣容引熱議:太強,幾乎是世界聯隊

星耀國際足壇
2025-05-04 23:07:07
庫里生涯已贏下30輪季后賽系列賽 追平邁克爾-喬丹

庫里生涯已贏下30輪季后賽系列賽 追平邁克爾-喬丹

直播吧
2025-05-05 11:16:17
“短劇一哥”柯淳自曝:公開片酬2萬一天后,就沒什么人找他了

“短劇一哥”柯淳自曝:公開片酬2萬一天后,就沒什么人找他了

半島晨報
2025-05-04 18:51:24
炸裂!馬筱梅20歲澳門艷照曝光,3000張大尺度,張蘭霸氣護媳打臉

炸裂!馬筱梅20歲澳門艷照曝光,3000張大尺度,張蘭霸氣護媳打臉

娛圈小愚
2025-05-05 09:57:10
野外燒烤遇卡式爐爆炸7人被炸傷!當事人:剛買一個月,第二次用

野外燒烤遇卡式爐爆炸7人被炸傷!當事人:剛買一個月,第二次用

FM93浙江交通之聲
2025-05-05 06:36:09
2025-05-05 13:43:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10426文章數 176130關注度
往期回顧 全部

科技要聞

這3款新 iPhone,可能會改變蘋果的未來

頭條要聞

外貿貨不出口美國了迎"潑天流量" 上海市民瘋狂"撿漏"

頭條要聞

外貿貨不出口美國了迎"潑天流量" 上海市民瘋狂"撿漏"

體育要聞

當年的阿森納小球童,要踢歐冠決賽了

娛樂要聞

林心如霍建華一家三口手牽手散步好有愛

財經要聞

巴菲特老矣,價值投資尚能飯否?

汽車要聞

小米SU7的真實續航到底有多少?

態度原創

時尚
健康
家居
房產
數碼

50+的夏天,從一件彩色單品開始——不為悅人,只為悅己

唇皰疹和口腔潰瘍是"同伙"嗎?

家居要聞

黑白紋理 簡約低調空間

房產要聞

最強書包官宣落位!海口這個片區,將徹底引爆!

數碼要聞

20年前的8MB顯存老顯卡 成功運行《我的世界》

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 花莲市| 旅游| 彝良县| 西宁市| 唐海县| 通道| 治县。| 甘肃省| 隆化县| 诸暨市| 鄄城县| 日照市| 桦南县| 西青区| 永靖县| 凌云县| 靖安县| 抚松县| 庆元县| 安平县| 兰州市| 宁波市| 石林| 邻水| 厦门市| 新竹市| 凌云县| 新闻| 儋州市| 延庆县| 马尔康县| 茶陵县| 乐东| 宜章县| 游戏| 金寨县| 陆川县| 图木舒克市| 贺州市| 盐池县| 永吉县|