網易首頁 > 網易號 > 正文申請入駐

OpenAI最強AI模型竟成“大忽悠”！o3/o4-mini被曝聰明過頭、結果幻覺頻發？

2025-04-21 19:22:44　來源: CSDN

北京舉報

分享至

整理 | 鄭麗媛

出品 | CSDN（ID：CSDNnews）

作為全球 AI 領域的標桿，OpenAI 上周推出的新一代推理模型 o3 和 o4-mini 模型在編碼、數學等復雜任務上展現出表現出色，在多個基準測試中也取得了矚目的成績——為此OpenAI 官方表示，o3 和 o4-mini 是 OpenAI 迄今為止發布的最智能模型。

可剛發布沒兩天，這些“最智能”的模型就成了“幻覺專業戶”：據 OpenAI 內部測試顯示，o3 和 o4-mini 比舊版模型更容易產生幻覺！

最強推理模型，卻成“幻覺大師”？

在 o3 和 o4-mini 發布之初，OpenAI 官方對其評價極其的高：

“OpenAI o3 是我們最強大的推理模型，它推動了編碼、數學、科學、視覺感知等領域的發展”，“OpenAI o4-mini 是一款經過優化的小型模型，適用于快速、經濟高效的推理。它在數學、編程和視覺任務方面，以自身規模和成本而言，表現十分出色”。

為了證實 o3 和 o4-mini 的能力，當時 OpenAI 還展示了許多測試成績：

（1）在 Codeforces 編程測試中，o3 的 Elo 分數達到了 2706，遠超 o1 的 1891。

（2）在 GPQA Diamond 科學問答測試中，o3 的準確率為 83.3%，o4-mini為 81.4%，而 o1 僅為 78%。

（3）在 MMMU 基準測試中，o3 和 o4-mini 的表現也均超過了舊版 o1 模型。

按照 Sam Altman 的說法，此次 OpenAI 推出的新模型幾乎“達到或接近天才水平”。

然而近日外媒 TechCrunch 報道，根據 OpenAI內部文件顯示，其最新 AI 模型比以之前的所有模型都更容易產生“幻覺”：

PersonQA 基準測試：用于衡量模型對人物信息的準確性，前一代推理模型 o1 和 o3-mini 的幻覺率分別為 16% 和 14.8%，而 o3 幻覺率為 33%，o4-mini 幻覺率高達 48%（幾乎每兩次回答中就有一次是虛構的）——幻覺率幾乎翻倍；

連“非推理”模型都比不過：甚至，傳統“非推理”模型 GPT-4o 都比 o3 和 o4-mini 的幻覺率還低——新模型在“胡編亂造”上實現了“反向超越”；

第三方也實錘：非營利性 AI 研究實驗室 Transluce 也發現，o3 模型在回答問題時會編造其執行的操作。例如，o3 曾聲稱在一臺 2021 年的 MacBook Pro 上運行了代碼——可實際上，o3 并沒有訪問該設備的能力。

對于媒體披露的這個問題，從 System Card 中的說法來看，顯然 OpenAI 也是知情的：

在我們的 PersonQA 評估中，o4-mini 模型的表現不如 o1 和 o3。這在意料之中，因為較小的模型對世界的了解較少，往往會產生更多幻覺。不過，我們也發現了 o1 和 o3 在性能上的一些差異。具體來說，o3 總體上傾向于做出更多的斷言——這既包括更準確的斷言，也包括更多不準確/幻覺的斷言。我們需要更多的研究來理解這一結果的原因。

簡單一句話總結：OpenAI 知道新模型有這個問題，但目前也不知道具體原因，所以還需要“研究”——畢竟這種反常現象，打破了先前“模型越強幻覺越少”的行業規律。

推理型AI 進化的“成長陣痛”

那么，為什么更強大的推理能力反而催生更多幻覺？Transluce 的研究人員 Neil Chowdhury 推測，這或許要從 o 系列模型的“設計哲學”說起。

“我們的假設是，用于 o 系列模型的強化學習方式，可能會放大一些通常可以通過標準的訓練后流程緩解（但無法完全消除）的問題。”

具體來說，傳統 AI 模型如 GPT-4，依賴海量數據“死記硬背”，而 o 系列模型主打 “推理優先”，通過邏輯鏈條推導答案，就像從“填鴨式教育”轉向“啟發式教學”。這種模式讓模型在編程、數學證明等領域突飛猛進——Workera 公司測試顯示，o3 在編碼工作中比競品領先一大截。

但在這一過程中，副作用也隨之而來。

首先是“話癆”，模型在推理過程需要生成更多中間步驟和結論，可說得多錯得也多，就像一個喋喋不休的人更容易說漏嘴；其次是“自負”，推理模型通常對自己的推導邏輯深信不疑，為了自圓其說，會編造一些根本不存在、用戶點擊后只會顯示 404 的網站鏈接；最后是“訓練后遺癥”，Transluce推測，特殊的強化學習可能讓這類模型形成“虛擬獎勵”機制，因此當它遇到知識盲區時，不是承認不懂，而是編造一段“看似合理”的假話。

用過o3 模型的人，對它“又愛又恨”

面對這些問題，Transluce 的聯合創始人Sarah Schwettmann 表示：o3 的幻覺率可能會使其實際用途大打折扣。

誠然，這幾天使用過 o3 模型的用戶，不少都對它“又愛又恨”的。

斯坦福教授 Kian Katanforoosh 在接受采訪時，指出其團隊因 o3 陷入了矛盾狀態：他們一邊享受著 o3 優越的編碼效率，一邊又不得不建立專門的“鏈接驗證”流程，為每個生成的鏈接“驗明正身”——這種額外成本，讓許多對精準度要求極高的企業望而卻步。

在 X 平臺上，也有許多開發者直言，目前 o3 根本無法用于低級編碼任務：“它生成的代碼片段簡直荒謬可笑，充滿了幻覺和錯誤。我甚至可以說，要是在代碼庫里用它會非常危險，它可能會嚴重破壞你的代碼，并讓你認為那些修改是重要和正確的。”

例如，有開發者發現 o3 生成的代碼中包含了一些不存在的文件，便提問：“我的代碼庫中甚至沒有這些文件？這到底是怎么回事？”

對此，o3 依舊自信回應：“啊，抱歉。我以為你使用的是與我們參考管道一起安裝的‘starter-project’文件布局。在你的存儲庫中，這些腳本已被折疊到主處理引警中，因此調用鏈看起來略有不同。”

正如這位開發者的感慨：“……o3 對它所生成的內容非常有信心。毫無疑問，o3 在制定計劃和分析高層內容方面非常出色，但在實現邏輯方面卻非常糟糕。”

那么，你是否也遇到過類似問題呢？

https://openai.com/index/introducing-o3-and-o4-mini/

https://techcrunch.com/2025/04/18/openais-new-reasoning-ai-models-hallucinate-more/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.