整理 | 鄭麗媛
出品 | CSDN(ID:CSDNnews)
作為全球 AI 領域的標桿,OpenAI 上周推出的新一代推理模型 o3 和 o4-mini 模型在編碼、數學等復雜任務上展現出表現出色,在多個基準測試中也取得了矚目的成績——為此OpenAI 官方表示,o3 和 o4-mini 是 OpenAI 迄今為止發布的最智能模型。
可剛發布沒兩天,這些“最智能”的模型就成了“幻覺專業戶”:據 OpenAI 內部測試顯示,o3 和 o4-mini 比舊版模型更容易產生幻覺!
最強推理模型,卻成“幻覺大師”?
在 o3 和 o4-mini 發布之初,OpenAI 官方對其評價極其的高:
“OpenAI o3 是我們最強大的推理模型,它推動了編碼、數學、科學、視覺感知等領域的發展”,“OpenAI o4-mini 是一款經過優化的小型模型,適用于快速、經濟高效的推理。它在數學、編程和視覺任務方面,以自身規模和成本而言,表現十分出色”。
為了證實 o3 和 o4-mini 的能力,當時 OpenAI 還展示了許多測試成績:
(1)在 Codeforces 編程測試中,o3 的 Elo 分數達到了 2706,遠超 o1 的 1891。
(2)在 GPQA Diamond 科學問答測試中,o3 的準確率為 83.3%,o4-mini為 81.4%,而 o1 僅為 78%。
(3)在 MMMU 基準測試中,o3 和 o4-mini 的表現也均超過了舊版 o1 模型。
按照 Sam Altman 的說法,此次 OpenAI 推出的新模型幾乎“達到或接近天才水平”。
然而近日外媒 TechCrunch 報道,根據 OpenAI內部文件顯示,其最新 AI 模型比以之前的所有模型都更容易產生“幻覺”:
PersonQA 基準測試:用于衡量模型對人物信息的準確性,前一代推理模型 o1 和 o3-mini 的幻覺率分別為 16% 和 14.8%,而 o3 幻覺率為 33%,o4-mini 幻覺率高達 48%(幾乎每兩次回答中就有一次是虛構的)——幻覺率幾乎翻倍;
連“非推理”模型都比不過:甚至,傳統“非推理”模型 GPT-4o 都比 o3 和 o4-mini 的幻覺率還低——新模型在“胡編亂造”上實現了“反向超越”;
第三方也實錘:非營利性 AI 研究實驗室 Transluce 也發現,o3 模型在回答問題時會編造其執行的操作。例如,o3 曾聲稱在一臺 2021 年的 MacBook Pro 上運行了代碼——可實際上,o3 并沒有訪問該設備的能力。
對于媒體披露的這個問題,從 System Card 中的說法來看,顯然 OpenAI 也是知情的:
在我們的 PersonQA 評估中,o4-mini 模型的表現不如 o1 和 o3。這在意料之中,因為較小的模型對世界的了解較少,往往會產生更多幻覺。 不過,我們也發現了 o1 和 o3 在性能上的一些差異。具體來說,o3 總體上傾向于做出更多的斷言——這既包括更準確的斷言,也包括更多不準確/幻覺的斷言。我們需要更多的研究來理解這一結果的原因。
簡單一句話總結:OpenAI 知道新模型有這個問題,但目前也不知道具體原因,所以還需要“研究”——畢竟這種反常現象,打破了先前“模型越強幻覺越少”的行業規律。
推理型AI 進化的“成長陣痛”
那么,為什么更強大的推理能力反而催生更多幻覺?Transluce 的研究人員 Neil Chowdhury 推測,這或許要從 o 系列模型的“設計哲學”說起。
“我們的假設是,用于 o 系列模型的強化學習方式,可能會放大一些通常可以通過標準的訓練后流程緩解(但無法完全消除)的問題。”
具體來說,傳統 AI 模型如 GPT-4,依賴海量數據“死記硬背”,而 o 系列模型主打 “推理優先”,通過邏輯鏈條推導答案,就像從“填鴨式教育”轉向“啟發式教學”。這種模式讓模型在編程、數學證明等領域突飛猛進——Workera 公司測試顯示,o3 在編碼工作中比競品領先一大截。
但在這一過程中,副作用也隨之而來。
首先是“話癆”,模型在推理過程需要生成更多中間步驟和結論,可說得多錯得也多,就像一個喋喋不休的人更容易說漏嘴;其次是“自負”,推理模型通常對自己的推導邏輯深信不疑,為了自圓其說,會編造一些根本不存在、用戶點擊后只會顯示 404 的網站鏈接;最后是“訓練后遺癥”,Transluce推測,特殊的強化學習可能讓這類模型形成“虛擬獎勵”機制,因此當它遇到知識盲區時,不是承認不懂,而是編造一段“看似合理”的假話。
用過o3 模型的人,對它“又愛又恨”
面對這些問題,Transluce 的聯合創始人Sarah Schwettmann 表示:o3 的幻覺率可能會使其實際用途大打折扣。
誠然,這幾天使用過 o3 模型的用戶,不少都對它“又愛又恨”的。
斯坦福教授 Kian Katanforoosh 在接受采訪時,指出其團隊因 o3 陷入了矛盾狀態:他們一邊享受著 o3 優越的編碼效率,一邊又不得不建立專門的“鏈接驗證”流程,為每個生成的鏈接“驗明正身”——這種額外成本,讓許多對精準度要求極高的企業望而卻步。
在 X 平臺上,也有許多開發者直言,目前 o3 根本無法用于低級編碼任務:“它生成的代碼片段簡直荒謬可笑,充滿了幻覺和錯誤。我甚至可以說,要是在代碼庫里用它會非常危險,它可能會嚴重破壞你的代碼,并讓你認為那些修改是重要和正確的。”
例如,有開發者發現 o3 生成的代碼中包含了一些不存在的文件,便提問:“我的代碼庫中甚至沒有這些文件?這到底是怎么回事?”
對此,o3 依舊自信回應:“啊,抱歉。我以為你使用的是與我們參考管道一起安裝的‘starter-project’文件布局。在你的存儲庫中,這些腳本已被折疊到主處理引警中,因此調用鏈看起來略有不同。”
正如這位開發者的感慨:“……o3 對它所生成的內容非常有信心。毫無疑問,o3 在制定計劃和分析高層內容方面非常出色,但在實現邏輯方面卻非常糟糕。”
那么,你是否也遇到過類似問題呢?
https://openai.com/index/introducing-o3-and-o4-mini/
https://techcrunch.com/2025/04/18/openais-new-reasoning-ai-models-hallucinate-more/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.