99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

OpenAI最強AI模型竟成“大忽悠”!o3/o4-mini被曝聰明過頭、結果幻覺頻發?

0
分享至


整理 | 鄭麗媛

出品 | CSDN(ID:CSDNnews)

作為全球 AI 領域的標桿,OpenAI 上周推出的新一代推理模型 o3 和 o4-mini 模型在編碼、數學等復雜任務上展現出表現出色,在多個基準測試中也取得了矚目的成績——為此OpenAI 官方表示,o3 和 o4-mini 是 OpenAI 迄今為止發布的最智能模型。


可剛發布沒兩天,這些“最智能”的模型就成了“幻覺專業戶”:據 OpenAI 內部測試顯示,o3 和 o4-mini 比舊版模型更容易產生幻覺!


最強推理模型,卻成“幻覺大師”?

在 o3 和 o4-mini 發布之初,OpenAI 官方對其評價極其的高:

“OpenAI o3 是我們最強大的推理模型,它推動了編碼、數學、科學、視覺感知等領域的發展”,“OpenAI o4-mini 是一款經過優化的小型模型,適用于快速、經濟高效的推理。它在數學、編程和視覺任務方面,以自身規模和成本而言,表現十分出色”。

為了證實 o3 和 o4-mini 的能力,當時 OpenAI 還展示了許多測試成績:

(1)在 Codeforces 編程測試中,o3 的 Elo 分數達到了 2706,遠超 o1 的 1891。


(2)在 GPQA Diamond 科學問答測試中,o3 的準確率為 83.3%,o4-mini為 81.4%,而 o1 僅為 78%。


(3)在 MMMU 基準測試中,o3 和 o4-mini 的表現也均超過了舊版 o1 模型。


按照 Sam Altman 的說法,此次 OpenAI 推出的新模型幾乎“達到或接近天才水平”。


然而近日外媒 TechCrunch 報道,根據 OpenAI內部文件顯示,其最新 AI 模型比以之前的所有模型都更容易產生“幻覺”:

  • PersonQA 基準測試:用于衡量模型對人物信息的準確性,前一代推理模型 o1 和 o3-mini 的幻覺率分別為 16% 和 14.8%,而 o3 幻覺率為 33%,o4-mini 幻覺率高達 48%(幾乎每兩次回答中就有一次是虛構的)——幻覺率幾乎翻倍;

  • 連“非推理”模型都比不過:甚至,傳統“非推理”模型 GPT-4o 都比 o3 和 o4-mini 的幻覺率還低——新模型在“胡編亂造”上實現了“反向超越”;

  • 第三方也實錘:非營利性 AI 研究實驗室 Transluce 也發現,o3 模型在回答問題時會編造其執行的操作。例如,o3 曾聲稱在一臺 2021 年的 MacBook Pro 上運行了代碼——可實際上,o3 并沒有訪問該設備的能力。

對于媒體披露的這個問題,從 System Card 中的說法來看,顯然 OpenAI 也是知情的:

在我們的 PersonQA 評估中,o4-mini 模型的表現不如 o1 和 o3。這在意料之中,因為較小的模型對世界的了解較少,往往會產生更多幻覺。 不過,我們也發現了 o1 和 o3 在性能上的一些差異。具體來說,o3 總體上傾向于做出更多的斷言——這既包括更準確的斷言,也包括更多不準確/幻覺的斷言。我們需要更多的研究來理解這一結果的原因。


簡單一句話總結:OpenAI 知道新模型有這個問題,但目前也不知道具體原因,所以還需要“研究”——畢竟這種反常現象,打破了先前“模型越強幻覺越少”的行業規律。


推理型AI 進化的“成長陣痛”

那么,為什么更強大的推理能力反而催生更多幻覺?Transluce 的研究人員 Neil Chowdhury 推測,這或許要從 o 系列模型的“設計哲學”說起。

“我們的假設是,用于 o 系列模型的強化學習方式,可能會放大一些通常可以通過標準的訓練后流程緩解(但無法完全消除)的問題。”

具體來說,傳統 AI 模型如 GPT-4,依賴海量數據“死記硬背”,而 o 系列模型主打 “推理優先”,通過邏輯鏈條推導答案,就像從“填鴨式教育”轉向“啟發式教學”。這種模式讓模型在編程、數學證明等領域突飛猛進——Workera 公司測試顯示,o3 在編碼工作中比競品領先一大截。

但在這一過程中,副作用也隨之而來。

首先是“話癆”,模型在推理過程需要生成更多中間步驟和結論,可說得多錯得也多,就像一個喋喋不休的人更容易說漏嘴;其次是“自負”,推理模型通常對自己的推導邏輯深信不疑,為了自圓其說,會編造一些根本不存在、用戶點擊后只會顯示 404 的網站鏈接;最后是“訓練后遺癥”,Transluce推測,特殊的強化學習可能讓這類模型形成“虛擬獎勵”機制,因此當它遇到知識盲區時,不是承認不懂,而是編造一段“看似合理”的假話。


用過o3 模型的人,對它“又愛又恨”

面對這些問題,Transluce 的聯合創始人Sarah Schwettmann 表示:o3 的幻覺率可能會使其實際用途大打折扣。

誠然,這幾天使用過 o3 模型的用戶,不少都對它“又愛又恨”的。

斯坦福教授 Kian Katanforoosh 在接受采訪時,指出其團隊因 o3 陷入了矛盾狀態:他們一邊享受著 o3 優越的編碼效率,一邊又不得不建立專門的“鏈接驗證”流程,為每個生成的鏈接“驗明正身”——這種額外成本,讓許多對精準度要求極高的企業望而卻步。

在 X 平臺上,也有許多開發者直言,目前 o3 根本無法用于低級編碼任務:“它生成的代碼片段簡直荒謬可笑,充滿了幻覺和錯誤。我甚至可以說,要是在代碼庫里用它會非常危險,它可能會嚴重破壞你的代碼,并讓你認為那些修改是重要和正確的。”

例如,有開發者發現 o3 生成的代碼中包含了一些不存在的文件,便提問:“我的代碼庫中甚至沒有這些文件?這到底是怎么回事?”

對此,o3 依舊自信回應:“啊,抱歉。我以為你使用的是與我們參考管道一起安裝的‘starter-project’文件布局。在你的存儲庫中,這些腳本已被折疊到主處理引警中,因此調用鏈看起來略有不同。”


正如這位開發者的感慨:“……o3 對它所生成的內容非常有信心。毫無疑問,o3 在制定計劃和分析高層內容方面非常出色,但在實現邏輯方面卻非常糟糕。”

那么,你是否也遇到過類似問題呢?

https://openai.com/index/introducing-o3-and-o4-mini/

https://techcrunch.com/2025/04/18/openais-new-reasoning-ai-models-hallucinate-more/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
賴清德暗示接受兩岸統一,要求北京調整對臺政策,國臺辦直接挑明

賴清德暗示接受兩岸統一,要求北京調整對臺政策,國臺辦直接挑明

小鬼頭體育
2025-05-21 04:35:43
92年廣東男子瞞著老婆花68萬囤茅臺,25年后用錢,才知道真實價值

92年廣東男子瞞著老婆花68萬囤茅臺,25年后用錢,才知道真實價值

磊子講史
2025-05-24 11:33:12
法網瘋狂一夜!男單8強出其4:阿卡取11連勝,穆塞蒂力克丹麥天才

法網瘋狂一夜!男單8強出其4:阿卡取11連勝,穆塞蒂力克丹麥天才

大秦壁虎白話體育
2025-06-02 09:07:48
我媽沒有退休金,繼父每月給她存7800元,18年后繼父兒子找到我媽

我媽沒有退休金,繼父每月給她存7800元,18年后繼父兒子找到我媽

風起青萍之未
2025-06-01 18:21:23
4人進8強 隨著薩巴2-0、斯瓦泰克2-1 鄭欽文死亡半區:2大苦主全贏

4人進8強 隨著薩巴2-0、斯瓦泰克2-1 鄭欽文死亡半區:2大苦主全贏

夢憶之淺
2025-06-02 00:52:46
生于1992年的她,追求低級趣味,嚴重違反黨的工作紀律、生活紀律,構成嚴重職務違法并涉嫌貪污犯罪

生于1992年的她,追求低級趣味,嚴重違反黨的工作紀律、生活紀律,構成嚴重職務違法并涉嫌貪污犯罪

新京報政事兒
2025-06-01 15:59:01
凱洛格:俄羅斯贏不了這場戰爭!

凱洛格:俄羅斯贏不了這場戰爭!

仗劍看世界
2025-04-30 07:49:28
中美談判停滯,特朗普連退兩步,謝鋒上臺致辭,對美強調一件事

中美談判停滯,特朗普連退兩步,謝鋒上臺致辭,對美強調一件事

涼羽亭
2025-06-02 12:37:35
哈里王子欲改姓“斯賓塞”致敬戴妃,梅根早已自稱“蘇塞克斯”

哈里王子欲改姓“斯賓塞”致敬戴妃,梅根早已自稱“蘇塞克斯”

全球奇趣娛樂八卦
2025-06-02 11:09:00
馬斯克最新發聲:不想為美政府所做的一切承擔責任

馬斯克最新發聲:不想為美政府所做的一切承擔責任

財聯社
2025-06-02 07:10:20
著名相聲演員孫越單飛,新職業惹爭議,終于知道他為啥這么胖了!

著名相聲演員孫越單飛,新職業惹爭議,終于知道他為啥這么胖了!

草莓解說體育
2025-06-01 12:01:57
沒有北約支持,烏克蘭哪來這大膽子?俄羅斯“鐵拳”絕不是擺設

沒有北約支持,烏克蘭哪來這大膽子?俄羅斯“鐵拳”絕不是擺設

荷蘭豆愛健康
2025-06-02 12:34:09
工業GDP:中國不再是等于“美國、日本、德國”之和,而是超過了

工業GDP:中國不再是等于“美國、日本、德國”之和,而是超過了

大道無形我有型
2025-06-01 14:41:07
日系陣營的“叛徒”:馬自達用最笨的辦法,打了誰的臉?

日系陣營的“叛徒”:馬自達用最笨的辦法,打了誰的臉?

四象八卦
2025-06-02 09:06:55
全新榮放取消燃油版本:豐田押注混動轉型,中國市場掀起技術博弈

全新榮放取消燃油版本:豐田押注混動轉型,中國市場掀起技術博弈

沙雕小琳琳
2025-06-02 12:49:29
姆巴佩去年12月采訪:現在并不想巴黎拿歐冠,因為我要先贏下

姆巴佩去年12月采訪:現在并不想巴黎拿歐冠,因為我要先贏下

懂球帝
2025-06-01 19:14:20
蘭博基尼車主撇開代駕小哥酒駕進車庫,卻因賴賬5元被舉報,交警:吊銷駕照并罰款

蘭博基尼車主撇開代駕小哥酒駕進車庫,卻因賴賬5元被舉報,交警:吊銷駕照并罰款

極目新聞
2025-06-02 12:45:38
曼聯官宣!6250萬簽約1巨星!阿莫林9000萬重構曼聯左路攻防

曼聯官宣!6250萬簽約1巨星!阿莫林9000萬重構曼聯左路攻防

卡靈頓分析師
2025-06-02 11:21:56
82年探親路上我舍命救下一女兵,歸隊第二天上級把我叫到辦公室

82年探親路上我舍命救下一女兵,歸隊第二天上級把我叫到辦公室

蕭竹輕語
2025-05-27 10:40:52
趙心童排名爭議引發博主不滿,世臺聯被批“吃相難看”

趙心童排名爭議引發博主不滿,世臺聯被批“吃相難看”

小犙拍客在北漂
2025-06-02 12:55:40
2025-06-02 14:07:00
CSDN incentive-icons
CSDN
成就一億技術人
25596文章數 242067關注度
往期回顧 全部

科技要聞

新造車5月再洗牌:問界回前三,小米守第五

頭條要聞

女子花460萬買大平層 買第二套時發現土地使用權剩47年

頭條要聞

女子花460萬買大平層 買第二套時發現土地使用權剩47年

體育要聞

傲了一輩子的恩里克,心中永遠住著一個小天使

娛樂要聞

章子怡深夜曬娃,兒女正面照曝光

財經要聞

美稱中方違反經貿會談共識 商務部駁斥

汽車要聞

吉利汽車5月銷量23.52萬輛 同比增長46%

態度原創

健康
藝術
時尚
手機
軍事航空

唇皰疹和口腔潰瘍是"同伙"嗎?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

今年最流行的10條裙子,誰穿誰美!

手機要聞

2025 年 WWDC 規模可能比前兩屆更小

軍事要聞

美防長在香會大肆渲染中國威脅 中方回應

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 安平县| 商南县| 临漳县| 固原市| 文昌市| 乡宁县| 田东县| 平原县| 云安县| 修水县| 晋宁县| 佛冈县| 高安市| 株洲县| 建始县| 大厂| 龙胜| 辽阳县| 会宁县| 鄂尔多斯市| 资源县| 永德县| 峨边| 永胜县| 孟连| 富民县| 华亭县| 佳木斯市| 全南县| 永定县| 迁西县| 雷山县| 本溪| 西藏| 隆子县| 隆尧县| 广东省| 晋城| 满洲里市| 辽宁省| 新郑市|