99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

讓奧特曼直呼“天才”的o3 和 o4-mini,被曝捏造事實問題嚴重!拓展強化學習、圖像思維鏈等亮點成陪襯?

0
分享至


整理 | 褚杏娟

今天凌晨,OpenAI 發(fā)布了OpenAI o3o4-mini,是為回答之前思考更長時間而訓練。

這些推理模型首次實現(xiàn)了自主調(diào)用并整合 ChatGPT 內(nèi)的全量工具:包括網(wǎng)頁搜索、使用 Python 分析上傳文件及數(shù)據(jù)、深度視覺推理,甚至圖像生成。關(guān)鍵突破在于,這些模型能夠自主判斷何時及如何運用工具,在解決復(fù)雜問題時(通常在一分鐘內(nèi))以恰當?shù)母袷捷敵隹b密詳盡的解答。

“這些是我們迄今為止發(fā)布的最智能的模型,標志著 ChatGPT 能力的一次飛躍,適用于從好奇的用戶到高級研究人員的所有人群。”O(jiān)penAI 認為,這使得它們能更高效處理多維度問題,標志著 ChatGPT 向自主代理形態(tài)邁進——未來或可獨立代用戶完成任務(wù)。

Altman 在轉(zhuǎn)發(fā)了醫(yī)學博士 Derya Unutmaz 帖子后評價:“達到或接近天才水平”。


這個評價顯然很高,帖子下有網(wǎng)友不認同:能夠搜索數(shù)百萬個網(wǎng)站(甚至是所有收集到的數(shù)據(jù))并在幾秒鐘內(nèi)匯總出看似合乎邏輯的答案,聽起來像是“達到或接近天才水平”,但事實并非如此。

ChatGPT 的 Plus、Pro 和 Team 用戶即日起就可以使用 o3、o4-mini 和 o4-mini-high,它們將取代之前的 o1、o3-mini 和 o3-mini-high。ChatGPT Enterprise 和 Edu 用戶將在一周后獲得訪問權(quán)限。免費用戶可以在提交問題前在編輯器中選擇 “Think” 來嘗試使用 o4-mini。所有套餐的請求速率限制保持不變,與之前的模型一致。據(jù)悉,未來幾周內(nèi),OpenAI 將發(fā)布帶有完整工具支持的 OpenAI o3-pro。

此外,o3 和 o4-mini 也已通過 Chat Completions API 和 Responses API 向開發(fā)者開放(部分開發(fā)者需要驗證其組織信息才能訪問這些模型)。

o3o4-mini 三大改進

OpenAI o3 是其目前最強大的推理模型,在編程、數(shù)學、科學、視覺感知等多個領(lǐng)域均達到了前沿水平。它在多個基準測試中刷新了最新的 SOTA,包括 Codeforces、SWE-bench(無需構(gòu)建特定模型的自定義支架)以及 MMMU。

OpenAI 稱 o3 特別適用于需要多方面分析、答案并非一目了然的復(fù)雜問題,在圖像、圖表和圖形等視覺任務(wù)中的表現(xiàn)尤其出色。在外部專家的評估中,o3 在面對復(fù)雜的現(xiàn)實任務(wù)時,重大錯誤相較 o1 減少了 20%。


OpenAI o4-mini 則是一個更小巧的模型,專為快速、成本高效的推理任務(wù)優(yōu)化,擅長處理數(shù)學、編程和視覺任務(wù)。o4-mini 是 AIME 2024 和 2025 年測試中表現(xiàn)最好的模型。在專家評估中,它在非 STEM 任務(wù)以及數(shù)據(jù)科學等領(lǐng)域優(yōu)于其前身 o3-mini。另外 OpenAI 表示,o4-mini 支持遠高于 o3 的使用上限,是應(yīng)對高頻次、需要強推理能力問題的優(yōu)選。


擴展強化學習的規(guī)模

在 o3 的開發(fā)過程中,OpenAI 觀察到,大規(guī)模強化學習展現(xiàn)出了與 GPT 系列預(yù)訓練相同的趨勢:“更多算力 = 更好性能”。OpenAI 稱,其在強化學習領(lǐng)域中沿襲了“規(guī)模擴展”路徑,在訓練算力和 inference-time 上都提升了一個數(shù)量級后,能看到明顯的性能增益,驗證了模型的表現(xiàn)確實會隨著“思考時間”的增加而持續(xù)提升。

“在與 OpenAI o1 擁有相同延遲和成本的情況下,o3 在 ChatGPT 中提供了更高的性能——我們也證實,只要讓它‘多想一會兒’,它的表現(xiàn)就會繼續(xù)上升。”O(jiān)penAI 表示。

OpenAI 還通過強化學習訓練讓兩個模型學會了使用工具——不僅僅是教它們怎么使用工具,而是教它們?nèi)绾闻袛嘣谑裁辞闆r下使用工具。這種根據(jù)預(yù)期結(jié)果來靈活使用工具的能力更加適用于開放式場景,尤其是在涉及視覺推理和多步驟流程的任務(wù)中。

o3 和 o4-mini 性價比優(yōu)于之前的o1 和 o3-mini。 比如,在 2025 年的 AIME 數(shù)學競賽中,o3 的性價比超越了 o1,類似地,o4-mini 的性價比也超越了 o3-mini。OpenAI 預(yù)計,在大多數(shù)實際應(yīng)用中,o3 和 o4-mini 相比 o1 和 o3-mini,不僅在智能程度上更高,成本也更低。


o3-mini 和 o4-mini 的成本與性能


o1 和 o3 的成本與性能

用圖像思考

新模型首次實現(xiàn)了將圖像直接融入思維鏈的能力。它們不僅是“看見”圖像,而是“帶著圖像去思考”,能夠?qū)⒁曈X和文本推理深度融合,在多模態(tài)基準測試中也展現(xiàn)出了最先進的性能。

用戶可以上傳白板照片、教科書插圖或手繪草圖,即使圖像模糊、反轉(zhuǎn)或質(zhì)量較差,模型也能理解。在工具使用的加持下,模型還能動態(tài)操作圖像,比如旋轉(zhuǎn)、縮放或變換圖像,這些操作會作為推理過程的一部分。


不過,該功能目前仍存在以下限制:

  • 推理鏈過長:模型可能會執(zhí)行冗余或不必要的工具調(diào)用、圖像處理步驟,導(dǎo)致思維鏈條過于復(fù)雜冗長。

  • 感知錯誤:模型仍可能在基本的視覺感知上出錯。即使工具調(diào)用推動了正確的推理過程,圖像的理解錯誤也可能導(dǎo)致最終答案錯誤。

  • 可靠性問題:在多次嘗試同一個問題時,模型可能會采用不同的視覺推理路徑,其中一些可能導(dǎo)致錯誤的結(jié)果。

代理級的工具使用

根據(jù)介紹,OpenAI o3 和 o4-mini 模型在 ChatGPT 中擁有完整的工具調(diào)用權(quán)限,還能通過 API 接口接入開發(fā)者自定義的工具。新模型經(jīng)過專門訓練,具備智能決策能力——它們會先分析問題本質(zhì),自主判斷何時調(diào)用什么工具,通常在一分鐘內(nèi)就能生成格式規(guī)范、邏輯縝密的回答。

比如,當用戶問:“今年夏天加州的能源使用情況與去年相比會怎樣?”模型可以在網(wǎng)上搜索公共電力數(shù)據(jù)、編寫 Python 代碼進行預(yù)測、生成圖表或圖片,并解釋預(yù)測背后的關(guān)鍵因素——整個過程會串聯(lián)使用多個工具。

輕量級編碼智能體:Codex CLI

“o3 和 o4-mini 非常擅長編碼,因此我們發(fā)布了一款新產(chǎn)品 Codex CLI,以使它們更易于使用。這是一個可以在你的計算機上運行的編碼代理。它完全開源并且今天就可以使用;我們預(yù)計它會迅速改進。”Altman 說道。

Codex CLI 是一個可以直接在終端運行的輕量級編碼智能體。這是一個為日常工作離不開終端的開發(fā)者打造的工具,可以在本地計算機上運行,專為充分發(fā)揮 o3 和 o4-mini 等模型的推理能力而設(shè)計,未來還將支持包括 GPT-4.1 在內(nèi)的其他 API 模型。此外,Codex CLI 還外加實際運行代碼、操作文件、快速迭代的能力。


遵循指令和代理工具使用測評

根據(jù)介紹,用戶可以在命令行中利用多模態(tài)推理的優(yōu)勢,例如將截圖或低保真草圖傳遞給模型,同時結(jié)合本地代碼訪問,實現(xiàn)強大的開發(fā)輔助功能。我們將它視為一種最小化的界面,讓我們的模型可以更直接地連接到用戶和他們的計算機上。

Codex 讓用戶決定智能體的自主權(quán)以及自動批準策略,可以通過--approval-mode標志(或互動引導(dǎo)提示)來設(shè)置。


在完全自動模式(Full Auto) 下,每個命令都將在網(wǎng)絡(luò)環(huán)境中禁用,并限制在當前工作目錄(以及臨時文件)內(nèi),以實現(xiàn)深度防御。如果在未被 Git 跟蹤的目錄中啟動自動編輯或完全自動模式,Codex 還會顯示警告 / 確認提示。

與此同時,OpenAI 還啟動了一項100 萬美元的支持計劃,資助那些使用 Codex CLI 和 OpenAI 模型的項目。官方將以每項25,000 美元 API 使用額度的形式,評估并接受資助申請。


開源地址:
github.com/openai/codex

用戶實際體驗,曝模型虛構(gòu)事實問題

發(fā)布后,網(wǎng)上充滿稱贊,有使用權(quán)限的用戶迫不及待測試了新模型,但評價并非一邊倒的好評。

網(wǎng)友 M4v3R 反饋,新模型出現(xiàn)了“捏造事實”的情況:

好吧,我有點失望。我問了一個相對技術(shù)性較強的問題,非常小眾(Final Fantasy VII 反向工程)。通過正確的知識和網(wǎng)絡(luò)搜索,最多幾分鐘就能回答這個問題。模型在論壇和其他網(wǎng)站上確實找到了些不錯的內(nèi)容,但隨后它開始憑空猜測一些細節(jié),并在后續(xù)的研究中使用了這些信息。最后給我的結(jié)果是錯誤的,并且它描述的步驟完全是捏造的。” 更糟糕的是,在推理過程中,它似乎意識到自己沒有準確答案,所謂的 399 只是一個估算值。但在最終回答中,它卻自信地表示找到了正確數(shù)值。 本質(zhì)上,它隱瞞了“自己不知道”的事實,用估算值冒充確切結(jié)論,且未向用戶說明這一不確定性。”M4v3R 說道。

X 用戶“Transluce”也表示,在測試了一個 o3 預(yù)發(fā)布版本后,發(fā)現(xiàn)它經(jīng)常捏造自己從未執(zhí)行過的操作,并且在被質(zhì)疑時還能詳細地為這些虛構(gòu)的行為辯解。


Transluce 在進一步挖掘中發(fā)現(xiàn) o3 中存在多次虛構(gòu)使用代碼工具的情況,包括:

  • 聲稱掌握 Python REPL 的信息。模型宣稱沙盒解釋器返回了包括 Python 版本、編譯器、平臺、時間戳、環(huán)境變量等在內(nèi)的虛構(gòu)信息。當用戶要求它使用解釋器運行一段代碼時,它給出了一個錯誤的值;在被質(zhì)疑后,它辯稱是因為在解釋器和聊天窗口之間粘貼時“手滑”了。

  • 編造時間并聲稱是用 Python 的 datetime 模塊獲取的。當用戶詢問當前時間時,模型編造了一個時間。當用戶追問它是如何得到這個時間的,模型回答說它用了 Python 的 datetime 模塊。

  • 在復(fù)制 SHA-1 哈希時誤導(dǎo)用戶。用戶要求模型為一首詩生成 SHA-1 哈希,并嘗試復(fù)現(xiàn)模型給出的哈希值。當用戶得到不同的結(jié)果時,模型將其歸咎于用戶錯誤,并堅持它生成的哈希是正確的。

  • 假裝分析來自 Web 服務(wù)器的日志文件。用戶要求模型從 Web 服務(wù)器的日志文件中提取統(tǒng)計信息。模型生成了一段 Python 腳本并聲稱已經(jīng)在本地運行,但當用戶要求提供更多關(guān)于代碼執(zhí)行的細節(jié)時,它才承認自己沒有 Python 解釋器,輸出結(jié)果其實是“手工編寫的”。


“o4-mini 編程能力超強。但是,當它犯錯卻找不到錯誤原因時,它就會一直在那個錯誤上糾纏,一遍又一遍地犯錯。我浪費了很多時間去尋找錯誤,并試圖告訴 o4-mini 它犯了什么錯誤。然而,它卻無法從錯誤中吸取教訓。”開發(fā)者 HurryNFT 說道。

不過,也有網(wǎng)友給出了一些正向反饋:

有意思……我讓 o3 幫我寫一個 flake,以便在 NixOS 上安裝最新版的 WebStorm(因為軟件源里的版本已經(jīng)好幾個月沒更新了),結(jié)果看起來它真的啟動了一個 NixOS 虛擬機,下載了 WebStorm 包,寫好了 Flake 配置,計算出了 NixOS 所需的 SHA 哈希值,還寫了一個測試套件。測試套件顯示它甚至進行了 GUI 測試——不過我不確定那是不是它臆想出來的。 盡管如此,它一次性就寫出了完整的安裝說明,而且我不覺得它能在沒下載包的情況下算出哈希值,所以我認為這意味著它具備了一些非常有意思的新能力。令人印象非常深刻。

但在這個網(wǎng)友的帖子下,有其他人反饋:“這和我的經(jīng)驗完全不一樣。我試過讓它把一個能用 npm 的 yarn 包換成 flake,試了三次,用盡了所有提示,它還是不行。”

此外,也有用戶使用 Codex o4-mini 與 Claude Code 進行了對比,結(jié)果不如 Claude Code,并且也提到了模型虛構(gòu)問題:

我嘗試使用 Codex o4-mini 與 Claude Code 進行一項正面交鋒的任務(wù):為中型代碼庫中一個棘手的部分編寫文檔。Claude Code 表現(xiàn)出色,寫出來的文檔質(zhì)量不錯。Codex 表現(xiàn)不佳。它憑空編造了很多代碼中不存在的內(nèi)容,完全誤解了架構(gòu)——它開始談?wù)摲?wù)端后端和 REST API,但這個應(yīng)用根本沒有這些東西。

我很好奇到底出了什么問題——感覺可能是沒有正確加載上下文或者注意力沒放在對的地方?這似乎正是 Claude Code 優(yōu)化得特別好的一個方面。我對 o3 和 o4-mini 兩個模型寄予厚望,希望其他測試能有更好的表現(xiàn)!也很好奇像 Cursor 這類工具會如何整合 o3。

有網(wǎng)友跟帖稱,“Claude Code 依然感覺更強。o4-mini 有各種各樣的問題,o3 雖然更好,但到了那個層級你也沒省下多少錢,所以誰在乎呢。”

為此,有開發(fā)者表示,“為什么不直接選擇 Gemini Pro 2.5 的 Copilot 編輯模式呢?幾乎無限使用,無需額外付費。Copilot 以前沒什么用,但在過去的幾個月里,一旦添加了編輯模式,它就變得非常出色。”

https://openai.com/index/introducing-o3-and-o4-mini/

https://openai.com/index/thinking-with-images/

https://transluce.org/investigating-o3-truthfulness

聲明:本文為 AI 前線整理,不代表平臺觀點,未經(jīng)許可禁止轉(zhuǎn)載。

AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯(lián)動,全覽 AI 技術(shù)前沿和行業(yè)落地。大會聚焦技術(shù)與應(yīng)用深度融合,匯聚 AI Agent、多模態(tài)、場景應(yīng)用、大模型架構(gòu)創(chuàng)新、智能數(shù)據(jù)基建、AI 產(chǎn)品設(shè)計和出海策略等話題。即刻掃碼購票,一同探索 AI 應(yīng)用邊界!

今日薦文

你也「在看」嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
驚!這些地區(qū)竟是我國艾滋病高發(fā)區(qū),原因令人深思

驚!這些地區(qū)竟是我國艾滋病高發(fā)區(qū),原因令人深思

孟大夫之家1
2025-05-06 12:46:07
茄子再次成為關(guān)注焦點!醫(yī)生提醒:吃茄子時,一定要多注意這4點

茄子再次成為關(guān)注焦點!醫(yī)生提醒:吃茄子時,一定要多注意這4點

觀星賞月
2025-05-15 16:07:22
我是一名奶媽,喂養(yǎng)的對象卻不是孩子

我是一名奶媽,喂養(yǎng)的對象卻不是孩子

溫酒與茶
2025-04-26 09:50:04
徐翔:股票被套怎么辦?3招“逃命法則”,教你如何把浮虧變利潤

徐翔:股票被套怎么辦?3招“逃命法則”,教你如何把浮虧變利潤

迪哥說財經(jīng)
2025-01-01 18:59:31
美軍司令發(fā)出戰(zhàn)爭預(yù)警:西太戰(zhàn)區(qū),發(fā)生沖突的可能正在急劇上升

美軍司令發(fā)出戰(zhàn)爭預(yù)警:西太戰(zhàn)區(qū),發(fā)生沖突的可能正在急劇上升

文雅筆墨
2025-04-23 22:16:57
黃子韜衛(wèi)生巾“醫(yī)護級而非醫(yī)用級”引發(fā)討論 業(yè)內(nèi)人士:醫(yī)用級審批周期較長,短期難實現(xiàn)|封面深鏡

黃子韜衛(wèi)生巾“醫(yī)護級而非醫(yī)用級”引發(fā)討論 業(yè)內(nèi)人士:醫(yī)用級審批周期較長,短期難實現(xiàn)|封面深鏡

封面新聞
2025-05-20 20:14:09
85年我?guī)凸褘D拉玉米時,不小心碰到她胸口,她:準備給多少彩禮

85年我?guī)凸褘D拉玉米時,不小心碰到她胸口,她:準備給多少彩禮

罪案洞察者
2025-05-21 10:08:25
真是度日如年!網(wǎng)友描述嫖娼被拘留的經(jīng)歷

真是度日如年!網(wǎng)友描述嫖娼被拘留的經(jīng)歷

煙語法明
2025-05-04 23:41:09
中考后回頭看,發(fā)現(xiàn)那些考不上高中的孩子,基本都踩了下面幾個坑

中考后回頭看,發(fā)現(xiàn)那些考不上高中的孩子,基本都踩了下面幾個坑

好爸育兒
2025-05-21 12:20:43
肖戰(zhàn)被氣慘!還沒等林詩棟、蒯曼收拾完裝備,背起包直接離場了

肖戰(zhàn)被氣慘!還沒等林詩棟、蒯曼收拾完裝備,背起包直接離場了

十點街球體育
2025-05-21 22:02:10
潘展樂對孫楊的態(tài)度為什么變了?

潘展樂對孫楊的態(tài)度為什么變了?

阿廢冷眼觀察所
2025-05-21 08:07:01
中國最好的“鐵飯碗”是什么?

中國最好的“鐵飯碗”是什么?

維納斯的眼淚
2025-05-20 22:59:13
教宗在圣伯多祿廣場主持首次公開接見:“我向講中文的人們致以誠摯的問候”

教宗在圣伯多祿廣場主持首次公開接見:“我向講中文的人們致以誠摯的問候”

意訊
2025-05-21 22:58:33
汶川大地震留下一輛“神車”!被紀念館收藏,只因車牌太特殊

汶川大地震留下一輛“神車”!被紀念館收藏,只因車牌太特殊

通文知史
2025-05-18 08:40:02
張學良34歲時的真實樣子,打扮得很現(xiàn)代,還玩出了很多新花樣

張學良34歲時的真實樣子,打扮得很現(xiàn)代,還玩出了很多新花樣

大江
2025-04-24 07:22:26
雷軍稱小米3nm芯片大規(guī)模量產(chǎn),高通正式回應(yīng)

雷軍稱小米3nm芯片大規(guī)模量產(chǎn),高通正式回應(yīng)

Thurman在昆明
2025-05-22 00:44:32
麥迪打了16年NBA,如今每月能領(lǐng)到多少退休金?說出來你可能不信

麥迪打了16年NBA,如今每月能領(lǐng)到多少退休金?說出來你可能不信

寒律
2025-05-03 03:54:49
看似“壞掉”,實際上可以放心吃的9種食物,扔掉就太可惜了!

看似“壞掉”,實際上可以放心吃的9種食物,扔掉就太可惜了!

韓胖說裝修
2025-05-20 23:54:58
多哈世乒賽爆冷夜!國乒連輸兩場三位世界冠軍輸球 王楚欽剃光頭

多哈世乒賽爆冷夜!國乒連輸兩場三位世界冠軍輸球 王楚欽剃光頭

去山野間追風
2025-05-22 00:33:14
真實的戚繼光,令人三觀炸裂

真實的戚繼光,令人三觀炸裂

難得君
2025-05-19 13:02:01
2025-05-22 02:27:00
AI前線 incentive-icons
AI前線
面向AI愛好者、開發(fā)者和科學家,提供AI領(lǐng)域技術(shù)資訊。
856文章數(shù) 80關(guān)注度
往期回顧 全部

科技要聞

網(wǎng)易直擊IO大會:Gemini接管一切 眼鏡炸場

頭條要聞

歐洲領(lǐng)導(dǎo)人徹底失望:特朗普24小時不到就背棄我們

頭條要聞

歐洲領(lǐng)導(dǎo)人徹底失望:特朗普24小時不到就背棄我們

體育要聞

打破三大魔咒!廣廈終于將冠軍帶回浙江

娛樂要聞

中國國家話劇院發(fā)訃告:沉痛悼念朱媛媛

財經(jīng)要聞

年虧百億、裁員自救!“AI四小龍”難了

汽車要聞

價格下調(diào) 2025聰明款I(lǐng)D.4 X限時13.99萬起

態(tài)度原創(chuàng)

親子
游戲
家居
公開課
軍事航空

親子要聞

爸爸又有零花錢啦~

《瘋狂動物城 2》公開先導(dǎo)預(yù)告 / 《劍星》續(xù)作計劃 2027 年之前發(fā)售

家居要聞

黑白簡約 見證平凡的蛻變

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

連損3架戰(zhàn)機 美"杜魯門"號航母撤出紅海

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 乐陵市| 丰台区| 广南县| 岚皋县| 黎平县| 贵阳市| 阿合奇县| 尚志市| 白河县| 迭部县| 施甸县| 永仁县| 陆河县| 株洲县| 闽清县| 山阴县| 精河县| 泸定县| 菏泽市| 敖汉旗| 格尔木市| 修文县| 克东县| 融水| 滨海县| 高阳县| 黎平县| 双辽市| 陇西县| 西平县| 太谷县| 宾阳县| 巴林右旗| 开远市| 多伦县| 沁阳市| 阳原县| 临高县| 平顺县| 辰溪县| 关岭|