網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

剛剛，OpenAI最強(qiáng)推理模型o3-pro誕生！碾壓Gemini 2.5 Pro擊穿底價(jià)

2025-06-11 08:55:22　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：編輯部 YZX

【新智元導(dǎo)讀】最強(qiáng)推理模型一夜易主！深夜，o3-pro毫無(wú)預(yù)警上線，刷爆數(shù)學(xué)、編程、科學(xué)基準(zhǔn)，強(qiáng)勢(shì)碾壓o1-pro和o3。更驚艷的是，o3價(jià)格直接暴降80%，叫板Gemini 2.5 Pro。

毫無(wú)一絲防備，o3-pro就這樣低調(diào)登場(chǎng)了！

昨夜，OpenAI連放大招，先把o3價(jià)格暴降80%，又官宣上線史上最強(qiáng)推理模型——o3-pro。

比起o3，o3-pro可要強(qiáng)太多了。

奧特曼稱(chēng)，「當(dāng)?shù)谝淮慰吹剿鄬?duì)o3的勝率時(shí)，自己完全驚呆」。

o3-pro不再僅僅是一個(gè)通用型助手，而是兼具長(zhǎng)思考、超長(zhǎng)上下文，工具調(diào)用于一體的超級(jí)智能AI。

在多項(xiàng)基準(zhǔn)測(cè)試中，o3-pro的數(shù)學(xué)、科學(xué)和編程性能驚艷，大幅超越了o1-pro。

甚至，大佬首測(cè)后發(fā)現(xiàn)，就連Gemini 2.5 Pro（0605）、Claude 4 Opus都被碾壓。

甚至，它的價(jià)格只有o1-pro的87%，輸入20美元/百萬(wàn)token，輸出80美元/百萬(wàn)token。

隨之一同降價(jià)的o3，更是讓AI圈瞳孔地震。現(xiàn)在，輸入2美元/百萬(wàn)token，輸出8美元/百萬(wàn)token，堪比GPT-4o。

目前， o3-pro已向所有ChatGPTPro、Team用戶(hù)推出，o1-pro模型直接被淘汰。

o3-pro一發(fā)布，奧特曼發(fā)布最新長(zhǎng)文「溫和的奇點(diǎn)」，直接暗示人類(lèi)已經(jīng)跨越了臨界點(diǎn)，技術(shù)大爆發(fā)開(kāi)始。

更值得期待的是，奧特曼劇透，OpenAI開(kāi)源模型將在夏末發(fā)布，但不是6月。

o3-pro一夜封神，數(shù)學(xué)編程全開(kāi)掛

模型卡介紹，o3-pro是o3最強(qiáng)推理版，專(zhuān)為深度思考和提供超可靠答案而生。

它可以自動(dòng)調(diào)用工具，包括網(wǎng)頁(yè)搜索、文件分析、視覺(jué)輸入推理、Python代碼執(zhí)行，還能通過(guò)記憶功能實(shí)現(xiàn)個(gè)性化回答。

在專(zhuān)家評(píng)估中，評(píng)審者更青睞o3-pro，尤其是在科學(xué)、教育、編程、商業(yè)和寫(xiě)作輔助等領(lǐng)域。

而且，他們還一致認(rèn)為，o3-pro在清晰度、全面性、指令遵循度、準(zhǔn)確性方面表現(xiàn)更優(yōu)。

在AIME 2024、GPQA、Codeforces三大測(cè)試中，o3-pro拿下了最高分，完全碾壓o1-pro和o3。

另外，在更嚴(yán)格的「4/4可靠性」評(píng)估標(biāo)準(zhǔn)——只有模型在4次嘗試中均回答正確，才算成功。

如下所示，o3-pro在數(shù)學(xué)、編程、博士級(jí)科學(xué)問(wèn)答中，大幅超越o1-pro和o3。

在ARC-AGI半封閉評(píng)估中，o3-pro完成ARC-AGI-1高難度任務(wù)通過(guò)率59%，單任務(wù)成本$4.16；在ARC-AGI-2中，其在所有推理任務(wù)僅有<5%通過(guò)率，單任務(wù)成本$4-7。

最終結(jié)論是，o3-pro與o3基本持平，o3新定價(jià)刷新了ARC-AGI-1的SOTA。

OpenAI稱(chēng)，由于o3-pro調(diào)用工具，思考長(zhǎng)度拉長(zhǎng)，響應(yīng)速度通常比o1-pro慢。

有網(wǎng)友Yuchen Jin實(shí)測(cè)后發(fā)現(xiàn)，自己僅輸入「Hi im sam Altman」，o3-pro足足思考了3分54秒，最長(zhǎng)能達(dá)到13分鐘。

燒了這么多錢(qián)，就回復(fù)一句hi，ChatGPT此刻內(nèi)心獨(dú)白還看不到。

當(dāng)然了，OpenAI也發(fā)出提醒，最好是在可靠性?xún)?yōu)先于速度的復(fù)雜問(wèn)題，再用o3-pro。

除此之外，o3-pro還存在一些限制：

由于正在解決技術(shù)問(wèn)題，o3-pro暫不支持臨時(shí)對(duì)話功能
o3-pro不支持圖像生成，生圖還得找GPT-4o、o3、o4-mini
o3-pro亦不支持Canvas功能

即便如此，o3-pro已經(jīng)足夠聰明、足夠智能。

AI大佬首測(cè)，感受AGI

Raindrop ai的Ben Hylak，提早就獲得了o3-pro的實(shí)測(cè)資格，帶來(lái)世界上首個(gè)早期的o3 pro測(cè)評(píng)。

Hylak表示，OpenAI將o3價(jià)格降低了80%，來(lái)為o3-pro的發(fā)布預(yù)熱。

售價(jià)20/80美元，正好支持了一個(gè)未經(jīng)證實(shí)的社區(qū)理論：-pro變體是基礎(chǔ)模型的10倍調(diào)用。

超長(zhǎng)上下文

試用o3-pro一周的Hylak，首先最大的感受就是，它的超長(zhǎng)上下文太厲害了！

此前，他一直跟o系列的推理模型打交道，對(duì)o1/o1-pro的第一印象相當(dāng)負(fù)面，但隨后，他意識(shí)到自己錯(cuò)了。

關(guān)鍵就在于，不要和推理模型聊天，而是將它們視為報(bào)告生成器：提供上下文，設(shè)定目標(biāo)，然后放手讓它們工作。

利用這個(gè)方法實(shí)測(cè)后，他發(fā)現(xiàn)：o3-pro比o3聰明太多，智能太多了！

為了體現(xiàn)這一點(diǎn)，你需要給它提供更多的上下文。為此，他和聯(lián)創(chuàng)Alexis整理了Raindrop所有過(guò)去的規(guī)劃會(huì)議記錄，包括所有目標(biāo)，甚至錄下了語(yǔ)音備忘錄：然后讓 o3-pro來(lái)制定計(jì)劃。

他們立刻被驚艷了！

o3-pro生成了一個(gè)非常具體的計(jì)劃和分析，包括目標(biāo)指標(biāo)、時(shí)間表、優(yōu)先事項(xiàng)，以及嚴(yán)格指示必須削減的內(nèi)容。

相比于o3，o3-pro給的計(jì)劃更加具體、更加扎實(shí)，直接改變了公司領(lǐng)導(dǎo)層對(duì)于未來(lái)的思考方式。

與真實(shí)世界集成

如今的模型，就像一個(gè)智商極高的12歲少年，需要融入工作環(huán)境。而這種集成，主要依賴(lài)于工具調(diào)用，來(lái)考驗(yàn)?zāi)Ｐ团c人類(lèi)、外部數(shù)據(jù)以及其他AI的寫(xiě)作能力。

在這方面，o3-pro實(shí)現(xiàn)了真正的飛躍！

它能出色辨別自身環(huán)境；能準(zhǔn)確傳達(dá)自己可訪問(wèn)的工具，知道何時(shí)詢(xún)問(wèn)外部世界的信息（而不是假裝自己擁有信息/權(quán)限），并選擇合適的工具來(lái)完成工作。

從下圖中可以看出，o3-pro（左）明顯比o3（右）更清楚地了解自己所處環(huán)境的限制。

當(dāng)然，如果說(shuō)o3-pro有什么缺點(diǎn)，那就是如果不給它足夠的上下文，它就容易想太多。

它在分析和利用工具完成任務(wù)上都令人驚嘆，但直接完成任務(wù)的能力就不那么強(qiáng)了。

總而言之，o3-pro和Gemini 2.5 Pro、Claude Opus的體感極其不同，直接碾壓后兩者。

而令人期待的是，OpenAI正大力推動(dòng)這一垂直RL的路徑（Deep Research，Codex），不僅教模型如何使用工具，還教他們?nèi)绾瓮评碓摵螘r(shí)使用這些工具。

總而言之，要實(shí)現(xiàn)推理模型的最佳性能，上下文至關(guān)重要，這就像給餅干怪獸喂餅干。可以認(rèn)為，這是一種啟動(dòng)LLM記憶的方式。

網(wǎng)友實(shí)測(cè)

另網(wǎng)友已經(jīng)秘密測(cè)試o3-pro一段時(shí)間了，他發(fā)現(xiàn)o3-pro比o1-pro更便宜（的多）、更快、更精確！

而且使用o3和o3-pro進(jìn)行編碼簡(jiǎn)直是天壤之別。

o3-pro是第一個(gè)能夠近乎完美地處理球與墻壁之間真實(shí)碰撞的模型。

有網(wǎng)友要求o3-pro識(shí)別我們?nèi)祟?lèi)天然免疫系統(tǒng)的關(guān)鍵局限性，并向o3模型提出了同樣的問(wèn)題。

結(jié)果是o3-pro的回復(fù)無(wú)疑更加明智、更加深思熟慮，表明新模型對(duì)免疫系統(tǒng)的理解更加深刻。

還有網(wǎng)友用o3-pro來(lái)玩《我的世界》。

比如創(chuàng)建自己的「宏偉形象」（prompt: A majestic representation of yourself），效果也很驚艷。

還有讓o3創(chuàng)建「細(xì)節(jié)豐富的海盜船」和「登月」場(chǎng)景，完成度非常之高。

還有網(wǎng)友只用2個(gè)提示，o3-pro就用純HTML、CSS和JS在一個(gè)文件中制作出非常酷的極限空間行走模擬器。

空間中有復(fù)古風(fēng)格的著色器、熒光燈、工作霧、標(biāo)志、地面通風(fēng)口，還有黑色空隙。

在o1-pro也失敗的多層編碼理解能力測(cè)試中，o3-pro也一次性通過(guò)。

輸入以下亂碼，模型需要先解碼再找到隱式提示詞，并最終輸出正確的單詞內(nèi)容。

「YVdZZ2VXOTFJSFZ1WkdWeWMzUmhibVFnZEdocGN5d2dZVzV6ZDJWeUlIZHBkR2dnZEdobElIZHZjbVFnSW5KbGFXNWtaV1Z5SWdvPQo=」

Ethan Mollick認(rèn)為o3-pro相當(dāng)智能，它解決了一個(gè)其他模型都無(wú)法解決的問(wèn)題：制作從Space到Earth的單詞階梯。（注：即每次改變一個(gè)字母，從space—spare—...—garth—earth）

在這個(gè)問(wèn)題上o3-pro (左) 打敗了Gemini 2.5 Pro (右)。

其他網(wǎng)友在使用o3-pro進(jìn)行研究后，甚至提出「Vibe Research」氛圍研究的說(shuō)法！

他大膽預(yù)測(cè)，進(jìn)行科學(xué)研究的方式將很快徹底改變并顯著提升。

網(wǎng)友讓o3-pro創(chuàng)建一個(gè)包含曼德博集合的 Excel 表格。

要求每個(gè)單元格都是一個(gè)像素，包含一個(gè)數(shù)字。最終的o3-pro給出的結(jié)果非常完美！

o3價(jià)格暴降80%，谷歌繃不住了？

o3-pro的上線，注定要拉低o3的token價(jià)格。

原來(lái)o3輸入10美元/百萬(wàn)token，輸出40美元/百萬(wàn)token，現(xiàn)在直接擊穿底價(jià)，狂降80%。

這么說(shuō)吧，如今1美元，能用上5倍o3 token量。

在Artificial Analysis報(bào)告中，將其與競(jìng)家模型的價(jià)格做了可視化對(duì)比。

現(xiàn)在，o3價(jià)格要比Gemini 2.5 Pro還便宜，與Claude 4 Sonnet相當(dāng)，但相較于Claude 4 Opus，更是暴降8倍。

相較于自家模型，o3價(jià)格與GPT-4o不相上下，甚至輸出價(jià)格還要低。

除了生成圖像無(wú)法替代，o3的智能足以拿下GPT-4o。

此外，o3還與GPT-4.1每token價(jià)格持平。不過(guò)，前者輸出token量是GPT-4.1的7倍，因此每次查詢(xún)成本也要高得多。

o3價(jià)格拉低，延續(xù)了智能成本持續(xù)快速下降的趨勢(shì)。

自發(fā)布以來(lái)，達(dá)到GPT-4級(jí)別智能的成本已降低超過(guò)100倍，同時(shí)突破新智能門(mén)檻的成本也在同步下降。

此外，在輸出長(zhǎng)度比較中，o3回復(fù)內(nèi)容比Gemini 2.5 Pro和DeepSeek R1少很多，但比Claude 4 Opus多。

參考資料：

https://x.com/gdb/status/1932561536268329463

https://www.latent.space/p/o3-pro

https://x.com/ArtificialAnlys/status/1932489573462081898

https://x.com/OpenAIDevs/status/1932532777565446348

https://help.openai.com/en/articles/9624314-model-release-notes

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.