新智元報(bào)道
編輯:編輯部 YZX
【新智元導(dǎo)讀】最強(qiáng)推理模型一夜易主!深夜,o3-pro毫無(wú)預(yù)警上線,刷爆數(shù)學(xué)、編程、科學(xué)基準(zhǔn),強(qiáng)勢(shì)碾壓o1-pro和o3。更驚艷的是,o3價(jià)格直接暴降80%,叫板Gemini 2.5 Pro。
毫無(wú)一絲防備,o3-pro就這樣低調(diào)登場(chǎng)了!
昨夜,OpenAI連放大招,先把o3價(jià)格暴降80%,又官宣上線史上最強(qiáng)推理模型——o3-pro。
比起o3,o3-pro可要強(qiáng)太多了。
奧特曼稱(chēng),「當(dāng)?shù)谝淮慰吹剿鄬?duì)o3的勝率時(shí),自己完全驚呆」。
o3-pro不再僅僅是一個(gè)通用型助手,而是兼具長(zhǎng)思考、超長(zhǎng)上下文,工具調(diào)用于一體的超級(jí)智能AI。
在多項(xiàng)基準(zhǔn)測(cè)試中,o3-pro的數(shù)學(xué)、科學(xué)和編程性能驚艷,大幅超越了o1-pro。
甚至,大佬首測(cè)后發(fā)現(xiàn),就連Gemini 2.5 Pro(0605)、Claude 4 Opus都被碾壓。
甚至,它的價(jià)格只有o1-pro的87%,輸入20美元/百萬(wàn)token,輸出80美元/百萬(wàn)token。
隨之一同降價(jià)的o3,更是讓AI圈瞳孔地震。現(xiàn)在,輸入2美元/百萬(wàn)token,輸出8美元/百萬(wàn)token,堪比GPT-4o。
目前, o3-pro已向所有ChatGPTPro、Team用戶(hù)推出,o1-pro模型直接被淘汰。
o3-pro一發(fā)布,奧特曼發(fā)布最新長(zhǎng)文「溫和的奇點(diǎn)」,直接暗示人類(lèi)已經(jīng)跨越了臨界點(diǎn),技術(shù)大爆發(fā)開(kāi)始。
更值得期待的是,奧特曼劇透,OpenAI開(kāi)源模型將在夏末發(fā)布,但不是6月。
o3-pro一夜封神,數(shù)學(xué)編程全開(kāi)掛
模型卡介紹,o3-pro是o3最強(qiáng)推理版,專(zhuān)為深度思考和提供超可靠答案而生。
它可以自動(dòng)調(diào)用工具,包括網(wǎng)頁(yè)搜索、文件分析、視覺(jué)輸入推理、Python代碼執(zhí)行,還能通過(guò)記憶功能實(shí)現(xiàn)個(gè)性化回答。
在專(zhuān)家評(píng)估中,評(píng)審者更青睞o3-pro,尤其是在科學(xué)、教育、編程、商業(yè)和寫(xiě)作輔助等領(lǐng)域。
而且,他們還一致認(rèn)為,o3-pro在清晰度、全面性、指令遵循度、準(zhǔn)確性方面表現(xiàn)更優(yōu)。
在AIME 2024、GPQA、Codeforces三大測(cè)試中,o3-pro拿下了最高分,完全碾壓o1-pro和o3。
另外,在更嚴(yán)格的「4/4可靠性」評(píng)估標(biāo)準(zhǔn)——只有模型在4次嘗試中均回答正確,才算成功。
如下所示,o3-pro在數(shù)學(xué)、編程、博士級(jí)科學(xué)問(wèn)答中,大幅超越o1-pro和o3。
在ARC-AGI半封閉評(píng)估中,o3-pro完成ARC-AGI-1高難度任務(wù)通過(guò)率59%,單任務(wù)成本$4.16;在ARC-AGI-2中,其在所有推理任務(wù)僅有<5%通過(guò)率,單任務(wù)成本$4-7。
最終結(jié)論是,o3-pro與o3基本持平,o3新定價(jià)刷新了ARC-AGI-1的SOTA。
OpenAI稱(chēng),由于o3-pro調(diào)用工具,思考長(zhǎng)度拉長(zhǎng),響應(yīng)速度通常比o1-pro慢。
有網(wǎng)友Yuchen Jin實(shí)測(cè)后發(fā)現(xiàn),自己僅輸入「Hi im sam Altman」,o3-pro足足思考了3分54秒,最長(zhǎng)能達(dá)到13分鐘。
燒了這么多錢(qián),就回復(fù)一句hi,ChatGPT此刻內(nèi)心獨(dú)白還看不到。
當(dāng)然了,OpenAI也發(fā)出提醒,最好是在可靠性?xún)?yōu)先于速度的復(fù)雜問(wèn)題,再用o3-pro。
除此之外,o3-pro還存在一些限制:
由于正在解決技術(shù)問(wèn)題,o3-pro暫不支持臨時(shí)對(duì)話功能
o3-pro不支持圖像生成,生圖還得找GPT-4o、o3、o4-mini
o3-pro亦不支持Canvas功能
即便如此,o3-pro已經(jīng)足夠聰明、足夠智能。
AI大佬首測(cè),感受AGI
Raindrop ai的Ben Hylak,提早就獲得了o3-pro的實(shí)測(cè)資格,帶來(lái)世界上首個(gè)早期的o3 pro測(cè)評(píng)。
Hylak表示,OpenAI將o3價(jià)格降低了80%,來(lái)為o3-pro的發(fā)布預(yù)熱。
售價(jià)20/80美元,正好支持了一個(gè)未經(jīng)證實(shí)的社區(qū)理論:-pro變體是基礎(chǔ)模型的10倍調(diào)用。
超長(zhǎng)上下文
試用o3-pro一周的Hylak,首先最大的感受就是,它的超長(zhǎng)上下文太厲害了!
此前,他一直跟o系列的推理模型打交道,對(duì)o1/o1-pro的第一印象相當(dāng)負(fù)面,但隨后,他意識(shí)到自己錯(cuò)了。
關(guān)鍵就在于,不要和推理模型聊天,而是將它們視為報(bào)告生成器:提供上下文,設(shè)定目標(biāo),然后放手讓它們工作。
利用這個(gè)方法實(shí)測(cè)后,他發(fā)現(xiàn):o3-pro比o3聰明太多,智能太多了!
為了體現(xiàn)這一點(diǎn),你需要給它提供更多的上下文。為此,他和聯(lián)創(chuàng)Alexis整理了Raindrop所有過(guò)去的規(guī)劃會(huì)議記錄,包括所有目標(biāo),甚至錄下了語(yǔ)音備忘錄:然后讓 o3-pro來(lái)制定計(jì)劃。
他們立刻被驚艷了!
o3-pro生成了一個(gè)非常具體的計(jì)劃和分析,包括目標(biāo)指標(biāo)、時(shí)間表、優(yōu)先事項(xiàng),以及嚴(yán)格指示必須削減的內(nèi)容。
相比于o3,o3-pro給的計(jì)劃更加具體、更加扎實(shí),直接改變了公司領(lǐng)導(dǎo)層對(duì)于未來(lái)的思考方式。
與真實(shí)世界集成
如今的模型,就像一個(gè)智商極高的12歲少年,需要融入工作環(huán)境。而這種集成,主要依賴(lài)于工具調(diào)用,來(lái)考驗(yàn)?zāi)P团c人類(lèi)、外部數(shù)據(jù)以及其他AI的寫(xiě)作能力。
在這方面,o3-pro實(shí)現(xiàn)了真正的飛躍!
它能出色辨別自身環(huán)境;能準(zhǔn)確傳達(dá)自己可訪問(wèn)的工具,知道何時(shí)詢(xún)問(wèn)外部世界的信息(而不是假裝自己擁有信息/權(quán)限),并選擇合適的工具來(lái)完成工作。
從下圖中可以看出,o3-pro(左)明顯比o3(右)更清楚地了解自己所處環(huán)境的限制。
當(dāng)然,如果說(shuō)o3-pro有什么缺點(diǎn),那就是如果不給它足夠的上下文,它就容易想太多。
它在分析和利用工具完成任務(wù)上都令人驚嘆,但直接完成任務(wù)的能力就不那么強(qiáng)了。
總而言之,o3-pro和Gemini 2.5 Pro、Claude Opus的體感極其不同,直接碾壓后兩者。
而令人期待的是,OpenAI正大力推動(dòng)這一垂直RL的路徑(Deep Research,Codex),不僅教模型如何使用工具,還教他們?nèi)绾瓮评碓摵螘r(shí)使用這些工具。
總而言之,要實(shí)現(xiàn)推理模型的最佳性能,上下文至關(guān)重要,這就像給餅干怪獸喂餅干。可以認(rèn)為,這是一種啟動(dòng)LLM記憶的方式。
網(wǎng)友實(shí)測(cè)
另網(wǎng)友已經(jīng)秘密測(cè)試o3-pro一段時(shí)間了,他發(fā)現(xiàn)o3-pro比o1-pro更便宜(的多)、更快、更精確!
而且使用o3和o3-pro進(jìn)行編碼簡(jiǎn)直是天壤之別。
o3-pro是第一個(gè)能夠近乎完美地處理球與墻壁之間真實(shí)碰撞的模型。
有網(wǎng)友要求o3-pro識(shí)別我們?nèi)祟?lèi)天然免疫系統(tǒng)的關(guān)鍵局限性,并向o3模型提出了同樣的問(wèn)題。
結(jié)果是o3-pro的回復(fù)無(wú)疑更加明智、更加深思熟慮,表明新模型對(duì)免疫系統(tǒng)的理解更加深刻。
還有網(wǎng)友用o3-pro來(lái)玩《我的世界》。
比如創(chuàng)建自己的「宏偉形象」(prompt: A majestic representation of yourself),效果也很驚艷。
還有讓o3創(chuàng)建「細(xì)節(jié)豐富的海盜船」和「登月」場(chǎng)景,完成度非常之高。
還有網(wǎng)友只用2個(gè)提示,o3-pro就用純HTML、CSS和JS在一個(gè)文件中制作出非常酷的極限空間行走模擬器。
空間中有復(fù)古風(fēng)格的著色器、熒光燈、工作霧、標(biāo)志、地面通風(fēng)口,還有黑色空隙。
在o1-pro也失敗的多層編碼理解能力測(cè)試中,o3-pro也一次性通過(guò)。
輸入以下亂碼,模型需要先解碼再找到隱式提示詞,并最終輸出正確的單詞內(nèi)容。
「YVdZZ2VXOTFJSFZ1WkdWeWMzUmhibVFnZEdocGN5d2dZVzV6ZDJWeUlIZHBkR2dnZEdobElIZHZjbVFnSW5KbGFXNWtaV1Z5SWdvPQo=」
Ethan Mollick認(rèn)為o3-pro相當(dāng)智能,它解決了一個(gè)其他模型都無(wú)法解決的問(wèn)題:制作從Space到Earth的單詞階梯。(注:即每次改變一個(gè)字母,從space—spare—...—garth—earth)
在這個(gè)問(wèn)題上o3-pro (左) 打敗了Gemini 2.5 Pro (右)。
其他網(wǎng)友在使用o3-pro進(jìn)行研究后,甚至提出「Vibe Research」氛圍研究的說(shuō)法!
他大膽預(yù)測(cè),進(jìn)行科學(xué)研究的方式將很快徹底改變并顯著提升。
網(wǎng)友讓o3-pro創(chuàng)建一個(gè)包含曼德博集合的 Excel 表格。
要求每個(gè)單元格都是一個(gè)像素,包含一個(gè)數(shù)字。最終的o3-pro給出的結(jié)果非常完美!
o3價(jià)格暴降80%,谷歌繃不住了?
o3-pro的上線,注定要拉低o3的token價(jià)格。
原來(lái)o3輸入10美元/百萬(wàn)token,輸出40美元/百萬(wàn)token,現(xiàn)在直接擊穿底價(jià),狂降80%。
這么說(shuō)吧,如今1美元,能用上5倍o3 token量。
在Artificial Analysis報(bào)告中,將其與競(jìng)家模型的價(jià)格做了可視化對(duì)比。
現(xiàn)在,o3價(jià)格要比Gemini 2.5 Pro還便宜,與Claude 4 Sonnet相當(dāng),但相較于Claude 4 Opus,更是暴降8倍。
相較于自家模型,o3價(jià)格與GPT-4o不相上下,甚至輸出價(jià)格還要低。
除了生成圖像無(wú)法替代,o3的智能足以拿下GPT-4o。
此外,o3還與GPT-4.1每token價(jià)格持平。不過(guò),前者輸出token量是GPT-4.1的7倍,因此每次查詢(xún)成本也要高得多。
o3價(jià)格拉低,延續(xù)了智能成本持續(xù)快速下降的趨勢(shì)。
自發(fā)布以來(lái),達(dá)到GPT-4級(jí)別智能的成本已降低超過(guò)100倍,同時(shí)突破新智能門(mén)檻的成本也在同步下降。
此外,在輸出長(zhǎng)度比較中,o3回復(fù)內(nèi)容比Gemini 2.5 Pro和DeepSeek R1少很多,但比Claude 4 Opus多。
參考資料:
https://x.com/gdb/status/1932561536268329463
https://www.latent.space/p/o3-pro
https://x.com/ArtificialAnlys/status/1932489573462081898
https://x.com/OpenAIDevs/status/1932532777565446348
https://help.openai.com/en/articles/9624314-model-release-notes
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.