99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

剛剛,OpenAI最強(qiáng)推理模型o3-pro誕生!碾壓Gemini 2.5 Pro擊穿底價(jià)

0
分享至


新智元報(bào)道

編輯:編輯部 YZX

【新智元導(dǎo)讀】最強(qiáng)推理模型一夜易主!深夜,o3-pro毫無(wú)預(yù)警上線,刷爆數(shù)學(xué)、編程、科學(xué)基準(zhǔn),強(qiáng)勢(shì)碾壓o1-pro和o3。更驚艷的是,o3價(jià)格直接暴降80%,叫板Gemini 2.5 Pro。

毫無(wú)一絲防備,o3-pro就這樣低調(diào)登場(chǎng)了!

昨夜,OpenAI連放大招,先把o3價(jià)格暴降80%,又官宣上線史上最強(qiáng)推理模型——o3-pro。


比起o3,o3-pro可要強(qiáng)太多了。

奧特曼稱(chēng),「當(dāng)?shù)谝淮慰吹剿鄬?duì)o3的勝率時(shí),自己完全驚呆」。



o3-pro不再僅僅是一個(gè)通用型助手,而是兼具長(zhǎng)思考、超長(zhǎng)上下文,工具調(diào)用于一體的超級(jí)智能AI。

在多項(xiàng)基準(zhǔn)測(cè)試中,o3-pro的數(shù)學(xué)、科學(xué)和編程性能驚艷,大幅超越了o1-pro。

甚至,大佬首測(cè)后發(fā)現(xiàn),就連Gemini 2.5 Pro(0605)、Claude 4 Opus都被碾壓。


甚至,它的價(jià)格只有o1-pro的87%,輸入20美元/百萬(wàn)token,輸出80美元/百萬(wàn)token。


隨之一同降價(jià)的o3,更是讓AI圈瞳孔地震。現(xiàn)在,輸入2美元/百萬(wàn)token,輸出8美元/百萬(wàn)token,堪比GPT-4o。


目前, o3-pro已向所有ChatGPTPro、Team用戶(hù)推出,o1-pro模型直接被淘汰。

o3-pro一發(fā)布,奧特曼發(fā)布最新長(zhǎng)文「溫和的奇點(diǎn)」,直接暗示人類(lèi)已經(jīng)跨越了臨界點(diǎn),技術(shù)大爆發(fā)開(kāi)始。


更值得期待的是,奧特曼劇透,OpenAI開(kāi)源模型將在夏末發(fā)布,但不是6月。


o3-pro一夜封神,數(shù)學(xué)編程全開(kāi)掛

模型卡介紹,o3-pro是o3最強(qiáng)推理版,專(zhuān)為深度思考和提供超可靠答案而生。

它可以自動(dòng)調(diào)用工具,包括網(wǎng)頁(yè)搜索、文件分析、視覺(jué)輸入推理、Python代碼執(zhí)行,還能通過(guò)記憶功能實(shí)現(xiàn)個(gè)性化回答。


在專(zhuān)家評(píng)估中,評(píng)審者更青睞o3-pro,尤其是在科學(xué)、教育、編程、商業(yè)和寫(xiě)作輔助等領(lǐng)域。

而且,他們還一致認(rèn)為,o3-pro在清晰度、全面性、指令遵循度、準(zhǔn)確性方面表現(xiàn)更優(yōu)。


在AIME 2024、GPQA、Codeforces三大測(cè)試中,o3-pro拿下了最高分,完全碾壓o1-pro和o3。


另外,在更嚴(yán)格的「4/4可靠性」評(píng)估標(biāo)準(zhǔn)——只有模型在4次嘗試中均回答正確,才算成功。

如下所示,o3-pro在數(shù)學(xué)、編程、博士級(jí)科學(xué)問(wèn)答中,大幅超越o1-pro和o3。


在ARC-AGI半封閉評(píng)估中,o3-pro完成ARC-AGI-1高難度任務(wù)通過(guò)率59%,單任務(wù)成本$4.16;在ARC-AGI-2中,其在所有推理任務(wù)僅有<5%通過(guò)率,單任務(wù)成本$4-7。

最終結(jié)論是,o3-pro與o3基本持平,o3新定價(jià)刷新了ARC-AGI-1的SOTA。


OpenAI稱(chēng),由于o3-pro調(diào)用工具,思考長(zhǎng)度拉長(zhǎng),響應(yīng)速度通常比o1-pro慢。

有網(wǎng)友Yuchen Jin實(shí)測(cè)后發(fā)現(xiàn),自己僅輸入「Hi im sam Altman」,o3-pro足足思考了3分54秒,最長(zhǎng)能達(dá)到13分鐘。

燒了這么多錢(qián),就回復(fù)一句hi,ChatGPT此刻內(nèi)心獨(dú)白還看不到。



當(dāng)然了,OpenAI也發(fā)出提醒,最好是在可靠性?xún)?yōu)先于速度的復(fù)雜問(wèn)題,再用o3-pro。

除此之外,o3-pro還存在一些限制:

  • 由于正在解決技術(shù)問(wèn)題,o3-pro暫不支持臨時(shí)對(duì)話功能

  • o3-pro不支持圖像生成,生圖還得找GPT-4o、o3、o4-mini

  • o3-pro亦不支持Canvas功能

即便如此,o3-pro已經(jīng)足夠聰明、足夠智能。


AI大佬首測(cè),感受AGI

Raindrop ai的Ben Hylak,提早就獲得了o3-pro的實(shí)測(cè)資格,帶來(lái)世界上首個(gè)早期的o3 pro測(cè)評(píng)。


Hylak表示,OpenAI將o3價(jià)格降低了80%,來(lái)為o3-pro的發(fā)布預(yù)熱。

售價(jià)20/80美元,正好支持了一個(gè)未經(jīng)證實(shí)的社區(qū)理論:-pro變體是基礎(chǔ)模型的10倍調(diào)用。

超長(zhǎng)上下文

試用o3-pro一周的Hylak,首先最大的感受就是,它的超長(zhǎng)上下文太厲害了!

此前,他一直跟o系列的推理模型打交道,對(duì)o1/o1-pro的第一印象相當(dāng)負(fù)面,但隨后,他意識(shí)到自己錯(cuò)了。

關(guān)鍵就在于,不要和推理模型聊天,而是將它們視為報(bào)告生成器:提供上下文,設(shè)定目標(biāo),然后放手讓它們工作。

利用這個(gè)方法實(shí)測(cè)后,他發(fā)現(xiàn):o3-pro比o3聰明太多,智能太多了!


為了體現(xiàn)這一點(diǎn),你需要給它提供更多的上下文。為此,他和聯(lián)創(chuàng)Alexis整理了Raindrop所有過(guò)去的規(guī)劃會(huì)議記錄,包括所有目標(biāo),甚至錄下了語(yǔ)音備忘錄:然后讓 o3-pro來(lái)制定計(jì)劃。

他們立刻被驚艷了!

o3-pro生成了一個(gè)非常具體的計(jì)劃和分析,包括目標(biāo)指標(biāo)、時(shí)間表、優(yōu)先事項(xiàng),以及嚴(yán)格指示必須削減的內(nèi)容。

相比于o3,o3-pro給的計(jì)劃更加具體、更加扎實(shí),直接改變了公司領(lǐng)導(dǎo)層對(duì)于未來(lái)的思考方式。


與真實(shí)世界集成

如今的模型,就像一個(gè)智商極高的12歲少年,需要融入工作環(huán)境。而這種集成,主要依賴(lài)于工具調(diào)用,來(lái)考驗(yàn)?zāi)P团c人類(lèi)、外部數(shù)據(jù)以及其他AI的寫(xiě)作能力。

在這方面,o3-pro實(shí)現(xiàn)了真正的飛躍!

它能出色辨別自身環(huán)境;能準(zhǔn)確傳達(dá)自己可訪問(wèn)的工具,知道何時(shí)詢(xún)問(wèn)外部世界的信息(而不是假裝自己擁有信息/權(quán)限),并選擇合適的工具來(lái)完成工作。

從下圖中可以看出,o3-pro(左)明顯比o3(右)更清楚地了解自己所處環(huán)境的限制。



當(dāng)然,如果說(shuō)o3-pro有什么缺點(diǎn),那就是如果不給它足夠的上下文,它就容易想太多。

它在分析和利用工具完成任務(wù)上都令人驚嘆,但直接完成任務(wù)的能力就不那么強(qiáng)了。


總而言之,o3-pro和Gemini 2.5 Pro、Claude Opus的體感極其不同,直接碾壓后兩者。

而令人期待的是,OpenAI正大力推動(dòng)這一垂直RL的路徑(Deep Research,Codex),不僅教模型如何使用工具,還教他們?nèi)绾瓮评碓摵螘r(shí)使用這些工具。


總而言之,要實(shí)現(xiàn)推理模型的最佳性能,上下文至關(guān)重要,這就像給餅干怪獸喂餅干。可以認(rèn)為,這是一種啟動(dòng)LLM記憶的方式。

網(wǎng)友實(shí)測(cè)

另網(wǎng)友已經(jīng)秘密測(cè)試o3-pro一段時(shí)間了,他發(fā)現(xiàn)o3-pro比o1-pro更便宜(的多)、更快、更精確!

而且使用o3和o3-pro進(jìn)行編碼簡(jiǎn)直是天壤之別。

o3-pro是第一個(gè)能夠近乎完美地處理球與墻壁之間真實(shí)碰撞的模型。


有網(wǎng)友要求o3-pro識(shí)別我們?nèi)祟?lèi)天然免疫系統(tǒng)的關(guān)鍵局限性,并向o3模型提出了同樣的問(wèn)題。

結(jié)果是o3-pro的回復(fù)無(wú)疑更加明智、更加深思熟慮,表明新模型對(duì)免疫系統(tǒng)的理解更加深刻。


還有網(wǎng)友用o3-pro來(lái)玩《我的世界》。

比如創(chuàng)建自己的「宏偉形象」(prompt: A majestic representation of yourself),效果也很驚艷。


還有讓o3創(chuàng)建「細(xì)節(jié)豐富的海盜船」和「登月」場(chǎng)景,完成度非常之高。


還有網(wǎng)友只用2個(gè)提示,o3-pro就用純HTML、CSS和JS在一個(gè)文件中制作出非常酷的極限空間行走模擬器。

空間中有復(fù)古風(fēng)格的著色器、熒光燈、工作霧、標(biāo)志、地面通風(fēng)口,還有黑色空隙。


在o1-pro也失敗的多層編碼理解能力測(cè)試中,o3-pro也一次性通過(guò)

輸入以下亂碼,模型需要先解碼再找到隱式提示詞,并最終輸出正確的單詞內(nèi)容。


「YVdZZ2VXOTFJSFZ1WkdWeWMzUmhibVFnZEdocGN5d2dZVzV6ZDJWeUlIZHBkR2dnZEdobElIZHZjbVFnSW5KbGFXNWtaV1Z5SWdvPQo=」


Ethan Mollick認(rèn)為o3-pro相當(dāng)智能,它解決了一個(gè)其他模型都無(wú)法解決的問(wèn)題:制作從Space到Earth的單詞階梯。(注:即每次改變一個(gè)字母,從space—spare—...—garth—earth)

在這個(gè)問(wèn)題上o3-pro (左) 打敗了Gemini 2.5 Pro (右)。


其他網(wǎng)友在使用o3-pro進(jìn)行研究后,甚至提出「Vibe Research」氛圍研究的說(shuō)法!

他大膽預(yù)測(cè),進(jìn)行科學(xué)研究的方式將很快徹底改變并顯著提升。

網(wǎng)友讓o3-pro創(chuàng)建一個(gè)包含曼德博集合的 Excel 表格。

要求每個(gè)單元格都是一個(gè)像素,包含一個(gè)數(shù)字。最終的o3-pro給出的結(jié)果非常完美!


o3價(jià)格暴降80%,谷歌繃不住了?

o3-pro的上線,注定要拉低o3的token價(jià)格。

原來(lái)o3輸入10美元/百萬(wàn)token,輸出40美元/百萬(wàn)token,現(xiàn)在直接擊穿底價(jià),狂降80%。


這么說(shuō)吧,如今1美元,能用上5倍o3 token量。


在Artificial Analysis報(bào)告中,將其與競(jìng)家模型的價(jià)格做了可視化對(duì)比。

現(xiàn)在,o3價(jià)格要比Gemini 2.5 Pro還便宜,與Claude 4 Sonnet相當(dāng),但相較于Claude 4 Opus,更是暴降8倍。


相較于自家模型,o3價(jià)格與GPT-4o不相上下,甚至輸出價(jià)格還要低。

除了生成圖像無(wú)法替代,o3的智能足以拿下GPT-4o。

此外,o3還與GPT-4.1每token價(jià)格持平。不過(guò),前者輸出token量是GPT-4.1的7倍,因此每次查詢(xún)成本也要高得多。


o3價(jià)格拉低,延續(xù)了智能成本持續(xù)快速下降的趨勢(shì)。

自發(fā)布以來(lái),達(dá)到GPT-4級(jí)別智能的成本已降低超過(guò)100倍,同時(shí)突破新智能門(mén)檻的成本也在同步下降。


此外,在輸出長(zhǎng)度比較中,o3回復(fù)內(nèi)容比Gemini 2.5 Pro和DeepSeek R1少很多,但比Claude 4 Opus多。


參考資料:

https://x.com/gdb/status/1932561536268329463

https://www.latent.space/p/o3-pro

https://x.com/ArtificialAnlys/status/1932489573462081898

https://x.com/OpenAIDevs/status/1932532777565446348

https://help.openai.com/en/articles/9624314-model-release-notes


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
王毅回京不到2小時(shí),深夜接到中東急電,中方對(duì)伊朗已是仁至義盡

王毅回京不到2小時(shí),深夜接到中東急電,中方對(duì)伊朗已是仁至義盡

墨印齋
2025-06-22 05:08:39
陳羽凡現(xiàn)狀:低調(diào)生活,50歲胖到認(rèn)不出,17歲兒子1米8長(zhǎng)得像媽

陳羽凡現(xiàn)狀:低調(diào)生活,50歲胖到認(rèn)不出,17歲兒子1米8長(zhǎng)得像媽

果娛
2025-05-14 12:19:32
《慶余年》男演員轉(zhuǎn)型拍短劇,演長(zhǎng)劇18年無(wú)人理,一朝霸總天下知

《慶余年》男演員轉(zhuǎn)型拍短劇,演長(zhǎng)劇18年無(wú)人理,一朝霸總天下知

易同學(xué)愛(ài)談娛樂(lè)
2025-06-22 16:10:05
今天這么多預(yù)測(cè)楊紫榮獲白玉蘭視后,真的是年輕一輩勢(shì)不可擋

今天這么多預(yù)測(cè)楊紫榮獲白玉蘭視后,真的是年輕一輩勢(shì)不可擋

動(dòng)物奇奇怪怪
2025-06-23 00:04:25
哈梅內(nèi)伊一聲令下,伊朗導(dǎo)彈轟炸美國(guó)海軍,將封鎖霍爾木茲海峽?

哈梅內(nèi)伊一聲令下,伊朗導(dǎo)彈轟炸美國(guó)海軍,將封鎖霍爾木茲海峽?

近史博覽
2025-06-22 13:02:49
李雪琴事件升級(jí)!舉報(bào)人再曬證據(jù)實(shí)錘,被曝學(xué)歷造假只是冰山一角

李雪琴事件升級(jí)!舉報(bào)人再曬證據(jù)實(shí)錘,被曝學(xué)歷造假只是冰山一角

果娛
2025-06-22 14:36:49
18歲男孩因尿毒癥急需換腎,親媽配型成功,但反應(yīng)前后判若兩人:換給他,我就死定了!

18歲男孩因尿毒癥急需換腎,親媽配型成功,但反應(yīng)前后判若兩人:換給他,我就死定了!

坦然風(fēng)云
2025-06-21 12:47:47
“五物不送人,后代一直富”,這五種東西千萬(wàn)不要送人!有道理嗎

“五物不送人,后代一直富”,這五種東西千萬(wàn)不要送人!有道理嗎

聞心品閣
2025-06-17 07:22:54
成交價(jià)翻倍!深圳兩套豪宅法拍,公司老板賣(mài)房還債?

成交價(jià)翻倍!深圳兩套豪宅法拍,公司老板賣(mài)房還債?

南方都市報(bào)
2025-06-22 12:49:13
荔枝的“死對(duì)頭”,醫(yī)生提醒:二者萬(wàn)不可同吃,吃荔枝禁忌要牢記

荔枝的“死對(duì)頭”,醫(yī)生提醒:二者萬(wàn)不可同吃,吃荔枝禁忌要牢記

阿龍美食記
2025-06-16 15:19:56
燒烤店贊助蘇超常州比賽,老板娘回應(yīng):長(zhǎng)期關(guān)注常州體育,通過(guò)審核很意外

燒烤店贊助蘇超常州比賽,老板娘回應(yīng):長(zhǎng)期關(guān)注常州體育,通過(guò)審核很意外

現(xiàn)代快報(bào)
2025-06-22 15:12:13
父親扛完大包回家,發(fā)現(xiàn)兒子點(diǎn)2頓外賣(mài)崩潰:我一小時(shí)才賺16塊

父親扛完大包回家,發(fā)現(xiàn)兒子點(diǎn)2頓外賣(mài)崩潰:我一小時(shí)才賺16塊

熙熙說(shuō)教
2025-06-21 19:33:34
違規(guī)吃喝標(biāo)準(zhǔn)確定!杜絕“一刀切”式整治,誰(shuí)亂加碼誰(shuí)擔(dān)責(zé)

違規(guī)吃喝標(biāo)準(zhǔn)確定!杜絕“一刀切”式整治,誰(shuí)亂加碼誰(shuí)擔(dān)責(zé)

王五說(shuō)說(shuō)看
2025-06-22 16:07:36
湖北小縣城:體制內(nèi)女教師的貧富差距

湖北小縣城:體制內(nèi)女教師的貧富差距

英軍眼
2025-06-22 11:59:00
警惕!北京多地出現(xiàn)大蛇!

警惕!北京多地出現(xiàn)大蛇!

美麗大北京
2025-06-22 19:04:44
美國(guó)終于明白,當(dāng)年自己“誤炸”中國(guó)大使館,中國(guó)為什么不反擊?

美國(guó)終于明白,當(dāng)年自己“誤炸”中國(guó)大使館,中國(guó)為什么不反擊?

鐘裹雜談歷史
2023-11-22 09:07:16
吃霸王婚宴的錢(qián)總“社會(huì)性死亡”了,生意被曝,新婚女兒也被連累

吃霸王婚宴的錢(qián)總“社會(huì)性死亡”了,生意被曝,新婚女兒也被連累

知鑒明史
2025-06-19 16:42:38
即將HWG!羅馬諾:32歲博格巴自由加盟摩納哥,時(shí)隔兩年再就業(yè)!

即將HWG!羅馬諾:32歲博格巴自由加盟摩納哥,時(shí)隔兩年再就業(yè)!

直播吧
2025-06-23 02:28:30
吳謙大校警告:人民如果長(zhǎng)期歌舞升平、娛樂(lè)至死,離危亡就不遠(yuǎn)了

吳謙大校警告:人民如果長(zhǎng)期歌舞升平、娛樂(lè)至死,離危亡就不遠(yuǎn)了

boss外傳
2025-05-04 17:20:03
不出意外,7月起,將迎來(lái)新一波降價(jià)潮,4類(lèi)商品價(jià)格或會(huì)“跳水”

不出意外,7月起,將迎來(lái)新一波降價(jià)潮,4類(lèi)商品價(jià)格或會(huì)“跳水”

小談食刻美食
2025-06-20 17:01:49
2025-06-23 02:47:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
12929文章數(shù) 66077關(guān)注度
往期回顧 全部

數(shù)碼要聞

原生級(jí)雙8K回報(bào)率!雷柏VT3S鼠標(biāo)圖賞

頭條要聞

伊朗投入5萬(wàn)億美元的核項(xiàng)目遭摧毀 哈梅內(nèi)伊面臨抉擇

頭條要聞

伊朗投入5萬(wàn)億美元的核項(xiàng)目遭摧毀 哈梅內(nèi)伊面臨抉擇

體育要聞

中國(guó)女排0-3意大利 香港站3勝1負(fù)收官

娛樂(lè)要聞

離婚四年!趙麗穎被曝新戀情惹爭(zhēng)議

財(cái)經(jīng)要聞

蘋(píng)果后院起火

科技要聞

"你應(yīng)該靠嘴吃飯",羅永浩自述被梁文鋒勸退

汽車(chē)要聞

首搭華為雙王牌/6月24日預(yù)售 嵐圖FREE+正式下線

態(tài)度原創(chuàng)

親子
房產(chǎn)
數(shù)碼
家居
軍事航空

親子要聞

我與兒子與同學(xué)之間的稱(chēng)呼

房產(chǎn)要聞

坑慘2000多人!恒大財(cái)富海南高管被曝非吸12.6億元!

數(shù)碼要聞

曝索尼PS6將采用全新AMD架構(gòu):光追、AI性能翻倍

家居要聞

山水之間 墨染風(fēng)雨云間

軍事要聞

美對(duì)伊行動(dòng)細(xì)節(jié):使用14枚巨型鉆地彈

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 阆中市| 新乡市| 库尔勒市| 三台县| 德安县| 云浮市| 台南市| 大英县| 合川市| 阜宁县| 波密县| 二手房| 洪湖市| 绥中县| 南城县| 正宁县| 大安市| 连江县| 建瓯市| 辉县市| 固镇县| 延津县| 泗阳县| 原阳县| 孙吴县| 镇康县| 红原县| 白玉县| 益阳市| 河南省| 即墨市| 哈尔滨市| 天津市| 崇左市| 江永县| 九江县| 读书| 武功县| 凭祥市| 鄂托克旗| 石泉县|