99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenAI發(fā)布o(jì)3/o4-mini兩大推理模型,要把Agent吞進(jìn)模型里了

0
分享至


作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com

距離OpenAI發(fā)布GPT-4.1僅僅過去兩天,OpenAI在本周再次投下“重磅炸彈”——正式發(fā)布了其o系列的兩個(gè)新模型:o3和 o4-mini。

這次發(fā)布的核心被OpenAI聯(lián)合創(chuàng)始人Greg Brockman和首席研究官M(fèi)ark Chen形容“向未來邁出的質(zhì)的一步”。這兩個(gè)新模型不僅在傳統(tǒng)的編碼、數(shù)學(xué)、科學(xué)等領(lǐng)域展現(xiàn)出“迄今為止最強(qiáng)”的推理能力,更重要的是,它們被訓(xùn)練成了能夠主動(dòng)、智能地使用和組合工具來解決復(fù)雜問題的“AI系統(tǒng)”,并且首次實(shí)現(xiàn)了“用圖像思考”。

簡(jiǎn)單來說,你可以把o3和o4-mini想象成更聰明的“大腦”,它們不僅知識(shí)儲(chǔ)備更豐富、邏輯更嚴(yán)謹(jǐn),還學(xué)會(huì)了像人一樣,遇到難題時(shí)知道去網(wǎng)上查資料(網(wǎng)頁(yè)搜索)、用計(jì)算器(執(zhí)行Python代碼分析數(shù)據(jù)/文件)、看圖表(視覺輸入推理),甚至自己畫圖(生成圖像)。這標(biāo)志著ChatGPT向著一個(gè)能更獨(dú)立自主完成任務(wù)的智能體方向邁出了關(guān)鍵一步。

新的o3、o4-mini及o4-mini-high將從即日起開始替換ChatGPT Plus、Pro和Team用戶模型選擇器中的o1、o3-mini和o3-mini-high。免費(fèi)用戶也有機(jī)會(huì)通過特定的“Think”選項(xiàng)體驗(yàn)o4-mini。開發(fā)者可通過API使用o3和o4-mini,OpenAI預(yù)計(jì)在幾周內(nèi)發(fā)布o(jì)3-pro。

那么,這兩個(gè)新模型具體強(qiáng)在哪里?OpenAI官網(wǎng)和直播演示給出了詳細(xì)解答。

1

o3:旗艦級(jí)推理引擎

具體到兩個(gè)模型,o3 定位為OpenAI當(dāng)前最強(qiáng)大、最前沿的推理引擎。它在編碼、數(shù)學(xué)、科學(xué)和視覺感知等需要深度思考的領(lǐng)域表現(xiàn)尤為突出,是處理那些答案不明顯、需要多方面綜合分析的復(fù)雜查詢的理想選擇。

根據(jù)外部專家的嚴(yán)格評(píng)估,在處理困難的現(xiàn)實(shí)世界任務(wù)時(shí),o3犯下的嚴(yán)重錯(cuò)誤比其前代旗艦o1減少了20%,尤其在編程、商業(yè)咨詢和創(chuàng)意構(gòu)思方面進(jìn)步顯著。發(fā)布會(huì)上的例子令人印象深刻:o3不僅能分析物理學(xué)研究海報(bào)并推斷出未明確說明的結(jié)果,還能將其與現(xiàn)有文獻(xiàn)進(jìn)行對(duì)比。

在另一個(gè)例子中,它甚至成功解決了構(gòu)造一個(gè)特定性質(zhì)的19次多項(xiàng)式這樣的高難度數(shù)學(xué)問題,其推理過程和結(jié)果的準(zhǔn)確性遠(yuǎn)超o1的表現(xiàn)。早期測(cè)試者也普遍反饋,o3作為“思考伙伴”時(shí)展現(xiàn)出的分析嚴(yán)謹(jǐn)性,以及在生物、數(shù)學(xué)、工程等領(lǐng)域生成和批判性評(píng)估新穎假設(shè)的能力,都令人印象深刻。在包括Codeforces、SWE-bench和MMMU等基準(zhǔn)測(cè)試中創(chuàng)下了新的 SOTA。


1

o4-mini:高性價(jià)比的“小鋼炮”

o4-mini 則是一款針對(duì)速度和成本效益優(yōu)化的“小鋼炮”。雖然體量更小,但它在數(shù)學(xué)、編碼和視覺任務(wù)上實(shí)現(xiàn)了“令人矚目的性能”,堪稱“以小博大”的典范。它在AIME 2024和2025數(shù)學(xué)競(jìng)賽基準(zhǔn)上的表現(xiàn)甚至超越了更大的模型。專家評(píng)估也指出,即使在非STEM領(lǐng)域和數(shù)據(jù)科學(xué)方面,o4-mini也優(yōu)于其前代o3-mini。得益于更高的效率,o4-mini能夠支持比o3顯著更高的使用限制,這使其非常適合需要進(jìn)行大量推理、高吞吐量的應(yīng)用場(chǎng)景。同時(shí),OpenAI表示,o3和o4-mini在交互時(shí)也應(yīng)該感覺更自然、更像對(duì)話,能更好地利用記憶和上下文信息,并提供帶有網(wǎng)絡(luò)來源引用的、更可驗(yàn)證的回應(yīng)。


o3-mini 和 o4-mini的成本與性能對(duì)比 o1 和 o3的成本與性能對(duì)比

值得關(guān)注的是,智能化程度的提升并未必然帶來成本的增加。OpenAI強(qiáng)調(diào),在許多實(shí)際應(yīng)用場(chǎng)景中,o3和o4-mini可能比它們的前代o1和o3-mini更高效,甚至更便宜。官網(wǎng)展示的AIME數(shù)學(xué)競(jìng)賽成本-性能曲線清晰地表明,o3在相同成本下性能優(yōu)于o1,而o4-mini則優(yōu)于o3-mini。這背后,是OpenAI在強(qiáng)化學(xué)習(xí)規(guī)模化上的持續(xù)投入——據(jù)透露,開發(fā)o3所使用的訓(xùn)練計(jì)算量是o1的十倍以上,驗(yàn)證了“更多思考時(shí)間=更好性能”的趨勢(shì)同樣適用于強(qiáng)化學(xué)習(xí)。

在定價(jià)方面,o3的每百萬輸入 token 收費(fèi)為 10 美元,輸出 token 為 40 美元;而 o4-mini 的價(jià)格僅為其十分之一左右,分別為 1.1 美元和 4.4 美元。


1

不止于聰明,更在于“全能”

Agentic Tool Use是本次發(fā)布的亮點(diǎn)之一。過去的模型雖然也能調(diào)用工具,但往往是被動(dòng)執(zhí)行指令。而o3和o4-mini則被訓(xùn)練得能夠思考何時(shí)以及如何使用工具來給出詳盡、周到的答案。它們可以根據(jù)問題的復(fù)雜性,自主決定調(diào)用網(wǎng)頁(yè)搜索獲取最新信息、運(yùn)行Python代碼進(jìn)行數(shù)據(jù)分析和預(yù)測(cè)、理解用戶上傳的圖片內(nèi)容,甚至生成圖表或圖像來輔助說明。

當(dāng)用戶提出“加州今年的夏季能源消耗與去年相比如何”這樣的問題時(shí),模型會(huì)自動(dòng)搜索公共數(shù)據(jù)源,結(jié)合實(shí)時(shí)信息編寫并執(zhí)行分析代碼,生成圖表直觀展示對(duì)比結(jié)果,并解釋其中的關(guān)鍵影響因素,整個(gè)過程通常在一分鐘內(nèi)完成,體現(xiàn)出強(qiáng)大的搜索、推理與多模態(tài)協(xié)同能力。

直播中Greg Brockman還提到,o3在解決一個(gè)復(fù)雜任務(wù)時(shí),曾被觀察到連續(xù)調(diào)用了高達(dá)600次工具。

另一個(gè)突破是視覺理解能力。o3和o4-mini不再僅僅是“看到”圖片,而是能將圖像信息直接整合進(jìn)它們的“思考鏈”中。用戶可以上傳白板照片、教科書圖解、手繪草圖,即使圖片模糊、顛倒或質(zhì)量不高,模型也能嘗試?yán)斫狻?/p>


更進(jìn)一步,結(jié)合工具使用能力,模型可以在推理過程中動(dòng)態(tài)地操作圖片,比如旋轉(zhuǎn)、縮放或轉(zhuǎn)換圖像,以更好地輔助分析。這使得它們?cè)诙嗄B(tài)基準(zhǔn)測(cè)試中達(dá)到了新的SOTA(State-of-the-Art)水平,能夠解決以前難以處理的視覺推理問題。例如,o3在MathVista(視覺數(shù)學(xué)推理)上準(zhǔn)確率達(dá)到86.8%,在CharXiv-Reasoning(科學(xué)圖表推理)上達(dá)到78.6%。


在演示中,OpenAI的Brandon McKenzie向o3展示了一張關(guān)于質(zhì)子等矢標(biāo)量荷的物理海報(bào),并要求它找到研究結(jié)果并與最新文獻(xiàn)對(duì)比,實(shí)際上該結(jié)果并未寫在海報(bào)上。o3準(zhǔn)確識(shí)別了相關(guān)圖表,推理出計(jì)算方法,并聯(lián)網(wǎng)查找最新估計(jì)值,指出原始數(shù)值需重整化才能與當(dāng)前研究對(duì)齊,展現(xiàn)了其理解圖像、推理及使用工具完成復(fù)雜科研任務(wù)的能力,節(jié)省了時(shí)間。

1

發(fā)布編程工具Codex CLI

伴隨著能力的飛躍,安全問題也得到了前所未有的重視。OpenAI表示,他們?yōu)閛3和o4-mini徹底重建了安全訓(xùn)練數(shù)據(jù)集,特別加強(qiáng)了在生物風(fēng)險(xiǎn)、惡意軟件生成、越獄企圖等敏感領(lǐng)域的拒絕能力。此外,還部署了系統(tǒng)級(jí)防護(hù),引入了一個(gè)基于人類可解釋規(guī)范訓(xùn)練的推理LLM監(jiān)控器,用于主動(dòng)標(biāo)記生物風(fēng)險(xiǎn)等前沿風(fēng)險(xiǎn)領(lǐng)域的危險(xiǎn)提示,據(jù)稱在內(nèi)部紅隊(duì)測(cè)試中成功標(biāo)記了約99%的相關(guān)對(duì)話。依據(jù)其最新的《準(zhǔn)備框架》(Preparedness Framework),經(jīng)過嚴(yán)格評(píng)估,o3和o4-mini在生物化學(xué)、網(wǎng)絡(luò)安全和AI自我改進(jìn)這三個(gè)關(guān)鍵風(fēng)險(xiǎn)領(lǐng)域的能力水平均被認(rèn)定低于“高”風(fēng)險(xiǎn)閾值。


為了進(jìn)一步賦能開發(fā)者社區(qū),OpenAI還推出了一個(gè)名為Codex CLI的實(shí)驗(yàn)性新工具。這是一個(gè)輕量級(jí)的編碼助手,可以直接在用戶的終端命令行運(yùn)行,旨在充分發(fā)揮o3、o4-mini等模型強(qiáng)大的推理能力,連接本地代碼環(huán)境,甚至支持處理截圖或草圖進(jìn)行多模態(tài)編程。Codex CLI已在GitHub上完全開源。

在直播演示中,OpenAI Agent研究團(tuán)隊(duì)成員Michael為了展示Codeex CLI的功能,截取了一張?jiān)?X上關(guān)于一個(gè)“圖像到 ASCII 風(fēng)格轉(zhuǎn)換”工具的推文截圖。他將這個(gè)截圖直接拖入終端,通過Codeex并利用o4-mini的多模態(tài)推理能力,最終成功創(chuàng)建了一個(gè)簡(jiǎn)單的ASCII風(fēng)格圖像轉(zhuǎn)換工具。


新的發(fā)布之后,行業(yè)內(nèi)的初步反響并非全然是掌聲。一些觀點(diǎn)仍然認(rèn)為這次發(fā)布更像是仍然是增量式進(jìn)步,雖然迭代速度更快了,但并未帶來顛覆性的飛躍或震撼性新功能,這或許反映了整個(gè)AI行業(yè)在激烈競(jìng)爭(zhēng)下面臨的巨大“快速交付”壓力。

同時(shí),開源社區(qū)中也存在一些失望的聲音,指出盡管模型能力日新月異,但OpenAI仍未推出真正強(qiáng)大的開源模型,這讓部分期待開放生態(tài)的開發(fā)者發(fā)出了“Wake me up when they release something open”(等他們發(fā)布開源模型再叫醒我)的調(diào)侃。


在發(fā)布的技術(shù)光環(huán)之外,市場(chǎng)層面的動(dòng)態(tài)也值得關(guān)注。發(fā)布會(huì)前后,彭博社和CNBC等媒體報(bào)道稱,OpenAI可能正就以高達(dá)30億美元收購(gòu)AI編程工具初創(chuàng)公司W(wǎng)indsurf(前身為Codeium)進(jìn)行談判。Windsurf的產(chǎn)品利用AI輔助開發(fā)者編寫、解釋代碼,其部分功能已集成OpenAI模型。若收購(gòu)屬實(shí),無疑將極大增強(qiáng)OpenAI在開發(fā)者工具和代碼生成領(lǐng)域的布局。


Windsurf在第一時(shí)間提供o4-mini的免費(fèi)體驗(yàn)

總體來看,OpenAI發(fā)布的o3和o4-mini,在Agentic能力和多模態(tài)深度融合方面繼續(xù)邁近,這不僅僅是模型變得更聰明了,更是朝著能夠真正理解并與我們復(fù)雜世界進(jìn)行交互的“通用智能體”的一步。從發(fā)布節(jié)奏來看,OpenAI的再次提速,留給競(jìng)爭(zhēng)對(duì)手和整個(gè)行業(yè)思考的時(shí)間,似乎又變少了。


點(diǎn)個(gè) “愛心”,再走吧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
福建一廳級(jí)干部履新

福建一廳級(jí)干部履新

閩商報(bào)
2025-05-04 10:33:58
楚鈴五一分享和賴文峰合照,五十多歲賴文峰依舊帥氣,溫文爾雅!

楚鈴五一分享和賴文峰合照,五十多歲賴文峰依舊帥氣,溫文爾雅!

觀察鑒娛
2025-05-03 11:32:48
陳坤兒子成年了!容貌驚現(xiàn)母親基因,網(wǎng)友:一眼就看出來了!

陳坤兒子成年了!容貌驚現(xiàn)母親基因,網(wǎng)友:一眼就看出來了!

新語愛八卦
2025-04-26 20:25:14
船掘首輪完結(jié),誕生4贏家2輸家,一人風(fēng)評(píng)拉升了,哈登窗口期關(guān)閉

船掘首輪完結(jié),誕生4贏家2輸家,一人風(fēng)評(píng)拉升了,哈登窗口期關(guān)閉

體壇大辣椒
2025-05-04 11:13:17
賴清德要倒大霉!特朗普一聲令下,美轟炸機(jī)出動(dòng),國(guó)防部嚴(yán)正回應(yīng)

賴清德要倒大霉!特朗普一聲令下,美轟炸機(jī)出動(dòng),國(guó)防部嚴(yán)正回應(yīng)

鐵血出鞘
2025-05-04 01:45:03
遵義人民醫(yī)院吳思翼醫(yī)生去世,年僅37歲,捐獻(xiàn)器官,妻女哭成淚人

遵義人民醫(yī)院吳思翼醫(yī)生去世,年僅37歲,捐獻(xiàn)器官,妻女哭成淚人

180°視角
2025-05-04 09:18:49
軍訓(xùn)前我爸千叮萬囑別透露身份,當(dāng)我被同學(xué)針對(duì)時(shí),他帶警衛(wèi)連出現(xiàn)

軍訓(xùn)前我爸千叮萬囑別透露身份,當(dāng)我被同學(xué)針對(duì)時(shí),他帶警衛(wèi)連出現(xiàn)

紅豆講堂
2025-05-03 08:30:09
新晉“奶爸”邁阿密奪桿!18歲梅奔小將又是前三!法拉利......你支棱起來啊!

新晉“奶爸”邁阿密奪桿!18歲梅奔小將又是前三!法拉利......你支棱起來啊!

五星體育
2025-05-04 10:39:27
官宣退出,顏駿凌發(fā)聲,官宣決定,上港計(jì)劃打亂,或無緣世預(yù)賽

官宣退出,顏駿凌發(fā)聲,官宣決定,上港計(jì)劃打亂,或無緣世預(yù)賽

樂聊球
2025-05-04 10:57:33
31球25助!拉菲尼亞追平內(nèi)馬爾在巴薩的單賽季參與進(jìn)球紀(jì)錄

31球25助!拉菲尼亞追平內(nèi)馬爾在巴薩的單賽季參與進(jìn)球紀(jì)錄

雷速體育
2025-05-04 09:12:26
西安一女老師莫名失蹤5年,17歲兒子僅憑一個(gè)夢(mèng)找到母親

西安一女老師莫名失蹤5年,17歲兒子僅憑一個(gè)夢(mèng)找到母親

蘭姐說故事
2025-04-19 05:00:04
浙江“胖都來”商場(chǎng)開業(yè),胖東來回應(yīng):已向?qū)Ψ洁]寄律師函!律師:涉嫌構(gòu)成商標(biāo)侵權(quán)及不正當(dāng)競(jìng)爭(zhēng)

浙江“胖都來”商場(chǎng)開業(yè),胖東來回應(yīng):已向?qū)Ψ洁]寄律師函!律師:涉嫌構(gòu)成商標(biāo)侵權(quán)及不正當(dāng)競(jìng)爭(zhēng)

每日經(jīng)濟(jì)新聞
2025-05-03 00:06:06
戰(zhàn)斗深夜打響!美航母被炸,以色列被炸,敘首都被炸,美俄英失聲

戰(zhàn)斗深夜打響!美航母被炸,以色列被炸,敘首都被炸,美俄英失聲

小宇宙雙色球
2025-05-03 15:05:39
特朗普剛剛宣布自己是教皇 稍早之前,他曾莫名其妙在社交媒體發(fā)感慨:教皇……我想當(dāng)教皇,那是我夢(mèng)寐以求的選擇

特朗普剛剛宣布自己是教皇 稍早之前,他曾莫名其妙在社交媒體發(fā)感慨:教皇……我想當(dāng)教皇,那是我夢(mèng)寐以求的選擇

新浪財(cái)經(jīng)
2025-05-03 13:38:07
每月給女兒大學(xué)生活費(fèi)5000,結(jié)果她瞞著我偷偷三年抱兩

每月給女兒大學(xué)生活費(fèi)5000,結(jié)果她瞞著我偷偷三年抱兩

風(fēng)月故事匯
2023-12-19 10:56:39
055B型驅(qū)逐艦確認(rèn),滿載排水量1.7萬噸,中國(guó)海軍這次玩真的!

055B型驅(qū)逐艦確認(rèn),滿載排水量1.7萬噸,中國(guó)海軍這次玩真的!

起喜電影
2025-05-04 10:28:02
六家上市公司凌晨發(fā)布重要公告(5月4日)

六家上市公司凌晨發(fā)布重要公告(5月4日)

風(fēng)風(fēng)順
2025-05-04 06:46:11
沒銷量都白扯!4月新勢(shì)力汽車銷量榜:零跑4.1萬輛,小米遠(yuǎn)超蔚來

沒銷量都白扯!4月新勢(shì)力汽車銷量榜:零跑4.1萬輛,小米遠(yuǎn)超蔚來

小鵬財(cái)經(jīng)
2025-05-02 10:12:03
全球關(guān)稅戰(zhàn)慘敗,特朗普提前引爆美債,美國(guó)遭遇二戰(zhàn)以來最大危機(jī)

全球關(guān)稅戰(zhàn)慘敗,特朗普提前引爆美債,美國(guó)遭遇二戰(zhàn)以來最大危機(jī)

胖福的小木屋
2025-05-04 00:00:27
0失誤奪冠+3連冠!陳芋汐登上熱搜榜第一,全紅嬋無緣全滿貫成就

0失誤奪冠+3連冠!陳芋汐登上熱搜榜第一,全紅嬋無緣全滿貫成就

侃球熊弟
2025-05-03 19:23:32
2025-05-04 12:40:49
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎(chǔ),歡迎來到這個(gè)星球。
2157文章數(shù) 10336關(guān)注度
往期回顧 全部

科技要聞

新勢(shì)力車企,誰領(lǐng)先?誰危險(xiǎn)?

頭條要聞

牛彈琴:武契奇被公開警告后突然發(fā)病 或不參加俄閱兵

頭條要聞

牛彈琴:武契奇被公開警告后突然發(fā)病 或不參加俄閱兵

體育要聞

北京請(qǐng)神馬布里?許利民真有“玄學(xué)”!

娛樂要聞

55歲王菲跟“李亞鵬時(shí)期”完全不同!

財(cái)經(jīng)要聞

一個(gè)時(shí)代的結(jié)束!巴菲特年底將卸任

汽車要聞

小米SU7大優(yōu)惠!5月限時(shí)購(gòu)車權(quán)益送輔助駕駛

態(tài)度原創(chuàng)

教育
親子
房產(chǎn)
公開課
軍事航空

教育要聞

抓住孩子的最近發(fā)展區(qū),有效提高行動(dòng)力

親子要聞

一個(gè)透氣能水洗、高度可調(diào)的「神奇枕頭」,很多人沒給娃用過

房產(chǎn)要聞

最強(qiáng)書包官宣落位!海口這個(gè)片區(qū),將徹底引爆!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

媒體:美俄兩場(chǎng)閱兵 都有新看頭

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 平山县| 青浦区| 偏关县| 南京市| 蒲城县| 抚顺县| 桓仁| 余干县| 商洛市| 湘西| 西盟| 澳门| 武乡县| 项城市| 新和县| 固原市| 谢通门县| 吴旗县| 措美县| 金沙县| 安龙县| 樟树市| 绥化市| 牙克石市| 三河市| 基隆市| 黑水县| 四川省| 成武县| 沾益县| 南阳市| 嘉荫县| 神农架林区| 平定县| 天气| 万州区| 万安县| 沁阳市| 日土县| 孝义市| 岑巩县|