網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

OpenAI全新o3滿血版與o4 mini震撼上線：設(shè)計(jì)體驗(yàn)引領(lǐng)潮流！

2025-04-19 08:37:35　來源: 美啊教育

廣東舉報(bào)

分享至

本文授權(quán)轉(zhuǎn)自：數(shù)字生命卡茲克（ID：Rockhazix）

4月17日晚上1點(diǎn)，OpenAI的直播如約而至。

其實(shí)在預(yù)告的時(shí)候，幾乎已經(jīng)等于明示了。

沒有廢話，發(fā)布的就是o3和o4-mini。

但是奧特曼這個(gè)老騙子，之前明明說o3不打算單獨(dú)發(fā)布要融到GPT-5里面一起發(fā)，結(jié)果前天又發(fā)了。。。

ChatGPT Plus、Pro和Team用戶從前天開始將在模型選擇器中看到o3、o4-mini和o4-mini-high，取代o1、o3-mini和o3-mini-high。

我的已經(jīng)變了，但是我最想要的o3 pro，還要幾周才能提供，就很可惜，現(xiàn)在o1 pro被折疊到了更多模型里。

說實(shí)話純粹的模型參數(shù)的進(jìn)步，其實(shí)已經(jīng)沒啥可說的了，這次最讓我覺得最大的進(jìn)步點(diǎn)，是兩個(gè)：

1. 滿血版的o3終于可以使用工具了。

2.o3和o4-mini是o系列中最新的視覺推理模型，第一次能夠在思維鏈中思考圖像了。

照例，我一個(gè)一個(gè)來說，盡可能給大家一個(gè)，非常全面完整的總結(jié)。

一.o3和o4-mini性能

其實(shí)沒有特別多的意思，就跟現(xiàn)在數(shù)碼圈一樣，刷新了XX分?jǐn)?shù)。

但是慣例，還是得放，而且坦白的講，那個(gè)級(jí)別的模型已經(jīng)不是我能觸達(dá)他們智力上限的了。

首先是模型知識(shí)這塊，我就一起放了。

這塊大概解釋一下，別看底下模型那么多，亂七八糟，各種變體。

但是從最早的o1到如今的o3和o4?mini，核心差別就在于模型規(guī)模、推理能力和插件工具的接入。

最開始的o1只是一個(gè)基礎(chǔ)的推理大模型，它在2024年AIME數(shù)學(xué)賽上只有 74.3%的準(zhǔn)確率，在代碼競賽上的表現(xiàn)也相對(duì)平平。

緊接著推出的o3?mini，雖然參數(shù)量更小，但經(jīng)過架構(gòu)優(yōu)化，在同一場 AIME上就跑出了87.3%的楓樹，Codeforces的ELO也從1891提升到 2073 。

而完整版的o3，其實(shí)是比o3?mini更大的大兄弟，o3其實(shí)最明顯的變化就是能接入工具了。

比如在AIME2024里，o3跑裸模沒接工具時(shí)能達(dá)到91.6%，一旦允許它調(diào)用Python，準(zhǔn)確率就飆到95.2%。

同理，o4?mini相當(dāng)于小一號(hào)的o4，經(jīng)過更先進(jìn)的架構(gòu)優(yōu)化，在不開工具的情況下就能拿到93.4%，接入Python后則沖到98.7%，已經(jīng)快干到滿分了。

如果把視野放寬到跨學(xué)科的PhD級(jí)科學(xué)題（GPQA Diamond）和專家級(jí)綜合測試（Humanity’s Last Exam），無需額外工具時(shí)，o3在科學(xué)題上能以 83.3%稍微領(lǐng)先于o4?mini的81.4%。

而面對(duì)專家綜合考題，不帶插件的o3準(zhǔn)確率約為20.3%，添上Python、網(wǎng)絡(luò)瀏覽甚至調(diào)用多種工具后能推到24.9%。

相比之下，o4?mini從14.3%起步，借助插件也只能漲到 17.7%，仍不及 o3。

最有趣的是，DeepResearch在這個(gè)專家綜合測試上，力壓群雄，但是也能理解，畢竟人本身就是一個(gè)基于o3微調(diào)的專門干這活的模型。。。

多模態(tài)能力這塊。

三個(gè)數(shù)據(jù)集。

MMMU：大學(xué)水平的視覺數(shù)學(xué)題庫，題目里既有公式也有圖形，考察模型把圖像和數(shù)學(xué)符號(hào)結(jié)合起來解題的能力。

MathVista：專注視覺數(shù)學(xué)推理，題目多來源于幾何圖形、函數(shù)曲線、矩陣變換等圖像，讓模型從畫面里看出數(shù)學(xué)規(guī)律。

CharXiv?Reasoning：從科學(xué)論文（ArXiv）里抽取圖表、流程圖和示意圖，要求模型根據(jù)科研圖形回答問題，考驗(yàn)它的專業(yè)圖表理解能力。

o1在大學(xué)級(jí)別的MMMU數(shù)據(jù)集上只能拿到77.6%，面對(duì)直觀的MathVista 只有71.8%，CharXiv-Reasoning更是跪在55.1%的及格邊緣。

o3一上來就把MMMU拉到82.9%，MathVista直接沖到87.5%，CharXiv-Reasoning也飆到75.4%。

這次是正二八經(jīng)地把視覺推理任務(wù)推到了一個(gè)新高度。

代碼能力這塊。

SWE?Lancer：IC SWE Diamond上真實(shí)的自由職業(yè)軟件工程任務(wù)，模型以“高獎(jiǎng)勵(lì)”模式接單，看看最后能拿到的收益是多少錢。

所有模型都直接上了high模式。o3直接掙起飛了。

SWE?Bench Verified：一個(gè)經(jīng)人工標(biāo)注驗(yàn)證的軟件工程題庫，包括常見算法、系統(tǒng)設(shè)計(jì)、API 調(diào)用等，o3和o4-mini同樣遙遙領(lǐng)先。

Aider Polyglot Code Editing：多語言代碼編輯基準(zhǔn)，分“whole”（整體重寫）和“diff”（補(bǔ)丁式修改）兩類。

o3還是強(qiáng)的，o4mini反而比o3mini還差了點(diǎn)。

工具使用這塊。

左邊那個(gè)Scale MultuChallenge，多輪指令跟隨，是一套用來測記性＋執(zhí)行力的題。

評(píng)測流程一般是：系統(tǒng)給模型一段設(shè)定，隨后用戶分好幾輪追加、修改、插入條件，最后再要求一次性產(chǎn)出答案，模型既要把之前的上下文全部保住，又得正確理解最新指令，才能拿高分。o3突出一些。

中間那個(gè)BrowseComp Agentic Browsing，就是瀏覽器里干活的能力。題目會(huì)給模型接入一個(gè)虛擬瀏覽器，要求它自己去搜索、點(diǎn)擊、翻頁、在網(wǎng)頁里抓信息，再整合成回答。

常規(guī)的AI搜索就是4o+聯(lián)網(wǎng)的能力，低的有點(diǎn)可憐，o3加了Python和聯(lián)網(wǎng)之后，居然快能追上DeepReasearch，這是讓我有點(diǎn)沒想到的。

最右邊那個(gè)叫Tau-bench函數(shù)調(diào)用。它把模型放進(jìn)有外部API可調(diào)用的場景里，看模型能否判斷何時(shí)該把自然語言請(qǐng)求轉(zhuǎn)成結(jié)構(gòu)化函數(shù)調(diào)用，并把參數(shù)拼得毫無差錯(cuò)。常見兩條賽道：

Airline，比如就是根據(jù)乘客需求，生成正確的航班預(yù)訂JSON。

Retail，比如就是?根據(jù)購物指令，調(diào)用商品查詢或下單接口。

如果模型選錯(cuò)函數(shù)、漏填參數(shù)、或者格式寫歪，都會(huì)直接扣分，所以這項(xiàng)測驗(yàn)主要檢驗(yàn)?zāi)Ｐ偷囊鈭D解析到結(jié)構(gòu)化輸出鏈路是否穩(wěn)固。

這塊，居然o3相比o1，幾乎沒有任何提升。

然后我在翻System卡的時(shí)候，還發(fā)現(xiàn)一個(gè)有趣的數(shù)據(jù)。

第一個(gè)指標(biāo)是準(zhǔn)確率，越高越好，第二個(gè)是幻覺率，越低越好。

o3因?yàn)樵谡w上，更敢下定論了，所以不會(huì)含糊其辭，也就是更準(zhǔn)確了，但是幻覺率也飆升，直接干到了o1的兩倍。。。

以上，就是o3和o4-mini的性能參數(shù)。

定價(jià)上。

o3比o1的定價(jià)便宜了三分之一，o4-mini相比o3-mini沒漲價(jià)。

OpenAI終于干了回人事。。。

二.使用工具以及視覺推理

o1和o1 pro我之前有個(gè)巨大的痛點(diǎn)，就是這玩意不能使用工具，聯(lián)網(wǎng)、代碼解釋器啥的，一個(gè)都不行。

然后只支持識(shí)圖，連PDF文件，都傳不上去，太傻了。

而這一次，o3和o4-mini直接拉滿，不僅支持了OpenAI的所有工具，甚至還有了一個(gè)超級(jí)牛逼的新特性。

視覺推理。

單聽這個(gè)很難理解，我直接給你們，看兩個(gè)例子。

第一個(gè)，是一個(gè)非常經(jīng)典的游戲，就是看圖猜地點(diǎn)，但是不是那種沒啥難度的，城市題，說實(shí)話，有建筑，太好猜了。

我們直接進(jìn)一個(gè)專門玩這個(gè)的網(wǎng)站，叫圖尋，參加每日挑戰(zhàn)。

我的第一題，就是這個(gè)。

對(duì)，就這么個(gè)東西，讓你猜這是中國的哪，在右下角的地圖上打標(biāo)，離終點(diǎn)越近，分越高。

我直接把這個(gè)扔給了o3，我們來看看，他的思考過程。

非常離譜的，自己去看圖，把圖片放大，一點(diǎn)一點(diǎn)思考，這個(gè)地方不對(duì)，哎換個(gè)地方我再放大看看。

以前模型的思維鏈，只有文字，而這次，這是大模型第一次，真正的把圖片，也融入到了推理中。

我們?cè)倩剡^頭來看看，剛才那道猜地題，它給出的答案。

雖然沒有那么肯定，但是也給出了答案，北京門頭溝、房山，109國道，妙峰山那一段。

我們來揭曉答案。

可能有些人對(duì)這個(gè)地點(diǎn)不熟悉，這個(gè)地方，叫北京，門頭溝，109國道，妙峰山。

那一刻，我真的有點(diǎn)起雞皮疙瘩了。

因?yàn)槟銜?huì)發(fā)現(xiàn)，AI開始像人一樣去看圖、像人一樣去思考了。

以前你說AI懂圖，懂什么？懂像素？懂特征？是的，它會(huì)提特征、會(huì)分類、會(huì)打標(biāo)簽，但它并不看圖思考。

它是一個(gè)圖像識(shí)別器，但不是一個(gè)圖像思考者。

而今天，o3，是第一次讓模型學(xué)會(huì)了看圖思考，學(xué)會(huì)了視覺推理。

這個(gè)變化，堪稱范式級(jí)別的躍遷。

我們甚至可以，把一個(gè)事件的圖片發(fā)給他，讓他來尋找，這是哪一天發(fā)生的事件。

還有一個(gè)很有趣的例子，雖然不算成功，但是我還是想分享給你看。

前天，《流浪地球3》正式開機(jī)了，官方也發(fā)了一張大合照。

也官宣了沈騰的加入。

然后，我試圖，讓o3，在里面找到吳京。。。

第一次，失敗了。

因?yàn)槟翘焯珪瘢瑓蔷┖蜕蝌v都帶了帽子，幾乎就無法靠臉識(shí)別了。

于是，我又去找了一張圖。

這一次，他成功了，當(dāng)然，靠的是找帽子。

這個(gè)case，可以完整的展現(xiàn)出，o3的能力，包括在中間各種放大查看細(xì)節(jié)，跟python結(jié)合進(jìn)行分析以及加紅框等等。

視覺推理讓AI具備了第一種專業(yè)場景下的觀察力。

而視覺推理這個(gè)能力的普及，意味著很多原本需要人眼判斷的崗位，會(huì)被徹底改寫。

安全監(jiān)控不再是看到異常才報(bào)警，而是看到將要發(fā)生異常就提前預(yù)判。

設(shè)計(jì)審稿不再是人力盯圖，而是AI先過一遍排版，再交給人來最后決策。

醫(yī)生看片子，也不再只是看片，而是由AI先提出幾個(gè)可能的診斷路徑和可能遺漏點(diǎn)，再輔助手術(shù)或治療。

這就像，當(dāng)年推理模型對(duì)非推理模型的沖擊。

而現(xiàn)在，又一次上演。

除了o3和o4-mini之外，OpenAI這次，還開源了一個(gè)AI編程工具。

開源地址在此：https://github.com/openai/codex

有興趣的可以去試試。

這一次，看到OpenAI掏出來的模型。

我忽然想起很多年前，人類第一次拍到地球全貌時(shí)的震撼。

一顆藍(lán)色的球，懸在黑色的宇宙中。

那張圖，改變了很多人的世界觀。

而今天，當(dāng)AI第一次看懂圖、思考圖、把圖當(dāng)做世界的一部分去推理。

我們或許，也站在了某種第一次的起點(diǎn)。

它會(huì)改變什么？

我現(xiàn)在，還不知道。

但是一定會(huì)有所改變的。

我堅(jiān)信。

在科技浪潮奔涌向前的當(dāng)下，人工智能正深刻重塑我們的生活與工作。人機(jī)之間的關(guān)系，也從簡單交互邁向深度協(xié)作。想知道如何在這一趨勢下把握體驗(yàn)設(shè)計(jì)的新方向嗎？2025 年 10 月將在北京舉辦的 IXDC 國際體驗(yàn)設(shè)計(jì)大會(huì)聚焦 “人機(jī)共生：人工智能時(shí)代人機(jī)協(xié)作新范式”，作為全球領(lǐng)先的用戶體驗(yàn)創(chuàng)新盛會(huì)，它將匯聚前沿理念與實(shí)踐。一起來關(guān)注這場盛會(huì)，探索人機(jī)協(xié)作的無限可能。

文章轉(zhuǎn)載：數(shù)字生命卡茲克，版權(quán)歸原作者所有

原文鏈接：https://mp.weixin.qq.com/s/M_1il2a66B7v2rysDJ6-zA?scene=1

版權(quán)聲明：“IXDC”所推送的文章，除非確實(shí)無法確認(rèn)，我們都會(huì)注明作者和來源，本公眾號(hào)對(duì)轉(zhuǎn)載、分享的內(nèi)容、陳述、觀點(diǎn)判斷保持中立，不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完善性提供任何明或暗示的保證，僅供讀者參考。部分文章推送時(shí)未能與原作者取得聯(lián)系，若涉及內(nèi)容或作品等版權(quán)問題，煩請(qǐng)?jiān)髡呗?lián)系我們，給出內(nèi)容所在的網(wǎng)址并提供相關(guān)證明資料，我們會(huì)核查后立即更正或者刪除有關(guān)內(nèi)容！本公眾號(hào)不承擔(dān)任何責(zé)任，并擁有對(duì)此聲明的最終解釋權(quán)。

聯(lián)系微信：18802086168

聯(lián)系電話：18802086168

編排 | 黃春燕

終審 | 蘇菁

點(diǎn)這里，學(xué)習(xí)更多設(shè)計(jì)知識(shí)！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.