本文授權(quán)轉(zhuǎn)自:數(shù)字生命卡茲克(ID:Rockhazix)
4月17日晚上1點(diǎn),OpenAI的直播如約而至。
其實(shí)在預(yù)告的時(shí)候,幾乎已經(jīng)等于明示了。
沒有廢話,發(fā)布的就是o3和o4-mini。
但是奧特曼這個(gè)老騙子,之前明明說o3不打算單獨(dú)發(fā)布要融到GPT-5里面一起發(fā),結(jié)果前天又發(fā)了。。。
ChatGPT Plus、Pro和Team用戶從前天開始將在模型選擇器中看到o3、o4-mini和o4-mini-high,取代o1、o3-mini和o3-mini-high。
我的已經(jīng)變了,但是我最想要的o3 pro,還要幾周才能提供,就很可惜,現(xiàn)在o1 pro被折疊到了更多模型里。
說實(shí)話純粹的模型參數(shù)的進(jìn)步,其實(shí)已經(jīng)沒啥可說的了,這次最讓我覺得最大的進(jìn)步點(diǎn),是兩個(gè):
1. 滿血版的o3終于可以使用工具了。
2.o3和o4-mini是o系列中最新的視覺推理模型,第一次能夠在思維鏈中思考圖像了。
照例,我一個(gè)一個(gè)來說,盡可能給大家一個(gè),非常全面完整的總結(jié)。
一.o3和o4-mini性能
其實(shí)沒有特別多的意思,就跟現(xiàn)在數(shù)碼圈一樣,刷新了XX分?jǐn)?shù)。
但是慣例,還是得放,而且坦白的講,那個(gè)級(jí)別的模型已經(jīng)不是我能觸達(dá)他們智力上限的了。
首先是模型知識(shí)這塊,我就一起放了。
這塊大概解釋一下,別看底下模型那么多,亂七八糟,各種變體。
但是從最早的o1到如今的o3和o4?mini,核心差別就在于模型規(guī)模、推理能力和插件工具的接入。
最開始的o1只是一個(gè)基礎(chǔ)的推理大模型,它在2024年AIME數(shù)學(xué)賽上只有 74.3%的準(zhǔn)確率,在代碼競賽上的表現(xiàn)也相對(duì)平平。
緊接著推出的o3?mini,雖然參數(shù)量更小,但 經(jīng)過架構(gòu)優(yōu)化 ,在 同一場 AIME上就跑出了87.3%的楓樹,Codeforces的ELO也從1891提升到 2073 。
而完整版的o3,其實(shí)是比o3?mini更大的大兄弟,o3其實(shí)最明顯的變化就是能接入工具了。
比如在AIME2024里,o3跑裸模沒接工具時(shí)能達(dá)到91.6%,一旦允許它調(diào)用Python,準(zhǔn)確率就飆到95.2%。
同理,o4?mini相當(dāng)于小一號(hào)的o4,經(jīng)過更先進(jìn)的架構(gòu)優(yōu)化,在不開工具的情況下就能拿到93.4%,接入Python后則沖到98.7%,已經(jīng)快干到滿分了。
如果把視野放寬到跨學(xué)科的PhD級(jí)科學(xué)題(GPQA Diamond)和專家級(jí)綜合測試(Humanity’s Last Exam),無需額外工具時(shí),o3在科學(xué)題上能以 83.3%稍微領(lǐng)先于o4?mini的81.4%。
而面對(duì)專家綜合考題,不帶插件的o3準(zhǔn)確率約為20.3%,添上Python、網(wǎng)絡(luò)瀏覽甚至調(diào)用多種工具后能推到24.9%。
相比之下,o4?mini從14.3%起步,借助插件也只能漲到 17.7%,仍不及 o3。
最有趣的是,DeepResearch在這個(gè)專家綜合測試上,力壓群雄,但是也能理解,畢竟人本身就是一個(gè)基于o3微調(diào)的專門干這活的模型。。。
多模態(tài)能力這塊。
三個(gè)數(shù)據(jù)集。
MMMU:大學(xué)水平的視覺數(shù)學(xué)題庫,題目里既有公式也有圖形,考察模型把圖像和數(shù)學(xué)符號(hào)結(jié)合起來解題的能力。
MathVista:專注視覺數(shù)學(xué)推理,題目多來源于幾何圖形、函數(shù)曲線、矩陣變換等圖像,讓模型從畫面里看出數(shù)學(xué)規(guī)律。
CharXiv?Reasoning:從科學(xué)論文(ArXiv)里抽取圖表、流程圖和示意圖,要求模型根據(jù)科研圖形回答問題,考驗(yàn)它的專業(yè)圖表理解能力。
o1在大學(xué)級(jí)別的MMMU數(shù)據(jù)集上只能拿到77.6%,面對(duì)直觀的MathVista 只有71.8%,CharXiv-Reasoning更是跪在55.1%的及格邊緣。
o3一上來就把MMMU拉到82.9%,MathVista直接沖到87.5%,CharXiv-Reasoning也飆到75.4%。
這次是正二八經(jīng)地把視覺推理任務(wù)推到了一個(gè)新高度。
代碼能力這塊。
SWE?Lancer:IC SWE Diamond上真實(shí)的自由職業(yè)軟件工程任務(wù),模型以“高獎(jiǎng)勵(lì)”模式接單,看看最后能拿到的收益是多少錢。
所有模型都直接上了high模式。o3直接掙起飛了。
SWE?Bench Verified:一個(gè)經(jīng)人工標(biāo)注驗(yàn)證的軟件工程題庫,包括常見算法、系統(tǒng)設(shè)計(jì)、API 調(diào)用等,o3和o4-mini同樣遙遙領(lǐng)先。
Aider Polyglot Code Editing:多語言代碼編輯基準(zhǔn),分“whole”(整體重寫)和“diff”(補(bǔ)丁式修改)兩類。
o3還是強(qiáng)的,o4mini反而比o3mini還差了點(diǎn)。
工具使用這塊。
左邊那個(gè)Scale MultuChallenge,多輪指令跟隨,是一套用來測記性+執(zhí)行力的題。
評(píng)測流程一般是:系統(tǒng)給模型一段設(shè)定,隨后用戶分好幾輪追加、修改、插入條件,最后再要求一次性產(chǎn)出答案,模型既要把之前的上下文全部保住,又得正確理解最新指令,才能拿高分。o3突出一些。
中間那個(gè)BrowseComp Agentic Browsing,就是瀏覽器里干活的能力。題目會(huì)給模型接入一個(gè)虛擬瀏覽器,要求它自己去搜索、點(diǎn)擊、翻頁、在網(wǎng)頁里抓信息,再整合成回答。
常規(guī)的AI搜索就是4o+聯(lián)網(wǎng)的能力,低的有點(diǎn)可憐,o3加了Python和聯(lián)網(wǎng)之后,居然快能追上DeepReasearch,這是讓我有點(diǎn)沒想到的。
最右邊那個(gè)叫Tau-bench函數(shù)調(diào)用。它把模型放進(jìn)有外部API可調(diào)用的場景里,看模型能否判斷何時(shí)該把自然語言請(qǐng)求轉(zhuǎn)成結(jié)構(gòu)化函數(shù)調(diào)用,并把參數(shù)拼得毫無差錯(cuò)。常見兩條賽道:
Airline,比如就是根據(jù)乘客需求,生成正確的航班預(yù)訂JSON。
Retail,比如就是?根據(jù)購物指令,調(diào)用商品查詢或下單接口。
如果模型選錯(cuò)函數(shù)、漏填參數(shù)、或者格式寫歪,都會(huì)直接扣分,所以這項(xiàng)測驗(yàn)主要檢驗(yàn)?zāi)P偷囊鈭D解析到結(jié)構(gòu)化輸出鏈路是否穩(wěn)固。
這塊,居然o3相比o1,幾乎沒有任何提升。
然后我在翻System卡的時(shí)候,還發(fā)現(xiàn)一個(gè)有趣的數(shù)據(jù)。
第一個(gè)指標(biāo)是準(zhǔn)確率,越高越好,第二個(gè)是幻覺率,越低越好。
o3因?yàn)樵谡w上,更敢下定論了,所以不會(huì)含糊其辭,也就是更準(zhǔn)確了,但是幻覺率也飆升,直接干到了o1的兩倍。。。
以上,就是o3和o4-mini的性能參數(shù)。
定價(jià)上。
o3比o1的定價(jià)便宜了三分之一,o4-mini相比o3-mini沒漲價(jià)。
OpenAI終于干了回人事。。。
二.使用工具以及視覺推理
o1和o1 pro我之前有個(gè)巨大的痛點(diǎn),就是這玩意不能使用工具,聯(lián)網(wǎng)、代碼解釋器啥的,一個(gè)都不行。
然后只支持識(shí)圖,連PDF文件,都傳不上去,太傻了。
而這一次,o3和o4-mini直接拉滿,不僅支持了OpenAI的所有工具,甚至還有了一個(gè)超級(jí)牛逼的新特性。
視覺推理。
單聽這個(gè)很難理解,我直接給你們,看兩個(gè)例子。
第一個(gè),是一個(gè)非常經(jīng)典的游戲,就是看圖猜地點(diǎn),但是不是那種沒啥難度的,城市題,說實(shí)話,有建筑,太好猜了。
我們直接進(jìn)一個(gè)專門玩這個(gè)的網(wǎng)站,叫圖尋,參加每日挑戰(zhàn)。
我的第一題,就是這個(gè)。
對(duì),就這么個(gè)東西,讓你猜這是中國的哪,在右下角的地圖上打標(biāo),離終點(diǎn)越近,分越高。
我直接把這個(gè)扔給了o3,我們來看看,他的思考過程。
非常離譜的,自己去看圖,把圖片放大,一點(diǎn)一點(diǎn)思考,這個(gè)地方不對(duì),哎換個(gè)地方我再放大看看。
以前模型的思維鏈,只有文字,而這次,這是大模型第一次,真正的把圖片,也融入到了推理中。
我們?cè)倩剡^頭來看看,剛才那道猜地題,它給出的答案。
雖然沒有那么肯定,但是也給出了答案,北京門頭溝、房山,109國道,妙峰山那一段。
我們來揭曉答案。
可能有些人對(duì)這個(gè)地點(diǎn)不熟悉,這個(gè)地方,叫北京,門頭溝,109國道,妙峰山。
那一刻,我真的有點(diǎn)起雞皮疙瘩了。
因?yàn)槟銜?huì)發(fā)現(xiàn),AI開始像人一樣去看圖、像人一樣去思考了。
以前你說AI懂圖,懂什么?懂像素?懂特征?是的,它會(huì)提特征、會(huì)分類、會(huì)打標(biāo)簽,但它并不看圖思考。
它是一個(gè)圖像識(shí)別器,但不是一個(gè)圖像思考者。
而今天,o3,是第一次讓模型學(xué)會(huì)了看圖思考,學(xué)會(huì)了視覺推理。
這個(gè)變化,堪稱范式級(jí)別的躍遷。
我們甚至可以,把一個(gè)事件的圖片發(fā)給他,讓他來尋找,這是哪一天發(fā)生的事件。
還有一個(gè)很有趣的例子,雖然不算成功,但是我還是想分享給你看。
前天,《流浪地球3》正式開機(jī)了,官方也發(fā)了一張大合照。
也官宣了沈騰的加入。
然后,我試圖,讓o3,在里面找到吳京。。。
第一次,失敗了。
因?yàn)槟翘焯珪瘢瑓蔷┖蜕蝌v都帶了帽子,幾乎就無法靠臉識(shí)別了。
于是,我又去找了一張圖。
這一次,他成功了,當(dāng)然,靠的是找帽子。
這個(gè)case,可以完整的展現(xiàn)出,o3的能力,包括在中間各種放大查看細(xì)節(jié),跟python結(jié)合進(jìn)行分析以及加紅框等等。
視覺推理讓AI具備了第一種專業(yè)場景下的觀察力。
而視覺推理這個(gè)能力的普及,意味著很多原本需要人眼判斷的崗位,會(huì)被徹底改寫。
安全監(jiān)控不再是看到異常才報(bào)警,而是看到將要發(fā)生異常就提前預(yù)判。
設(shè)計(jì)審稿不再是人力盯圖,而是AI先過一遍排版,再交給人來最后決策。
醫(yī)生看片子,也不再只是看片,而是由AI先提出幾個(gè)可能的診斷路徑和可能遺漏點(diǎn),再輔助手術(shù)或治療。
這就像,當(dāng)年推理模型對(duì)非推理模型的沖擊。
而現(xiàn)在,又一次上演。
除了o3和o4-mini之外,OpenAI這次,還開源了一個(gè)AI編程工具。
開源地址在此:https://github.com/openai/codex
有興趣的可以去試試。
這一次,看到OpenAI掏出來的模型。
我忽然想起很多年前,人類第一次拍到地球全貌時(shí)的震撼。
一顆藍(lán)色的球,懸在黑色的宇宙中。
那張圖,改變了很多人的世界觀。
而今天,當(dāng)AI第一次看懂圖、思考圖、把圖當(dāng)做世界的一部分去推理。
我們或許,也站在了某種第一次的起點(diǎn)。
它會(huì)改變什么?
我現(xiàn)在,還不知道。
但是一定會(huì)有所改變的。
我堅(jiān)信。
在科技浪潮奔涌向前的當(dāng)下,人工智能正深刻重塑我們的生活與工作。人機(jī)之間的關(guān)系,也從簡單交互邁向深度協(xié)作。想知道如何在這一趨勢下把握體驗(yàn)設(shè)計(jì)的新方向嗎?2025 年 10 月將在北京舉辦的 IXDC 國際體驗(yàn)設(shè)計(jì)大會(huì)聚焦 “人機(jī)共生:人工智能時(shí)代人機(jī)協(xié)作新范式”,作為全球領(lǐng)先的用戶體驗(yàn)創(chuàng)新盛會(huì),它將匯聚前沿理念與實(shí)踐。一起來關(guān)注這場盛會(huì),探索人機(jī)協(xié)作的無限可能。
文章轉(zhuǎn)載:數(shù)字生命卡茲克,版權(quán)歸原作者所有
原文鏈接:https://mp.weixin.qq.com/s/M_1il2a66B7v2rysDJ6-zA?scene=1
版權(quán)聲明:“IXDC”所推送的文章,除非確實(shí)無法確認(rèn),我們都會(huì)注明作者和來源,本公眾號(hào)對(duì)轉(zhuǎn)載、分享的內(nèi)容、陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完善性提供任何明或暗示的保證,僅供讀者參考。部分文章推送時(shí)未能與原作者取得聯(lián)系,若涉及內(nèi)容或作品等版權(quán)問題,煩請(qǐng)?jiān)髡呗?lián)系我們,給出內(nèi)容所在的網(wǎng)址并提供相關(guān)證明資料,我們會(huì)核查后立即更正或者刪除有關(guān)內(nèi)容!本公眾號(hào)不承擔(dān)任何責(zé)任,并擁有對(duì)此聲明的最終解釋權(quán)。
聯(lián)系微信:18802086168
聯(lián)系電話:18802086168
編排 | 黃春燕
終審 | 蘇 菁
點(diǎn)這里,學(xué)習(xí)更多設(shè)計(jì)知識(shí)!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.