99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenAI全新o3滿血版與o4 mini震撼上線:設(shè)計(jì)體驗(yàn)引領(lǐng)潮流!

0
分享至


本文授權(quán)轉(zhuǎn)自:數(shù)字生命卡茲克(ID:Rockhazix)

4月17日晚上1點(diǎn),OpenAI的直播如約而至。

其實(shí)在預(yù)告的時(shí)候,幾乎已經(jīng)等于明示了。


沒有廢話,發(fā)布的就是o3和o4-mini

但是奧特曼這個(gè)老騙子,之前明明說o3不打算單獨(dú)發(fā)布要融到GPT-5里面一起發(fā),結(jié)果前天又發(fā)了。。。

ChatGPT Plus、Pro和Team用戶從前天開始將在模型選擇器中看到o3、o4-mini和o4-mini-high,取代o1、o3-mini和o3-mini-high。


我的已經(jīng)變了,但是我最想要的o3 pro,還要幾周才能提供,就很可惜,現(xiàn)在o1 pro被折疊到了更多模型里。

說實(shí)話純粹的模型參數(shù)的進(jìn)步,其實(shí)已經(jīng)沒啥可說的了,這次最讓我覺得最大的進(jìn)步點(diǎn),是兩個(gè):

1. 滿血版的o3終于可以使用工具了。

2.o3和o4-mini是o系列中最新的視覺推理模型,第一次能夠在思維鏈中思考圖像了。

照例,我一個(gè)一個(gè)來說,盡可能給大家一個(gè),非常全面完整的總結(jié)。

一.o3和o4-mini性能

其實(shí)沒有特別多的意思,就跟現(xiàn)在數(shù)碼圈一樣,刷新了XX分?jǐn)?shù)。

但是慣例,還是得放,而且坦白的講,那個(gè)級(jí)別的模型已經(jīng)不是我能觸達(dá)他們智力上限的了。

首先是模型知識(shí)這塊,我就一起放了


這塊大概解釋一下,別看底下模型那么多,亂七八糟,各種變體。

但是從最早的o1到如今的o3和o4?mini,核心差別就在于模型規(guī)模、推理能力和插件工具的接入。

最開始的o1只是一個(gè)基礎(chǔ)的推理大模型,它在2024年AIME數(shù)學(xué)賽上只有 74.3%的準(zhǔn)確率,在代碼競賽上的表現(xiàn)也相對(duì)平平。

緊接著推出的o3?mini,雖然參數(shù)量更小,但 經(jīng)過架構(gòu)優(yōu)化 ,在 同一場 AIME上就跑出了87.3%的楓樹,Codeforces的ELO也從1891提升到 2073 。

而完整版的o3,其實(shí)是比o3?mini更大的大兄弟,o3其實(shí)最明顯的變化就是能接入工具了。

比如在AIME2024里,o3跑裸模沒接工具時(shí)能達(dá)到91.6%,一旦允許它調(diào)用Python,準(zhǔn)確率就飆到95.2%。

同理,o4?mini相當(dāng)于小一號(hào)的o4,經(jīng)過更先進(jìn)的架構(gòu)優(yōu)化,在不開工具的情況下就能拿到93.4%,接入Python后則沖到98.7%,已經(jīng)快干到滿分了。

如果把視野放寬到跨學(xué)科的PhD級(jí)科學(xué)題(GPQA Diamond)和專家級(jí)綜合測試(Humanity’s Last Exam),無需額外工具時(shí),o3在科學(xué)題上能以 83.3%稍微領(lǐng)先于o4?mini的81.4%

而面對(duì)專家綜合考題,不帶插件的o3準(zhǔn)確率約為20.3%,添上Python、網(wǎng)絡(luò)瀏覽甚至調(diào)用多種工具后能推到24.9%。

相比之下,o4?mini從14.3%起步,借助插件也只能漲到 17.7%,仍不及 o3。

最有趣的是,DeepResearch在這個(gè)專家綜合測試上,力壓群雄,但是也能理解,畢竟人本身就是一個(gè)基于o3微調(diào)的專門干這活的模型。。。

多模態(tài)能力這塊。


三個(gè)數(shù)據(jù)集。

MMMU:大學(xué)水平的視覺數(shù)學(xué)題庫,題目里既有公式也有圖形,考察模型把圖像和數(shù)學(xué)符號(hào)結(jié)合起來解題的能力。

MathVista:專注視覺數(shù)學(xué)推理,題目多來源于幾何圖形、函數(shù)曲線、矩陣變換等圖像,讓模型從畫面里看出數(shù)學(xué)規(guī)律。

CharXiv?Reasoning:從科學(xué)論文(ArXiv)里抽取圖表、流程圖和示意圖,要求模型根據(jù)科研圖形回答問題,考驗(yàn)它的專業(yè)圖表理解能力。

o1在大學(xué)級(jí)別的MMMU數(shù)據(jù)集上只能拿到77.6%,面對(duì)直觀的MathVista 只有71.8%,CharXiv-Reasoning更是跪在55.1%的及格邊緣。

o3一上來就把MMMU拉到82.9%,MathVista直接沖到87.5%,CharXiv-Reasoning也飆到75.4%。

這次是正二八經(jīng)地把視覺推理任務(wù)推到了一個(gè)新高度。

代碼能力這塊。


SWE?Lancer:IC SWE Diamond上真實(shí)的自由職業(yè)軟件工程任務(wù),模型以“高獎(jiǎng)勵(lì)”模式接單,看看最后能拿到的收益是多少錢。

所有模型都直接上了high模式。o3直接掙起飛了。

SWE?Bench Verified一個(gè)經(jīng)人工標(biāo)注驗(yàn)證的軟件工程題庫,包括常見算法、系統(tǒng)設(shè)計(jì)、API 調(diào)用等,o3和o4-mini同樣遙遙領(lǐng)先。

Aider Polyglot Code Editing多語言代碼編輯基準(zhǔn),分“whole”(整體重寫)和“diff”(補(bǔ)丁式修改)兩類。

o3還是強(qiáng)的,o4mini反而比o3mini還差了點(diǎn)。

工具使用這塊。


左邊那個(gè)Scale MultuChallenge,多輪指令跟隨,是一套用來測記性+執(zhí)行力的題。

評(píng)測流程一般是:系統(tǒng)給模型一段設(shè)定,隨后用戶分好幾輪追加、修改、插入條件,最后再要求一次性產(chǎn)出答案模型既要把之前的上下文全部保住,又得正確理解最新指令,才能拿高分。o3突出一些。

中間那個(gè)BrowseComp Agentic Browsing,就是瀏覽器里干活的能力。題目會(huì)給模型接入一個(gè)虛擬瀏覽器,要求它自己去搜索、點(diǎn)擊、翻頁、在網(wǎng)頁里抓信息,再整合成回答。

常規(guī)的AI搜索就是4o+聯(lián)網(wǎng)的能力,低的有點(diǎn)可憐,o3加了Python和聯(lián)網(wǎng)之后,居然快能追上DeepReasearch,這是讓我有點(diǎn)沒想到的。

最右邊那個(gè)叫Tau-bench函數(shù)調(diào)用。它把模型放進(jìn)有外部API可調(diào)用的場景里,看模型能否判斷何時(shí)該把自然語言請(qǐng)求轉(zhuǎn)成結(jié)構(gòu)化函數(shù)調(diào)用,并把參數(shù)拼得毫無差錯(cuò)。常見兩條賽道:

Airline,比如就是根據(jù)乘客需求,生成正確的航班預(yù)訂JSON。

Retail,比如就是?根據(jù)購物指令,調(diào)用商品查詢或下單接口。

如果模型選錯(cuò)函數(shù)、漏填參數(shù)、或者格式寫歪,都會(huì)直接扣分,所以這項(xiàng)測驗(yàn)主要檢驗(yàn)?zāi)P偷囊鈭D解析到結(jié)構(gòu)化輸出鏈路是否穩(wěn)固。

這塊,居然o3相比o1,幾乎沒有任何提升。

然后我在翻System卡的時(shí)候,還發(fā)現(xiàn)一個(gè)有趣的數(shù)據(jù)。


第一個(gè)指標(biāo)是準(zhǔn)確率越高越好,第二個(gè)是幻覺率越低越好

o3因?yàn)樵谡w上,更敢下定論了,所以不會(huì)含糊其辭,也就是更準(zhǔn)確了,但是幻覺率也飆升,直接干到了o1的兩倍。。。

以上,就是o3和o4-mini的性能參數(shù)。

定價(jià)上。


o3比o1的定價(jià)便宜了三分之一,o4-mini相比o3-mini沒漲價(jià)。

OpenAI終于干了回人事。。。

二.使用工具以及視覺推理

o1和o1 pro我之前有個(gè)巨大的痛點(diǎn),就是這玩意不能使用工具,聯(lián)網(wǎng)、代碼解釋器啥的,一個(gè)都不行。

然后只支持識(shí)圖,連PDF文件,都傳不上去,太傻了。

而這一次,o3和o4-mini直接拉滿,不僅支持了OpenAI的所有工具,甚至還有了一個(gè)超級(jí)牛逼的新特性。

視覺推理。

單聽這個(gè)很難理解,我直接給你們,看兩個(gè)例子。

第一個(gè),是一個(gè)非常經(jīng)典的游戲,就是看圖猜地點(diǎn),但是不是那種沒啥難度的,城市題,說實(shí)話,有建筑,太好猜了。

我們直接進(jìn)一個(gè)專門玩這個(gè)的網(wǎng)站,叫圖尋,參加每日挑戰(zhàn)。

我的第一題,就是這個(gè)。


對(duì),就這么個(gè)東西,讓你猜這是中國的哪,在右下角的地圖上打標(biāo),離終點(diǎn)越近,分越高。

我直接把這個(gè)扔給了o3,我們來看看,他的思考過程。


非常離譜的,自己去看圖,把圖片放大,一點(diǎn)一點(diǎn)思考,這個(gè)地方不對(duì),哎換個(gè)地方我再放大看看。

以前模型的思維鏈,只有文字,而這次,這是大模型第一次,真正的把圖片,也融入到了推理中。

我們?cè)倩剡^頭來看看,剛才那道猜地題,它給出的答案。


雖然沒有那么肯定,但是也給出了答案,北京門頭溝、房山,109國道,妙峰山那一段。

我們來揭曉答案。


可能有些人對(duì)這個(gè)地點(diǎn)不熟悉,這個(gè)地方,叫北京,門頭溝,109國道,妙峰山。

那一刻,我真的有點(diǎn)起雞皮疙瘩了。

因?yàn)槟銜?huì)發(fā)現(xiàn),AI開始像人一樣去看圖、像人一樣去思考了

以前你說AI懂圖,懂什么?懂像素?懂特征?是的,它會(huì)提特征、會(huì)分類、會(huì)打標(biāo)簽,但它并不看圖思考。

它是一個(gè)圖像識(shí)別器,但不是一個(gè)圖像思考者。

而今天,o3,是第一次讓模型學(xué)會(huì)了看圖思考,學(xué)會(huì)了視覺推理

這個(gè)變化,堪稱范式級(jí)別的躍遷。

我們甚至可以,把一個(gè)事件的圖片發(fā)給他,讓他來尋找,這是哪一天發(fā)生的事件。


還有一個(gè)很有趣的例子,雖然不算成功,但是我還是想分享給你看。

前天,《流浪地球3》正式開機(jī)了,官方也發(fā)了一張大合照。

也官宣了沈騰的加入。

然后,我試圖,讓o3,在里面找到吳京。。。

第一次,失敗了。


因?yàn)槟翘焯珪瘢瑓蔷┖蜕蝌v都帶了帽子,幾乎就無法靠臉識(shí)別了。

于是,我又去找了一張圖。


這一次,他成功了,當(dāng)然,靠的是找帽子。


這個(gè)case,可以完整的展現(xiàn)出,o3的能力,包括在中間各種放大查看細(xì)節(jié),跟python結(jié)合進(jìn)行分析以及加紅框等等。

視覺推理讓AI具備了第一種專業(yè)場景下的觀察力。

而視覺推理這個(gè)能力的普及,意味著很多原本需要人眼判斷的崗位,會(huì)被徹底改寫。

安全監(jiān)控不再是看到異常才報(bào)警,而是看到將要發(fā)生異常就提前預(yù)判。

設(shè)計(jì)審稿不再是人力盯圖,而是AI先過一遍排版,再交給人來最后決策。

醫(yī)生看片子,也不再只是看片,而是由AI先提出幾個(gè)可能的診斷路徑和可能遺漏點(diǎn),再輔助手術(shù)或治療。

這就像,當(dāng)年推理模型對(duì)非推理模型的沖擊。

而現(xiàn)在,又一次上演。

除了o3和o4-mini之外,OpenAI這次,還開源了一個(gè)AI編程工具。


開源地址在此:https://github.com/openai/codex

有興趣的可以去試試。

這一次,看到OpenAI掏出來的模型。

我忽然想起很多年前,人類第一次拍到地球全貌時(shí)的震撼。

一顆藍(lán)色的球,懸在黑色的宇宙中。

那張圖,改變了很多人的世界觀。

而今天,當(dāng)AI第一次看懂圖、思考圖、把圖當(dāng)做世界的一部分去推理。

我們或許,也站在了某種第一次的起點(diǎn)。

它會(huì)改變什么?

我現(xiàn)在,還不知道。

但是一定會(huì)有所改變的。

我堅(jiān)信。

在科技浪潮奔涌向前的當(dāng)下,人工智能正深刻重塑我們的生活與工作。人機(jī)之間的關(guān)系,也從簡單交互邁向深度協(xié)作。想知道如何在這一趨勢下把握體驗(yàn)設(shè)計(jì)的新方向嗎?2025 年 10 月將在北京舉辦的 IXDC 國際體驗(yàn)設(shè)計(jì)大會(huì)聚焦 “人機(jī)共生:人工智能時(shí)代人機(jī)協(xié)作新范式”,作為全球領(lǐng)先的用戶體驗(yàn)創(chuàng)新盛會(huì),它將匯聚前沿理念與實(shí)踐。一起來關(guān)注這場盛會(huì),探索人機(jī)協(xié)作的無限可能。

文章轉(zhuǎn)載:數(shù)字生命卡茲克,版權(quán)歸原作者所有

原文鏈接:https://mp.weixin.qq.com/s/M_1il2a66B7v2rysDJ6-zA?scene=1

版權(quán)聲明:“IXDC”所推送的文章,除非確實(shí)無法確認(rèn),我們都會(huì)注明作者和來源,本公眾號(hào)對(duì)轉(zhuǎn)載、分享的內(nèi)容、陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完善性提供任何明或暗示的保證,僅供讀者參考。部分文章推送時(shí)未能與原作者取得聯(lián)系,若涉及內(nèi)容或作品等版權(quán)問題,煩請(qǐng)?jiān)髡呗?lián)系我們,給出內(nèi)容所在的網(wǎng)址并提供相關(guān)證明資料,我們會(huì)核查后立即更正或者刪除有關(guān)內(nèi)容!本公眾號(hào)不承擔(dān)任何責(zé)任,并擁有對(duì)此聲明的最終解釋權(quán)。

聯(lián)系微信:18802086168

聯(lián)系電話:18802086168

編排 | 黃春燕

終審 | 蘇 菁

點(diǎn)這里,學(xué)習(xí)更多設(shè)計(jì)知識(shí)!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
一位上海財(cái)經(jīng)女博士坦言:如果手里有二十萬,建議死啃美人肩戰(zhàn)法

一位上海財(cái)經(jīng)女博士坦言:如果手里有二十萬,建議死啃美人肩戰(zhàn)法

股經(jīng)縱橫談
2025-05-23 20:53:22
杰威:殺進(jìn)總決賽感覺很不真實(shí);時(shí)間飛快我已度過了三個(gè)賽季

杰威:殺進(jìn)總決賽感覺很不真實(shí);時(shí)間飛快我已度過了三個(gè)賽季

懂球帝
2025-05-29 14:04:20
股市,大利好來了!

股市,大利好來了!

小白讀財(cái)經(jīng)
2025-05-29 13:34:03
朱德:你走了部隊(duì)怎么辦?多年后他重新入黨,從元帥跌至上將

朱德:你走了部隊(duì)怎么辦?多年后他重新入黨,從元帥跌至上將

轉(zhuǎn)身微笑梅
2025-05-29 19:22:07
法網(wǎng)快訊:阿尼西莫娃送蛋晉級(jí),薩巴倫卡處境危險(xiǎn)!

法網(wǎng)快訊:阿尼西莫娃送蛋晉級(jí),薩巴倫卡處境危險(xiǎn)!

野渡舟山人
2025-05-29 09:33:51
陳羽凡現(xiàn)狀:低調(diào)生活,50歲胖到認(rèn)不出,17歲兒子1米8長得像媽

陳羽凡現(xiàn)狀:低調(diào)生活,50歲胖到認(rèn)不出,17歲兒子1米8長得像媽

果娛
2025-05-14 12:19:32
男人提升“戰(zhàn)斗力”,比起西地那非,它兩個(gè)才是真正救星

男人提升“戰(zhàn)斗力”,比起西地那非,它兩個(gè)才是真正救星

鬼菜生活
2025-05-27 07:25:59
燃油車大勝!2025年燃油SUV最新質(zhì)量榜:近百款車型達(dá)標(biāo),CR-V第2

燃油車大勝!2025年燃油SUV最新質(zhì)量榜:近百款車型達(dá)標(biāo),CR-V第2

趣味萌寵的日常
2025-05-29 10:31:44
超三萬人施工,僅12天建成的雷神山醫(yī)院,停用4年后荒廢了嗎?

超三萬人施工,僅12天建成的雷神山醫(yī)院,停用4年后荒廢了嗎?

歷史有些冷
2024-07-04 20:00:02
爆一線女星與富商私生子,出國留學(xué)是幌子,網(wǎng)友:就差直接點(diǎn)名了

爆一線女星與富商私生子,出國留學(xué)是幌子,網(wǎng)友:就差直接點(diǎn)名了

曉風(fēng)說
2025-05-11 19:27:15
重要的事說三遍,創(chuàng)新藥啟動(dòng)!啟動(dòng)!啟動(dòng)!

重要的事說三遍,創(chuàng)新藥啟動(dòng)!啟動(dòng)!啟動(dòng)!

凱恩斯財(cái)經(jīng)
2025-05-29 16:39:26
都是玄學(xué)!5月31日端午節(jié),最旺自己的5件事,別忘了告訴家人

都是玄學(xué)!5月31日端午節(jié),最旺自己的5件事,別忘了告訴家人

神牛
2025-05-29 17:50:24
17歲高中生上廁所腸子“掉出”,經(jīng)檢查是脫肛,喜歡上廁所玩手機(jī)

17歲高中生上廁所腸子“掉出”,經(jīng)檢查是脫肛,喜歡上廁所玩手機(jī)

有趣的火烈鳥
2025-05-27 13:10:07
武漢中心城區(qū)將開啟大規(guī)模拆遷改造!

武漢中心城區(qū)將開啟大規(guī)模拆遷改造!

說故事的阿襲
2025-05-28 03:30:45
RMC:皇馬拒絕放人,姆巴佩、瓊阿梅尼暫時(shí)不會(huì)離隊(duì)參加法國集訓(xùn)

RMC:皇馬拒絕放人,姆巴佩、瓊阿梅尼暫時(shí)不會(huì)離隊(duì)參加法國集訓(xùn)

直播吧
2025-05-30 01:00:11
朝鮮女特工袁正華:潛伏中國20年,獲取100多位韓國軍官機(jī)密

朝鮮女特工袁正華:潛伏中國20年,獲取100多位韓國軍官機(jī)密

詩意世界
2025-05-22 16:51:49
大學(xué)黨委書記,任央企副總經(jīng)理!

大學(xué)黨委書記,任央企副總經(jīng)理!

中國教育在線
2025-05-29 17:08:57
我駐捷克使館:強(qiáng)烈不滿,堅(jiān)決反對(duì)

我駐捷克使館:強(qiáng)烈不滿,堅(jiān)決反對(duì)

觀察者網(wǎng)
2025-05-29 08:13:07
汪峰首談離婚根源,直言章子怡:獲取她的美變遲鈍了,非常厭倦!

汪峰首談離婚根源,直言章子怡:獲取她的美變遲鈍了,非常厭倦!

她時(shí)尚丫
2025-04-17 18:22:46
2006年北京王府井血案:因無法滿足女友需求,車上親密時(shí)掐死女友

2006年北京王府井血案:因無法滿足女友需求,車上親密時(shí)掐死女友

談史論天地
2025-05-25 10:20:07
2025-05-30 03:15:00
美啊教育
美啊教育
創(chuàng)意設(shè)計(jì)與生活美學(xué)最佳平臺(tái)
5698文章數(shù) 1548關(guān)注度
往期回顧 全部

科技要聞

英偉達(dá)財(cái)報(bào)炸裂 黃仁勛卻嘆退出中國太可惜

頭條要聞

巴西檢方宣布正在起訴比亞迪 外交部回應(yīng)

頭條要聞

巴西檢方宣布正在起訴比亞迪 外交部回應(yīng)

體育要聞

納達(dá)爾,法網(wǎng),漫長告別

娛樂要聞

辛柏青沉默8天后,這些事還是發(fā)生了

財(cái)經(jīng)要聞

若對(duì)等關(guān)稅叫停,特朗普還能怎么加關(guān)稅

汽車要聞

首搭鴻蒙座艙5 嵐圖FREE+將于6月預(yù)售

態(tài)度原創(chuàng)

健康
數(shù)碼
游戲
教育
本地

唇皰疹和口腔潰瘍是"同伙"嗎?

數(shù)碼要聞

英偉達(dá)原生 GeForce NOW 應(yīng)用登陸 Steam Deck

死亡擱淺2暫無DLC計(jì)劃 小島:現(xiàn)在已經(jīng)不流行了吧

教育要聞

題目的意思很簡單,但是做起來比較難

本地新聞

云游中國 |來仰天湖大草原,一起策馬奔騰

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 德阳市| 南通市| 凤城市| 胶南市| 黄浦区| 广水市| 台安县| 金山区| 青田县| 湛江市| 张家口市| 郑州市| 永德县| 高尔夫| 二手房| 东宁县| 登封市| 泗阳县| 利津县| 郑州市| 郎溪县| 柏乡县| 达尔| 阿拉善盟| 五大连池市| 于都县| 象山县| 东城区| 三穗县| 松潘县| 合川市| 安宁市| 云安县| 固始县| 锦州市| 岐山县| 简阳市| 绥宁县| 额尔古纳市| 北宁市| 凤庆县|