99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<pre id="64p3u"><fieldset id="64p3u"><menu id="64p3u"></menu></fieldset></pre>

<thead id="64p3u"><rt id="64p3u"><noscript id="64p3u"></noscript></rt></thead>

<sup id="64p3u"></sup>

<ruby id="64p3u"><button id="64p3u"></button></ruby>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

OpenAI深夜上線o3滿血版和o4 mini - 依舊領先。

2025-04-17 06:11:17　來源: 數字生命卡茲克

天津舉報

0

分享至

晚上1點，OpenAI的直播如約而至。

其實在預告的時候，幾乎已經等于明示了。

沒有廢話，今天發布的就是o3和o4-mini。

但是奧特曼這個老騙子，之前明明說o3不打算單獨發布要融到GPT-5里面一起發，結果今天又發了。。。

ChatGPT Plus、Pro和Team用戶從今天開始將在模型選擇器中看到o3、o4-mini和o4-mini-high，取代o1、o3-mini和o3-mini-high。

我的已經變了，但是我最想要的o3 pro，還要幾周才能提供，就很可惜，現在o1 pro被折疊到了更多模型里。

說實話純粹的模型參數的進步，其實已經沒啥可說的了，這次最讓我覺得最大的進步點，是兩個：

1. 滿血版的o3終于可以使用工具了。

2.o3和o4-mini是o系列中最新的視覺推理模型，第一次能夠在思維鏈中思考圖像了。

照例，我一個一個來說，盡可能給大家一個，非常全面完整的總結。

一.o3和o4-mini性能

其實沒有特別多的意思，就跟現在數碼圈一樣，刷新了XX分數。

但是慣例，還是得放，而且坦白的講，那個級別的模型已經不是我能觸達他們智力上限的了。

首先是模型知識這塊，我就一起放了。

這塊大概解釋一下，別看底下模型那么多，亂七八糟，各種變體。

但是從最早的o1到如今的o3和o4?mini，核心差別就在于模型規模、推理能力和插件工具的接入。

最開始的o1只是一個基礎的推理大模型，它在2024年AIME數學賽上只有 74.3%的準確率，在代碼競賽上的表現也相對平平。

緊接著推出的 o3?mini，雖然參數量更小，但經過架構優化，在同一場 AIME上就跑出了87.3%的楓樹，Codeforces的ELO也從1891提升到 2073。

而完整版的o3，其實是比o3?mini更大的大兄弟，o3其實最明顯的變化就是能接入工具了。

比如在AIME2024里，o3跑裸模沒接工具時能達到91.6%，一旦允許它調用Python，準確率就飆到95.2%。

同理，o4?mini相當于小一號的o4，經過更先進的架構優化，在不開工具的情況下就能拿到93.4%，接入Python后則沖到98.7%，已經快干到滿分了。

如果把視野放寬到跨學科的PhD級科學題（GPQA Diamond）和專家級綜合測試（Humanity’s Last Exam），無需額外工具時，o3在科學題上能以 83.3%稍微領先于o4?mini的81.4%。

而面對專家綜合考題，不帶插件的o3準確率約為20.3%，添上Python、網絡瀏覽甚至調用多種工具后能推到24.9%。

相比之下，o4?mini從14.3%起步，借助插件也只能漲到 17.7%，仍不及 o3。

最有趣的是，DeepResearch在這個專家綜合測試上，力壓群雄，但是也能理解，畢竟人本身就是一個基于o3微調的專門干這活的模型。。。

多模態能力這塊。

三個數據集。

MMMU：大學水平的視覺數學題庫，題目里既有公式也有圖形，考察模型把圖像和數學符號結合起來解題的能力。

MathVista：專注視覺數學推理，題目多來源于幾何圖形、函數曲線、矩陣變換等圖像，讓模型從畫面里看出數學規律。

CharXiv?Reasoning：從科學論文（ArXiv）里抽取圖表、流程圖和示意圖，要求模型根據科研圖形回答問題，考驗它的專業圖表理解能力。

o1在大學級別的MMMU數據集上只能拿到77.6%，面對直觀的MathVista 只有71.8%，CharXiv-Reasoning更是跪在55.1%的及格邊緣。

o3一上來就把MMMU拉到82.9%，MathVista直接沖到87.5%，CharXiv-Reasoning也飆到75.4%。

這次是正二八經地把視覺推理任務推到了一個新高度。

代碼能力這塊。

SWE?Lancer: IC SWE Diamond上真實的自由職業軟件工程任務，模型以“高獎勵”模式接單，看看最后能拿到的收益是多少錢。

所有模型都直接上了high模式。o3直接掙起飛了。

SWE?Bench Verified：一個經人工標注驗證的軟件工程題庫，包括常見算法、系統設計、API 調用等，o3和o4-mini同樣遙遙領先。

Aider Polyglot Code Editing：多語言代碼編輯基準，分“whole”（整體重寫）和“diff”（補丁式修改）兩類。

o3還是強的，o4mini反而比o3mini還差了點。

工具使用這塊。

左邊那個Scale?MultiChallenge，多輪指令跟隨，是一套用來測記性＋執行力的題。

評測流程一般是：系統給模型一段設定，隨后用戶分好幾輪追加、修改、插入條件，最后再要求一次性產出答案，模型既要把之前的上下文全部保住，又得正確理解最新指令，才能拿高分。o3突出一些。

中間那個BrowseComp?Agentic?Browsing，就是瀏覽器里干活的能力。題目會給模型接入一個虛擬瀏覽器，要求它自己去搜索、點擊、翻頁、在網頁里抓信息，再整合成回答。

常規的AI搜索就是4o+聯網的能力，低的有點可憐，o3加了Python和聯網之后，居然快能追上DeepReasearch，這是讓我有點沒想到的。

最右邊那個叫Tau?bench?函數調用。它把模型放進有外部API可調用的場景里，看模型能否判斷何時該把自然語言請求轉成結構化函數調用，并把參數拼得毫無差錯。常見兩條賽道：

Airline?，比如就是根據乘客需求，生成正確的航班預訂JSON。

Retail?，比如就是?根據購物指令，調用商品查詢或下單接口。

如果模型選錯函數、漏填參數、或者格式寫歪，都會直接扣分，所以這項測驗主要檢驗模型的意圖解析到結構化輸出鏈路是否穩固。

這塊，居然o3相比o1，幾乎沒有任何提升。

然后我在翻System卡的時候，還發現一個有趣的數據。

第一個指標是準確率，越高越好，第二個是幻覺率，越低越好。

o3因為在整體上，更敢下定論了，所以不會含糊其辭，也就是更準確了，但是幻覺率也飆升，直接干到了o1的兩倍。。。

以上，就是o3和o4-mini的性能參數。

定價上。

o3比o1的定價便宜了三分之一，o4-mini相比o3-mini沒漲價。

OpenAI終于干了回人事。。。

二.使用工具以及視覺推理

o1和o1 pro我之前有個巨大的痛點，就是這玩意不能使用工具，聯網、代碼解釋器啥的，一個都不行。

然后只支持識圖，連PDF文件，都傳不上去，太傻了。

而這一次，o3和o4-mini直接拉滿，不僅支持了OpenAI的所有工具，甚至還有了一個超級牛逼的新特性。

視覺推理。

單聽這個很難理解，我直接給你們，看兩個例子。

第一個，是一個非常經典的游戲，就是看圖猜地點，但是不是那種沒啥難度的，城市題，說實話，有建筑，太好猜了。

我們直接進一個專門玩這個的網站，叫圖尋，參加每日挑戰。

我的第一題，就是這個。

對，就這么個東西，讓你猜這是中國的哪，在右下角的地圖上打標，離終點越近，分越高。

我直接把這個扔給了o3，我們來看看，他的思考過程。

非常離譜的，自己去看圖，把圖片放大，一點一點思考，這個地方不對，哎換個地方我再放大看看。

以前模型的思維鏈，只有文字，而這次，這是大模型第一次，真正的把圖片，也融入到了推理中。

我們再回過頭來看看，剛才那道猜地題，它給出的答案。

雖然沒有那么肯定，但是也給出了答案，北京門頭溝、房山，109國道，妙峰山那一段。

我們來揭曉答案。

可能有些人對這個地點不熟悉，這個地方，叫北京，門頭溝，109國道，妙峰山。

那一刻，我真的有點起雞皮疙瘩了。

因為你會發現，AI開始像人一樣去看圖、像人一樣去思考了。

以前你說AI懂圖，懂什么？懂像素？懂特征？是的，它會提特征、會分類、會打標簽，但它并不看圖思考。

它是一個圖像識別器，但不是一個圖像思考者。

而今天，o3，是第一次讓模型學會了看圖思考，學會了視覺推理。

這個變化，堪稱范式級別的躍遷。

我們甚至可以，把一個事件的圖片發給他，讓他來尋找，這是哪一天發生的事件。

還有一個很有趣的例子，雖然不算成功，但是我還是想分享給你看。

前天，《流浪地球3》正式開機了，官方也發了一張大合照。

也官宣了沈騰的加入。

然后，我試圖，讓o3，在里面找到吳京。。。

第一次，失敗了。

因為那天太曬，吳京和沈騰都帶了帽子，幾乎就無法靠臉識別了。

于是，我又去找了一張圖。

這一次，他成功了，當然，靠的是找帽子。

這個case，可以完整的展現出，o3的能力，包括在中間各種放大查看細節，跟python結合進行分析以及加紅框等等。

視覺推理讓AI具備了第一種專業場景下的觀察力。

而視覺推理這個能力的普及，意味著很多原本需要人眼判斷的崗位，會被徹底改寫。

安全監控不再是看到異常才報警，而是看到將要發生異常就提前預判。

設計審稿不再是人力盯圖，而是AI先過一遍排版，再交給人來最后決策。

醫生看片子，也不再只是看片，而是由AI先提出幾個可能的診斷路徑和可能遺漏點，再輔助手術或治療。

這就像，當年推理模型對非推理模型的沖擊。

而現在，又一次上演。

除了o3和o4-mini之外，OpenAI這次，還開源了一個AI編程工具。

開源地址在此：https://github.com/openai/codex

有興趣的可以去試試。

這一次，看到OpenAI掏出來的模型。

我忽然想起很多年前，人類第一次拍到地球全貌時的震撼。

一顆藍色的球，懸在黑色的宇宙中。

那張圖，改變了很多人的世界觀。

而今天，當AI第一次看懂圖、思考圖、把圖當做世界的一部分去推理。

我們或許，也站在了某種第一次的起點。

它會改變什么？

我現在，還不知道。

但是一定會有所改變的。

我堅信。

以上，既然看到這里了，如果覺得不錯，隨手點個贊、在看、轉發三連吧，如果想第一時間收到推送，也可以給我個星標?～謝謝你看我的文章，我們，下次再見。

>/ 作者：卡茲克

>/ 投稿或爆料，請聯系郵箱：wzglyay@virxact.com

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

零基礎入門Python機器學習，復現多個頂刊案例！

醫咖會 2025-01-08 19:56:07
0 跟貼 0
哪些人最易被AI淘汰

虎嗅APP 2025-06-05 00:37:12
21 跟貼 21

為什么只有AI編程成功落地？

虎嗅APP 2025-01-14 12:02:04
282 跟貼 282

Recraft爆紅，我們和創始人聊了聊

鈦媒體APP 2025-01-08 17:09:32
1 跟貼 1
聊天機器人有時候會“胡說八道”，GPT等模型的“幻覺率”有多高？

醫咖會 2025-02-02 19:05:14
0 跟貼 0

AI視覺圖靈時代來了！字節OmniHuman，一張圖配上音頻生成視頻

機器之心Pro 2025-02-05 17:10:00
0 跟貼 0

AI 視頻的國產之光，這個新功能徹底解放抽卡的雙手

愛范兒 2025-01-10 12:05:21
1 跟貼 1
訓練步數翻倍=推理能力質變，小模型突破推理極限

機器之心Pro 2025-06-04 19:08:50
1 跟貼 1

算力終結者來了！華人天團「降維打擊」注意力瓶頸，AI狂飆進對數時代

新智元 2025-06-08 12:51:58
2 跟貼 2
創辦三年估值近百億美元，AI編程工具Cursor再獲9億美元融資

DeepTech深科技 2025-06-06 22:52:34
4 跟貼 4
飛書一個聊天框，激活了機器之心編輯部的知識資產

機器之心Pro 2025-05-21 15:39:31
0 跟貼 0
AI 時代的超級應用，是一個超級框

愛范兒 2025-03-13 11:56:19
0 跟貼 0
Claude腦回路被開盒：AI會撒謊和暗中計劃

量子位 2025-04-04 12:20:26
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
“美國版宇樹”Figure回應“機器人進寶馬”質疑，60分鐘無剪視頻宣稱“三個月性能猛增”

華爾街見聞官方 2025-06-08 15:30:15
2 跟貼 2
4個小時，我用AI交了60多個野朋友

鈦媒體APP 2025-06-08 15:12:33
0 跟貼 0
o3/o4-mini實測太炸裂：看照片反推定位

量子位 2025-04-17 22:23:17
0 跟貼 0
蘇州狂開外掛！江蘇其他十二個城市，準備好了嗎？

DJ阿喆 2025-06-06 22:16:45
8 跟貼 8
網友偶遇潛水直播，想過是假的但沒想到這么假，“他直播潛水你直播他必火”

視聽絲路 2025-06-06 14:10:27
4 跟貼 4
當尋親變成了直播帶貨，中國尋親網宣布關閉服務器

主持人賀先生 2025-06-05 18:55:07
15 跟貼 15
你的每一本書、每一份苦，都將直播間變現

弓立軍 2025-06-06 18:21:34
0 跟貼 0
張雪峰淚灑直播間，背后的蛋糕動不得？

鵬有科普 2025-06-07 01:19:28
3 跟貼 3
河南周口，農機夫婦夜間偶遇8旬獨居老人，幫其收割麥子！

大象新聞 2025-06-08 12:21:07
114 跟貼 114
美防長對華施壓后，不到48小時，央視曝東風5參數，中方加強練兵

鳳凰張霆鋒 2025-06-05 20:07:36
0 跟貼 0
危機時刻，央媽公布戰略武器參數

主持生小爽 2025-06-05 21:17:21
0 跟貼 0
萌到犯規！vivo S30 Pro mini 三麗鷗聯名禮盒開箱，直面可愛暴擊

雷科技 2025-06-06 20:01:26
6 跟貼 6
秀！UE5.6這次玩大了！MetaHuman升級以后真的秀

CG世界 2025-06-06 11:35:57
0 跟貼 0
中國戰略導彈參數公開，40年前武器震懾美國

春天來了啊 2025-06-07 01:30:33
1 跟貼 1
2025年五菱宏光Mini EV重登電動車榜首，釋放什么信號？

影視道具庫 2025-06-06 16:24:19
0 跟貼 0
美防長香會上明目張膽威脅中國，關鍵時刻，央視披露東風—5參數

春天來了啊 2025-06-08 01:30:10
0 跟貼 0
柳大華遭軟件殺招壓制，竟敗于智能算法之下！

象棋王闖 2025-06-05 14:54:43
0 跟貼 0
美媒：美國恢復處理哈佛國際學生簽證

新京報 2025-06-08 09:16:06
12169 跟貼 12169
輕奢電動小鋼炮的終極對決：15萬買Smart精靈#1還是MINI EV？

達車匯 2025-06-06 14:32:40
0 跟貼 0
谷歌Gemini 2.5 Pro更新蟬聯榜一：推理超越o3，編程超越opus4

機器之心Pro 2025-06-06 14:02:27
94 跟貼 94
寶馬+長城強強聯手“合資”，MINI性價比最高小型車，僅售14.88萬

隔壁說車老王 2025-06-07 07:57:26
2 跟貼 2
新版Gemini 2.5所有榜一，谷歌無敵了！一個月全面擊敗o3，編程反超Claude 4

新智元 2025-06-06 09:36:54
74 跟貼 74
美女象棋大師開局棄馬pro 完美的策劃 2025全國團體賽

四郎講棋 2025-06-07 20:26:46
4 跟貼 4
他在等外掛你在等什么

嗷嗷剪輯 2025-06-07 17:19:11
1 跟貼 1
金榜題名車給全城考生開外掛！！

娛小七6 2025-06-07 23:34:42
0 跟貼 0
沒想到，最Open的開源新模型，來自小紅書

機器之心Pro 2025-06-08 11:20:11
3 跟貼 3

澤連斯基的分量越來越重！世界可以沒有特朗普，沒有他真不行

澤連斯基的分量越來越重！世界可以沒有特朗普，沒有他真不行

昨夜軍帖

2025-06-05 09:09:18

加拿大總理最新表態：將重新定位對華關系

加拿大總理最新表態：將重新定位對華關系

看看新聞Knews

2025-06-07 16:23:59

滅頂之災！俄軍要爆破基輔，美情報部認為，俄軍將發射奧列什尼克導彈

滅頂之災！俄軍要爆破基輔，美情報部認為，俄軍將發射奧列什尼克導彈

天擇雜談

2025-06-08 00:13:43

記者：預計太陽將用2年1.5億美元的頂薪合同續約布克

記者：預計太陽將用2年1.5億美元的頂薪合同續約布克

懂球帝

2025-06-08 09:21:13

驚天反轉！王思聰承認女兒存在，不用親子鑒定，閃閃可享千億繼承

驚天反轉！王思聰承認女兒存在，不用親子鑒定，閃閃可享千億繼承

八卦王者

2025-06-08 12:38:55

別再作妖了！穿旗袍、紫內褲、讓高鐵減速，請家長們停止奇葩行為

別再作妖了！穿旗袍、紫內褲、讓高鐵減速，請家長們停止奇葩行為

白面書誏

2025-06-06 18:42:00

事發上海鬧市區！電動車被撞，車主脫口而出4個字，肇事者愣住了…

事發上海鬧市區！電動車被撞，車主脫口而出4個字，肇事者愣住了…

上觀新聞

2025-06-08 14:21:23

大學黨委副書記，任副廳長！

中國教育在線

2025-06-08 10:43:21

男子相中發小24歲的妹妹，不在乎滿臂文身：這顏值，別人不娶我娶

男子相中發小24歲的妹妹，不在乎滿臂文身：這顏值，別人不娶我娶

辣媒專欄記錄

2025-06-06 12:20:03

蘇州玲瓏灣花園，一套170平米的房子4年相差750萬，相當于打5.2折

蘇州玲瓏灣花園，一套170平米的房子4年相差750萬，相當于打5.2折

小人物看盡人間百態

2025-06-07 12:17:00

美國：不承認俄在烏境內任何行政管轄權，英國對俄發出核反擊聲明

美國：不承認俄在烏境內任何行政管轄權，英國對俄發出核反擊聲明

史政先鋒

2025-06-06 11:05:59

女跑者真實經歷分享：天熱跑步謹慎走光，小心“春光乍泄”

女跑者真實經歷分享：天熱跑步謹慎走光，小心“春光乍泄”

馬拉松跑步健身

2025-05-29 13:53:35

武漢一考點門口司機瘋狂按喇叭，被交警當場扣住

武漢一考點門口司機瘋狂按喇叭，被交警當場扣住

三湘都市報

2025-06-07 17:41:48

震驚：美的170萬臺空調在北美被召回

震驚：美的170萬臺空調在北美被召回

融匯棟藍科技

2025-06-07 10:02:50

人過七十后，99%的人都逃不過以下這般狀態，但愿您是例外

人過七十后，99%的人都逃不過以下這般狀態，但愿您是例外

荷蘭豆愛健康

2025-06-04 11:13:54

淚目、扎心：菏澤考生躺在人行道上午休，媽媽拿著扇子不停的扇

淚目、扎心：菏澤考生躺在人行道上午休，媽媽拿著扇子不停的扇

小人物看盡人間百態

2025-06-07 23:38:44

德塞利：齊達內不會為金錢改變選擇，曼聯需要恩里克帶隊從頭開始

德塞利：齊達內不會為金錢改變選擇，曼聯需要恩里克帶隊從頭開始

雷速體育

2025-06-08 14:06:49

擺地攤、玩電商！第一批深圳00后，已經實現財務自由，他們有多強

擺地攤、玩電商！第一批深圳00后，已經實現財務自由，他們有多強

青眼財經

2025-06-06 12:38:26

游客在安徽停車被圍毆 4歲女兒痛哭道歉遠不夠依法懲處才能“治暴”｜有一說一

游客在安徽停車被圍毆 4歲女兒痛哭道歉遠不夠依法懲處才能“治暴”｜有一說一

封面新聞

2025-06-07 21:31:17

酸奶立大功！研究發現：堅持喝酸奶一段時間，或迎來3個好轉信號

酸奶立大功！研究發現：堅持喝酸奶一段時間，或迎來3個好轉信號

觀星賞月

2025-06-06 11:20:44

數字生命卡茲克

反復橫跳于不同的AI領域，努力分享一些很酷的AI干貨

313文章數 414關注度

往期回顧全部

科技要聞

馬斯克"越紅線"，美政府急尋SpaceX替代品

頭條要聞

特朗普派國民警衛隊前往洛杉磯后發文：加州州長無能

頭條要聞

特朗普派國民警衛隊前往洛杉磯后發文：加州州長無能

體育要聞

冠軍高芙：只要專注自己太陽就會照常升起

娛樂要聞

結婚15年紀念！孫儷發長文談夫妻感情

財經要聞

暴漲超9%！白銀狂飆，“搶奪”黃金光環！

汽車要聞

復古造型樂趣依舊寶馬R12 nineT又帥又好騎

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

旅游

游戲

藝術

公開課

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶，寫字都帶仙氣兒～

旅游要聞

熱聞|清明假期將至，熱門目的地有哪些?

《GTA6》再爆猛料：主角擁有“死神之眼”！

藝術要聞

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產30天

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：尖扎县| 江门市| 阿城市| 微博| 潍坊市| 姚安县| 长子县| 乌拉特后旗| 博湖县| 东海县| 句容市| 英山县| 安阳县| 合作市| 天津市| 高密市| 临西县| 本溪| 疏附县| 工布江达县| 宁海县| 桃园县| 黄龙县| 上思县| 文登市| 烟台市| 扎赉特旗| 东城区| 永城市| 漠河县| 巩留县| 高州市| 宜兴市| 洛浦县| 道真| 武夷山市| 丹东市| 壤塘县| 砀山县| 宾川县| 平泉县|

<cite id="9idjy"><rp id="9idjy"><form id="9idjy"></form></rp></cite>