99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

OpenAI深夜上線o3滿血版和o4 mini - 依舊領先。

0
分享至

晚上1點,OpenAI的直播如約而至。

其實在預告的時候,幾乎已經等于明示了。


沒有廢話,今天發布的就是o3和o4-mini。

但是奧特曼這個老騙子,之前明明說o3不打算單獨發布要融到GPT-5里面一起發,結果今天又發了。。。

ChatGPT Plus、Pro和Team用戶從今天開始將在模型選擇器中看到o3、o4-mini和o4-mini-high,取代o1、o3-mini和o3-mini-high。


我的已經變了,但是我最想要的o3 pro,還要幾周才能提供,就很可惜,現在o1 pro被折疊到了更多模型里。

說實話純粹的模型參數的進步,其實已經沒啥可說的了,這次最讓我覺得最大的進步點,是兩個:

1. 滿血版的o3終于可以使用工具了。

2.o3和o4-mini是o系列中最新的視覺推理模型,第一次能夠在思維鏈中思考圖像了。

照例,我一個一個來說,盡可能給大家一個,非常全面完整的總結。

一.o3和o4-mini性能

其實沒有特別多的意思,就跟現在數碼圈一樣,刷新了XX分數。

但是慣例,還是得放,而且坦白的講,那個級別的模型已經不是我能觸達他們智力上限的了。

首先是模型知識這塊,我就一起放了。


這塊大概解釋一下,別看底下模型那么多,亂七八糟,各種變體。

但是從最早的o1到如今的o3和o4?mini,核心差別就在于模型規模、推理能力和插件工具的接入。

最開始的o1只是一個基礎的推理大模型,它在2024年AIME數學賽上只有 74.3%的準確率,在代碼競賽上的表現也相對平平。

緊接著推出的 o3?mini,雖然參數量更小,但經過架構優化,在同一場 AIME上就跑出了87.3%的楓樹,Codeforces的ELO也從1891提升到 2073。

而完整版的o3,其實是比o3?mini更大的大兄弟,o3其實最明顯的變化就是能接入工具了。

比如在AIME2024里,o3跑裸模沒接工具時能達到91.6%,一旦允許它調用Python,準確率就飆到95.2%。

同理,o4?mini相當于小一號的o4,經過更先進的架構優化,在不開工具的情況下就能拿到93.4%,接入Python后則沖到98.7%,已經快干到滿分了。

如果把視野放寬到跨學科的PhD級科學題(GPQA Diamond)和專家級綜合測試(Humanity’s Last Exam),無需額外工具時,o3在科學題上能以 83.3%稍微領先于o4?mini的81.4%。

而面對專家綜合考題,不帶插件的o3準確率約為20.3%,添上Python、網絡瀏覽甚至調用多種工具后能推到24.9%。

相比之下,o4?mini從14.3%起步,借助插件也只能漲到 17.7%,仍不及 o3。

最有趣的是,DeepResearch在這個專家綜合測試上,力壓群雄,但是也能理解,畢竟人本身就是一個基于o3微調的專門干這活的模型。。。

多模態能力這塊。


三個數據集。

MMMU:大學水平的視覺數學題庫,題目里既有公式也有圖形,考察模型把圖像和數學符號結合起來解題的能力。

MathVista:專注視覺數學推理,題目多來源于幾何圖形、函數曲線、矩陣變換等圖像,讓模型從畫面里看出數學規律。

CharXiv?Reasoning:從科學論文(ArXiv)里抽取圖表、流程圖和示意圖,要求模型根據科研圖形回答問題,考驗它的專業圖表理解能力。

o1在大學級別的MMMU數據集上只能拿到77.6%,面對直觀的MathVista 只有71.8%,CharXiv-Reasoning更是跪在55.1%的及格邊緣。

o3一上來就把MMMU拉到82.9%,MathVista直接沖到87.5%,CharXiv-Reasoning也飆到75.4%。

這次是正二八經地把視覺推理任務推到了一個新高度。

代碼能力這塊。


SWE?Lancer: IC SWE Diamond上真實的自由職業軟件工程任務,模型以“高獎勵”模式接單,看看最后能拿到的收益是多少錢。

所有模型都直接上了high模式。o3直接掙起飛了。

SWE?Bench Verified:一個經人工標注驗證的軟件工程題庫,包括常見算法、系統設計、API 調用等,o3和o4-mini同樣遙遙領先。

Aider Polyglot Code Editing:多語言代碼編輯基準,分“whole”(整體重寫)和“diff”(補丁式修改)兩類。

o3還是強的,o4mini反而比o3mini還差了點。

工具使用這塊。


左邊那個Scale?MultiChallenge,多輪指令跟隨,是一套用來測記性+執行力的題。

評測流程一般是:系統給模型一段設定,隨后用戶分好幾輪追加、修改、插入條件,最后再要求一次性產出答案,模型既要把之前的上下文全部保住,又得正確理解最新指令,才能拿高分。o3突出一些。

中間那個BrowseComp?Agentic?Browsing,就是瀏覽器里干活的能力。題目會給模型接入一個虛擬瀏覽器,要求它自己去搜索、點擊、翻頁、在網頁里抓信息,再整合成回答。

常規的AI搜索就是4o+聯網的能力,低的有點可憐,o3加了Python和聯網之后,居然快能追上DeepReasearch,這是讓我有點沒想到的。

最右邊那個叫Tau?bench?函數調用。它把模型放進有外部API可調用的場景里,看模型能否判斷何時該把自然語言請求轉成結構化函數調用,并把參數拼得毫無差錯。常見兩條賽道:

Airline?,比如就是根據乘客需求,生成正確的航班預訂JSON。

Retail?,比如就是?根據購物指令,調用商品查詢或下單接口。

如果模型選錯函數、漏填參數、或者格式寫歪,都會直接扣分,所以這項測驗主要檢驗模型的意圖解析到結構化輸出鏈路是否穩固。

這塊,居然o3相比o1,幾乎沒有任何提升。

然后我在翻System卡的時候,還發現一個有趣的數據。


第一個指標是準確率,越高越好,第二個是幻覺率,越低越好。

o3因為在整體上,更敢下定論了,所以不會含糊其辭,也就是更準確了,但是幻覺率也飆升,直接干到了o1的兩倍。。。

以上,就是o3和o4-mini的性能參數。

定價上。


o3比o1的定價便宜了三分之一,o4-mini相比o3-mini沒漲價。

OpenAI終于干了回人事。。。

二.使用工具以及視覺推理

o1和o1 pro我之前有個巨大的痛點,就是這玩意不能使用工具,聯網、代碼解釋器啥的,一個都不行。

然后只支持識圖,連PDF文件,都傳不上去,太傻了。

而這一次,o3和o4-mini直接拉滿,不僅支持了OpenAI的所有工具,甚至還有了一個超級牛逼的新特性。

視覺推理。

單聽這個很難理解,我直接給你們,看兩個例子。

第一個,是一個非常經典的游戲,就是看圖猜地點,但是不是那種沒啥難度的,城市題,說實話,有建筑,太好猜了。

我們直接進一個專門玩這個的網站,叫圖尋,參加每日挑戰。

我的第一題,就是這個。


對,就這么個東西,讓你猜這是中國的哪,在右下角的地圖上打標,離終點越近,分越高。

我直接把這個扔給了o3,我們來看看,他的思考過程。


非常離譜的,自己去看圖,把圖片放大,一點一點思考,這個地方不對,哎換個地方我再放大看看。

以前模型的思維鏈,只有文字,而這次,這是大模型第一次,真正的把圖片,也融入到了推理中。

我們再回過頭來看看,剛才那道猜地題,它給出的答案。


雖然沒有那么肯定,但是也給出了答案,北京門頭溝、房山,109國道,妙峰山那一段。

我們來揭曉答案。


可能有些人對這個地點不熟悉,這個地方,叫北京,門頭溝,109國道,妙峰山。

那一刻,我真的有點起雞皮疙瘩了。

因為你會發現,AI開始像人一樣去看圖、像人一樣去思考了

以前你說AI懂圖,懂什么?懂像素?懂特征?是的,它會提特征、會分類、會打標簽,但它并不看圖思考。

它是一個圖像識別器,但不是一個圖像思考者。

而今天,o3,是第一次讓模型學會了看圖思考,學會了視覺推理。

這個變化,堪稱范式級別的躍遷。

我們甚至可以,把一個事件的圖片發給他,讓他來尋找,這是哪一天發生的事件。


還有一個很有趣的例子,雖然不算成功,但是我還是想分享給你看。

前天,《流浪地球3》正式開機了,官方也發了一張大合照。

也官宣了沈騰的加入。

然后,我試圖,讓o3,在里面找到吳京。。。

第一次,失敗了。


因為那天太曬,吳京和沈騰都帶了帽子,幾乎就無法靠臉識別了。

于是,我又去找了一張圖。


這一次,他成功了,當然,靠的是找帽子。


這個case,可以完整的展現出,o3的能力,包括在中間各種放大查看細節,跟python結合進行分析以及加紅框等等。

視覺推理讓AI具備了第一種專業場景下的觀察力。

而視覺推理這個能力的普及,意味著很多原本需要人眼判斷的崗位,會被徹底改寫。

安全監控不再是看到異常才報警,而是看到將要發生異常就提前預判。

設計審稿不再是人力盯圖,而是AI先過一遍排版,再交給人來最后決策。

醫生看片子,也不再只是看片,而是由AI先提出幾個可能的診斷路徑和可能遺漏點,再輔助手術或治療。

這就像,當年推理模型對非推理模型的沖擊。

而現在,又一次上演。

除了o3和o4-mini之外,OpenAI這次,還開源了一個AI編程工具。


開源地址在此:https://github.com/openai/codex

有興趣的可以去試試。

這一次,看到OpenAI掏出來的模型。

我忽然想起很多年前,人類第一次拍到地球全貌時的震撼。

一顆藍色的球,懸在黑色的宇宙中。

那張圖,改變了很多人的世界觀。

而今天,當AI第一次看懂圖、思考圖、把圖當做世界的一部分去推理。

我們或許,也站在了某種第一次的起點。

它會改變什么?

我現在,還不知道。

但是一定會有所改變的。

我堅信。

以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。

>/ 作者:卡茲克

>/ 投稿或爆料,請聯系郵箱:wzglyay@virxact.com

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
澤連斯基的分量越來越重!世界可以沒有特朗普,沒有他真不行

澤連斯基的分量越來越重!世界可以沒有特朗普,沒有他真不行

昨夜軍帖
2025-06-05 09:09:18
加拿大總理最新表態:將重新定位對華關系

加拿大總理最新表態:將重新定位對華關系

看看新聞Knews
2025-06-07 16:23:59
滅頂之災!俄軍要爆破基輔,美情報部認為,俄軍將發射奧列什尼克導彈

滅頂之災!俄軍要爆破基輔,美情報部認為,俄軍將發射奧列什尼克導彈

天擇雜談
2025-06-08 00:13:43
記者:預計太陽將用2年1.5億美元的頂薪合同續約布克

記者:預計太陽將用2年1.5億美元的頂薪合同續約布克

懂球帝
2025-06-08 09:21:13
驚天反轉!王思聰承認女兒存在,不用親子鑒定,閃閃可享千億繼承

驚天反轉!王思聰承認女兒存在,不用親子鑒定,閃閃可享千億繼承

八卦王者
2025-06-08 12:38:55
別再作妖了!穿旗袍、紫內褲、讓高鐵減速,請家長們停止奇葩行為

別再作妖了!穿旗袍、紫內褲、讓高鐵減速,請家長們停止奇葩行為

白面書誏
2025-06-06 18:42:00
事發上海鬧市區!電動車被撞,車主脫口而出4個字,肇事者愣住了…

事發上海鬧市區!電動車被撞,車主脫口而出4個字,肇事者愣住了…

上觀新聞
2025-06-08 14:21:23
大學黨委副書記,任副廳長!

大學黨委副書記,任副廳長!

中國教育在線
2025-06-08 10:43:21
男子相中發小24歲的妹妹,不在乎滿臂文身:這顏值,別人不娶我娶

男子相中發小24歲的妹妹,不在乎滿臂文身:這顏值,別人不娶我娶

辣媒專欄記錄
2025-06-06 12:20:03
蘇州玲瓏灣花園,一套170平米的房子4年相差750萬,相當于打5.2折

蘇州玲瓏灣花園,一套170平米的房子4年相差750萬,相當于打5.2折

小人物看盡人間百態
2025-06-07 12:17:00
美國:不承認俄在烏境內任何行政管轄權,英國對俄發出核反擊聲明

美國:不承認俄在烏境內任何行政管轄權,英國對俄發出核反擊聲明

史政先鋒
2025-06-06 11:05:59
女跑者真實經歷分享:天熱跑步謹慎走光,小心“春光乍泄”

女跑者真實經歷分享:天熱跑步謹慎走光,小心“春光乍泄”

馬拉松跑步健身
2025-05-29 13:53:35
武漢一考點門口司機瘋狂按喇叭,被交警當場扣住

武漢一考點門口司機瘋狂按喇叭,被交警當場扣住

三湘都市報
2025-06-07 17:41:48
震驚:美的170萬臺空調在北美被召回

震驚:美的170萬臺空調在北美被召回

融匯棟藍科技
2025-06-07 10:02:50
人過七十后,99%的人都逃不過以下這般狀態,但愿您是例外

人過七十后,99%的人都逃不過以下這般狀態,但愿您是例外

荷蘭豆愛健康
2025-06-04 11:13:54
淚目、扎心:菏澤考生躺在人行道上午休,媽媽拿著扇子不停的扇

淚目、扎心:菏澤考生躺在人行道上午休,媽媽拿著扇子不停的扇

小人物看盡人間百態
2025-06-07 23:38:44
德塞利:齊達內不會為金錢改變選擇,曼聯需要恩里克帶隊從頭開始

德塞利:齊達內不會為金錢改變選擇,曼聯需要恩里克帶隊從頭開始

雷速體育
2025-06-08 14:06:49
擺地攤、玩電商!第一批深圳00后,已經實現財務自由,他們有多強

擺地攤、玩電商!第一批深圳00后,已經實現財務自由,他們有多強

青眼財經
2025-06-06 12:38:26
游客在安徽停車被圍毆 4歲女兒痛哭 道歉遠不夠 依法懲處才能“治暴”|有一說一

游客在安徽停車被圍毆 4歲女兒痛哭 道歉遠不夠 依法懲處才能“治暴”|有一說一

封面新聞
2025-06-07 21:31:17
酸奶立大功!研究發現:堅持喝酸奶一段時間,或迎來3個好轉信號

酸奶立大功!研究發現:堅持喝酸奶一段時間,或迎來3個好轉信號

觀星賞月
2025-06-06 11:20:44
2025-06-08 18:36:49
數字生命卡茲克 incentive-icons
數字生命卡茲克
反復橫跳于不同的AI領域,努力分享一些很酷的AI干貨
313文章數 414關注度
往期回顧 全部

科技要聞

馬斯克"越紅線",美政府急尋SpaceX替代品

頭條要聞

特朗普派國民警衛隊前往洛杉磯后發文:加州州長無能

頭條要聞

特朗普派國民警衛隊前往洛杉磯后發文:加州州長無能

體育要聞

冠軍高芙:只要專注自己 太陽就會照常升起

娛樂要聞

結婚15年紀念!孫儷發長文談夫妻感情

財經要聞

暴漲超9%!白銀狂飆,“搶奪”黃金光環!

汽車要聞

復古造型樂趣依舊 寶馬R12 nineT又帥又好騎

態度原創

本地
旅游
游戲
藝術
公開課

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

《GTA6》再爆猛料:主角擁有“死神之眼”!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 尖扎县| 江门市| 阿城市| 微博| 潍坊市| 姚安县| 长子县| 乌拉特后旗| 博湖县| 东海县| 句容市| 英山县| 安阳县| 合作市| 天津市| 高密市| 临西县| 本溪| 疏附县| 工布江达县| 宁海县| 桃园县| 黄龙县| 上思县| 文登市| 烟台市| 扎赉特旗| 东城区| 永城市| 漠河县| 巩留县| 高州市| 宜兴市| 洛浦县| 道真| 武夷山市| 丹东市| 壤塘县| 砀山县| 宾川县| 平泉县|