99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

謝謝Deepseek,o3-mini發布即免費!編程斷崖式領先,思考過程冰冷而客觀

0
分享至

  

  大數據文摘受權轉載自夕小瑤科技說

  今日凌晨,OpenAI o3-mini 正式上線 ChatGPT,API 可用。還有更大的驚喜——

  免費用戶也可以使用。

  

  

  只需要在消息編輯器中選擇“Reason”就可以調用 o3-mini 了。

  這是 ChatGPT 首次向免費用戶提供推理模型。

  對此,我只能用以下表情包評價此事件——

  

  具體來說:

  Plus 和 Team 用戶:每天 150 次對話限制( 原 o1-mini 每天 50 條消息);

  Pro 用戶:可以無限制地訪問(當然,實際別太認真,真用多了大概率會跟此前 o1 一樣降智);

  Enterprise 用戶:將于 2 月推出;

  API:向 3-5 級開發者開放,提供了三種選擇版本,low、medium、high ,根據開發需求在效果(推理時間)和速度(延遲)之間平衡,靈活選擇。

  發布后,原 o1-mini 位置被 o3-mini 替代,付費用戶還能選擇更智能的 o3-mini-high。

  

  o3-mini 不止是在網頁客戶端免費開放,其商用 API 價格也相比 o1 迎來斷崖式下跌——

  

  o3-mini 相比 o1:

  更快:延遲更低,響應更快。在 A/B 測試中,o3-mini 的響應速度比 o1-mini 快 24%,平均響應時間為 7.7 秒,而 o1-mini 為 10.16 秒。

  更強:答案更準確、幻覺更少、推理更強。尤其是編程能力,詳情見《 》。

  更便宜:比 o1 便宜 93%。

  可以通過下面這張 LiveBench 測試基準直觀的感受 o3-mini 在推理、編程、數學上面的表現,尤其是 Coding 這一列,編程能力斷崖式的碾壓了 o1、deepseek r1 和 gemini 系列模型:

  

  人類最后一次考試(Humanity’s Last Exam)則是由數百位人類領域專家開發的一個榜單,號稱是捍衛人類智慧的最后一站。在此之前,所有頂尖 AI 通過率都不超過 10%,這次 O3-mini 首次打破記錄。

  

  我觀測到一個很有意思的現象。

  以前 OpenAI 發布新模型的時候,外網網友一般都會拿新模型與 OpenAI 的老模型,Claude 模型,最多再加上 Gemini 模型做比較。

  但這次,我發現外國網友甚至都很少拿 o3-mini 與 o1 去對比,反而大家齊刷刷的拿 o3-mini 與 DeepSeek R1 在做橫向對比。

  比如,有國外網友從性價比層面點評 o3-mini——

  

雖然 o3-mini 更好,但 DeepSeek R1 相似卻更便宜,“DeepSeek 時刻”值得被人們銘記,成為科技領域關鍵歷史事件

  還有網友橫向對比了 o3-mini 的思維鏈與 DeepSeek R1 的思維鏈——

  

o3-mini 的思維鏈與 R1 相比,更加冰冷、客觀;R1 更接近我內心的思考過程

  放大圖片,感受一下——

  

  而在橫向的 case 表現上,大家更是齊刷刷的將 o3-mini 與 DeepSeek R1 進行 PK。

  模擬物理世界

  由于 o3-mini 相比較前一代模型,最大的提升就在于編程能力了。

  所以網友的實測 case 大部分都是跟編程相關的,尤其是一些通過視覺效果就能直觀的感受到代碼寫的好壞的 case。例如下面這個——

  

提示詞:“編寫一個在 tesseract 內彈跳的球的 python 腳本”

  先看下o3-mini 寫的代碼的運行效果:

  

  然后是DeepSeek R1 所寫代碼的演示效果:

  

  
模擬物理世界的簡單版本

  如果說上一個題目比較抽象,這個題目就能比較直觀的感受效果了。

  

提示詞:write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically
中文提示詞:編寫一個 Python 程序,顯示球在旋轉的六邊形內彈跳。球應該受到重力和摩擦力的影響,并且必須逼真地從旋轉的墻壁上反彈”

  分析:這題左邊 o3-mini 明顯要好于右邊的 DeepSeek R1,R1 沒有考慮重力影響

  

  當然,也有反例,比如有國外網友跑出了一個 DeepSeek R1 表現更好的例子——

  

提示:“編寫一個 Python 腳本,每 5 秒在一個正方形內出現一個不同顏色的新彈跳球,請確保正確處理碰撞檢測。使正方形緩慢旋轉。在 Python 中實現它。確保球保持在正方形內”

  網友說必須明確提示 O1-Mini-high 才能獲得彈跳球效果......DeepSeek-R1 在第一次就實現了,沒有任何明確的提示。

  o3-mini-high:

  

  deepseek-r1 :

  

  從上面對比視頻看,這題 deepseek-r1 的效果更好,因為它模擬了兩個小球發生碰撞時彈開的物理情況,而 o3 則沒有處理這種情況。

  除了上面的編程能力 PK 外,我還見到一個很棒的示例。

  8 秒寫一個 Twitter 網站

  

原貼鏈接: https://x.com/aidan_clark/status/1885408020529545621

  網友要求用一個 python 腳本制作一個克隆版的推特網站,O3-mini 花了 8 秒寫出了這個網站。提示詞也出奇的簡單——

  

  運行一下 o3-mini 寫的代碼,看下這個網站——

  

  好家伙,注冊/登陸、發推、點贊、轉推功能都齊全了。這效果,至少夠熟練的人類程序員寫一下午了,加上與產品經理的溝通拉扯,可能都要一天起步。而 o3-mini 只用了 8 秒。

  此外,還有網友提到,o3-mini 能做到 o1 pro 都做不到的事情,比如一個混合了藝術、科學和編程的復雜任務——

  

  貼一下這個著色器的視頻,感受一下——

  

  除了網友曬出的編程 case 外,我也運行了幾個大型項目中遇到的困難編程問題,其中不乏難倒了 o1 在內所有推理模型的問題。但由于比較敏感,這里沒法直接貼出來測試題目。

  不過,可以分享一下結論性的體感表現——對于我手上那些上一代推理模型全軍覆沒的編程問題,o3-mini 解掉了約 50% 的題目。o3-mini 在編程方面的提升,確實能在體感上強烈感知到。

  Agent 應用開發的核心模型?

  大家經常說,2025 年是 Agent 元年(雖然 2024 年的時候也這樣說)。

  而我們知道,對于 Agent 來說,思考、記憶和執行是其中要解決的三大關鍵問題。對于執行層面來說,老一代的模型如 Gemini 2.0、DeepSeek v3 等已經做的不錯了,記憶和思考其實仍有很長的路要走。

  而在思考方面,o1 雖然有了很大的提升,但這高昂的推理成本,使其難以在 Agent 應用上大范圍使用。

  而 o3-mini 發布后,就有開發者發現——

  

o3-mini 完全可以替換掉 o1,便宜 9 倍,快 4 倍,部分任務上效果還更好。

  有了 o3-mini,我覺得 2025 年 Agent 應用爆發,可能真的不再只是喊喊口號而已了。

  安全評估

  與此同時,OpenAI 也放出了關于 o3-mini 的安全評估報告"OpenAI o3-mini System Card". 有網友整理了這里面的一些關鍵信息。

  例如,o3-mini 的幻覺相比 4o 和上一代 o1-mini 模型大大減少——

  

  在一些看似危險實則一點也不安全的問題上,如“如何殺死 python 進程”,老的模型經常會拒絕回答,o3-mini 則不會過度阻止了——

  

  而我們常用的一些讓 AI 模型越獄的手段,也更難攻破 o3-mini 了——

  

不過,看起來針對 System message 字段的攻擊,o3-mini 相比 o1 反而更糟了(0.95=>0.88)

結語

  或 許,真正的挑戰并非單純的技術超越,而是在這個變革的時代,如何用創新和責任構建出人類和智能的和諧共生。

  未來的路依然漫長,但這一次,o3-mini與DeepSeek R1無疑為我們確認了一個方向——

  智能不應只是少數人的特權,而是每個人都能觸及的力量。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
「棄貓效應」:這就是孩子“越長大越和你不親”的原因……

「棄貓效應」:這就是孩子“越長大越和你不親”的原因……

諾媽家有男寶娃
2025-04-04 18:09:29
馬筱梅回應前夫指控,稱兩人已多年沒有聯系,突然出現被嚇一跳

馬筱梅回應前夫指控,稱兩人已多年沒有聯系,突然出現被嚇一跳

扒蝦侃娛
2025-04-30 19:01:05
國米官方:勞塔羅左大腿屈肌拉伸,身體狀況將每天進行評估

國米官方:勞塔羅左大腿屈肌拉伸,身體狀況將每天進行評估

懂球帝
2025-05-03 00:02:10
被譽為“豪門奪冠拼圖”的26歲巴西中場,成為曼市雙雄競逐對象

被譽為“豪門奪冠拼圖”的26歲巴西中場,成為曼市雙雄競逐對象

里芃芃體育
2025-05-02 07:00:19
反轉了?肖某否認后,當年護士聊天記錄曝光,誰得錯一看便知

反轉了?肖某否認后,當年護士聊天記錄曝光,誰得錯一看便知

辣條小劇場
2025-04-29 03:16:12
難怪殲10突然跑去埃及,不是搶訂單那么簡單,提前防了特朗普一手

難怪殲10突然跑去埃及,不是搶訂單那么簡單,提前防了特朗普一手

文昌每日談
2025-04-29 17:22:50
新造車4月再洗牌:零跑超小鵬理想,小米問界各有煩惱

新造車4月再洗牌:零跑超小鵬理想,小米問界各有煩惱

定焦One
2025-05-02 09:02:09
柳州天氣將變!冷空氣、暴雨、大風來襲

柳州天氣將變!冷空氣、暴雨、大風來襲

南國今報
2025-05-02 21:09:49
大家提前做好準備,若不出意外,5月以后,國內將迎來4個變化

大家提前做好準備,若不出意外,5月以后,國內將迎來4個變化

貓叔東山再起
2025-05-01 11:55:06
曾凡博:當我躺在地上時,我聽到了真相撞擊地板的聲音

曾凡博:當我躺在地上時,我聽到了真相撞擊地板的聲音

懂球帝
2025-05-02 04:02:38
澳大利亞擴大對華羊肉出口

澳大利亞擴大對華羊肉出口

參考消息
2025-05-02 14:08:12
天意弄人?付政浩:迪亞洛步曾凡博后塵受傷 賽場天意難測

天意弄人?付政浩:迪亞洛步曾凡博后塵受傷 賽場天意難測

直播吧
2025-05-03 00:44:03
上海一大媽走后留700萬,銀行要求本人簽字才給,女兒做法太解氣

上海一大媽走后留700萬,銀行要求本人簽字才給,女兒做法太解氣

蘭姐說故事
2025-03-19 15:00:05
37.25公斤!神舟十九號帶回→

37.25公斤!神舟十九號帶回→

鄭州新聞廣播
2025-05-01 15:37:40
不請安切洛蒂執教,就退出國家隊?內馬爾的威脅已成為外界的笑料

不請安切洛蒂執教,就退出國家隊?內馬爾的威脅已成為外界的笑料

里芃芃體育
2025-05-03 00:15:07
美國人評論亞洲街道:日本干凈,印度臟亂,中國只用四個字概括

美國人評論亞洲街道:日本干凈,印度臟亂,中國只用四個字概括

八斗小先生
2025-04-22 09:42:31
中日韓考古界集體沉默!千年金印揭露三國最尷尬淵源

中日韓考古界集體沉默!千年金印揭露三國最尷尬淵源

窗外的光
2025-04-30 13:00:54
奧運冠軍陳夢今日官宣

奧運冠軍陳夢今日官宣

魯中晨報
2025-05-02 17:32:08
28歲中國籍女子因購買“鬼滅之刃”限量版徽章被拒,涉嫌打45歲女性職員被捕

28歲中國籍女子因購買“鬼滅之刃”限量版徽章被拒,涉嫌打45歲女性職員被捕

東京在線
2025-05-02 07:12:30
23歲朝鮮男人入贅浙江,8年寄了100萬回家,首次回家卻讓他傻眼

23歲朝鮮男人入贅浙江,8年寄了100萬回家,首次回家卻讓他傻眼

蕭竹輕語
2025-04-27 17:52:52
2025-05-03 03:36:49
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6611文章數 94407關注度
往期回顧 全部

科技要聞

微軟CEO和奧特曼失了和,OpenAI被“斷糧”

頭條要聞

美媒:馬斯克不再在白宮辦公后 特朗普演講時"挖苦"他

頭條要聞

美媒:馬斯克不再在白宮辦公后 特朗普演講時"挖苦"他

體育要聞

北京3-0橫掃山西晉級總決賽戰廣廈 杰曼43分周琦19+11

娛樂要聞

趙又廷節目中高調撒糖 大贊高圓圓超好

財經要聞

黃仁勛在美國又穿西裝表態,怎么看?

汽車要聞

全路況 大格局 前路山海皆坦途

態度原創

游戲
教育
親子
時尚
家居

海外網友熱議BLG擊敗WBG:再見wei,北川更適合!支持BLG解雇茂凱

教育要聞

別再笑嘻嘻的了,這題目都做不出來,看你怎么考大學

親子要聞

陪伴孩子一起面對痛苦,生發其應當承擔的責任

被這些中年女人驚艷了!闊腿褲和過膝裙一穿,優雅得體美出圈

家居要聞

意式輕奢 低飽和質感美學

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 渭源县| 庆阳市| 社旗县| 禄劝| 裕民县| 雷州市| 始兴县| 固原市| 全椒县| 卫辉市| 邳州市| 邢台市| 皮山县| 全州县| 宝山区| 海宁市| 台北县| 北碚区| 平度市| 友谊县| 德保县| 张北县| 宁津县| 龙陵县| 彰化县| 双城市| 秭归县| 广元市| 安西县| 台湾省| 保定市| 阜平县| 密云县| 沁源县| 邵武市| 湖口县| 临沭县| 诸暨市| 南涧| 金堂县| 凭祥市|