大數據文摘受權轉載自夕小瑤科技說
今日凌晨,OpenAI o3-mini 正式上線 ChatGPT,API 可用。還有更大的驚喜——
免費用戶也可以使用。
只需要在消息編輯器中選擇“Reason”就可以調用 o3-mini 了。
這是 ChatGPT 首次向免費用戶提供推理模型。
對此,我只能用以下表情包評價此事件——
具體來說:
Plus 和 Team 用戶:每天 150 次對話限制( 原 o1-mini 每天 50 條消息);
Pro 用戶:可以無限制地訪問(當然,實際別太認真,真用多了大概率會跟此前 o1 一樣降智);
Enterprise 用戶:將于 2 月推出;
API:向 3-5 級開發者開放,提供了三種選擇版本,low、medium、high ,根據開發需求在效果(推理時間)和速度(延遲)之間平衡,靈活選擇。
發布后,原 o1-mini 位置被 o3-mini 替代,付費用戶還能選擇更智能的 o3-mini-high。
o3-mini 不止是在網頁客戶端免費開放,其商用 API 價格也相比 o1 迎來斷崖式下跌——
o3-mini 相比 o1:
更快:延遲更低,響應更快。在 A/B 測試中,o3-mini 的響應速度比 o1-mini 快 24%,平均響應時間為 7.7 秒,而 o1-mini 為 10.16 秒。
更強:答案更準確、幻覺更少、推理更強。尤其是編程能力,詳情見《 》。
更便宜:比 o1 便宜 93%。
可以通過下面這張 LiveBench 測試基準直觀的感受 o3-mini 在推理、編程、數學上面的表現,尤其是 Coding 這一列,編程能力斷崖式的碾壓了 o1、deepseek r1 和 gemini 系列模型:
人類最后一次考試(Humanity’s Last Exam)則是由數百位人類領域專家開發的一個榜單,號稱是捍衛人類智慧的最后一站。在此之前,所有頂尖 AI 通過率都不超過 10%,這次 O3-mini 首次打破記錄。
我觀測到一個很有意思的現象。
以前 OpenAI 發布新模型的時候,外網網友一般都會拿新模型與 OpenAI 的老模型,Claude 模型,最多再加上 Gemini 模型做比較。
但這次,我發現外國網友甚至都很少拿 o3-mini 與 o1 去對比,反而大家齊刷刷的拿 o3-mini 與 DeepSeek R1 在做橫向對比。
比如,有國外網友從性價比層面點評 o3-mini——
雖然 o3-mini 更好,但 DeepSeek R1 相似卻更便宜,“DeepSeek 時刻”值得被人們銘記,成為科技領域關鍵歷史事件
還有網友橫向對比了 o3-mini 的思維鏈與 DeepSeek R1 的思維鏈——
o3-mini 的思維鏈與 R1 相比,更加冰冷、客觀;R1 更接近我內心的思考過程
放大圖片,感受一下——
而在橫向的 case 表現上,大家更是齊刷刷的將 o3-mini 與 DeepSeek R1 進行 PK。
模擬物理世界
由于 o3-mini 相比較前一代模型,最大的提升就在于編程能力了。
所以網友的實測 case 大部分都是跟編程相關的,尤其是一些通過視覺效果就能直觀的感受到代碼寫的好壞的 case。例如下面這個——
提示詞:“編寫一個在 tesseract 內彈跳的球的 python 腳本”
先看下o3-mini 寫的代碼的運行效果:
然后是DeepSeek R1 所寫代碼的演示效果:
模擬物理世界的簡單版本
如果說上一個題目比較抽象,這個題目就能比較直觀的感受效果了。
提示詞:write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically
中文提示詞:編寫一個 Python 程序,顯示球在旋轉的六邊形內彈跳。球應該受到重力和摩擦力的影響,并且必須逼真地從旋轉的墻壁上反彈”
分析:這題左邊 o3-mini 明顯要好于右邊的 DeepSeek R1,R1 沒有考慮重力影響
當然,也有反例,比如有國外網友跑出了一個 DeepSeek R1 表現更好的例子——
提示:“編寫一個 Python 腳本,每 5 秒在一個正方形內出現一個不同顏色的新彈跳球,請確保正確處理碰撞檢測。使正方形緩慢旋轉。在 Python 中實現它。確保球保持在正方形內”
網友說必須明確提示 O1-Mini-high 才能獲得彈跳球效果......DeepSeek-R1 在第一次就實現了,沒有任何明確的提示。
o3-mini-high:
deepseek-r1 :
從上面對比視頻看,這題 deepseek-r1 的效果更好,因為它模擬了兩個小球發生碰撞時彈開的物理情況,而 o3 則沒有處理這種情況。
除了上面的編程能力 PK 外,我還見到一個很棒的示例。
8 秒寫一個 Twitter 網站
原貼鏈接: https://x.com/aidan_clark/status/1885408020529545621
網友要求用一個 python 腳本制作一個克隆版的推特網站,O3-mini 花了 8 秒寫出了這個網站。提示詞也出奇的簡單——
運行一下 o3-mini 寫的代碼,看下這個網站——
好家伙,注冊/登陸、發推、點贊、轉推功能都齊全了。這效果,至少夠熟練的人類程序員寫一下午了,加上與產品經理的溝通拉扯,可能都要一天起步。而 o3-mini 只用了 8 秒。
此外,還有網友提到,o3-mini 能做到 o1 pro 都做不到的事情,比如一個混合了藝術、科學和編程的復雜任務——
貼一下這個著色器的視頻,感受一下——
除了網友曬出的編程 case 外,我也運行了幾個大型項目中遇到的困難編程問題,其中不乏難倒了 o1 在內所有推理模型的問題。但由于比較敏感,這里沒法直接貼出來測試題目。
不過,可以分享一下結論性的體感表現——對于我手上那些上一代推理模型全軍覆沒的編程問題,o3-mini 解掉了約 50% 的題目。o3-mini 在編程方面的提升,確實能在體感上強烈感知到。
Agent 應用開發的核心模型?
大家經常說,2025 年是 Agent 元年(雖然 2024 年的時候也這樣說)。
而我們知道,對于 Agent 來說,思考、記憶和執行是其中要解決的三大關鍵問題。對于執行層面來說,老一代的模型如 Gemini 2.0、DeepSeek v3 等已經做的不錯了,記憶和思考其實仍有很長的路要走。
而在思考方面,o1 雖然有了很大的提升,但這高昂的推理成本,使其難以在 Agent 應用上大范圍使用。
而 o3-mini 發布后,就有開發者發現——
o3-mini 完全可以替換掉 o1,便宜 9 倍,快 4 倍,部分任務上效果還更好。
有了 o3-mini,我覺得 2025 年 Agent 應用爆發,可能真的不再只是喊喊口號而已了。
安全評估
與此同時,OpenAI 也放出了關于 o3-mini 的安全評估報告"OpenAI o3-mini System Card". 有網友整理了這里面的一些關鍵信息。
例如,o3-mini 的幻覺相比 4o 和上一代 o1-mini 模型大大減少——
在一些看似危險實則一點也不安全的問題上,如“如何殺死 python 進程”,老的模型經常會拒絕回答,o3-mini 則不會過度阻止了——
而我們常用的一些讓 AI 模型越獄的手段,也更難攻破 o3-mini 了——
不過,看起來針對 System message 字段的攻擊,o3-mini 相比 o1 反而更糟了(0.95=>0.88)
結語
或 許,真正的挑戰并非單純的技術超越,而是在這個變革的時代,如何用創新和責任構建出人類和智能的和諧共生。
未來的路依然漫長,但這一次,o3-mini與DeepSeek R1無疑為我們確認了一個方向——
智能不應只是少數人的特權,而是每個人都能觸及的力量。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.