網易首頁 > 網易號 > 正文申請入駐

謝謝Deepseek，o3-mini發布即免費！編程斷崖式領先，思考過程冰冷而客觀

2025-02-02 19:51:46　來源: 大數據文摘

北京舉報

分享至

　　大數據文摘受權轉載自夕小瑤科技說

　　今日凌晨，OpenAI o3-mini 正式上線 ChatGPT，API 可用。還有更大的驚喜——

　　免費用戶也可以使用。

　　只需要在消息編輯器中選擇“Reason”就可以調用 o3-mini 了。

　　這是 ChatGPT 首次向免費用戶提供推理模型。

　　對此，我只能用以下表情包評價此事件——

　　具體來說：

　　Plus 和 Team 用戶：每天 150 次對話限制（原 o1-mini 每天 50 條消息）；

　　Pro 用戶：可以無限制地訪問（當然，實際別太認真，真用多了大概率會跟此前 o1 一樣降智）；

　　Enterprise 用戶：將于 2 月推出；

　　API：向 3-5 級開發者開放，提供了三種選擇版本，low、medium、high ，根據開發需求在效果（推理時間）和速度（延遲）之間平衡，靈活選擇。

　　發布后，原 o1-mini 位置被 o3-mini 替代，付費用戶還能選擇更智能的 o3-mini-high。

　　o3-mini 不止是在網頁客戶端免費開放，其商用 API 價格也相比 o1 迎來斷崖式下跌——

　　o3-mini 相比 o1：

　　更快：延遲更低，響應更快。在 A/B 測試中，o3-mini 的響應速度比 o1-mini 快 24%，平均響應時間為 7.7 秒，而 o1-mini 為 10.16 秒。

　　更強：答案更準確、幻覺更少、推理更強。尤其是編程能力，詳情見《》。

　　更便宜：比 o1 便宜 93%。

　　可以通過下面這張 LiveBench 測試基準直觀的感受 o3-mini 在推理、編程、數學上面的表現，尤其是 Coding 這一列，編程能力斷崖式的碾壓了 o1、deepseek r1 和 gemini 系列模型：

　　人類最后一次考試（Humanity’s Last Exam）則是由數百位人類領域專家開發的一個榜單，號稱是捍衛人類智慧的最后一站。在此之前，所有頂尖 AI 通過率都不超過 10%，這次 O3-mini 首次打破記錄。

　　我觀測到一個很有意思的現象。

　　以前 OpenAI 發布新模型的時候，外網網友一般都會拿新模型與 OpenAI 的老模型，Claude 模型，最多再加上 Gemini 模型做比較。

　　但這次，我發現外國網友甚至都很少拿 o3-mini 與 o1 去對比，反而大家齊刷刷的拿 o3-mini 與 DeepSeek R1 在做橫向對比。

　　比如，有國外網友從性價比層面點評 o3-mini——

雖然 o3-mini 更好，但 DeepSeek R1 相似卻更便宜，“DeepSeek 時刻”值得被人們銘記，成為科技領域關鍵歷史事件

　　還有網友橫向對比了 o3-mini 的思維鏈與 DeepSeek R1 的思維鏈——

o3-mini 的思維鏈與 R1 相比，更加冰冷、客觀；R1 更接近我內心的思考過程

　　放大圖片，感受一下——

　　而在橫向的 case 表現上，大家更是齊刷刷的將 o3-mini 與 DeepSeek R1 進行 PK。

　　模擬物理世界

　　由于 o3-mini 相比較前一代模型，最大的提升就在于編程能力了。

　　所以網友的實測 case 大部分都是跟編程相關的，尤其是一些通過視覺效果就能直觀的感受到代碼寫的好壞的 case。例如下面這個——

提示詞：“編寫一個在 tesseract 內彈跳的球的 python 腳本”

　　先看下o3-mini 寫的代碼的運行效果：

　　然后是DeepSeek R1 所寫代碼的演示效果：

　　
模擬物理世界的簡單版本

　　如果說上一個題目比較抽象，這個題目就能比較直觀的感受效果了。

提示詞：write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically

中文提示詞：編寫一個 Python 程序，顯示球在旋轉的六邊形內彈跳。球應該受到重力和摩擦力的影響，并且必須逼真地從旋轉的墻壁上反彈”

　　分析：這題左邊 o3-mini 明顯要好于右邊的 DeepSeek R1，R1 沒有考慮重力影響

　　當然，也有反例，比如有國外網友跑出了一個 DeepSeek R1 表現更好的例子——

提示：“編寫一個 Python 腳本，每 5 秒在一個正方形內出現一個不同顏色的新彈跳球，請確保正確處理碰撞檢測。使正方形緩慢旋轉。在 Python 中實現它。確保球保持在正方形內”

　　網友說必須明確提示 O1-Mini-high 才能獲得彈跳球效果......DeepSeek-R1 在第一次就實現了，沒有任何明確的提示。

　　o3-mini-high：

　　deepseek-r1 ：

　　從上面對比視頻看，這題 deepseek-r1 的效果更好，因為它模擬了兩個小球發生碰撞時彈開的物理情況，而 o3 則沒有處理這種情況。

　　除了上面的編程能力 PK 外，我還見到一個很棒的示例。

　　8 秒寫一個 Twitter 網站

原貼鏈接： https://x.com/aidan_clark/status/1885408020529545621

　　網友要求用一個 python 腳本制作一個克隆版的推特網站，O3-mini 花了 8 秒寫出了這個網站。提示詞也出奇的簡單——

　　運行一下 o3-mini 寫的代碼，看下這個網站——

　　好家伙，注冊/登陸、發推、點贊、轉推功能都齊全了。這效果，至少夠熟練的人類程序員寫一下午了，加上與產品經理的溝通拉扯，可能都要一天起步。而 o3-mini 只用了 8 秒。

　　此外，還有網友提到，o3-mini 能做到 o1 pro 都做不到的事情，比如一個混合了藝術、科學和編程的復雜任務——

　　貼一下這個著色器的視頻，感受一下——

　　除了網友曬出的編程 case 外，我也運行了幾個大型項目中遇到的困難編程問題，其中不乏難倒了 o1 在內所有推理模型的問題。但由于比較敏感，這里沒法直接貼出來測試題目。

　　不過，可以分享一下結論性的體感表現——對于我手上那些上一代推理模型全軍覆沒的編程問題，o3-mini 解掉了約 50% 的題目。o3-mini 在編程方面的提升，確實能在體感上強烈感知到。

　　Agent 應用開發的核心模型？

　　大家經常說，2025 年是 Agent 元年（雖然 2024 年的時候也這樣說）。

　　而我們知道，對于 Agent 來說，思考、記憶和執行是其中要解決的三大關鍵問題。對于執行層面來說，老一代的模型如 Gemini 2.0、DeepSeek v3 等已經做的不錯了，記憶和思考其實仍有很長的路要走。

　　而在思考方面，o1 雖然有了很大的提升，但這高昂的推理成本，使其難以在 Agent 應用上大范圍使用。

　　而 o3-mini 發布后，就有開發者發現——

o3-mini 完全可以替換掉 o1，便宜 9 倍，快 4 倍，部分任務上效果還更好。

　　有了 o3-mini，我覺得 2025 年 Agent 應用爆發，可能真的不再只是喊喊口號而已了。

　　安全評估

　　與此同時，OpenAI 也放出了關于 o3-mini 的安全評估報告"OpenAI o3-mini System Card". 有網友整理了這里面的一些關鍵信息。

　　例如，o3-mini 的幻覺相比 4o 和上一代 o1-mini 模型大大減少——

　　在一些看似危險實則一點也不安全的問題上，如“如何殺死 python 進程”，老的模型經常會拒絕回答，o3-mini 則不會過度阻止了——

　　而我們常用的一些讓 AI 模型越獄的手段，也更難攻破 o3-mini 了——

不過，看起來針對 System message 字段的攻擊，o3-mini 相比 o1 反而更糟了（0.95=>0.88）

結語

　　或許，真正的挑戰并非單純的技術超越，而是在這個變革的時代，如何用創新和責任構建出人類和智能的和諧共生。

　　未來的路依然漫長，但這一次，o3-mini與DeepSeek R1無疑為我們確認了一個方向——

　　智能不應只是少數人的特權，而是每個人都能觸及的力量。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.