網易首頁 > 網易號 > 正文申請入駐

OpenAI在反撲中反思，與DeepSeek爭奪性價比無盡前沿

2025-02-02 00:49:29　來源: 未盡研究

上海舉報

分享至

OpenAI全力反撲了，也在開源這件事上開始反思了。

在1月最后一天，OpenAI發布了免費版的o3 mini，技術報告顯示它的低配版超過了o1 mini，中高配版本的各項基準測試，基本上都超過了o1。

OpenAI踩著它在去年底定下的Deadline，如期發布了o3 mini，并沒有完全反映出已經改變了的AI競爭游戲規則。o3 mini的價格相比o1 mini下降了63%，比o1下降了93%，但總體性價比仍然沒有超過DeepSeek R1。

AI的競爭，已經不完全是性能的競爭，尤其是在效能領先收窄時，真正的競爭是成本-智能前沿邊界之爭，即關于性價比平價的競爭。從這一點上來說，以DeepSeek為代表的中國開源模型，再如阿里巴巴剛剛發布的Qwen 2.5 Max，目前顯得積極主動，它們鼓勵自己被用于廣泛蒸餾，迅速擴大生態。

可能已經意識到了這一點，OpenAI CEO奧特曼承認：在開放模型權重這一問題上，我們站在了歷史錯誤的一邊。

這次o3 mini推出了3個版本，low、medium和high。其中用于快速高級推理的low和擅長編程和邏輯的high版本已經上線，所有ChatGPT用戶都可使用，不過付費的plus用戶使用次數擴大至原先的三倍至每天150次。

o3-mini的性能得到顯著提升。我們先"照本宣科"一下它的基準測試分數：

數學競賽（AIME 2024）

數學：在低推理強度下，OpenAI o3-mini 的表現與 OpenAI o1-mini 相當；在中等推理強度下，o3-mini 的表現與 OpenAI o1 相當。而在高推理強度下，o3-mini 的表現優于 OpenAI o1-mini 和 OpenAI o1。灰色陰影區域表示基于 64 個樣本的多數投票（共識）性能。（來源：OpenAI)

博士級科學問題（GPQA Diamond)

博士級科學：在博士級生物、化學和物理問題上，OpenAI o3-mini 在低推理強度下的表現優于 OpenAI o1-mini。在高推理強度下，o3-mini 的表現與 OpenAI o1 相當。(來源：OpenAI )

數學學霸級的FrontierMath問題

研究級數學：在 FrontierMath 測試中，OpenAI o3-mini 在高推理強度下的表現優于其前代模型。當被提示使用 Python 工具時，o3-mini 在高推理強度下能在首次嘗試中解答超過 32% 的問題，其中包括超過 28% 的高難度（T3）問題。這些數據為初步結果，上方圖表展示的是未使用工具或計算器的表現。

編碼競賽（Codeforces)

競賽編程：在 Codeforces 競賽編程測試中，OpenAI o3-mini 隨著推理強度的增加，其 Elo 評分逐步提升，并在所有推理強度下均優于 OpenAI o1-mini。在中等推理強度下，o3-mini 的表現與 OpenAI o1 相當。(來源：OpenAI )

軟件工程（SWE Verified)

軟件工程：在 SWEbench-verified 測試中，o3-mini 是我們迄今發布的表現最優模型。關于 SWEbench-verified 在高推理強度下的更多數據點，包括使用開源的 Agentless scaffold（39%）和內部工具 scaffold（61%）的結果。（來源：OpenAI)

o1 mini與 o3 mini之間的時延對比

延遲：o3-mini 的首個 token 生成時間比 o1-mini 平均快 2500 毫秒。（來源：OpenAI )

OpenAI稱，o3-mini 的發布，標志著 OpenAI 在推動“高性價比智能邊界”上的又一重要進展。“自 GPT-4 推出以來，每 token 價格已降低 95%——同時依然保持頂級推理能力。隨著人工智能應用的加速普及，我們將繼續站在前沿，打造兼具智能、效率與安全性的大規模 AI 模型。”

OpenAI的強化學習科學家Noam Brown認為，o3 mini移動了推理模型的價格曲線。但許多分析人士認為，這遠不足以匹配 DeepSeek R1/v3 的價格曲線，它比o1降價25倍之多。

DeepSeek已經把AI的競爭帶入了性價比之戰，而不再是由幾家閉源大模型憑借先發及資源優勢，掌握著定價權。

早在2023年初，開源模型Llama的發布，曾經引起一陣“羊駝家族”小模型的熱潮，這些從Llama中蒸餾出來的小模型，在一些性能上不輸于基礎大模型，而且能精簡到裝在PC和手機里。當時谷歌內部已經有人發出警告，我們沒有護城河，OpenAI也沒有。

2024年5月，當DeepSeek V2發起一場價格戰時，硅谷一些人已經敏銳地感到一股“來自東方的神秘力量”開始出現，但沒并有引起太多的關注。直到DeepSeek在一個月內接連發布V3 和R1，才以美國AI巨頭暴跌萬億美元的慘劇，宣告美國前沿閉源大模型對AI定價權的崩潰，進入了中美兩極競爭的時代。

硅谷AI創業者和投資人Shawn Wang，根據技術報告估算了o1-o3系列的成本-性能邊界曲線。從這張圖可以看出，DeepSeek總體上仍處于更前沿的成本-智能邊界，目前的未知數是剛發布的Gemini 2.0 Flash Thinking，它還沒有公布服務的價格。

（來源：latent.space )

當下有實力在成本-智能的前沿邊界上競爭的，是OpenAI，Gemini，DeepSeek三家，如果中國再加上一家的話，應該是阿里的Qwen。至于說到Claude，它有可能在這場競爭中淪為二流，難怪其創始人阿莫迪發表了一篇萬字長文，力主美國對中國加強GPU禁運，因為一旦在十萬到百萬級GPU基礎上的生態競爭，目前價格最貴的Claude將難以招架。

奧特曼在Reddit上已經承認，即使OpenAI繼續開發出更好的模型，但已經不會如以前幾年那樣領先了。他將考慮OpenAI的開源，如把一些舊的模型開放，但這目前并不是OpenAI的優先事項。OpenAI目前正在全力以3000億美元的估值融資400億美元，同時在推進5000億美元的星際之門數據中心基礎設施計劃。

而DeepSeek正在激活中國從芯片到應用的AI生態，硅基流動和華為云聯合首發并上線基于華為云昇騰云服務的DeepSeekR1/V3推理服務。中國相對于美國較薄弱的基礎模型、芯片和數據中心，正在形成合力。

既然OpenAI出手了，Grok-3 和Gemini Pro還坐得住嗎？下周可能更精彩。DeepSeek V3炸裂了他們的圣誕新年和12連發，他們也要一窩蜂地炸裂我們的春節，直到十五。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.