OpenAI全力反撲了,也在開源這件事上開始反思了。
在1月最后一天,OpenAI發布了免費版的o3 mini,技術報告顯示它的低配版超過了o1 mini,中高配版本的各項基準測試,基本上都超過了o1。
OpenAI踩著它在去年底定下的Deadline,如期發布了o3 mini,并沒有完全反映出已經改變了的AI競爭游戲規則。o3 mini的價格相比o1 mini下降了63%,比o1下降了93%,但總體性價比仍然沒有超過DeepSeek R1。
AI的競爭,已經不完全是性能的競爭,尤其是在效能領先收窄時,真正的競爭是成本-智能前沿邊界之爭,即關于性價比平價的競爭。從這一點上來說,以DeepSeek為代表的中國開源模型,再如阿里巴巴剛剛發布的Qwen 2.5 Max,目前顯得積極主動,它們鼓勵自己被用于廣泛蒸餾,迅速擴大生態。
可能已經意識到了這一點,OpenAI CEO奧特曼承認:在開放模型權重這一問題上,我們站在了歷史錯誤的一邊。
這次o3 mini推出了3個版本,low、medium和high。其中用于快速高級推理的low和擅長編程和邏輯的high版本已經上線,所有ChatGPT用戶都可使用,不過付費的plus用戶使用次數擴大至原先的三倍至每天150次。
o3-mini的性能得到顯著提升。我們先"照本宣科"一下它的基準測試分數:
數學競賽(AIME 2024)
數學:在低推理強度下,OpenAI o3-mini 的表現與 OpenAI o1-mini 相當;在中等推理強度下,o3-mini 的表現與 OpenAI o1 相當。而在高推理強度下,o3-mini 的表現優于 OpenAI o1-mini 和 OpenAI o1。灰色陰影區域表示基于 64 個樣本的多數投票(共識)性能。(來源:OpenAI)
博士級科學問題(GPQA Diamond)
博士級科學:在博士級生物、化學和物理問題上,OpenAI o3-mini 在低推理強度下的表現優于 OpenAI o1-mini。在高推理強度下,o3-mini 的表現與 OpenAI o1 相當。(來源:OpenAI )
數學學霸級的FrontierMath問題
研究級數學:在 FrontierMath 測試中,OpenAI o3-mini 在高推理強度下的表現優于其前代模型。當被提示使用 Python 工具時,o3-mini 在高推理強度下能在首次嘗試中解答超過 32% 的問題,其中包括超過 28% 的高難度(T3)問題。這些數據為初步結果,上方圖表展示的是未使用工具或計算器的表現。
編碼競賽(Codeforces)
競賽編程:在 Codeforces 競賽編程測試中,OpenAI o3-mini 隨著推理強度的增加,其 Elo 評分逐步提升,并在所有推理強度下均優于 OpenAI o1-mini。在中等推理強度下,o3-mini 的表現與 OpenAI o1 相當。(來源:OpenAI )
軟件工程 (SWE Verified)
軟件工程:在 SWEbench-verified 測試中,o3-mini 是我們迄今發布的表現最優模型。關于 SWEbench-verified 在高推理強度下的更多數據點,包括使用開源的 Agentless scaffold(39%)和內部工具 scaffold(61%)的結果。(來源:OpenAI)
o1 mini與 o3 mini之間的時延對比
延遲:o3-mini 的首個 token 生成時間比 o1-mini 平均快 2500 毫秒。(來源:OpenAI )
OpenAI稱,o3-mini 的發布,標志著 OpenAI 在推動“高性價比智能邊界”上的又一重要進展。“自 GPT-4 推出以來,每 token 價格已降低 95%——同時依然保持頂級推理能力。隨著人工智能應用的加速普及,我們將繼續站在前沿,打造兼具智能、效率與安全性的大規模 AI 模型。”
OpenAI的強化學習科學家Noam Brown認為,o3 mini移動了推理模型的價格曲線。但許多分析人士認為,這遠不足以匹配 DeepSeek R1/v3 的價格曲線,它比o1降價25倍之多。
DeepSeek已經把AI的競爭帶入了性價比之戰,而不再是由幾家閉源大模型憑借先發及資源優勢,掌握著定價權。
早在2023年初,開源模型Llama的發布,曾經引起一陣“羊駝家族”小模型的熱潮,這些從Llama中蒸餾出來的小模型,在一些性能上不輸于基礎大模型,而且能精簡到裝在PC和手機里。當時谷歌內部已經有人發出警告,我們沒有護城河,OpenAI也沒有。
2024年5月,當DeepSeek V2發起一場價格戰時,硅谷一些人已經敏銳地感到一股“來自東方的神秘力量”開始出現,但沒并有引起太多的關注。直到DeepSeek在一個月內接連發布V3 和R1,才以美國AI巨頭暴跌萬億美元的慘劇,宣告美國前沿閉源大模型對AI定價權的崩潰,進入了中美兩極競爭的時代。
硅谷AI創業者和投資人Shawn Wang,根據技術報告估算了o1-o3系列的成本-性能邊界曲線。從這張圖可以看出,DeepSeek總體上仍處于更前沿的成本-智能邊界,目前的未知數是剛發布的Gemini 2.0 Flash Thinking,它還沒有公布服務的價格。
(來源:latent.space )
當下有實力在成本-智能的前沿邊界上競爭的,是OpenAI,Gemini,DeepSeek三家,如果中國再加上一家的話,應該是阿里的Qwen。至于說到Claude,它有可能在這場競爭中淪為二流,難怪其創始人阿莫迪發表了一篇萬字長文,力主美國對中國加強GPU禁運,因為一旦在十萬到百萬級GPU基礎上的生態競爭,目前價格最貴的Claude將難以招架。
奧特曼在Reddit上已經承認,即使OpenAI繼續開發出更好的模型,但已經不會如以前幾年那樣領先了。他將考慮OpenAI的開源,如把一些舊的模型開放,但這目前并不是OpenAI的優先事項。OpenAI目前正在全力以3000億美元的估值融資400億美元,同時在推進5000億美元的星際之門數據中心基礎設施計劃。
而DeepSeek正在激活中國從芯片到應用的AI生態,硅基流動和華為云聯合首發并上線基于華為云昇騰云服務的DeepSeekR1/V3推理服務。 中國相對于美國較薄弱的基礎模型、芯片和數據中心,正在形成合力。
既然OpenAI出手了,Grok-3 和Gemini Pro還坐得住嗎?下周可能更精彩。DeepSeek V3炸裂了他們的圣誕新年和12連發,他們也要一窩蜂地炸裂我們的春節,直到十五。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.