99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

OpenAI在反撲中反思,與DeepSeek爭奪性價比無盡前沿

0
分享至

OpenAI全力反撲了,也在開源這件事上開始反思了。

在1月最后一天,OpenAI發布了免費版的o3 mini,技術報告顯示它的低配版超過了o1 mini,中高配版本的各項基準測試,基本上都超過了o1。

OpenAI踩著它在去年底定下的Deadline,如期發布了o3 mini,并沒有完全反映出已經改變了的AI競爭游戲規則。o3 mini的價格相比o1 mini下降了63%,比o1下降了93%,但總體性價比仍然沒有超過DeepSeek R1。


AI的競爭,已經不完全是性能的競爭,尤其是在效能領先收窄時,真正的競爭是成本-智能前沿邊界之爭,即關于性價比平價的競爭。從這一點上來說,以DeepSeek為代表的中國開源模型,再如阿里巴巴剛剛發布的Qwen 2.5 Max,目前顯得積極主動,它們鼓勵自己被用于廣泛蒸餾,迅速擴大生態。

可能已經意識到了這一點,OpenAI CEO奧特曼承認:在開放模型權重這一問題上,我們站在了歷史錯誤的一邊。

這次o3 mini推出了3個版本,low、medium和high。其中用于快速高級推理的low和擅長編程和邏輯的high版本已經上線,所有ChatGPT用戶都可使用,不過付費的plus用戶使用次數擴大至原先的三倍至每天150次。

o3-mini的性能得到顯著提升。我們先"照本宣科"一下它的基準測試分數:

數學競賽(AIME 2024)


數學:在低推理強度下,OpenAI o3-mini 的表現與 OpenAI o1-mini 相當;在中等推理強度下,o3-mini 的表現與 OpenAI o1 相當。而在高推理強度下,o3-mini 的表現優于 OpenAI o1-mini 和 OpenAI o1。灰色陰影區域表示基于 64 個樣本的多數投票(共識)性能。(來源:OpenAI)

博士級科學問題(GPQA Diamond)


博士級科學:在博士級生物、化學和物理問題上,OpenAI o3-mini 在低推理強度下的表現優于 OpenAI o1-mini。在高推理強度下,o3-mini 的表現與 OpenAI o1 相當。(來源:OpenAI )

數學學霸級的FrontierMath問題


研究級數學:在 FrontierMath 測試中,OpenAI o3-mini 在高推理強度下的表現優于其前代模型。當被提示使用 Python 工具時,o3-mini 在高推理強度下能在首次嘗試中解答超過 32% 的問題,其中包括超過 28% 的高難度(T3)問題。這些數據為初步結果,上方圖表展示的是未使用工具或計算器的表現。

編碼競賽(Codeforces)


競賽編程:在 Codeforces 競賽編程測試中,OpenAI o3-mini 隨著推理強度的增加,其 Elo 評分逐步提升,并在所有推理強度下均優于 OpenAI o1-mini。在中等推理強度下,o3-mini 的表現與 OpenAI o1 相當。(來源:OpenAI )

軟件工程 (SWE Verified)


軟件工程:在 SWEbench-verified 測試中,o3-mini 是我們迄今發布的表現最優模型。關于 SWEbench-verified 在高推理強度下的更多數據點,包括使用開源的 Agentless scaffold(39%)和內部工具 scaffold(61%)的結果。(來源:OpenAI)

o1 mini與 o3 mini之間的時延對比


延遲:o3-mini 的首個 token 生成時間比 o1-mini 平均快 2500 毫秒。(來源:OpenAI )

OpenAI稱,o3-mini 的發布,標志著 OpenAI 在推動“高性價比智能邊界”上的又一重要進展。“自 GPT-4 推出以來,每 token 價格已降低 95%——同時依然保持頂級推理能力。隨著人工智能應用的加速普及,我們將繼續站在前沿,打造兼具智能、效率與安全性的大規模 AI 模型。”

OpenAI的強化學習科學家Noam Brown認為,o3 mini移動了推理模型的價格曲線。但許多分析人士認為,這遠不足以匹配 DeepSeek R1/v3 的價格曲線,它比o1降價25倍之多。

DeepSeek已經把AI的競爭帶入了性價比之戰,而不再是由幾家閉源大模型憑借先發及資源優勢,掌握著定價權。

早在2023年初,開源模型Llama的發布,曾經引起一陣“羊駝家族”小模型的熱潮,這些從Llama中蒸餾出來的小模型,在一些性能上不輸于基礎大模型,而且能精簡到裝在PC和手機里。當時谷歌內部已經有人發出警告,我們沒有護城河,OpenAI也沒有。

2024年5月,當DeepSeek V2發起一場價格戰時,硅谷一些人已經敏銳地感到一股“來自東方的神秘力量”開始出現,但沒并有引起太多的關注。直到DeepSeek在一個月內接連發布V3 和R1,才以美國AI巨頭暴跌萬億美元的慘劇,宣告美國前沿閉源大模型對AI定價權的崩潰,進入了中美兩極競爭的時代。

硅谷AI創業者和投資人Shawn Wang,根據技術報告估算了o1-o3系列的成本-性能邊界曲線。從這張圖可以看出,DeepSeek總體上仍處于更前沿的成本-智能邊界,目前的未知數是剛發布的Gemini 2.0 Flash Thinking,它還沒有公布服務的價格。


(來源:latent.space )

當下有實力在成本-智能的前沿邊界上競爭的,是OpenAI,Gemini,DeepSeek三家,如果中國再加上一家的話,應該是阿里的Qwen。至于說到Claude,它有可能在這場競爭中淪為二流,難怪其創始人阿莫迪發表了一篇萬字長文,力主美國對中國加強GPU禁運,因為一旦在十萬到百萬級GPU基礎上的生態競爭,目前價格最貴的Claude將難以招架。

奧特曼在Reddit上已經承認,即使OpenAI繼續開發出更好的模型,但已經不會如以前幾年那樣領先了。他將考慮OpenAI的開源,如把一些舊的模型開放,但這目前并不是OpenAI的優先事項。OpenAI目前正在全力以3000億美元的估值融資400億美元,同時在推進5000億美元的星際之門數據中心基礎設施計劃。


而DeepSeek正在激活中國從芯片到應用的AI生態,硅基流動和華為云聯合首發并上線基于華為云昇騰云服務的DeepSeekR1/V3推理服務。 中國相對于美國較薄弱的基礎模型、芯片和數據中心,正在形成合力。

既然OpenAI出手了,Grok-3 和Gemini Pro還坐得住嗎?下周可能更精彩。DeepSeek V3炸裂了他們的圣誕新年和12連發,他們也要一窩蜂地炸裂我們的春節,直到十五。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
開拓者官方曬楊瀚森五月試訓照片,近12條動態有11條與他有關

開拓者官方曬楊瀚森五月試訓照片,近12條動態有11條與他有關

雷速體育
2025-06-27 07:31:17
滿分900,四川一女生中考874分,直言:班里平均分都在845分以上

滿分900,四川一女生中考874分,直言:班里平均分都在845分以上

奇思妙想草葉君
2025-06-25 23:54:34
記者:火箭簽下密西西比大學落選秀前鋒卡梅隆-馬修斯

記者:火箭簽下密西西比大學落選秀前鋒卡梅隆-馬修斯

懂球帝
2025-06-27 12:35:07
伊朗攻擊美軍基地后正式宣布停火,特朗普揚名世界,最大贏家出現

伊朗攻擊美軍基地后正式宣布停火,特朗普揚名世界,最大贏家出現

青輝
2025-06-27 14:40:33
雷軍:未交付SU7都可改配YU7

雷軍:未交付SU7都可改配YU7

大象新聞
2025-06-27 09:02:15
本輪強降雨全面展開,大雨暴雨分布如下,6月27~28日天氣預報

本輪強降雨全面展開,大雨暴雨分布如下,6月27~28日天氣預報

悠閑歷史
2025-06-27 08:53:41
考文垂上任頭把火 暫停奧運申辦 重審競辦過程 2036奧運或創歷史

考文垂上任頭把火 暫停奧運申辦 重審競辦過程 2036奧運或創歷史

郝小小看體育
2025-06-27 10:31:51
蘇群:森林狼從未出現在富保羅視野 開拓者擔心的是雷霆選楊瀚森

蘇群:森林狼從未出現在富保羅視野 開拓者擔心的是雷霆選楊瀚森

直播吧
2025-06-27 15:45:11
毫無預兆,石破茂向北方四島派兵,俄日激烈對,莫斯科終止對話

毫無預兆,石破茂向北方四島派兵,俄日激烈對,莫斯科終止對話

顧史
2025-06-03 18:05:00
《大西洋月刊》:墜機前機長已經殺死了所有乘客,這就是馬航370的真相

《大西洋月刊》:墜機前機長已經殺死了所有乘客,這就是馬航370的真相

金哥說新能源車
2025-06-23 09:22:50
張雪峰強烈推薦的4所大學,最低不到500分就能上,就業比985好!

張雪峰強烈推薦的4所大學,最低不到500分就能上,就業比985好!

戶外阿毽
2025-06-25 03:46:52
臺灣學生因賴清德“雜質說”被罵,蔣萬安沉痛安慰:叔叔也是雜質

臺灣學生因賴清德“雜質說”被罵,蔣萬安沉痛安慰:叔叔也是雜質

海峽導報社
2025-06-27 12:05:41
中國最大爛尾軍事工程——6501 因湖南老農上山尋牛,意外被發現?

中國最大爛尾軍事工程——6501 因湖南老農上山尋牛,意外被發現?

混沌錄
2025-06-04 23:40:17
突發,退賽!衛冕冠軍或退出溫網,王欣瑜有望壓哨成第32號種子

突發,退賽!衛冕冠軍或退出溫網,王欣瑜有望壓哨成第32號種子

大秦壁虎白話體育
2025-06-27 06:55:51
演員田海蓉的身材太難看:她變成街頭大嬸了:身材走樣下半身太壯

演員田海蓉的身材太難看:她變成街頭大嬸了:身材走樣下半身太壯

清游說娛
2025-06-27 15:39:49
蘋果有點尷尬了,新CarPlay太強了,車企公開抵制

蘋果有點尷尬了,新CarPlay太強了,車企公開抵制

互聯網.亂侃秀
2025-06-26 14:52:56
勇士選秀派對上有楊瀚森資料 試訓過的目標已被陸續選走

勇士選秀派對上有楊瀚森資料 試訓過的目標已被陸續選走

直播吧
2025-06-27 09:53:14
9月生效:俄羅斯新規出臺,要求iPhone等蘋果設備支持安裝RuStore

9月生效:俄羅斯新規出臺,要求iPhone等蘋果設備支持安裝RuStore

路飛寫代碼
2025-06-26 10:54:43
女子380萬買領導二手房,入住后墻壁發現2瓶漢帝茅臺,鑒定后懵了

女子380萬買領導二手房,入住后墻壁發現2瓶漢帝茅臺,鑒定后懵了

嘉琪Feel
2025-06-24 23:07:01
耗資2.5億!衛報:美國正建設世界級訓練中心,占地80.9萬平方米

耗資2.5億!衛報:美國正建設世界級訓練中心,占地80.9萬平方米

直播吧
2025-06-26 11:28:19
2025-06-27 16:19:00
未盡研究 incentive-icons
未盡研究
新能源、人工智能、合成生物、地緣X
134文章數 38關注度
往期回顧 全部

科技要聞

雷軍:小米汽車成功沒靠營銷,靠的是能力

頭條要聞

27歲"李福貴"賣貨吸粉600多萬 面對流量哭稱壓力太大

頭條要聞

27歲"李福貴"賣貨吸粉600多萬 面對流量哭稱壓力太大

體育要聞

曼城“庫里”連線,送尤文晚安好夢

娛樂要聞

網傳白玉蘭最佳男女主獎將“爆冷”

財經要聞

1萬就能刪行政處罰?信用修復江湖起底

汽車要聞

配置升級/貴賓座椅 全新GL8陸上公務艙售22.99萬

態度原創

本地
時尚
親子
家居
公開課

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

到了夏天,中年女人穿過膝裙不配運動鞋,才能美得優雅又得體

親子要聞

腸漏是怎么形成的應該如何修復

家居要聞

明亮寬敞 空間合理安排

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 双流县| 南宁市| 曲阜市| 黎川县| 高平市| 五指山市| 偏关县| 綦江县| 巴彦县| 台江县| 广东省| 西安市| 江都市| 蒲城县| 鹤山市| 嵩明县| 外汇| 扶沟县| 洛扎县| 凉城县| 泰和县| 青海省| 南靖县| 泽州县| 双江| 黑龙江省| 商河县| 沅江市| 黔东| 台东县| 同德县| 康定县| 中西区| 平利县| 宣城市| 乌兰察布市| 平江县| 宁陵县| 绥中县| 深州市| 襄汾县|