99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

謝謝Deepseek,o3-mini發布即免費!編程斷崖式領先,思考過程冰冷而客觀

0
分享至

  

  大數據文摘受權轉載自夕小瑤科技說

  今日凌晨,OpenAI o3-mini 正式上線 ChatGPT,API 可用。還有更大的驚喜——

  免費用戶也可以使用。

  

  

  只需要在消息編輯器中選擇“Reason”就可以調用 o3-mini 了。

  這是 ChatGPT 首次向免費用戶提供推理模型。

  對此,我只能用以下表情包評價此事件——

  

  具體來說:

  Plus 和 Team 用戶:每天 150 次對話限制( 原 o1-mini 每天 50 條消息);

  Pro 用戶:可以無限制地訪問(當然,實際別太認真,真用多了大概率會跟此前 o1 一樣降智);

  Enterprise 用戶:將于 2 月推出;

  API:向 3-5 級開發者開放,提供了三種選擇版本,low、medium、high ,根據開發需求在效果(推理時間)和速度(延遲)之間平衡,靈活選擇。

  發布后,原 o1-mini 位置被 o3-mini 替代,付費用戶還能選擇更智能的 o3-mini-high。

  

  o3-mini 不止是在網頁客戶端免費開放,其商用 API 價格也相比 o1 迎來斷崖式下跌——

  

  o3-mini 相比 o1:

  更快:延遲更低,響應更快。在 A/B 測試中,o3-mini 的響應速度比 o1-mini 快 24%,平均響應時間為 7.7 秒,而 o1-mini 為 10.16 秒。

  更強:答案更準確、幻覺更少、推理更強。尤其是編程能力,詳情見《 》。

  更便宜:比 o1 便宜 93%。

  可以通過下面這張 LiveBench 測試基準直觀的感受 o3-mini 在推理、編程、數學上面的表現,尤其是 Coding 這一列,編程能力斷崖式的碾壓了 o1、deepseek r1 和 gemini 系列模型:

  

  人類最后一次考試(Humanity’s Last Exam)則是由數百位人類領域專家開發的一個榜單,號稱是捍衛人類智慧的最后一站。在此之前,所有頂尖 AI 通過率都不超過 10%,這次 O3-mini 首次打破記錄。

  

  我觀測到一個很有意思的現象。

  以前 OpenAI 發布新模型的時候,外網網友一般都會拿新模型與 OpenAI 的老模型,Claude 模型,最多再加上 Gemini 模型做比較。

  但這次,我發現外國網友甚至都很少拿 o3-mini 與 o1 去對比,反而大家齊刷刷的拿 o3-mini 與 DeepSeek R1 在做橫向對比。

  比如,有國外網友從性價比層面點評 o3-mini——

  

雖然 o3-mini 更好,但 DeepSeek R1 相似卻更便宜,“DeepSeek 時刻”值得被人們銘記,成為科技領域關鍵歷史事件

  還有網友橫向對比了 o3-mini 的思維鏈與 DeepSeek R1 的思維鏈——

  

o3-mini 的思維鏈與 R1 相比,更加冰冷、客觀;R1 更接近我內心的思考過程

  放大圖片,感受一下——

  

  而在橫向的 case 表現上,大家更是齊刷刷的將 o3-mini 與 DeepSeek R1 進行 PK。

  模擬物理世界

  由于 o3-mini 相比較前一代模型,最大的提升就在于編程能力了。

  所以網友的實測 case 大部分都是跟編程相關的,尤其是一些通過視覺效果就能直觀的感受到代碼寫的好壞的 case。例如下面這個——

  

提示詞:“編寫一個在 tesseract 內彈跳的球的 python 腳本”

  先看下o3-mini 寫的代碼的運行效果:

  

  然后是DeepSeek R1 所寫代碼的演示效果:

  

  
模擬物理世界的簡單版本

  如果說上一個題目比較抽象,這個題目就能比較直觀的感受效果了。

  

提示詞:write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically
中文提示詞:編寫一個 Python 程序,顯示球在旋轉的六邊形內彈跳。球應該受到重力和摩擦力的影響,并且必須逼真地從旋轉的墻壁上反彈”

  分析:這題左邊 o3-mini 明顯要好于右邊的 DeepSeek R1,R1 沒有考慮重力影響

  

  當然,也有反例,比如有國外網友跑出了一個 DeepSeek R1 表現更好的例子——

  

提示:“編寫一個 Python 腳本,每 5 秒在一個正方形內出現一個不同顏色的新彈跳球,請確保正確處理碰撞檢測。使正方形緩慢旋轉。在 Python 中實現它。確保球保持在正方形內”

  網友說必須明確提示 O1-Mini-high 才能獲得彈跳球效果......DeepSeek-R1 在第一次就實現了,沒有任何明確的提示。

  o3-mini-high:

  

  deepseek-r1 :

  

  從上面對比視頻看,這題 deepseek-r1 的效果更好,因為它模擬了兩個小球發生碰撞時彈開的物理情況,而 o3 則沒有處理這種情況。

  除了上面的編程能力 PK 外,我還見到一個很棒的示例。

  8 秒寫一個 Twitter 網站

  

原貼鏈接: https://x.com/aidan_clark/status/1885408020529545621

  網友要求用一個 python 腳本制作一個克隆版的推特網站,O3-mini 花了 8 秒寫出了這個網站。提示詞也出奇的簡單——

  

  運行一下 o3-mini 寫的代碼,看下這個網站——

  

  好家伙,注冊/登陸、發推、點贊、轉推功能都齊全了。這效果,至少夠熟練的人類程序員寫一下午了,加上與產品經理的溝通拉扯,可能都要一天起步。而 o3-mini 只用了 8 秒。

  此外,還有網友提到,o3-mini 能做到 o1 pro 都做不到的事情,比如一個混合了藝術、科學和編程的復雜任務——

  

  貼一下這個著色器的視頻,感受一下——

  

  除了網友曬出的編程 case 外,我也運行了幾個大型項目中遇到的困難編程問題,其中不乏難倒了 o1 在內所有推理模型的問題。但由于比較敏感,這里沒法直接貼出來測試題目。

  不過,可以分享一下結論性的體感表現——對于我手上那些上一代推理模型全軍覆沒的編程問題,o3-mini 解掉了約 50% 的題目。o3-mini 在編程方面的提升,確實能在體感上強烈感知到。

  Agent 應用開發的核心模型?

  大家經常說,2025 年是 Agent 元年(雖然 2024 年的時候也這樣說)。

  而我們知道,對于 Agent 來說,思考、記憶和執行是其中要解決的三大關鍵問題。對于執行層面來說,老一代的模型如 Gemini 2.0、DeepSeek v3 等已經做的不錯了,記憶和思考其實仍有很長的路要走。

  而在思考方面,o1 雖然有了很大的提升,但這高昂的推理成本,使其難以在 Agent 應用上大范圍使用。

  而 o3-mini 發布后,就有開發者發現——

  

o3-mini 完全可以替換掉 o1,便宜 9 倍,快 4 倍,部分任務上效果還更好。

  有了 o3-mini,我覺得 2025 年 Agent 應用爆發,可能真的不再只是喊喊口號而已了。

  安全評估

  與此同時,OpenAI 也放出了關于 o3-mini 的安全評估報告"OpenAI o3-mini System Card". 有網友整理了這里面的一些關鍵信息。

  例如,o3-mini 的幻覺相比 4o 和上一代 o1-mini 模型大大減少——

  

  在一些看似危險實則一點也不安全的問題上,如“如何殺死 python 進程”,老的模型經常會拒絕回答,o3-mini 則不會過度阻止了——

  

  而我們常用的一些讓 AI 模型越獄的手段,也更難攻破 o3-mini 了——

  

不過,看起來針對 System message 字段的攻擊,o3-mini 相比 o1 反而更糟了(0.95=>0.88)

結語

  或 許,真正的挑戰并非單純的技術超越,而是在這個變革的時代,如何用創新和責任構建出人類和智能的和諧共生。

  未來的路依然漫長,但這一次,o3-mini與DeepSeek R1無疑為我們確認了一個方向——

  智能不應只是少數人的特權,而是每個人都能觸及的力量。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中美俄幡然醒悟!原來真正吸血的是歐洲人,如今他們終于要還債了

中美俄幡然醒悟!原來真正吸血的是歐洲人,如今他們終于要還債了

通文知史
2025-07-22 21:55:02
越深愛,越別扭,這三大星座太難懂

越深愛,越別扭,這三大星座太難懂

星座不求人
2025-07-23 21:10:11
國家隊暫停托市!7月24日,今日三大重要消息沖擊市場

國家隊暫停托市!7月24日,今日三大重要消息沖擊市場

風口招財豬
2025-07-24 01:13:10
“大尺度”女星的瓜!

“大尺度”女星的瓜!

文刀萬
2025-05-23 06:05:02
170萬觀眾打出9.7分,沒上映票房破6200萬,大鵬的冠軍保不住了?

170萬觀眾打出9.7分,沒上映票房破6200萬,大鵬的冠軍保不住了?

靠譜電影君
2025-07-22 23:32:19
工齡40年11個月,個人賬戶21.67萬,上海大爺拿了多少養老金呢?

工齡40年11個月,個人賬戶21.67萬,上海大爺拿了多少養老金呢?

養老規劃羅姐說
2025-07-22 19:03:14
最傷害 “陰道” 的 4 個行為,還在經常做的,看完要注意了

最傷害 “陰道” 的 4 個行為,還在經常做的,看完要注意了

伊人河畔
2025-07-12 10:13:49
福建廳干游祖煙履新

福建廳干游祖煙履新

魯中晨報
2025-07-22 07:52:08
48歲陶紅因病去世,9歲女兒一路跪拜祈福,與樂嘉婚姻僅維系3年……

48歲陶紅因病去世,9歲女兒一路跪拜祈福,與樂嘉婚姻僅維系3年……

不二大叔
2025-07-15 21:45:47
為驗證祖先是中國人,6名南島語族后人駕獨木舟,航行116天來中國

為驗證祖先是中國人,6名南島語族后人駕獨木舟,航行116天來中國

博覽歷史
2025-07-22 15:20:03
谷歌母公司二季度業績超預期,提高全年資本支出至850億美元,盤后一度漲3.4% | 財報見聞

谷歌母公司二季度業績超預期,提高全年資本支出至850億美元,盤后一度漲3.4% | 財報見聞

華爾街見聞官方
2025-07-24 05:42:19
女籃眾將發文告別!4朝元老有意宣退,王思雨晚上發文不甘心

女籃眾將發文告別!4朝元老有意宣退,王思雨晚上發文不甘心

凡知
2025-07-23 16:09:34
發現一個悲哀的現象:特別長壽的老人,幾乎都是子女用生命在托舉

發現一個悲哀的現象:特別長壽的老人,幾乎都是子女用生命在托舉

婉秋聊育兒
2025-04-26 05:24:04
記者:劉誠宇可能不具備踢點球的大心臟,鎮定、決斷都還有待提高

記者:劉誠宇可能不具備踢點球的大心臟,鎮定、決斷都還有待提高

直播吧
2025-07-23 22:29:22
南京德基廣場偶遇鹿晗,本人個子不高好瘦小,白皮紅發漫畫感十足

南京德基廣場偶遇鹿晗,本人個子不高好瘦小,白皮紅發漫畫感十足

喜歡歷史的阿繁
2025-07-23 18:08:41
3年1.6億,恭喜湖人,交易非常成功,詹姆斯該開心了

3年1.6億,恭喜湖人,交易非常成功,詹姆斯該開心了

青山隱隱啊
2025-07-23 10:33:05
云南高校在云南遇冷:農大缺額152人、師大缺72人、昆工缺69人!

云南高校在云南遇冷:農大缺額152人、師大缺72人、昆工缺69人!

凱旋學長
2025-07-23 21:52:37
女籃逆襲殺進世大運決賽!李筍南完爆宮魯鳴:中國隊主帥該試試他

女籃逆襲殺進世大運決賽!李筍南完爆宮魯鳴:中國隊主帥該試試他

籃球快餐車
2025-07-24 05:16:28
高喊“打倒民營經濟”的是他,高喊“支持民營經濟”的還是他

高喊“打倒民營經濟”的是他,高喊“支持民營經濟”的還是他

深度報
2025-07-12 23:26:48
巴西巨星太瀟灑,約三女海邊度假,與皇馬續約談判已宣告破裂!

巴西巨星太瀟灑,約三女海邊度假,與皇馬續約談判已宣告破裂!

綠茵舞著
2025-07-24 00:14:40
2025-07-24 06:31:00
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6707文章數 94446關注度
往期回顧 全部

科技要聞

別自嗨了!XREAL徐馳:AI眼鏡只有5歲智商

頭條要聞

宗馥莉被質疑讀的是“野雞大學” 校方回應

頭條要聞

宗馥莉被質疑讀的是“野雞大學” 校方回應

體育要聞

英格蘭最紅球星 也是加勒比島國驕傲

娛樂要聞

汪峰森林北同游日本 各帶各娃互不耽誤

財經要聞

律師解析娃哈哈遺產案:遺囑是最大變數

汽車要聞

德系大招放盡 場地極限測試全新奧迪A5L

態度原創

藝術
教育
時尚
房產
健康

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

光宗耀祖!女生收到錄取通知書,送的不是快遞員,而是兩位飛行員

搶戲《醬園弄》、尬演《長安荔枝》,雷佳音的舒適圈正在反噬

房產要聞

海南自由貿易港全島封關,2025年12月18日正式啟動!

呼吸科專家破解呼吸道九大謠言!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 吉木乃县| 贵阳市| 祥云县| 万宁市| 岳阳市| 噶尔县| 民丰县| 绍兴县| 昌图县| 河间市| 京山县| 普安县| 寻甸| 五台县| 宜都市| 郧西县| 建宁县| 汤原县| 通州市| 寿宁县| 泰宁县| 永吉县| 襄汾县| 保定市| 临泽县| 城固县| 怀化市| 平舆县| 宁国市| 合肥市| 杭锦后旗| 个旧市| 醴陵市| 慈溪市| 贡山| 南岸区| 杨浦区| 广平县| 定兴县| 武汉市| 新竹县|