99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

實測o3/o4-mini:3分鐘解決歐拉問題,OpenAI最強模型名副其實!

0
分享至

號稱“OpenAI迄今為止最強模型”,o3/o4-mini真實能力究竟如何?



就在發布后的幾小時內,網友們的第一波實測已新鮮出爐。

最強推理模型o3,即使遇上首位全職提示詞工程師Riley Goodside的“刻意刁難”,也順利過關:



可以看到,面對藏在一堆玩具里的手繪圖表,它也能通過圖像識別和推理能力正確解答。



o4-mini作為一款專為快速、經濟高效的推理而優化的小模型,在數學能力方面堪稱強悍——

用時2分55秒,解決了最新的歐拉問題,并且該網友強調:

  • 至今只有15個人能夠在30分鐘內解決它。



與此同時,OpenAI內部技術人員也表示,o3的出現讓他第一次萌生了將模型稱為通用人工智能(AGI)的念頭。



眼見氣氛都烘托到這兒了,那我們還不得趕緊看看更多實測效果(doge)。

網友實測o3/o4-mini

首次帶圖深度思考

首先,官方提到,o3和o4-mini是OpenAI首次能將上傳圖像集成到思維鏈中的模型——

這意味著,它們可以基于圖像展開思考

比如有人隨手上傳一張照片,讓o3來判斷拍攝時間和地點,而且要求能具體到地圖上的某一個點。

結果令這位小哥驚訝的是,其答案和實際情況之間的誤差非常小:

  • 地點僅相差1000英尺(約305米),時間僅相差2分鐘。



更有意思的是,假如一張圖上的小字看不清,通過扒思維鏈還能發現——o3甚至會自己“偷偷放大”。



難怪在針對復雜多模態謎題的EnigmaEva測試基準中,o3能拿下SOTA。



不過值得注意的是,據自稱OpenAI員工的網友爆料,雖然基準測試結果存在差異,但o4-mini實際上是比o3更好的視覺模型。

該網友甚至直接建議大家:

  • 在任何涉及視覺的任務中使用o4-mini-high而不是o3。



巧合的是,在大多需要計算復雜數學題的帶圖測試中,大家竟默契選擇了o4-mini而非o3。

除了一開頭提到的解答歐拉問題的例子,o4-mini也被用來解讀技術圖紙。

該網友表示,對于這種大多AI都很難搞定的難題,它一次就成功了:

  • o4 mini(high)能夠分析該部件的尺寸并準確計算出正確體積。



編程能力

其次,兩個新模型這次在編程能力上都有一定程度升級,測試結果表明:

其中o3 High取代谷歌Gemini-2.5,拿下編程第一。



順帶OpenAI這次還開源了一個本地代碼智能體Codex CLI——

它是一種聊天驅動的開發方式 ,能夠理解并執行本地代碼庫,兼容所有OpenAI模型,包括剛剛發布的o3、o4-mini和GPT-4.1。

賓大沃頓商學院教授Ethan Mollick,這次直接利用o3的推理+編程能力制作了一個小短片:



從完整制作過程來看,這里還同步考察了o3調用各項工具的能力

  • 第一步:理解需求;
  • 第二步:使用編程庫生成幀,并將這些幀組合成一個視頻文件;
  • 第三步:使用Python的PIL庫(Pillow)來處理圖像,使用imageio庫來創建視頻文件;
  • 第四步:生成幀;



最后我們也簡單實測了一把,重點考察一下o3和o4-mini的推理能力。

比如讓它們分別幫忙看看“手相”,o3的結果如下:



o4-mini:



可以看到,兩個模型對人物性格特征的判斷大致相似,不過o3還額外給了一些提示建議。

p.s. 原圖為AI生成,大家感興趣可以自己試試~

One More Thing

有趣的是,有網友在實測o3的過程中還發現了一個現象:

  • o系列模型比GPT系列模型更容易錯誤地聲稱使用了代碼工具



為此他們還專門寫了一篇博客,其中揭露了:o3經常編造其為滿足用戶請求而采取的行動,并在用戶質疑時詳細地為這些編造進行辯解。



就像下面這樣,模型聲稱它在筆記本電腦上運行了實際并不存在的代碼。



而且通過進一步研究發現,這些偽造行為包括下面這些:

1、錯誤地聲稱執行代碼,聲稱“我本地運行了這個”或“運行它產生了”后面跟著特定輸出,而模型沒有能力執行Python或其他編程語言;

2、編造詳細的計算結果,包括特定的數值、統計數據和加密哈希值,表現為它們是實際執行輸出而不是估計或示例;



同時,他們也初步提出了造成這一現象的可能原因:

首先就是模型幻覺和獎勵黑客攻擊,他們表示這些問題在o系列模型中尤為普遍。

另外,使用基于結果的強化學習可能會導致模型盲目猜測,并且某些行為(如模擬代碼工具)可能會在某些任務上提高準確性,但在其他任務上造成混淆。

最后就是,o系列模型在處理連續對話時有一個限制,它們無法訪問之前的推理過程,這可能導致模型在回答問題時出現不準確或不一致的情況。



順便一提,即日起,ChatGPT的Plus、Pro會員以及Team用戶,都能直接體驗o3、o4-mini和o4-mini-high,而原本的o1、o3-mini和o3-mini-high則已悄然下架。

你怎么看OpenAI這次發布的o3和o4-mini?

博客:
https://transluce.org/investigating-o3-truthfulness

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
《哪吒2》票房沖破158億:即將超越《泰坦尼克號》

《哪吒2》票房沖破158億:即將超越《泰坦尼克號》

3DM游戲
2025-05-03 16:16:03
石宇奇創造蘇杯一項紀錄,連續四屆決賽他均得分,此前無先例

石宇奇創造蘇杯一項紀錄,連續四屆決賽他均得分,此前無先例

全眼看體育
2025-05-04 18:00:35
奇瑞集團銷量一直上漲,為啥在路上奇瑞的新車并不多見?

奇瑞集團銷量一直上漲,為啥在路上奇瑞的新車并不多見?

車輪生活
2025-05-03 09:30:01
陳奕迅日本演唱會現場 播放空投炸彈畫面引爭議

陳奕迅日本演唱會現場 播放空投炸彈畫面引爭議

看看新聞Knews
2025-05-04 23:02:54
我們對外聲稱是世界上最安全的國家,但是我們吃的東西安全嗎?

我們對外聲稱是世界上最安全的國家,但是我們吃的東西安全嗎?

逍遙論經
2025-03-05 09:04:57
掘金官推首輪贏球海報:首發五人組在列 替補中威少也登封面

掘金官推首輪贏球海報:首發五人組在列 替補中威少也登封面

直播吧
2025-05-04 10:16:08
中國人高性能燃油車推薦:國產技術逆襲,駕駛激情不妥協

中國人高性能燃油車推薦:國產技術逆襲,駕駛激情不妥協

科技迷行行
2025-05-04 23:26:46
3-1!恩佐閃耀,帕爾默破荒,億元超巨齊爆發,切爾西劍指歐冠

3-1!恩佐閃耀,帕爾默破荒,億元超巨齊爆發,切爾西劍指歐冠

我的護球最獨特
2025-05-05 01:33:28
27億訂單告吹?泰國毀約中國潛艇訂單,美媒嘲諷:造一半砸手里了

27億訂單告吹?泰國毀約中國潛艇訂單,美媒嘲諷:造一半砸手里了

火星方陣
2025-05-04 07:52:24
東南亞地區被人們忽略的華人:菲律賓華人的歷史與現在

東南亞地區被人們忽略的華人:菲律賓華人的歷史與現在

形上謂道
2025-04-18 00:45:53
可能有毒!空氣炸鍋、烤箱用的紙,別亂買……

可能有毒!空氣炸鍋、烤箱用的紙,別亂買……

焦作日報
2025-05-03 20:09:47
澤連斯基發出威脅,暗示要襲擊俄閱兵式?不到24小時,俄撂下重話

澤連斯基發出威脅,暗示要襲擊俄閱兵式?不到24小時,俄撂下重話

獵火照狼山
2025-05-03 21:59:38
英超最新積分戰報:阿森納爆冷,爭五格局白熱化,3隊同積60分

英超最新積分戰報:阿森納爆冷,爭五格局白熱化,3隊同積60分

足球狗說
2025-05-04 06:03:41
王芙薌,被查

王芙薌,被查

魯中晨報
2025-05-04 07:56:51
發現一個普遍現象,中國無論哪個地方,跳廣場舞的都沒有什么男人

發現一個普遍現象,中國無論哪個地方,跳廣場舞的都沒有什么男人

覺叔說
2025-03-27 20:48:09
這咋踢?11人9外援,吉達國民把川崎前鋒打回原形,日本亞冠夢碎

這咋踢?11人9外援,吉達國民把川崎前鋒打回原形,日本亞冠夢碎

策略剖析
2025-05-04 19:35:41
女婿和岳母獨自在家,半夜誤進岳母房間,卻看到她不為人知的秘密

女婿和岳母獨自在家,半夜誤進岳母房間,卻看到她不為人知的秘密

林林故事揭秘
2025-04-02 16:35:44
杯酒釋詹權,東契奇與雷迪克佩林卡一起出現在克雷格酒吧

杯酒釋詹權,東契奇與雷迪克佩林卡一起出現在克雷格酒吧

阿雄侃籃球
2025-05-04 23:50:51
巴菲特宣布年底退休,全場震驚,起立鼓掌!庫克等多位商界領袖回應→

巴菲特宣布年底退休,全場震驚,起立鼓掌!庫克等多位商界領袖回應→

第一財經資訊
2025-05-04 15:08:57
22歲安徽大學生戴東興,在武漢失聯一個月,監控下消失,事出蹊蹺

22歲安徽大學生戴東興,在武漢失聯一個月,監控下消失,事出蹊蹺

南南史
2025-01-22 09:24:06
2025-05-05 05:24:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10424文章數 176129關注度
往期回顧 全部

科技要聞

巴菲特:理性看待AI炒作 耐心是關鍵

頭條要聞

游船側翻游客:要返航大家還有點失望 越到后面越害怕

頭條要聞

游船側翻游客:要返航大家還有點失望 越到后面越害怕

體育要聞

聯盟30隊首發得分后衛,他只能排第29位?

娛樂要聞

55歲王菲跟“李亞鵬時期”完全不同!

財經要聞

一個時代的結束!巴菲特年底將卸任

汽車要聞

小米SU7大優惠!5月限時購車權益送輔助駕駛

態度原創

游戲
藝術
家居
公開課
軍事航空

圣騎士要來了?制作人稱《暗黑4》仍有開發潛力

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

黑白紋理 簡約低調空間

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

媒體:美俄兩場閱兵 都有新看頭

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 山东省| 济阳县| 邓州市| 正定县| 凌云县| 汕尾市| 鹤壁市| 信阳市| 图木舒克市| 康马县| 望奎县| 金乡县| 邵阳市| 信阳市| 海伦市| 新源县| 商洛市| 叶城县| 保山市| 泌阳县| 扎鲁特旗| 双桥区| 莱西市| 佛学| 达拉特旗| 宝鸡市| 全南县| 喀喇| 南部县| 金阳县| 偃师市| 达拉特旗| 蛟河市| 托克逊县| 江达县| 普陀区| 新宾| 石狮市| 时尚| 高州市| 手游|