99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<em id="bj7uy"></em>

<sub id="bj7uy"></sub>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

GPT-4.1全網實測來襲，慘遭谷歌Gemini碾壓！大佬猜測：從GPT-4.5蒸餾的

2025-04-15 17:38:43　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：編輯部 ZYH

【新智元導讀】兩個月后就號稱要淘汰GPT-4.5的GPT-4.1，實力究竟如何？在眾多實測中，它的表現的確可圈可點，但卻依然打不過Gemini 2.5 Pro和Claude 3.7 Sonnet。那么問題來了，OpenAI為何要發布一個遠遠落后于谷歌的模型？

不過兩月，GPT-4.5正式出局，前浪把后浪拍在了沙灘上。

GPT-4.1家族的出世，以更強編碼性能，百萬token上下文，更具性價比的價格，直接擊穿了4.5。

nano版的GPT-4.1性能足以媲美GPT-4o mini，而且速度更快，價格更便宜。

這些模型目前僅在API中提供，不過目前爆火編碼平臺Windsurf、Cursor開啟了福利大放送，七天免費體驗GPT-4.1。

這不，全網首波實測已經來了。

GPT-4.1編碼驚艷，卻打不過Gemini 2.5

這款以超強編碼著稱的模型，在實際任務表現中又如何呢？

OpenAI科學家表示，GPT-4.1是不是推理模型，卻可以在軟件工程基準測試中拿下55%高分

網友Flavio Adamo用同一個提示——讓小球在旋轉的六邊形中模擬自由落體，測試了GPT-4.1三款模型和GPT-4.5的編碼表現。

不難看出，GPT-4.1精準模擬了小球物理運動過程，GPT-4.1-mini/GPT-4.1-nano卻差了很多意思。

GPT-4.5的實力幾乎不輸GPT-4.1。

另一個類似的測試中，讓GPT-4.1挑戰旋轉正方形，模擬出球體在正方形內真實彈跳的效果。

Kaggle開發者Parul Pandey表示，用GPT-4.1創建用于教育物理模擬的過程非常有趣。

如下，用小球擊倒金字塔代碼生成過程中，模型讀取很少的不必要的文件，代碼結構也非常簡潔。

另一位工程師通過Windsurf讓GPT-4.1在30秒內，便生成了一個貪吃蛇的游戲。

微軟研究員Dimitris Papailiopoulos分別用GPT-4.1、GPT-4o、GPT-4.5去畫獨角獸，推測出4.1要比4o參數量小。

有一說一，GPT-4.1生成的獨角獸是當中最丑的那個。

沃頓商學院教授Ethan Mollick用GPT-4.1去生成飛船控制面板的p5js。他表示，相較于GPT-4，4.1進步非常大，整體上表現出色。

而且，Ethan表示GPT-4.1是第四款可以在twigl中首次運行著色器的模型。

網友讓GPT-4.1和Gemini 2.5 Pro去模擬一個霓虹燈照亮的賽博朋克城市夜景，4.1模型在這個案例中還是比谷歌模型強不少。

以上demo中，不難看出GPT-4.1的編碼性能確實非常驚艷，但從宏觀來看，仍不如Gemini 2.5 Pro、Claude 3.7 Sonnet。

Aider多語言編碼最新測試中，GPT-4.1得分為52.4%，接近Grok 3和DeepSeek V3。成本相較于o3-mini也降了一半。

網友對此吐槽到，GPT-4.1編程不如DeepSeek V3，但價格卻貴了8倍。

同樣，在最新Livebench基準評估中，也同樣印證了GPT-4.1推理、編碼、數學實力比Gemini 2.5差。

Abacus.AI創始人Bindu Reddy表示，4.1性能在GPT-4o之上，但Livebench結果表明，新模型只是對4o的一個增量更新。

哈佛科學家Pierre Bongrand更是一針見血地指出，OpenAI首次在谷歌之后發布了一個遠遠落后的模型。

在GPQA Diamond知識問答基準測試中，GPT-4.1系家族未達到人類博士級水平，更別提超越Gemini 2.5 Pro了。

網友一張惡搞圖戲稱，在OpenAI發布GPT-4和GPT-4.1期間，谷歌便將Bard進化到最強Gemini 2.5版本。

今年的AI大戰中，顯然是OpenAI與谷歌硬碰硬的終極較量。

谷歌包圍圈已成，OpenAI依然不可小覷

隨著GPT-4.1的發布，Ai2后訓練負責人Nathan Lambert也在第一時間發了一篇分析文章。

他表示，雖然GPT-4.1是一個小版本的更新，但這讓人們更清楚地認識到，驅動著最佳API業務的，是非常不同的模型。

如今，OpenAI正在用GPT-4.1，將API和ChatGPT分離。

它的模型正在優化每一美元的智能，我們以后還將繼續看到，ChatGPT的處理方式和API業務的不同。

最近，OpenAI 一直在進行各種小幅更新，而他們最終的愿景，就是將ChatGPT打造成一個獨立于其API的單體應用。

上周，ChatGPT的記憶功能得到了改進。

今天，OpenAI又宣布了一套僅限API的模型GPT-4.1，直接跟谷歌的Gemini形成了競爭。

單獨來看，其實最近的發布都沒有什么顛覆性的前沿突破，畢竟性能相當的模型，已經存在了。

不過，從這些更新中，卻可以看出OpenAI的戰略重心走向。

如今，它的周活躍用戶已經破了19億，此時，它需要的是ChatGPT及背后模型，與市場上任何其他AI產品都截然不同。

其他產品的中心，主要都是編碼或信息處理，與它們不同，ChatGPT則格外注重個性、氛圍感和娛樂性。

體現這一點的一個經典例子，就是GPT-4.5連同它的高昂定價一起，正從API中被棄用，不過仍會保留在ChatGPT中。

即將發布的o3、o4或開放模型，目前還讓人看不清OpenAI的宏觀戰略方向。

從下圖可以看出，OpenAI傳遞的核心信息很簡單——提供性能更好、推理速度更快的模型。

以下是新的OpenAI模型與谷歌Gemini每百萬Token的價格對比（單位為美元）。

OpenAI新模型:

GPT-4.1：輸入/輸出：2.00/8.00 | 緩存輸入：0.50
GPT-4.1 Mini：輸入/輸出：0.40/1.60 | 緩存輸入：0.10
GPT-4.1 Nano：輸入/輸出：0.10/0.40 | 緩存輸入：0.025

OpenAI舊模型:

GPT-4o：輸入/輸出：2.5/10.00 | 緩存輸入：$1.25
GPT-4o Mini：輸入/輸出：0.15/0.60 | 緩存輸入：$0.075

谷歌Gemini:

Gemini 2.5 Pro （≤200K Tokens）：輸入/輸出：1.25/10.00 | 緩存：不可用
Gemini 2.5 Pro （>200K Tokens）：輸入/輸出：2.50/15.00 | 緩存：不可用
Gemini 2.0 Flash：輸入/輸出：0.10/0.40 | 緩存輸入：0.025（文本/圖像/視頻），0.175 （音頻）
Gemini 2.0 Flash-Lite：輸入/輸出：0.075/0.30 | 緩存：不可用

雖然OpenAI的模型學術評估結果表現強勁，但這并未完全反映它們的實際情況。畢竟在實踐中，它們需要執行的是重復性的小眾任務。

顯然，這些新模型是用來直接對標Gemini Flash和Flash-Lite的（在 Gemini 2.5 Pro驚艷發布之后，備受期待的Gemini 2.5 Flash也即將面世）。

相比之下，GPT-4o-mini的性能已經落后，且不如Flash好用。

想在API業務上取得成功，OpenAI就需要在Gemini已經占據優勢的這個前沿領域實現突破。

都是從GPT-4.5蒸餾來的？

很多人已經發現了：在OpenAI的官方宣傳中，這些新模型的發布模式如出一轍——有廣泛改進，卻很少解釋具體原因。

所以幾乎可以肯定，這些五花八門的新模型，都是為了獲得更好的個性和推理能力，從GPT-4.5蒸餾而來的。

或者是在編碼和數學上，借鑒了像o3這樣的模型。

可以看出，新模型在代碼上已經取得了重大進步，要知道，曾經OpenAI早期的模型在這方面曾經差得離譜，幾乎掛0。

不過，在編碼和數學的評估上，這些新模型仍然明顯落后于Gemini 2.5（推理模型）或 Claude 3.7（可選推理模型）這樣的頂尖模型。

如今，我們正處于模型向包含推理轉變的早期階段，但究竟什么是單一的最佳模型，這個概念已經變得更為復雜了。

這些推理模型會通過消耗遠多于以往的Token，來實現性能的大幅提升。性能固然是王道，但若性能相當，則是成本更低者勝出。

但先發優勢仍難以撼動

但說到底，對大多數普通用戶來說，上面這些技術細節其實意義不大。

對他們來說，那個被戲稱為「模型投入度」的、令人頭疼的滑塊反而更直觀——

長期以來，相對于API的價格，很多人對聊天機器人的訂閱費會更感到猶豫。

但顯然，一個日漸清晰的現實就是，真正個性化的、受用戶喜愛的體驗，往往只存在于這些集成的應用程序中。

當然，開發者也可以通過API構建競品，積累用戶交互數據，但鑒于 OpenAI在產品層面已經建立起了巨大的先發優勢，想要勝過OpenAI，恐怕沒那么容易。

所有這些，都再次印證了我們的認知：產品化，是當前AI發展的重中之重。

記憶功能，以及將ChatGPT這條產品線與API服務進行更清晰的切割，都有助于OpenAI鋪平未來的發展道路。

但要完全實現這一愿景，OpenAI前方仍有很長的路要走。

參考資料：

https://x.com/bindureddy/status/1911865521504747563

https://x.com/paulgauthier/status/1911927464844304591

https://x.com/flavioAd/status/1911848067470598608

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

9個案例實測谷歌Gemini文生圖，設計行業“快變天了”

虎嗅APP 2025-03-14 05:44:32
322 跟貼 322
小米推出首個推理開源大模型Mimo！以7B參數打敗OpenAI o1-mini和阿里QwQ-32B-Preview

華爾街見聞官方 2025-04-30 12:03:02
56 跟貼 56

10秒生成官網，WeaveFox重塑前端研發生產力 | 螞蟻徐達峰

量子位 2025-04-30 09:12:12
4 跟貼 4

OpenAI玩崩了！GPT-4o更新后變馬屁精，奧特曼：一周才能完全修復

量子位 2025-04-29 16:57:33
35 跟貼 35
清華出手，挖走美國頂尖AI研究者！前DeepMind大佬被抄底，美國人才倒流中國

新智元 2025-04-30 17:15:04
20 跟貼 20

又一開源AI神器！將機器學習論文自動轉為可運行代碼庫

量子位 2025-05-01 11:42:03
12 跟貼 12

一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0
用戶集體吐槽ChatGPT變“馬屁精”，阿爾特曼：本周修復

智東西 2025-04-29 18:25:11
1 跟貼 1

DeepSeek應用如何落地？解鎖“性能x多模態xRAG”技術組合密碼！

量子位 2025-03-07 22:29:18
0 跟貼 0
人形機器人組隊進廠打工！5只Figure 02在寶馬工廠

量子位 2024-11-22 10:57:40
0 跟貼 0
老板想本地跑AI，只給10萬還想體驗滿血DS，我該咋辦？

量子位 2025-04-14 15:31:01
0 跟貼 0
大模型正在打破教育領域的“不可能三角〞

量子位 2025-04-17 19:02:09
0 跟貼 0
這屆出題太難了！新基準讓多模態模型集體自閉，GPT-4o都是零分

機器之心Pro 2025-02-18 14:02:59
0 跟貼 0
AI輔助編碼帶來思維方式轉變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0
宇樹機器人復雜環境穩定起立，速度不亞于人類

量子位 2025-04-09 10:10:32
268 跟貼 268
本科學歷但創造出GPT，奧特曼盛贊為「愛因斯坦級」天才

量子位 2025-01-01 14:17:10
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
Dyna發布DYNA-1模型，實現機器人24小時疊700張餐巾，準確率達99.4%

智東西 2025-04-30 16:33:22
31 跟貼 31
一次示范就能終身掌握！讓手機AI輕松搞定復雜操作丨浙大vivo出品

量子位 2025-05-01 11:51:14
2 跟貼 2
DeepSeek再次開源，網友：奧數從沒這么簡單過

機器之心Pro 2025-05-01 10:22:18
111 跟貼 111
OpenAI放大招：免費開放ChatGPT搜索，無需注冊

每日經濟新聞 2025-02-06 10:49:09
0 跟貼 0
被Transformer光芒掩蓋的論文，Meta科學家回顧十年前創新之作

機器之心Pro 2025-05-01 10:24:59
2 跟貼 2
研發自動化的初衷是讓每一個研究員都有Agent助理

量子位 2025-04-23 08:05:00
0 跟貼 0
o3/o4-mini實測太炸裂：看照片反推定位

量子位 2025-04-17 22:23:17
0 跟貼 0
DeepSeek引爆AI革命，誰能笑到最后？

量子位 2025-03-11 17:16:22
0 跟貼 0
人人都能做開發者！連小學生都能輕松上手的0代碼開發平臺來了

量子位 2025-04-15 11:59:12
0 跟貼 0
AI正大大降低動漫等虛擬內容制作門檻

量子位 2025-04-25 14:16:10
0 跟貼 0
單圖生成14秒吉卜力動畫，分享制作過程

量子位 2025-04-08 18:23:02
0 跟貼 0
4o生圖前端效果騙了太多人，網友扒出逐行生成的演示當不得真

量子位 2025-04-02 21:22:14
0 跟貼 0
Claude腦回路被開盒：AI會撒謊和暗中計劃

量子位 2025-04-04 12:20:26
0 跟貼 0
安卓閉源預期下，鴻蒙真是最大贏家?

鈦媒體APP 2025-04-29 21:25:11
33 跟貼 33
“ChatGPT嚴選”橫空出世了，“DeepSeek嚴選”還要等多久？

虎嗅APP 2025-04-30 03:36:07
33 跟貼 33
倆本科生自學3個月復刻谷歌爆款AI，Dia橫空出世

量子位 2025-05-01 12:16:10
0 跟貼 0
小鵬絕地翻盤，頭號功臣是她！

華商韜略 2025-03-28 14:19:16
9 跟貼 9
海豚杯，70人口空軍，星巴克大戰Happy！魔獸爭霸3

平川電競 2025-04-27 10:00:00
4 跟貼 4
美商沃爾瑪變招！美國消費者要為關稅買單，中國底氣十足

紅星資訊站 2025-04-29 19:22:39
15 跟貼 15
ChatGPT的盡頭也是「帶貨」：3、2、1，上鏈接

機器之心Pro 2025-04-29 14:22:22
2 跟貼 2
最新！大模型幻覺排行榜來了

AI寒武紀 2025-04-30 18:05:20
1 跟貼 1
靜悄悄的餓了么，戰斗力到底有多強？

華商韜略 2025-04-30 14:18:35
0 跟貼 0
美國關稅政策遇挫：沃爾瑪選擇讓消費者承擔額外成本

烽火三月佳人三千 2025-04-30 03:06:46
0 跟貼 0

啟動最高層級醫政調查，維護醫學一方凈土

啟動最高層級醫政調查，維護醫學一方凈土

澎湃新聞

2025-05-01 14:41:02

5000名游客擠癱政府食堂：米飯蒸了1000多斤，飯碗都不夠了

5000名游客擠癱政府食堂：米飯蒸了1000多斤，飯碗都不夠了

環球網資訊

2025-05-01 19:13:58

太原南站突發爆炸，17人死亡？謠言！

太原南站突發爆炸，17人死亡？謠言！

界面新聞

2025-05-01 16:49:57

董小姐少奮斗了多少年？去年熱搜北大才女曾沖4+4失敗，重高考被上海交大錄取

董小姐少奮斗了多少年？去年熱搜北大才女曾沖4+4失敗，重高考被上海交大錄取

不掉線電波

2025-05-01 20:17:21

小李子瘦了30斤，下頜線清晰還有“天鵝頸”，26歲超模女友的功勞

小李子瘦了30斤，下頜線清晰還有“天鵝頸”，26歲超模女友的功勞

譯言

2025-04-30 11:23:55

朝鮮兵在庫爾斯克天天吃大餐，戰地食堂面包香腸紅菜湯頓頓管夠！

朝鮮兵在庫爾斯克天天吃大餐，戰地食堂面包香腸紅菜湯頓頓管夠！

凱撒談兵

2025-05-01 11:51:44

大家發現沒？中日友好醫院石玉慧護士長，才是最狠的人！

大家發現沒？中日友好醫院石玉慧護士長，才是最狠的人！

明月聊史

2025-04-30 09:32:30

饒毅發文稱請勿錯怪王辰教授

第一財經資訊

2025-05-01 11:32:13

回顧：上海老人摔倒1小時，路人怕被訛無人扶，到醫院后竟賴上護士

回顧：上海老人摔倒1小時，路人怕被訛無人扶，到醫院后竟賴上護士

瓜哥的動物日記

2025-05-01 11:57:35

菲律賓華商遇害案嫌疑人指控被害人兒子涉案！警方稱仍在核查

菲律賓華商遇害案嫌疑人指控被害人兒子涉案！警方稱仍在核查

南方都市報

2025-05-01 16:01:10

限流、約滿、售罄！有網友6小時才開了一公里，鐵路、氣象部門提示→

限流、約滿、售罄！有網友6小時才開了一公里，鐵路、氣象部門提示→

21世紀經濟報道

2025-05-01 18:22:03

外媒：澤連斯基成功說服特朗普

參考消息

2025-05-01 17:37:17

一個好消息，肖飛被開！一個壞消息，硬剛他的麻醫生馬甲保不住了

一個好消息，肖飛被開！一個壞消息，硬剛他的麻醫生馬甲保不住了

小娛樂悠悠

2025-05-01 15:11:34

難以置信！協和4+4曝出之后，各地醫院自證“我們這兒沒有4+4”…

難以置信！協和4+4曝出之后，各地醫院自證“我們這兒沒有4+4”…

火山詩話

2025-05-01 06:40:50

谷某雅從形象氣質到個人才華都遠勝于另兩位，肖飛怎么想的

谷某雅從形象氣質到個人才華都遠勝于另兩位，肖飛怎么想的

魔都姐姐雜談

2025-05-01 18:47:08

尼日爾撕毀4億美元合同，并驅逐中方高管，我方暗藏后手漂亮反擊

尼日爾撕毀4億美元合同，并驅逐中方高管，我方暗藏后手漂亮反擊

詭譎怪談

2025-04-30 22:17:42

CBA狂歡夜：遼寧又崩盤，領先12分到落后21分，即將0-3被廣廈橫掃

CBA狂歡夜：遼寧又崩盤，領先12分到落后21分，即將0-3被廣廈橫掃

侃球熊弟

2025-05-01 21:08:10

谷醫生可能要有大麻煩，怒撕原配歪打正著，她的家世也不簡單

谷醫生可能要有大麻煩，怒撕原配歪打正著，她的家世也不簡單

魔都姐姐雜談

2025-05-01 13:28:39

美軍核轟戰巡賭中方不敢動，解放軍戰機直撲琉球，日本：玩脫了！

美軍核轟戰巡賭中方不敢動，解放軍戰機直撲琉球，日本：玩脫了！

文雅筆墨

2025-04-30 07:50:11

特朗普稱加總理將很快訪美，白宮：不影響將加拿大打造成“第51個州”計劃

特朗普稱加總理將很快訪美，白宮：不影響將加拿大打造成“第51個州”計劃

澎湃新聞

2025-05-01 16:38:27

AI產業主平臺領航智能+時代

12628文章數 66023關注度

往期回顧全部

科技要聞

DeepSeek新數學模型刷爆記錄

頭條要聞

日本急著跟特朗普簽協議：中國正抓緊機會說美有風險

頭條要聞

日本急著跟特朗普簽協議：中國正抓緊機會說美有風險

體育要聞

天王山的哈登，是如何迷失的？

娛樂要聞

62歲阿湯哥有新戀情開飛機載36歲女友

財經要聞

知情人士：美方正多渠道主動與中方接觸

汽車要聞

預售32.98萬起魏牌高山家族將于5月13日上市

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

健康

教育

本地

軍事航空

五一出游穿搭靈感大放送，全是最真實的普通人穿搭！

唇皰疹和口腔潰瘍是"同伙"嗎？

教育要聞

倒計時開啟！首屆山東省中小學科創教育大會即將舉辦！

本地新聞

春色滿城關不住 | 花漾千陽！塬上秘境藏幾重詩意？

軍事要聞

解放軍儀仗隊首次應邀赴越南參加閱兵

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：台北县| 蓬安县| 呈贡县| 台北市| 蕉岭县| 富阳市| 西林县| 从江县| 星子县| 厦门市| 泊头市| 新安县| 沙坪坝区| 边坝县| 盐津县| 阿克苏市| 甘德县| 大荔县| 钟山县| 奉新县| 溧水县| 微博| 伊通| 崇义县| 临城县| 莎车县| 博湖县| 安陆市| 泗洪县| 辽中县| 府谷县| 南安市| 大港区| 万山特区| 麦盖提县| 出国| 宜兰市| 永川市| 皮山县| 遂溪县| 高碑店市|

<style id="yy8l3"></style>

<menu id="yy8l3"><form id="yy8l3"></form></menu>