99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

GPT-4.1全網實測來襲,慘遭谷歌Gemini碾壓!大佬猜測:從GPT-4.5蒸餾的

0
分享至


新智元報道

編輯:編輯部 ZYH

【新智元導讀】兩個月后就號稱要淘汰GPT-4.5的GPT-4.1,實力究竟如何?在眾多實測中,它的表現的確可圈可點,但卻依然打不過Gemini 2.5 Pro和Claude 3.7 Sonnet。那么問題來了,OpenAI為何要發布一個遠遠落后于谷歌的模型?

不過兩月,GPT-4.5正式出局,前浪把后浪拍在了沙灘上。


GPT-4.1家族的出世,以更強編碼性能,百萬token上下文,更具性價比的價格,直接擊穿了4.5。

nano版的GPT-4.1性能足以媲美GPT-4o mini,而且速度更快,價格更便宜。



這些模型目前僅在API中提供,不過目前爆火編碼平臺Windsurf、Cursor開啟了福利大放送,七天免費體驗GPT-4.1。


這不,全網首波實測已經來了。

GPT-4.1編碼驚艷,卻打不過Gemini 2.5

這款以超強編碼著稱的模型,在實際任務表現中又如何呢?


OpenAI科學家表示,GPT-4.1是不是推理模型,卻可以在軟件工程基準測試中拿下55%高分

網友Flavio Adamo用同一個提示——讓小球在旋轉的六邊形中模擬自由落體,測試了GPT-4.1三款模型和GPT-4.5的編碼表現。


不難看出,GPT-4.1精準模擬了小球物理運動過程,GPT-4.1-mini/GPT-4.1-nano卻差了很多意思。

GPT-4.5的實力幾乎不輸GPT-4.1。


另一個類似的測試中,讓GPT-4.1挑戰旋轉正方形,模擬出球體在正方形內真實彈跳的效果。


Kaggle開發者Parul Pandey表示,用GPT-4.1創建用于教育物理模擬的過程非常有趣。

如下,用小球擊倒金字塔代碼生成過程中,模型讀取很少的不必要的文件,代碼結構也非常簡潔。


另一位工程師通過Windsurf讓GPT-4.1在30秒內,便生成了一個貪吃蛇的游戲。


微軟研究員Dimitris Papailiopoulos分別用GPT-4.1、GPT-4o、GPT-4.5去畫獨角獸,推測出4.1要比4o參數量小。


有一說一,GPT-4.1生成的獨角獸是當中最丑的那個。


沃頓商學院教授Ethan Mollick用GPT-4.1去生成飛船控制面板的p5js。他表示,相較于GPT-4,4.1進步非常大,整體上表現出色。


而且,Ethan表示GPT-4.1是第四款可以在twigl中首次運行著色器的模型。


網友讓GPT-4.1和Gemini 2.5 Pro去模擬一個霓虹燈照亮的賽博朋克城市夜景,4.1模型在這個案例中還是比谷歌模型強不少。



以上demo中,不難看出GPT-4.1的編碼性能確實非常驚艷,但從宏觀來看,仍不如Gemini 2.5 Pro、Claude 3.7 Sonnet。

Aider多語言編碼最新測試中,GPT-4.1得分為52.4%,接近Grok 3和DeepSeek V3。成本相較于o3-mini也降了一半。


網友對此吐槽到,GPT-4.1編程不如DeepSeek V3,但價格卻貴了8倍。


同樣,在最新Livebench基準評估中,也同樣印證了GPT-4.1推理、編碼、數學實力比Gemini 2.5差。

Abacus.AI創始人Bindu Reddy表示,4.1性能在GPT-4o之上,但Livebench結果表明,新模型只是對4o的一個增量更新。


哈佛科學家Pierre Bongrand更是一針見血地指出,OpenAI首次在谷歌之后發布了一個遠遠落后的模型。


在GPQA Diamond知識問答基準測試中,GPT-4.1系家族未達到人類博士級水平,更別提超越Gemini 2.5 Pro了。


網友一張惡搞圖戲稱,在OpenAI發布GPT-4和GPT-4.1期間,谷歌便將Bard進化到最強Gemini 2.5版本。


今年的AI大戰中,顯然是OpenAI與谷歌硬碰硬的終極較量。

谷歌包圍圈已成,OpenAI依然不可小覷

隨著GPT-4.1的發布,Ai2后訓練負責人Nathan Lambert也在第一時間發了一篇分析文章。

他表示,雖然GPT-4.1是一個小版本的更新,但這讓人們更清楚地認識到,驅動著最佳API業務的,是非常不同的模型。

如今,OpenAI正在用GPT-4.1,將API和ChatGPT分離。

它的模型正在優化每一美元的智能,我們以后還將繼續看到,ChatGPT的處理方式和API業務的不同。


最近,OpenAI 一直在進行各種小幅更新,而他們最終的愿景,就是將ChatGPT打造成一個獨立于其API的單體應用。

上周,ChatGPT的記憶功能得到了改進。

今天,OpenAI又宣布了一套僅限API的模型GPT-4.1,直接跟谷歌的Gemini形成了競爭。

單獨來看,其實最近的發布都沒有什么顛覆性的前沿突破,畢竟性能相當的模型,已經存在了。

不過,從這些更新中,卻可以看出OpenAI的戰略重心走向。

如今,它的周活躍用戶已經破了19億,此時,它需要的是ChatGPT及背后模型,與市場上任何其他AI產品都截然不同。

其他產品的中心,主要都是編碼或信息處理,與它們不同,ChatGPT則格外注重個性、氛圍感和娛樂性。

體現這一點的一個經典例子,就是GPT-4.5連同它的高昂定價一起,正從API中被棄用,不過仍會保留在ChatGPT中。

即將發布的o3、o4或開放模型,目前還讓人看不清OpenAI的宏觀戰略方向。

從下圖可以看出,OpenAI傳遞的核心信息很簡單——提供性能更好、推理速度更快的模型。


以下是新的OpenAI模型與谷歌Gemini每百萬Token的價格對比(單位為美元)。

OpenAI新模型:

  • GPT-4.1:輸入/輸出:2.00/8.00 | 緩存輸入:0.50

  • GPT-4.1 Mini:輸入/輸出:0.40/1.60 | 緩存輸入:0.10

  • GPT-4.1 Nano:輸入/輸出:0.10/0.40 | 緩存輸入:0.025

OpenAI舊模型:

  • GPT-4o:輸入/輸出:2.5/10.00 | 緩存輸入:$1.25

  • GPT-4o Mini:輸入/輸出:0.15/0.60 | 緩存輸入:$0.075

谷歌Gemini:

  • Gemini 2.5 Pro (≤200K Tokens):輸入/輸出:1.25/10.00 | 緩存:不可用

  • Gemini 2.5 Pro (>200K Tokens):輸入/輸出:2.50/15.00 | 緩存:不可用

  • Gemini 2.0 Flash:輸入/輸出:0.10/0.40 | 緩存輸入:0.025(文本/圖像/視頻),0.175 (音頻)

  • Gemini 2.0 Flash-Lite:輸入/輸出:0.075/0.30 | 緩存:不可用

雖然OpenAI的模型學術評估結果表現強勁,但這并未完全反映它們的實際情況。畢竟在實踐中,它們需要執行的是重復性的小眾任務。

顯然,這些新模型是用來直接對標Gemini Flash和Flash-Lite的(在 Gemini 2.5 Pro驚艷發布之后,備受期待的Gemini 2.5 Flash也即將面世)。

相比之下,GPT-4o-mini的性能已經落后,且不如Flash好用。

想在API業務上取得成功,OpenAI就需要在Gemini已經占據優勢的這個前沿領域實現突破。


都是從GPT-4.5蒸餾來的?

很多人已經發現了:在OpenAI的官方宣傳中,這些新模型的發布模式如出一轍——有廣泛改進,卻很少解釋具體原因。

所以幾乎可以肯定,這些五花八門的新模型,都是為了獲得更好的個性和推理能力,從GPT-4.5蒸餾而來的。

或者是在編碼和數學上,借鑒了像o3這樣的模型。

可以看出,新模型在代碼上已經取得了重大進步,要知道,曾經OpenAI早期的模型在這方面曾經差得離譜,幾乎掛0。


不過,在編碼和數學的評估上,這些新模型仍然明顯落后于Gemini 2.5(推理模型)或 Claude 3.7(可選推理模型)這樣的頂尖模型。

如今,我們正處于模型向包含推理轉變的早期階段,但究竟什么是單一的最佳模型,這個概念已經變得更為復雜了。

這些推理模型會通過消耗遠多于以往的Token,來實現性能的大幅提升。性能固然是王道,但若性能相當,則是成本更低者勝出。

但先發優勢仍難以撼動

但說到底,對大多數普通用戶來說,上面這些技術細節其實意義不大。

對他們來說,那個被戲稱為「模型投入度」的、令人頭疼的滑塊反而更直觀——


長期以來,相對于API的價格,很多人對聊天機器人的訂閱費會更感到猶豫。

但顯然,一個日漸清晰的現實就是,真正個性化的、受用戶喜愛的體驗,往往只存在于這些集成的應用程序中。

當然,開發者也可以通過API構建競品,積累用戶交互數據,但鑒于 OpenAI在產品層面已經建立起了巨大的先發優勢,想要勝過OpenAI,恐怕沒那么容易。

所有這些,都再次印證了我們的認知:產品化,是當前AI發展的重中之重。

記憶功能,以及將ChatGPT這條產品線與API服務進行更清晰的切割,都有助于OpenAI鋪平未來的發展道路。

但要完全實現這一愿景,OpenAI前方仍有很長的路要走。

參考資料:

https://x.com/bindureddy/status/1911865521504747563

https://x.com/paulgauthier/status/1911927464844304591

https://x.com/flavioAd/status/1911848067470598608

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
啟動最高層級醫政調查,維護醫學一方凈土

啟動最高層級醫政調查,維護醫學一方凈土

澎湃新聞
2025-05-01 14:41:02
5000名游客擠癱政府食堂:米飯蒸了1000多斤,飯碗都不夠了

5000名游客擠癱政府食堂:米飯蒸了1000多斤,飯碗都不夠了

環球網資訊
2025-05-01 19:13:58
太原南站突發爆炸,17人死亡?謠言!

太原南站突發爆炸,17人死亡?謠言!

界面新聞
2025-05-01 16:49:57
董小姐少奮斗了多少年?去年熱搜北大才女曾沖4+4失敗,重高考被上海交大錄取

董小姐少奮斗了多少年?去年熱搜北大才女曾沖4+4失敗,重高考被上海交大錄取

不掉線電波
2025-05-01 20:17:21
小李子瘦了30斤,下頜線清晰還有“天鵝頸”,26歲超模女友的功勞

小李子瘦了30斤,下頜線清晰還有“天鵝頸”,26歲超模女友的功勞

譯言
2025-04-30 11:23:55
朝鮮兵在庫爾斯克天天吃大餐,戰地食堂面包香腸紅菜湯頓頓管夠!

朝鮮兵在庫爾斯克天天吃大餐,戰地食堂面包香腸紅菜湯頓頓管夠!

凱撒談兵
2025-05-01 11:51:44
大家發現沒?中日友好醫院石玉慧護士長,才是最狠的人!

大家發現沒?中日友好醫院石玉慧護士長,才是最狠的人!

明月聊史
2025-04-30 09:32:30
饒毅發文稱請勿錯怪王辰教授

饒毅發文稱請勿錯怪王辰教授

第一財經資訊
2025-05-01 11:32:13
回顧:上海老人摔倒1小時,路人怕被訛無人扶,到醫院后竟賴上護士

回顧:上海老人摔倒1小時,路人怕被訛無人扶,到醫院后竟賴上護士

瓜哥的動物日記
2025-05-01 11:57:35
菲律賓華商遇害案嫌疑人指控被害人兒子涉案!警方稱仍在核查

菲律賓華商遇害案嫌疑人指控被害人兒子涉案!警方稱仍在核查

南方都市報
2025-05-01 16:01:10
限流、約滿、售罄!有網友6小時才開了一公里,鐵路、氣象部門提示→

限流、約滿、售罄!有網友6小時才開了一公里,鐵路、氣象部門提示→

21世紀經濟報道
2025-05-01 18:22:03
外媒:澤連斯基成功說服特朗普

外媒:澤連斯基成功說服特朗普

參考消息
2025-05-01 17:37:17
一個好消息,肖飛被開!一個壞消息,硬剛他的麻醫生馬甲保不住了

一個好消息,肖飛被開!一個壞消息,硬剛他的麻醫生馬甲保不住了

小娛樂悠悠
2025-05-01 15:11:34
難以置信!協和4+4曝出之后,各地醫院自證“我們這兒沒有4+4”…

難以置信!協和4+4曝出之后,各地醫院自證“我們這兒沒有4+4”…

火山詩話
2025-05-01 06:40:50
谷某雅從形象氣質到個人才華都遠勝于另兩位,肖飛怎么想的

谷某雅從形象氣質到個人才華都遠勝于另兩位,肖飛怎么想的

魔都姐姐雜談
2025-05-01 18:47:08
尼日爾撕毀4億美元合同,并驅逐中方高管,我方暗藏后手漂亮反擊

尼日爾撕毀4億美元合同,并驅逐中方高管,我方暗藏后手漂亮反擊

詭譎怪談
2025-04-30 22:17:42
CBA狂歡夜:遼寧又崩盤,領先12分到落后21分,即將0-3被廣廈橫掃

CBA狂歡夜:遼寧又崩盤,領先12分到落后21分,即將0-3被廣廈橫掃

侃球熊弟
2025-05-01 21:08:10
谷醫生可能要有大麻煩,怒撕原配歪打正著, 她的家世也不簡單

谷醫生可能要有大麻煩,怒撕原配歪打正著, 她的家世也不簡單

魔都姐姐雜談
2025-05-01 13:28:39
美軍核轟戰巡賭中方不敢動,解放軍戰機直撲琉球,日本:玩脫了!

美軍核轟戰巡賭中方不敢動,解放軍戰機直撲琉球,日本:玩脫了!

文雅筆墨
2025-04-30 07:50:11
特朗普稱加總理將很快訪美,白宮:不影響將加拿大打造成“第51個州”計劃

特朗普稱加總理將很快訪美,白宮:不影響將加拿大打造成“第51個州”計劃

澎湃新聞
2025-05-01 16:38:27
2025-05-01 21:19:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12628文章數 66023關注度
往期回顧 全部

科技要聞

DeepSeek新數學模型刷爆記錄

頭條要聞

日本急著跟特朗普簽協議:中國正抓緊機會說美有風險

頭條要聞

日本急著跟特朗普簽協議:中國正抓緊機會說美有風險

體育要聞

天王山的哈登,是如何迷失的?

娛樂要聞

62歲阿湯哥有新戀情 開飛機載36歲女友

財經要聞

知情人士:美方正多渠道主動與中方接觸

汽車要聞

預售32.98萬起 魏牌高山家族將于5月13日上市

態度原創

時尚
健康
教育
本地
軍事航空

五一出游穿搭靈感大放送,全是最真實的普通人穿搭!

唇皰疹和口腔潰瘍是"同伙"嗎?

教育要聞

倒計時開啟!首屆山東省中小學科創教育大會即將舉辦!

本地新聞

春色滿城關不住 | 花漾千陽!塬上秘境藏幾重詩意?

軍事要聞

解放軍儀仗隊首次應邀赴越南參加閱兵

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 台北县| 蓬安县| 呈贡县| 台北市| 蕉岭县| 富阳市| 西林县| 从江县| 星子县| 厦门市| 泊头市| 新安县| 沙坪坝区| 边坝县| 盐津县| 阿克苏市| 甘德县| 大荔县| 钟山县| 奉新县| 溧水县| 微博| 伊通| 崇义县| 临城县| 莎车县| 博湖县| 安陆市| 泗洪县| 辽中县| 府谷县| 南安市| 大港区| 万山特区| 麦盖提县| 出国| 宜兰市| 永川市| 皮山县| 遂溪县| 高碑店市|