99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

GPT-4.1全網實測來襲,慘遭谷歌Gemini碾壓!大佬猜測:從GPT-4.5蒸餾的

0
分享至


文章轉載于新智元

不過兩月,GPT-4.5正式出局,前浪把后浪拍在了沙灘上。


GPT-4.1家族的出世,以更強編碼性能,百萬token上下文,更具性價比的價格,直接擊穿了4.5。

nano版的GPT-4.1性能足以媲美GPT-4o mini,而且速度更快,價格更便宜。



這些模型目前僅在API中提供,不過目前爆火編碼平臺Windsurf、Cursor開啟了福利大放送,七天免費體驗GPT-4.1。


這不,全網首波實測已經來了。

1

GPT-4.1編碼驚艷,卻打不過Gemini 2.5

這款以超強編碼著稱的模型,在實際任務表現中又如何呢?


OpenAI科學家表示,GPT-4.1是不是推理模型,卻可以在軟件工程基準測試中拿下55%高分

網友Flavio Adamo用同一個提示——讓小球在旋轉的六邊形中模擬自由落體,測試了GPT-4.1三款模型和GPT-4.5的編碼表現。


不難看出,GPT-4.1精準模擬了小球物理運動過程,GPT-4.1-mini/GPT-4.1-nano卻差了很多意思。

GPT-4.5的實力幾乎不輸GPT-4.1。


另一個類似的測試中,讓GPT-4.1挑戰旋轉正方形,模擬出球體在正方形內真實彈跳的效果。


Kaggle開發者Parul Pandey表示,用GPT-4.1創建用于教育物理模擬的過程非常有趣。

如下,用小球擊倒金字塔代碼生成過程中,模型讀取很少的不必要的文件,代碼結構也非常簡潔。


另一位工程師通過Windsurf讓GPT-4.1在30秒內,便生成了一個貪吃蛇的游戲。


微軟研究員Dimitris Papailiopoulos分別用GPT-4.1、GPT-4o、GPT-4.5去畫獨角獸,推測出4.1要比4o參數量小。


有一說一,GPT-4.1生成的獨角獸是當中最丑的那個。


沃頓商學院教授Ethan Mollick用GPT-4.1去生成飛船控制面板的p5js。他表示,相較于GPT-4,4.1進步非常大,整體上表現出色。


而且,Ethan表示GPT-4.1是第四款可以在twigl中首次運行著色器的模型。


網友讓GPT-4.1和Gemini 2.5 Pro去模擬一個霓虹燈照亮的賽博朋克城市夜景,4.1模型在這個案例中還是比谷歌模型強不少。



以上demo中,不難看出GPT-4.1的編碼性能確實非常驚艷,但從宏觀來看,仍不如Gemini 2.5 Pro、Claude 3.7 Sonnet。

Aider多語言編碼最新測試中,GPT-4.1得分為52.4%,接近Grok 3和DeepSeek V3。成本相較于o3-mini也降了一半。


網友對此吐槽到,GPT-4.1編程不如DeepSeek V3,但價格卻貴了8倍。


同樣,在最新Livebench基準評估中,也同樣印證了GPT-4.1推理、編碼、數學實力比Gemini 2.5差。

Abacus.AI創始人Bindu Reddy表示,4.1性能在GPT-4o之上,但Livebench結果表明,新模型只是對4o的一個增量更新。


哈佛科學家Pierre Bongrand更是一針見血地指出,OpenAI首次在谷歌之后發布了一個遠遠落后的模型。


在GPQA Diamond知識問答基準測試中,GPT-4.1系家族未達到人類博士級水平,更別提超越Gemini 2.5 Pro了。


網友一張惡搞圖戲稱,在OpenAI發布GPT-4和GPT-4.1期間,谷歌便將Bard進化到最強Gemini 2.5版本。


今年的AI大戰中,顯然是OpenAI與谷歌硬碰硬的終極較量。

1

谷歌包圍圈已成,OpenAI依然不可小覷

隨著GPT-4.1的發布,Ai2后訓練負責人Nathan Lambert也在第一時間發了一篇分析文章。

他表示,雖然GPT-4.1是一個小版本的更新,但這讓人們更清楚地認識到,驅動著最佳API業務的,是非常不同的模型。

如今,OpenAI正在用GPT-4.1,將API和ChatGPT分離。

它的模型正在優化每一美元的智能,我們以后還將繼續看到,ChatGPT的處理方式和API業務的不同。


最近,OpenAI 一直在進行各種小幅更新,而他們最終的愿景,就是將ChatGPT打造成一個獨立于其API的單體應用。

上周,ChatGPT的記憶功能得到了改進。

今天,OpenAI又宣布了一套僅限API的模型GPT-4.1,直接跟谷歌的Gemini形成了競爭。

單獨來看,其實最近的發布都沒有什么顛覆性的前沿突破,畢竟性能相當的模型,已經存在了。

不過,從這些更新中,卻可以看出OpenAI的戰略重心走向。

如今,它的周活躍用戶已經破了19億,此時,它需要的是ChatGPT及背后模型,與市場上任何其他AI產品都截然不同。

其他產品的中心,主要都是編碼或信息處理,與它們不同,ChatGPT則格外注重個性、氛圍感和娛樂性。

體現這一點的一個經典例子,就是GPT-4.5連同它的高昂定價一起,正從API中被棄用,不過仍會保留在ChatGPT中。

即將發布的o3、o4或開放模型,目前還讓人看不清OpenAI的宏觀戰略方向。

從下圖可以看出,OpenAI傳遞的核心信息很簡單——提供性能更好、推理速度更快的模型。


以下是新的OpenAI模型與谷歌Gemini每百萬Token的價格對比(單位為美元)。

OpenAI新模型:

  • GPT-4.1:輸入/輸出:2.00/8.00 | 緩存輸入:0.50

  • GPT-4.1 Mini:輸入/輸出:0.40/1.60 | 緩存輸入:0.10

  • GPT-4.1 Nano:輸入/輸出:0.10/0.40 | 緩存輸入:0.025

OpenAI舊模型:

  • GPT-4o:輸入/輸出:2.5/10.00 | 緩存輸入:$1.25

  • GPT-4o Mini:輸入/輸出:0.15/0.60 | 緩存輸入:$0.075

谷歌Gemini:

  • Gemini 2.5 Pro (≤200K Tokens):輸入/輸出:1.25/10.00 | 緩存:不可用

  • Gemini 2.5 Pro (>200K Tokens):輸入/輸出:2.50/15.00 | 緩存:不可用

  • Gemini 2.0 Flash:輸入/輸出:0.10/0.40 | 緩存輸入:0.025(文本/圖像/視頻),0.175 (音頻)

  • Gemini 2.0 Flash-Lite:輸入/輸出:0.075/0.30 | 緩存:不可用

雖然OpenAI的模型學術評估結果表現強勁,但這并未完全反映它們的實際情況。畢竟在實踐中,它們需要執行的是重復性的小眾任務。

顯然,這些新模型是用來直接對標Gemini Flash和Flash-Lite的(在 Gemini 2.5 Pro驚艷發布之后,備受期待的Gemini 2.5 Flash也即將面世)。

相比之下,GPT-4o-mini的性能已經落后,且不如Flash好用。

想在API業務上取得成功,OpenAI就需要在Gemini已經占據優勢的這個前沿領域實現突破。


都是從GPT-4.5蒸餾來的?

很多人已經發現了:在OpenAI的官方宣傳中,這些新模型的發布模式如出一轍——有廣泛改進,卻很少解釋具體原因。

所以幾乎可以肯定,這些五花八門的新模型,都是為了獲得更好的個性和推理能力,從GPT-4.5蒸餾而來的。

或者是在編碼和數學上,借鑒了像o3這樣的模型。

可以看出,新模型在代碼上已經取得了重大進步,要知道,曾經OpenAI早期的模型在這方面曾經差得離譜,幾乎掛0。


不過,在編碼和數學的評估上,這些新模型仍然明顯落后于Gemini 2.5(推理模型)或 Claude 3.7(可選推理模型)這樣的頂尖模型。

如今,我們正處于模型向包含推理轉變的早期階段,但究竟什么是單一的最佳模型,這個概念已經變得更為復雜了。

這些推理模型會通過消耗遠多于以往的Token,來實現性能的大幅提升。性能固然是王道,但若性能相當,則是成本更低者勝出。

但先發優勢仍難以撼動

但說到底,對大多數普通用戶來說,上面這些技術細節其實意義不大。

對他們來說,那個被戲稱為「模型投入度」的、令人頭疼的滑塊反而更直觀——


長期以來,相對于API的價格,很多人對聊天機器人的訂閱費會更感到猶豫。

但顯然,一個日漸清晰的現實就是,真正個性化的、受用戶喜愛的體驗,往往只存在于這些集成的應用程序中。

當然,開發者也可以通過API構建競品,積累用戶交互數據,但鑒于 OpenAI在產品層面已經建立起了巨大的先發優勢,想要勝過OpenAI,恐怕沒那么容易。

所有這些,都再次印證了我們的認知:產品化,是當前AI發展的重中之重。

記憶功能,以及將ChatGPT這條產品線與API服務進行更清晰的切割,都有助于OpenAI鋪平未來的發展道路。

但要完全實現這一愿景,OpenAI前方仍有很長的路要走。

參考資料:

https://x.com/bindureddy/status/1911865521504747563

https://x.com/paulgauthier/status/1911927464844304591

https://x.com/flavioAd/status/1911848067470598608

點個 “愛心”,再走吧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
王辰:把握現在,不懼未來

王辰:把握現在,不懼未來

王辰課堂
2025-05-03 05:05:19
DeepSeek說:人最快的減肥方法,不是運動,不是節食,而是這5種

DeepSeek說:人最快的減肥方法,不是運動,不是節食,而是這5種

簡食記工作號
2025-04-13 00:02:40
白人女性是不是很美,為什么?看網友:俄羅斯和中東易出極品美女

白人女性是不是很美,為什么?看網友:俄羅斯和中東易出極品美女

美好客棧大掌柜
2024-12-24 00:15:02
你對爸媽虛報價格最多的一次是多少?網友:160萬的馬我說幾千塊

你對爸媽虛報價格最多的一次是多少?網友:160萬的馬我說幾千塊

娛樂圈人物大賞
2025-05-02 00:10:10
蘇州直升機墜落后續!被砸男子是兩女孩爸爸,知情人曝出更多細節

蘇州直升機墜落后續!被砸男子是兩女孩爸爸,知情人曝出更多細節

謝綸郵輪攝影
2025-05-03 17:46:33
日本一姐姐彩票中了3000萬,辭職、旅行、瘋狂購物!半年后...

日本一姐姐彩票中了3000萬,辭職、旅行、瘋狂購物!半年后...

今日日本
2025-05-03 14:02:54
震驚!伊恩.卡梅倫遇刺身亡!妻子翻墻逃走,事情真的不簡單

震驚!伊恩.卡梅倫遇刺身亡!妻子翻墻逃走,事情真的不簡單

西樓知趣雜談
2024-07-17 13:55:31
飛天茅臺跌破2000元!超過5000家茅臺門店接入美團、抖音及餓了么

飛天茅臺跌破2000元!超過5000家茅臺門店接入美團、抖音及餓了么

樂酒客
2025-05-03 12:15:21
中國突然刷屏全球!韓國網友急了,這是 “輿論戰”,外網熱議

中國突然刷屏全球!韓國網友急了,這是 “輿論戰”,外網熱議

九號線人
2025-05-03 17:05:04
莫迪應感謝中國:巴基斯坦又一強援趕到,中國給了印度一個臺階下

莫迪應感謝中國:巴基斯坦又一強援趕到,中國給了印度一個臺階下

星辰故事屋
2025-04-30 17:34:33
清代名醫徐靈胎傳授:“縱欲”過度后果雖可怕,但仍有一法可破解

清代名醫徐靈胎傳授:“縱欲”過度后果雖可怕,但仍有一法可破解

一根香煙的少婦
2025-03-31 19:41:09
韓國餃子被連夜踢出中國超市,這場文化反擊戰,中國干得漂亮!

韓國餃子被連夜踢出中國超市,這場文化反擊戰,中國干得漂亮!

安珈使者啊
2025-05-01 06:50:05
營業收入5200億,股價從31元跌到15元,市凈率0.9倍淪為破凈股

營業收入5200億,股價從31元跌到15元,市凈率0.9倍淪為破凈股

投資觀
2025-05-03 08:20:08
湖南一景區推出海拔1600米懸崖睡床:對年齡、體重有要求

湖南一景區推出海拔1600米懸崖睡床:對年齡、體重有要求

封面新聞
2025-05-01 00:25:04
52球11助攻!曝皇馬爭搶26歲中鋒:僅要7000萬,曼聯慘遭無視

52球11助攻!曝皇馬爭搶26歲中鋒:僅要7000萬,曼聯慘遭無視

叁炮體育
2025-05-03 20:32:16
王楚然生圖直出,楚然美的好突出

王楚然生圖直出,楚然美的好突出

阿廢冷眼觀察所
2025-05-03 17:09:27
一個人,值不值得深交,就看這三個特征,很準

一個人,值不值得深交,就看這三個特征,很準

詩詞中國
2025-05-03 15:42:36
因尺度大爆火,這5部成人美劇建議收藏

因尺度大爆火,這5部成人美劇建議收藏

來看美劇
2025-03-16 20:38:07
許佳琪平時挺文靜,上臺是真敢!旗袍開到頂,還“大開大合”的

許佳琪平時挺文靜,上臺是真敢!旗袍開到頂,還“大開大合”的

吃瓜黨二號頭目
2025-05-03 10:09:54
遠離大腸癌,請記住,吃飯兩不要,晚上兩堅持,腸道才會更好

遠離大腸癌,請記住,吃飯兩不要,晚上兩堅持,腸道才會更好

華人星光
2025-05-03 11:12:23
2025-05-03 20:51:00
硅星人 incentive-icons
硅星人
硅(Si)是創造未來的基礎,歡迎來到這個星球。
2156文章數 10335關注度
往期回顧 全部

科技要聞

特朗普下手,英偉達對華“特供版”要改

頭條要聞

陳芋汐完成賽季三連冠 全紅嬋想實現大滿貫只能等來年

頭條要聞

陳芋汐完成賽季三連冠 全紅嬋想實現大滿貫只能等來年

體育要聞

北京請神馬布里?許利民真有“玄學”!

娛樂要聞

趙又廷節目中高調撒糖 大贊高圓圓超好

財經要聞

巴菲特年度盛會,六大看點前曕!

汽車要聞

易三方科技體驗日·北京站上演硬核駕控

態度原創

手機
家居
藝術
健康
時尚

手機要聞

消息稱 OPPO Reno14 Pro 手機搭載天璣 8450 處理器

家居要聞

意式輕奢 低飽和質感美學

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

唇皰疹和口腔潰瘍是"同伙"嗎?

虞書欣和鞠婧祎都愛上了快絕版的“撕拉片”

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 延川县| 准格尔旗| 绥滨县| 荆门市| 离岛区| 凯里市| 馆陶县| 合川市| 黑水县| 汶上县| 会理县| 隆化县| 玉屏| 哈巴河县| 富民县| 沧州市| 西城区| 海城市| 三明市| 诸暨市| 土默特右旗| 金乡县| 昆山市| 长乐市| 灵石县| 南皮县| 迁安市| 越西县| 淅川县| 郓城县| 咸丰县| 德庆县| 大冶市| 平遥县| 聊城市| 山阴县| 彭州市| 上虞市| 蓬溪县| 花莲县| 漳平市|