網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

干不過DeepSeek和谷歌？OpenAI推出GPT-4.1被吐槽發(fā)了個(gè)寂寞，網(wǎng)友實(shí)測(cè)有反轉(zhuǎn)

2025-04-15 20:44:20　來源: 大數(shù)據(jù)文摘

北京舉報(bào)

分享至

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自頭部科技

文丨丁靈波

OpenAI CEO薩姆·奧特曼發(fā)帖預(yù)告的一系列更新如約而至。

今天，OpenAI研發(fā)小隊(duì)直播宣布在API中正式推出GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano等新模型，稱它們?cè)诰幋a、指令跟蹤和長上下文方面進(jìn)行了重大改進(jìn)，變得更加專注于現(xiàn)實(shí)世界的實(shí)用性。

神奇的是，GPT-4.1比剛推出不久的GPT-4.5性能還要強(qiáng)，OpenAI官方同步表示，今天起將會(huì)在API中舍棄GPT-4.5預(yù)覽版，API中的GPT-4.5預(yù)覽版也將于三個(gè)月后（7月14日）關(guān)閉以便開發(fā)者有時(shí)間進(jìn)行過渡。

不曉得奧特曼是否還能搞得清楚自家模型的版本號(hào)，反正這波“4.1>4.5”的操作，讓網(wǎng)友們直接看懵了。

奧特曼自己也調(diào)侃道：“在今年夏天之前會(huì)確定新的模型命名規(guī)則，在此之前每個(gè)人都可以再花幾個(gè)月的時(shí)間來取笑我們（這是我們應(yīng)得的）。”

不過業(yè)內(nèi)推測(cè)，奧特曼此番話可能也預(yù)示著大一統(tǒng)的GPT-5或許不遠(yuǎn)了。

4o系列的升級(jí)版

具體而言，三個(gè)新模型GPT-4.1、GPT-4.1 mini和GPT-4.1 nano的性能全面超越了GPT-4o和GPT-4o mini，在編碼和指令跟蹤方面均有顯著提，不過，奧特曼表示GPT-4.1系列目前僅限API使用。

這些新模型擁有了更大的上下文窗口，最多支持達(dá)100萬個(gè)上下文標(biāo)記，追上了谷歌Gemini模型，能夠更好地理解和利用上下文，知識(shí)截止日期更新到了2024年6月。

GPT-4.1系列其實(shí)是對(duì)GPT-4o系列的一次重大升級(jí)，適用于現(xiàn)實(shí)世界的軟件工程工作，包括代理解決編碼任務(wù)、前端編碼、減少無關(guān)編輯、可靠地遵循差異格式、確保一致的工具使用等等。

在衡量真實(shí)世界軟件工程技能的SWE-bench Verified測(cè)試中，GPT-4.1完成了54.6%的任務(wù)，而GPT-4o的完成率為33.2%，GPT-4.5為38%，這反映了新模型在探索代碼庫、完成任務(wù)以及生成可運(yùn)行并通過測(cè)試的代碼方面的能力有所提升。

對(duì)于需要編輯大型文件的API開發(fā)者來說，GPT-4.1在跨多種格式的代碼差異分析方面也更加可靠，在Aider的多語言差異基準(zhǔn)測(cè)試中，GPT-4.1的得分是GPT-4o的兩倍多，比GPT-4.5高出8%。

在內(nèi)部評(píng)估中，GPT-4.1在格式遵循、服從負(fù)面指令和排序等任務(wù)上的得分均優(yōu)于GPT-4o，多輪指令遵循對(duì)許多開發(fā)者來說至關(guān)重要，Scale的MultiChallenge基準(zhǔn)測(cè)試是衡量這一能力的有效指標(biāo)，GPT-4.1的表現(xiàn)比GPT-4o提高了10.5%。

這三種新模型多達(dá)100萬個(gè)上下文標(biāo)記超過React代碼庫的8倍，因此它們可以處理大型存儲(chǔ)庫和大量長文檔，而GPT-4o型號(hào)最多可以處理128000個(gè)，為了展示長上下文理解方面的進(jìn)步，OpenAI還發(fā)布了OpenAI MRCR，這是一個(gè)新的開源評(píng)估基準(zhǔn)，用于測(cè)試模型在上下文中關(guān)注特定信息的能力。

最后就是價(jià)格優(yōu)勢(shì)，GPT-4.1在曲線的每個(gè)點(diǎn)上都提升了模型性能，但比GPT-4o便宜約26%，4.1 nano版本是OpenAI迄今為止速度最快、成本最低的模型，而且，使用長上下文無需支付額外費(fèi)用，只需支付正常的代幣價(jià)格。

不過，GPT-4.1在Aider LLM排行榜上的位置這次并沒有沖到前幾名，Aider的多語言基準(zhǔn)測(cè)試針對(duì)C++、Go、Java、JavaScript、Python和Rust等語言，通過225道具有挑戰(zhàn)性的編碼練習(xí)題來對(duì)大語言模型進(jìn)行測(cè)試。

目前在Aider LLM排行榜上，谷歌的Gemini 2.5 Pro Preview排在第一名，GPT-4.1雖然有了一定的性價(jià)比和性能提升，但性能排名尚未超過Claude 3.7 sonnet、DeepSeek R1、DeepSeek V3-0324、Grok 3 Beta等其他公司的頂尖模型。

有意思的是，Aider榜上近日有兩個(gè)新晉模型Quasar Alpha和Optimus Alpha表現(xiàn)在GPT-4.1之上，目前尚未有信息披露是誰家的新模型。

實(shí)測(cè)效果媲美頂尖模型

GPT-4.1雖然在OpenAI模型陣營中已算實(shí)力不弱的存在，但放眼現(xiàn)在的頂尖模型行列PK，似乎并沒有機(jī)會(huì)掀起太大的顛覆性。

網(wǎng)友吐槽這是OpenAI首次在谷歌之后發(fā)布新模型，且性能落后于谷歌，怎么跟Gemini 2.5 Pro或Gemini 2.0 Flash對(duì)線競(jìng)爭(zhēng)是個(gè)挑戰(zhàn)，且性價(jià)比依舊不如開源之王DeepSeeK。

好在，GPT-4.1的實(shí)際表現(xiàn)不錯(cuò)，經(jīng)住了各路網(wǎng)友們的測(cè)試挑戰(zhàn)，甚至有些表現(xiàn)比Gemini 2.5 Pro處理得更好，實(shí)用性可圈可點(diǎn)。

例如最常見的旋轉(zhuǎn)框小球彈跳測(cè)試，輸入提示詞：使用Pygam（或其他合適的庫）編寫一個(gè)Python程序，模擬幾個(gè)在圍繞其中心旋轉(zhuǎn)的正方形內(nèi)受重力影響的彈跳球。這些球應(yīng)該對(duì)于旋轉(zhuǎn)正方形墻壁的碰撞做出反應(yīng)，并通過速度變化、重力效應(yīng)和旋轉(zhuǎn)感知碰撞檢測(cè)來保持物理真實(shí)感。

GPT-4.1輕松處理了旋轉(zhuǎn)幀、重力和碰撞響應(yīng)問題。

例如輸入提示詞模擬夜晚霓虹燈照亮的賽博朋克城市景觀，帶有動(dòng)畫燈光和霧，所有內(nèi)容都在一個(gè)HTML文件中呈現(xiàn)，如下圖所示，GPT 4.1（上）理解和生成的效果層次要比Gemini 2.5 Pro（下）更為細(xì)致。

還有各家模型的噩夢(mèng)svg_code繪圖測(cè)試：請(qǐng)模型畫一只騎自行車的鵜鶘，GPT-4.1的表現(xiàn)也很好，比Grok3、Gemini 2.5 Pro等模型生成的圖樣協(xié)調(diào)很多，而Meta發(fā)布的最新開源模型Llama 4在這樣的測(cè)試中再次翻車。

從實(shí)測(cè)表現(xiàn)來看，GPT-4.1與GPT-4.5在編程領(lǐng)域和物理知識(shí)處理方面都非常出色，但GPT-4.1 mini和GPT-4.1 nano的表現(xiàn)是拉垮的，可能難以滿足開發(fā)者們的高級(jí)使用需求，不過性價(jià)比在GPT陣營中靠前。

另外，GPT-4.1在前端編碼方面比GPT-4o有了顯著提升，能夠創(chuàng)建功能更強(qiáng)大、更美觀的Web應(yīng)用，付費(fèi)人工評(píng)分員80%的評(píng)分結(jié)果顯示，GPT-4.1開發(fā)的網(wǎng)頁效果比GPT-4o的呈現(xiàn)效果更受歡迎。

正如奧特曼點(diǎn)名@表揚(yáng)的GPT-4.1幕后推動(dòng)者M(jìn)ichelle Pokrass發(fā)帖所說，GPT-4.1系列模型實(shí)際上更多地關(guān)注現(xiàn)實(shí)世界的使用和實(shí)用性，而不是基準(zhǔn)測(cè)試（盡管這些基準(zhǔn)測(cè)試結(jié)果也相當(dāng)不錯(cuò)）。

OpenAI提升審查和戒備

至于為什么GPT-4.1系列僅在API中推出，OpenAI方面暫未有太多解釋。

不過，OpenAI最近正在嚴(yán)格化對(duì)其最新模型的使用情況，日前，該公司網(wǎng)站上更新的頁面顯示，OpenAI可能很快會(huì)要求組織完成身份驗(yàn)證過程才能訪問某些未來的AI模型。

驗(yàn)證需要提供OpenAI API支持的國家/地區(qū)政府簽發(fā)的身份證件信息，OpenAI表示，一個(gè)身份證件每90天只能驗(yàn)證一個(gè)組織。

業(yè)內(nèi)分析認(rèn)為，隨著OpenAI產(chǎn)品變得越來越復(fù)雜和強(qiáng)大，新的驗(yàn)證流程或旨在增強(qiáng)其產(chǎn)品的安全防護(hù)壁壘，檢測(cè)和減少其模型被惡意使用，也為了防止知識(shí)產(chǎn)權(quán)被違規(guī)利用。

今年早些時(shí)候，OpenAI曾調(diào)查與DeepSeek有關(guān)聯(lián)的組織是否在2024年底通過其API竊取了大量數(shù)據(jù)用于訓(xùn)練開源模型，這違反了OpenAI的使用條款，最終沒有實(shí)質(zhì)發(fā)現(xiàn)和結(jié)論。

作為OpenAI最大的開源競(jìng)爭(zhēng)對(duì)手，DeepSeek正在低調(diào)醞釀大動(dòng)作。

根據(jù)其開發(fā)團(tuán)隊(duì)在Github上更新的一篇帖子顯示，DeepSeek團(tuán)隊(duì)宣布將進(jìn)一步把內(nèi)部推理引擎回饋給開源社區(qū)，其訓(xùn)練框架依賴于PyTorch，推理引擎則基于vLLM，這兩者都對(duì)加速DeepSeek模型的訓(xùn)練和部署起到了重要作用。

另外，DeepSeek團(tuán)隊(duì)在4月初與清華大學(xué)合作的一篇論文中探討了通用獎(jiǎng)勵(lì)建模在推理時(shí)的可擴(kuò)展性，并提出了DeepSeek-GRM模型，被外界視為可能是在為R2模型的推出做技術(shù)準(zhǔn)備和鋪墊。

下一步能再次攪動(dòng)AI行業(yè)發(fā)展走向的因素，可能就是開源R2和GPT-5的正面交鋒了。

GPU算力按需租用

A100/H100 GPU算力按需租用，

秒級(jí)計(jì)費(fèi)，平均節(jié)省開支30%以上！

掃碼了解詳情?

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.