大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自頭部科技
文丨丁靈波
OpenAI CEO薩姆·奧特曼發(fā)帖預(yù)告的一系列更新如約而至。
今天,OpenAI研發(fā)小隊(duì)直播宣布在API中正式推出GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano等新模型,稱它們?cè)诰幋a、指令跟蹤和長上下文方面進(jìn)行了重大改進(jìn),變得更加專注于現(xiàn)實(shí)世界的實(shí)用性。
神奇的是,GPT-4.1比剛推出不久的GPT-4.5性能還要強(qiáng),OpenAI官方同步表示,今天起將會(huì)在API中舍棄GPT-4.5預(yù)覽版,API中的GPT-4.5預(yù)覽版也將于三個(gè)月后(7月14日)關(guān)閉以便開發(fā)者有時(shí)間進(jìn)行過渡。
不曉得奧特曼是否還能搞得清楚自家模型的版本號(hào),反正這波“4.1>4.5”的操作,讓網(wǎng)友們直接看懵了。
奧特曼自己也調(diào)侃道:“在今年夏天之前會(huì)確定新的模型命名規(guī)則,在此之前每個(gè)人都可以再花幾個(gè)月的時(shí)間來取笑我們(這是我們應(yīng)得的)。”
不過業(yè)內(nèi)推測(cè),奧特曼此番話可能也預(yù)示著大一統(tǒng)的GPT-5或許不遠(yuǎn)了。
4o系列的升級(jí)版
具體而言,三個(gè)新模型GPT-4.1、GPT-4.1 mini和GPT-4.1 nano的性能全面超越了GPT-4o和GPT-4o mini,在編碼和指令跟蹤方面均有顯著提,不過,奧特曼表示GPT-4.1系列目前僅限API使用。
這些新模型擁有了更大的上下文窗口,最多支持達(dá)100萬個(gè)上下文標(biāo)記,追上了谷歌Gemini模型,能夠更好地理解和利用上下文,知識(shí)截止日期更新到了2024年6月。
GPT-4.1系列其實(shí)是對(duì)GPT-4o系列的一次重大升級(jí),適用于現(xiàn)實(shí)世界的軟件工程工作,包括代理解決編碼任務(wù)、前端編碼、減少無關(guān)編輯、可靠地遵循差異格式、確保一致的工具使用等等。
在衡量真實(shí)世界軟件工程技能的SWE-bench Verified測(cè)試中,GPT-4.1完成了54.6%的任務(wù),而GPT-4o的完成率為33.2%,GPT-4.5為38%,這反映了新模型在探索代碼庫、完成任務(wù)以及生成可運(yùn)行并通過測(cè)試的代碼方面的能力有所提升。
對(duì)于需要編輯大型文件的API開發(fā)者來說,GPT-4.1在跨多種格式的代碼差異分析方面也更加可靠,在Aider的多語言差異基準(zhǔn)測(cè)試中,GPT-4.1的得分是GPT-4o的兩倍多,比GPT-4.5高出8%。
在內(nèi)部評(píng)估中,GPT-4.1在格式遵循、服從負(fù)面指令和排序等任務(wù)上的得分均優(yōu)于GPT-4o,多輪指令遵循對(duì)許多開發(fā)者來說至關(guān)重要,Scale的MultiChallenge基準(zhǔn)測(cè)試是衡量這一能力的有效指標(biāo),GPT-4.1的表現(xiàn)比GPT-4o提高了10.5%。
這三種新模型多達(dá)100萬個(gè)上下文標(biāo)記超過React代碼庫的8倍,因此它們可以處理大型存儲(chǔ)庫和大量長文檔,而GPT-4o型號(hào)最多可以處理128000個(gè),為了展示長上下文理解方面的進(jìn)步,OpenAI還發(fā)布了OpenAI MRCR,這是一個(gè)新的開源評(píng)估基準(zhǔn),用于測(cè)試模型在上下文中關(guān)注特定信息的能力。
最后就是價(jià)格優(yōu)勢(shì),GPT-4.1在曲線的每個(gè)點(diǎn)上都提升了模型性能,但比GPT-4o便宜約26%,4.1 nano版本是OpenAI迄今為止速度最快、成本最低的模型,而且,使用長上下文無需支付額外費(fèi)用,只需支付正常的代幣價(jià)格。
不過,GPT-4.1在Aider LLM排行榜上的位置這次并沒有沖到前幾名,Aider的多語言基準(zhǔn)測(cè)試針對(duì)C++、Go、Java、JavaScript、Python和Rust等語言,通過225道具有挑戰(zhàn)性的編碼練習(xí)題來對(duì)大語言模型進(jìn)行測(cè)試。
目前在Aider LLM排行榜上,谷歌的Gemini 2.5 Pro Preview排在第一名,GPT-4.1雖然有了一定的性價(jià)比和性能提升,但性能排名尚未超過Claude 3.7 sonnet、DeepSeek R1、DeepSeek V3-0324、Grok 3 Beta等其他公司的頂尖模型。
有意思的是,Aider榜上近日有兩個(gè)新晉模型Quasar Alpha和Optimus Alpha表現(xiàn)在GPT-4.1之上,目前尚未有信息披露是誰家的新模型。
實(shí)測(cè)效果媲美頂尖模型
GPT-4.1雖然在OpenAI模型陣營中已算實(shí)力不弱的存在,但放眼現(xiàn)在的頂尖模型行列PK,似乎并沒有機(jī)會(huì)掀起太大的顛覆性。
網(wǎng)友吐槽這是OpenAI首次在谷歌之后發(fā)布新模型,且性能落后于谷歌,怎么跟Gemini 2.5 Pro或Gemini 2.0 Flash對(duì)線競(jìng)爭(zhēng)是個(gè)挑戰(zhàn),且性價(jià)比依舊不如開源之王DeepSeeK。
好在,GPT-4.1的實(shí)際表現(xiàn)不錯(cuò),經(jīng)住了各路網(wǎng)友們的測(cè)試挑戰(zhàn),甚至有些表現(xiàn)比Gemini 2.5 Pro處理得更好,實(shí)用性可圈可點(diǎn)。
例如最常見的旋轉(zhuǎn)框小球彈跳測(cè)試,輸入提示詞:使用Pygam(或其他合適的庫)編寫一個(gè)Python程序,模擬幾個(gè)在圍繞其中心旋轉(zhuǎn)的正方形內(nèi)受重力影響的彈跳球。這些球應(yīng)該對(duì)于旋轉(zhuǎn)正方形墻壁的碰撞做出反應(yīng),并通過速度變化、重力效應(yīng)和旋轉(zhuǎn)感知碰撞檢測(cè)來保持物理真實(shí)感。
GPT-4.1輕松處理了旋轉(zhuǎn)幀、重力和碰撞響應(yīng)問題。
例如輸入提示詞模擬夜晚霓虹燈照亮的賽博朋克城市景觀,帶有動(dòng)畫燈光和霧,所有內(nèi)容都在一個(gè)HTML文件中呈現(xiàn),如下圖所示,GPT 4.1(上)理解和生成的效果層次要比Gemini 2.5 Pro(下)更為細(xì)致。
還有各家模型的噩夢(mèng)svg_code繪圖測(cè)試:請(qǐng)模型畫一只騎自行車的鵜鶘,GPT-4.1的表現(xiàn)也很好,比Grok3、Gemini 2.5 Pro等模型生成的圖樣協(xié)調(diào)很多,而Meta發(fā)布的最新開源模型Llama 4在這樣的測(cè)試中再次翻車。
從實(shí)測(cè)表現(xiàn)來看,GPT-4.1與GPT-4.5在編程領(lǐng)域和物理知識(shí)處理方面都非常出色,但GPT-4.1 mini和GPT-4.1 nano的表現(xiàn)是拉垮的,可能難以滿足開發(fā)者們的高級(jí)使用需求,不過性價(jià)比在GPT陣營中靠前。
另外,GPT-4.1在前端編碼方面比GPT-4o有了顯著提升,能夠創(chuàng)建功能更強(qiáng)大、更美觀的Web應(yīng)用,付費(fèi)人工評(píng)分員80%的評(píng)分結(jié)果顯示,GPT-4.1開發(fā)的網(wǎng)頁效果比GPT-4o的呈現(xiàn)效果更受歡迎。
正如奧特曼點(diǎn)名@表揚(yáng)的GPT-4.1幕后推動(dòng)者M(jìn)ichelle Pokrass發(fā)帖所說,GPT-4.1系列模型實(shí)際上更多地關(guān)注現(xiàn)實(shí)世界的使用和實(shí)用性,而不是基準(zhǔn)測(cè)試(盡管這些基準(zhǔn)測(cè)試結(jié)果也相當(dāng)不錯(cuò))。
OpenAI提升審查和戒備
至于為什么GPT-4.1系列僅在API中推出,OpenAI方面暫未有太多解釋。
不過,OpenAI最近正在嚴(yán)格化對(duì)其最新模型的使用情況,日前,該公司網(wǎng)站上更新的頁面顯示,OpenAI可能很快會(huì)要求組織完成身份驗(yàn)證過程才能訪問某些未來的AI模型。
驗(yàn)證需要提供OpenAI API支持的國家/地區(qū)政府簽發(fā)的身份證件信息,OpenAI表示,一個(gè)身份證件每90天只能驗(yàn)證一個(gè)組織。
業(yè)內(nèi)分析認(rèn)為,隨著OpenAI產(chǎn)品變得越來越復(fù)雜和強(qiáng)大,新的驗(yàn)證流程或旨在增強(qiáng)其產(chǎn)品的安全防護(hù)壁壘,檢測(cè)和減少其模型被惡意使用,也為了防止知識(shí)產(chǎn)權(quán)被違規(guī)利用。
今年早些時(shí)候,OpenAI曾調(diào)查與DeepSeek有關(guān)聯(lián)的組織是否在2024年底通過其API竊取了大量數(shù)據(jù)用于訓(xùn)練開源模型,這違反了OpenAI的使用條款,最終沒有實(shí)質(zhì)發(fā)現(xiàn)和結(jié)論。
作為OpenAI最大的開源競(jìng)爭(zhēng)對(duì)手,DeepSeek正在低調(diào)醞釀大動(dòng)作。
根據(jù)其開發(fā)團(tuán)隊(duì)在Github上更新的一篇帖子顯示,DeepSeek團(tuán)隊(duì)宣布將進(jìn)一步把內(nèi)部推理引擎回饋給開源社區(qū),其訓(xùn)練框架依賴于PyTorch,推理引擎則基于vLLM,這兩者都對(duì)加速DeepSeek模型的訓(xùn)練和部署起到了重要作用。
另外,DeepSeek團(tuán)隊(duì)在4月初與清華大學(xué)合作的一篇論文中探討了通用獎(jiǎng)勵(lì)建模在推理時(shí)的可擴(kuò)展性,并提出了DeepSeek-GRM模型,被外界視為可能是在為R2模型的推出做技術(shù)準(zhǔn)備和鋪墊。
下一步能再次攪動(dòng)AI行業(yè)發(fā)展走向的因素,可能就是開源R2和GPT-5的正面交鋒了。
GPU算力按需租用
A100/H100 GPU算力按需租用,
秒級(jí)計(jì)費(fèi),平均節(jié)省開支30%以上!
掃碼了解詳情?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.