99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

干不過DeepSeek和谷歌?OpenAI推出GPT-4.1被吐槽發(fā)了個(gè)寂寞,網(wǎng)友實(shí)測(cè)有反轉(zhuǎn)

0
分享至

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自頭部科技

文丨丁靈波

OpenAI CEO薩姆·奧特曼發(fā)帖預(yù)告的一系列更新如約而至。

今天,OpenAI研發(fā)小隊(duì)直播宣布在API中正式推出GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano等新模型,稱它們?cè)诰幋a、指令跟蹤和長上下文方面進(jìn)行了重大改進(jìn),變得更加專注于現(xiàn)實(shí)世界的實(shí)用性。


神奇的是,GPT-4.1比剛推出不久的GPT-4.5性能還要強(qiáng),OpenAI官方同步表示,今天起將會(huì)在API中舍棄GPT-4.5預(yù)覽版,API中的GPT-4.5預(yù)覽版也將于三個(gè)月后(7月14日)關(guān)閉以便開發(fā)者有時(shí)間進(jìn)行過渡。

不曉得奧特曼是否還能搞得清楚自家模型的版本號(hào),反正這波“4.1>4.5”的操作,讓網(wǎng)友們直接看懵了。


奧特曼自己也調(diào)侃道:“在今年夏天之前會(huì)確定新的模型命名規(guī)則,在此之前每個(gè)人都可以再花幾個(gè)月的時(shí)間來取笑我們(這是我們應(yīng)得的)。”


不過業(yè)內(nèi)推測(cè),奧特曼此番話可能也預(yù)示著大一統(tǒng)的GPT-5或許不遠(yuǎn)了。

4o系列的升級(jí)版


具體而言,三個(gè)新模型GPT-4.1、GPT-4.1 mini和GPT-4.1 nano的性能全面超越了GPT-4o和GPT-4o mini,在編碼和指令跟蹤方面均有顯著提,不過,奧特曼表示GPT-4.1系列目前僅限API使用。



這些新模型擁有了更大的上下文窗口,最多支持達(dá)100萬個(gè)上下文標(biāo)記,追上了谷歌Gemini模型,能夠更好地理解和利用上下文,知識(shí)截止日期更新到了2024年6月。

GPT-4.1系列其實(shí)是對(duì)GPT-4o系列的一次重大升級(jí),適用于現(xiàn)實(shí)世界的軟件工程工作,包括代理解決編碼任務(wù)、前端編碼、減少無關(guān)編輯、可靠地遵循差異格式、確保一致的工具使用等等。


在衡量真實(shí)世界軟件工程技能的SWE-bench Verified測(cè)試中,GPT-4.1完成了54.6%的任務(wù),而GPT-4o的完成率為33.2%,GPT-4.5為38%,這反映了新模型在探索代碼庫、完成任務(wù)以及生成可運(yùn)行并通過測(cè)試的代碼方面的能力有所提升。

對(duì)于需要編輯大型文件的API開發(fā)者來說,GPT-4.1在跨多種格式的代碼差異分析方面也更加可靠,在Aider的多語言差異基準(zhǔn)測(cè)試中,GPT-4.1的得分是GPT-4o的兩倍多,比GPT-4.5高出8%。

在內(nèi)部評(píng)估中,GPT-4.1在格式遵循、服從負(fù)面指令和排序等任務(wù)上的得分均優(yōu)于GPT-4o,多輪指令遵循對(duì)許多開發(fā)者來說至關(guān)重要,Scale的MultiChallenge基準(zhǔn)測(cè)試是衡量這一能力的有效指標(biāo),GPT-4.1的表現(xiàn)比GPT-4o提高了10.5%。



這三種新模型多達(dá)100萬個(gè)上下文標(biāo)記超過React代碼庫的8倍,因此它們可以處理大型存儲(chǔ)庫和大量長文檔,而GPT-4o型號(hào)最多可以處理128000個(gè),為了展示長上下文理解方面的進(jìn)步,OpenAI還發(fā)布了OpenAI MRCR,這是一個(gè)新的開源評(píng)估基準(zhǔn),用于測(cè)試模型在上下文中關(guān)注特定信息的能力。


最后就是價(jià)格優(yōu)勢(shì),GPT-4.1在曲線的每個(gè)點(diǎn)上都提升了模型性能,但比GPT-4o便宜約26%,4.1 nano版本是OpenAI迄今為止速度最快、成本最低的模型,而且,使用長上下文無需支付額外費(fèi)用,只需支付正常的代幣價(jià)格。



不過,GPT-4.1在Aider LLM排行榜上的位置這次并沒有沖到前幾名,Aider的多語言基準(zhǔn)測(cè)試針對(duì)C++、Go、Java、JavaScript、Python和Rust等語言,通過225道具有挑戰(zhàn)性的編碼練習(xí)題來對(duì)大語言模型進(jìn)行測(cè)試。


目前在Aider LLM排行榜上,谷歌的Gemini 2.5 Pro Preview排在第一名,GPT-4.1雖然有了一定的性價(jià)比和性能提升,但性能排名尚未超過Claude 3.7 sonnet、DeepSeek R1、DeepSeek V3-0324、Grok 3 Beta等其他公司的頂尖模型。

有意思的是,Aider榜上近日有兩個(gè)新晉模型Quasar Alpha和Optimus Alpha表現(xiàn)在GPT-4.1之上,目前尚未有信息披露是誰家的新模型。

實(shí)測(cè)效果媲美頂尖模型


GPT-4.1雖然在OpenAI模型陣營中已算實(shí)力不弱的存在,但放眼現(xiàn)在的頂尖模型行列PK,似乎并沒有機(jī)會(huì)掀起太大的顛覆性。

網(wǎng)友吐槽這是OpenAI首次在谷歌之后發(fā)布新模型,且性能落后于谷歌,怎么跟Gemini 2.5 Pro或Gemini 2.0 Flash對(duì)線競(jìng)爭(zhēng)是個(gè)挑戰(zhàn),且性價(jià)比依舊不如開源之王DeepSeeK。


好在,GPT-4.1的實(shí)際表現(xiàn)不錯(cuò),經(jīng)住了各路網(wǎng)友們的測(cè)試挑戰(zhàn),甚至有些表現(xiàn)比Gemini 2.5 Pro處理得更好,實(shí)用性可圈可點(diǎn)。

例如最常見的旋轉(zhuǎn)框小球彈跳測(cè)試,輸入提示詞:使用Pygam(或其他合適的庫)編寫一個(gè)Python程序,模擬幾個(gè)在圍繞其中心旋轉(zhuǎn)的正方形內(nèi)受重力影響的彈跳球。這些球應(yīng)該對(duì)于旋轉(zhuǎn)正方形墻壁的碰撞做出反應(yīng),并通過速度變化、重力效應(yīng)和旋轉(zhuǎn)感知碰撞檢測(cè)來保持物理真實(shí)感。

GPT-4.1輕松處理了旋轉(zhuǎn)幀、重力和碰撞響應(yīng)問題。


例如輸入提示詞模擬夜晚霓虹燈照亮的賽博朋克城市景觀,帶有動(dòng)畫燈光和霧,所有內(nèi)容都在一個(gè)HTML文件中呈現(xiàn),如下圖所示,GPT 4.1(上)理解和生成的效果層次要比Gemini 2.5 Pro(下)更為細(xì)致。



還有各家模型的噩夢(mèng)svg_code繪圖測(cè)試:請(qǐng)模型畫一只騎自行車的鵜鶘,GPT-4.1的表現(xiàn)也很好,比Grok3、Gemini 2.5 Pro等模型生成的圖樣協(xié)調(diào)很多,而Meta發(fā)布的最新開源模型Llama 4在這樣的測(cè)試中再次翻車。


從實(shí)測(cè)表現(xiàn)來看,GPT-4.1與GPT-4.5在編程領(lǐng)域和物理知識(shí)處理方面都非常出色,但GPT-4.1 mini和GPT-4.1 nano的表現(xiàn)是拉垮的,可能難以滿足開發(fā)者們的高級(jí)使用需求,不過性價(jià)比在GPT陣營中靠前。


另外,GPT-4.1在前端編碼方面比GPT-4o有了顯著提升,能夠創(chuàng)建功能更強(qiáng)大、更美觀的Web應(yīng)用,付費(fèi)人工評(píng)分員80%的評(píng)分結(jié)果顯示,GPT-4.1開發(fā)的網(wǎng)頁效果比GPT-4o的呈現(xiàn)效果更受歡迎。


正如奧特曼點(diǎn)名@表揚(yáng)的GPT-4.1幕后推動(dòng)者M(jìn)ichelle Pokrass發(fā)帖所說,GPT-4.1系列模型實(shí)際上更多地關(guān)注現(xiàn)實(shí)世界的使用和實(shí)用性,而不是基準(zhǔn)測(cè)試(盡管這些基準(zhǔn)測(cè)試結(jié)果也相當(dāng)不錯(cuò))。



OpenAI提升審查和戒備


至于為什么GPT-4.1系列僅在API中推出,OpenAI方面暫未有太多解釋。

不過,OpenAI最近正在嚴(yán)格化對(duì)其最新模型的使用情況,日前,該公司網(wǎng)站上更新的頁面顯示,OpenAI可能很快會(huì)要求組織完成身份驗(yàn)證過程才能訪問某些未來的AI模型。


驗(yàn)證需要提供OpenAI API支持的國家/地區(qū)政府簽發(fā)的身份證件信息,OpenAI表示,一個(gè)身份證件每90天只能驗(yàn)證一個(gè)組織。

業(yè)內(nèi)分析認(rèn)為,隨著OpenAI產(chǎn)品變得越來越復(fù)雜和強(qiáng)大,新的驗(yàn)證流程或旨在增強(qiáng)其產(chǎn)品的安全防護(hù)壁壘,檢測(cè)和減少其模型被惡意使用,也為了防止知識(shí)產(chǎn)權(quán)被違規(guī)利用。

今年早些時(shí)候,OpenAI曾調(diào)查與DeepSeek有關(guān)聯(lián)的組織是否在2024年底通過其API竊取了大量數(shù)據(jù)用于訓(xùn)練開源模型,這違反了OpenAI的使用條款,最終沒有實(shí)質(zhì)發(fā)現(xiàn)和結(jié)論。



作為OpenAI最大的開源競(jìng)爭(zhēng)對(duì)手,DeepSeek正在低調(diào)醞釀大動(dòng)作。

根據(jù)其開發(fā)團(tuán)隊(duì)在Github上更新的一篇帖子顯示,DeepSeek團(tuán)隊(duì)宣布將進(jìn)一步把內(nèi)部推理引擎回饋給開源社區(qū),其訓(xùn)練框架依賴于PyTorch,推理引擎則基于vLLM,這兩者都對(duì)加速DeepSeek模型的訓(xùn)練和部署起到了重要作用。

另外,DeepSeek團(tuán)隊(duì)在4月初與清華大學(xué)合作的一篇論文中探討了通用獎(jiǎng)勵(lì)建模在推理時(shí)的可擴(kuò)展性,并提出了DeepSeek-GRM模型,被外界視為可能是在為R2模型的推出做技術(shù)準(zhǔn)備和鋪墊。

下一步能再次攪動(dòng)AI行業(yè)發(fā)展走向的因素,可能就是開源R2和GPT-5的正面交鋒了。

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒級(jí)計(jì)費(fèi),平均節(jié)省開支30%以上!

掃碼了解詳情?


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
一爆再爆 沈騰是真的有問題了 馬麗都出來撇清關(guān)系 表示不再合作

一爆再爆 沈騰是真的有問題了 馬麗都出來撇清關(guān)系 表示不再合作

小彭聊社會(huì)
2025-05-05 00:20:40
涉釣魚島,臺(tái)灣網(wǎng)民怒了!

涉釣魚島,臺(tái)灣網(wǎng)民怒了!

環(huán)球時(shí)報(bào)新聞
2025-05-04 14:36:58
侄子代辦老人喪事花光23萬遺產(chǎn)遭索賠 法院判了:鋪張浪費(fèi),賠償62500元

侄子代辦老人喪事花光23萬遺產(chǎn)遭索賠 法院判了:鋪張浪費(fèi),賠償62500元

封面新聞
2025-05-04 15:09:13
貴州黔西突發(fā)翻船事故 游客回憶幾分鐘之內(nèi)狂風(fēng)暴雨冰雹

貴州黔西突發(fā)翻船事故 游客回憶幾分鐘之內(nèi)狂風(fēng)暴雨冰雹

中國青年報(bào)
2025-05-05 00:37:06
河北一景區(qū)發(fā)生事故!

河北一景區(qū)發(fā)生事故!

愛上大邯鄲
2025-05-04 21:10:28
美國財(cái)長這下著急了!最新消息,temu公司宣布停止所有從中國到美國的直運(yùn)

美國財(cái)長這下著急了!最新消息,temu公司宣布停止所有從中國到美國的直運(yùn)

華山穹劍
2025-05-04 20:27:20
著名通訊專家項(xiàng)立剛這次徹底演砸了!他兒子初中就去了美國留學(xué)?

著名通訊專家項(xiàng)立剛這次徹底演砸了!他兒子初中就去了美國留學(xué)?

翻開歷史和現(xiàn)實(shí)
2025-05-04 19:07:04
虧損高達(dá)50億,3億煙民“供不起”中國煙草?為何中國煙草連年虧

虧損高達(dá)50億,3億煙民“供不起”中國煙草?為何中國煙草連年虧

巢客HOME
2025-05-04 10:45:04
可怕!五一假期兵馬俑內(nèi)缺氧,長城險(xiǎn)被踩壞!西安帶頭勸退游客!

可怕!五一假期兵馬俑內(nèi)缺氧,長城險(xiǎn)被踩壞!西安帶頭勸退游客!

一個(gè)小孩
2025-05-03 01:56:54
揪心!貴州黔西游船側(cè)翻:約70人落水,已搜救50余人,現(xiàn)場(chǎng)曝光

揪心!貴州黔西游船側(cè)翻:約70人落水,已搜救50余人,現(xiàn)場(chǎng)曝光

小人物看盡人間百態(tài)
2025-05-04 20:49:11
臺(tái)球皇帝發(fā)表言論引熱議!亨得利:趙心童會(huì)擊敗威廉姆斯奪冠!

臺(tái)球皇帝發(fā)表言論引熱議!亨得利:趙心童會(huì)擊敗威廉姆斯奪冠!

世界體壇觀察家
2025-05-04 16:13:39
達(dá)赫迪:難以置信,趙心童正在摧毀斯諾克的標(biāo)志性人物之一

達(dá)赫迪:難以置信,趙心童正在摧毀斯諾克的標(biāo)志性人物之一

直播吧
2025-05-04 23:52:02
女記者不雅片網(wǎng)絡(luò)流出,名嘴曝驚人真相:竟是被報(bào)復(fù)

女記者不雅片網(wǎng)絡(luò)流出,名嘴曝驚人真相:竟是被報(bào)復(fù)

葫蘆哥愛吐槽
2025-05-04 14:54:09
貴州黔西游船傾覆事故已致3人死亡,14人正在搜救中 目擊者:事發(fā)前大風(fēng)冰雹交加

貴州黔西游船傾覆事故已致3人死亡,14人正在搜救中 目擊者:事發(fā)前大風(fēng)冰雹交加

紅星新聞
2025-05-04 23:03:24
上海女博士在家8年未出門,警察破門后,屋內(nèi)景象讓人傻眼

上海女博士在家8年未出門,警察破門后,屋內(nèi)景象讓人傻眼

蘭姐說故事
2025-04-28 10:00:09
斯諾克最新戰(zhàn)報(bào)!趙心童3連鞭到手,單局4分險(xiǎn)勝,世界冠軍告急!

斯諾克最新戰(zhàn)報(bào)!趙心童3連鞭到手,單局4分險(xiǎn)勝,世界冠軍告急!

劉姚堯的文字城堡
2025-05-04 21:28:53
蘇迪曼杯四連冠!國羽3-1擊退勁敵韓國,強(qiáng)勢(shì)加冕蘇杯第14冠

蘇迪曼杯四連冠!國羽3-1擊退勁敵韓國,強(qiáng)勢(shì)加冕蘇杯第14冠

全景體育V
2025-05-04 18:32:57
新史記:胡錫進(jìn)之女胡維佳傳

新史記:胡錫進(jìn)之女胡維佳傳

妮妮玩不夠
2025-05-03 11:14:35
五一假期,又有媒體翻車了……

五一假期,又有媒體翻車了……

麥杰遜
2025-05-04 19:16:44
麥當(dāng)娜跟小她37歲的男友一起出街,66歲的她已老態(tài)龍鐘認(rèn)不出來了

麥當(dāng)娜跟小她37歲的男友一起出街,66歲的她已老態(tài)龍鐘認(rèn)不出來了

野山歷史
2025-05-04 18:59:48
2025-05-05 05:32:49
大數(shù)據(jù)文摘 incentive-icons
大數(shù)據(jù)文摘
專注大數(shù)據(jù),每日有分享!
6612文章數(shù) 94407關(guān)注度
往期回顧 全部

科技要聞

巴菲特:理性看待AI炒作 耐心是關(guān)鍵

頭條要聞

游船側(cè)翻游客:要返航大家還有點(diǎn)失望 越到后面越害怕

頭條要聞

游船側(cè)翻游客:要返航大家還有點(diǎn)失望 越到后面越害怕

體育要聞

聯(lián)盟30隊(duì)首發(fā)得分后衛(wèi),他只能排第29位?

娛樂要聞

55歲王菲跟“李亞鵬時(shí)期”完全不同!

財(cái)經(jīng)要聞

一個(gè)時(shí)代的結(jié)束!巴菲特年底將卸任

汽車要聞

小米SU7大優(yōu)惠!5月限時(shí)購車權(quán)益送輔助駕駛

態(tài)度原創(chuàng)

教育
藝術(shù)
時(shí)尚
數(shù)碼
公開課

教育要聞

如果有100度的水加0度的水,最后等于多少度?

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

卷首語 | 今天,致敬青春,致敬自己!

數(shù)碼要聞

多年來首次設(shè)計(jì)重構(gòu):微軟13英寸Surface Laptop曝光,5月6日發(fā)布

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 封开县| 正定县| 馆陶县| 江陵县| 弥勒县| 象州县| 黎平县| 新乡县| 万盛区| 凯里市| 保山市| 潞西市| 通辽市| 长岭县| 稷山县| 江西省| 安徽省| 洞口县| 胶州市| 慈溪市| 清流县| 黑河市| 南涧| 霍州市| 晋中市| 资中县| 临桂县| 遂川县| 廊坊市| 开封县| 秭归县| 土默特左旗| 四平市| 西昌市| 潜山县| 新乐市| 博爱县| 洛扎县| 滕州市| 石河子市| 平武县|