99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

OpenAI發布GPT-4.1:百萬token上下文,全方位碾壓4o并且價格更低,GPT-4.5三個月后下線

0
分享至

文章轉載自「機器之心」

今天凌晨,OpenAI 發布了新模型 GPT-4.1。

該系列包含了三個模型,分別是 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano,它們僅通過 API 調用,并已向所有開發者開放。

OpenAI 表示,這三個模型的性能全面超越了 GPT-4o 和 GPT-4o mini,并在編程和指令遵循方面均有顯著提升。它們還擁有更大的上下文窗口 —— 支持高達 100 萬個上下文 token,并且能夠通過改進的長上下文理解更好地利用這些上下文。知識截止日期已更新至 2024 年 6 月。

隨著該模型在很多關鍵功能上提供了類似或更強的性能,并且成本和延遲更低,因此 OpenAI 將開始在 API 中棄用 GPT-4.5 預覽版。棄用時間為三個月后(2025 年 7 月 14 日),從而為開發者提供時間過渡。


總的來說,GPT-4.1 在以下行業標準指標上表現出色:

  • 編程:GPT-4.1 在 SWE-bench Verified 測試中得分為 54.6%,比 GPT-4o 提升 21.4%,比 GPT-4.5 提升 26.6%,使其成為領先的編程模型。

  • 指令遵循:在 Scale 的 MultiChallenge 基準測試(衡量指令遵循能力的指標)中,GPT-4.1 得分為 38.3%,比 GPT-4o 提升了 10.5%。

  • 長上下文:在多模態長上下文理解基準測試 Video-MME 中,GPT-4.1 創下了新的最高紀錄 —— 在長篇無字幕測試中得分為 72.0%,比 GPT-4o 提升了 6.7%。

Founder Park 正在搭建開發者社群,邀請積極嘗試、測試新模型、新技術的開發者、創業者們加入,請掃碼詳細填寫你的產品/項目信息,通過審核后工作人員會拉你入群~

進群之后,你有機會得到:

  • 高濃度的主流模型(如 DeepSeek 等)開發交流;

  • 資源對接,與 API、云廠商、模型廠商直接交流反饋的機會;

  • 好用、有趣的產品/案例,Founder Park 會主動做宣傳。

01性能全面超越 GPT-4o

GPT-4.1 模型系列以更低的成本提供了卓越的性能。這些模型在延遲曲線的每個點上都實現了性能的提升。


GPT-4.1 mini 在小型模型性能上實現了顯著飛躍,甚至在多項基準測試中超越了 GPT-4o。該模型在智能評估方面與 GPT-4o 旗鼓相當甚至超越,同時將延遲降低了近一半,成本降低了 83%。

對于要求低延遲的任務,GPT-4.1 nano 是 OpenAI 目前速度最快、成本最低的模型。該模型擁有 100 萬 token 上下文窗口,在小規模下仍能提供卓越的性能,在 MMLU 測試中得分達 80.1%、在 GPQA 測試中得分達 50.3%、在 Aider 多語言編碼測試中得分達 9.8%,甚至高于 GPT-4o mini。該模型是分類或自動補全等任務的理想選擇。

在指令遵循可靠性和長上下文理解方面的改進,也使 GPT-4.1 模型在驅動智能體(即能夠代表用戶獨立完成任務的系統)方面更加高效。結合 Responses API 等原語,開發者現在可以構建在實際軟件工程中更有用、更可靠的智能體,從大型文檔中提取洞見,以最少的手動操作解決客戶請求,以及執行其他復雜任務。

同時,通過提升推理系統的效率,OpenAI 得以降低 GPT-4.1 系列的價格。GPT-4.1 的中等規模查詢成本比 GPT-4o 低 26%,而 GPT-4.1 nano 是 OpenAI 迄今為止最便宜、速度最快的模型。

對于重復傳遞相同上下文的查詢,OpenAI 將新系列模型的即時緩存折扣從之前的 50% 提升至 75%。此外,除了標準的每 token 成本外,OpenAI 還提供長上下文請求,并且無需額外付費。


OpenAI CEO 山姆?奧特曼表示,GPT-4.1 不僅基準測試成績優異,并且專注真實世界的實用性,應該會令開發者開心的。


看起來,OpenAI 實現了自家模型能力上的「4.10﹥4.5」。


02編程能力出色

GPT-4.1 在各種編碼任務上都顯著優于 GPT-4o,包括智能體解決編碼任務、前端編程、減少無關編輯、可靠遵循 diff 格式、確保工具使用一致性等任務。

在衡量真實世界軟件工程技能的 SWE-bench Verified 測試中,GPT-4.1 完成了 54.6% 的任務,而 GPT-4o(2024-11-20)完成了 33.2%。這反映了該模型在探索代碼庫、完成任務以及生成可運行和通過測試的代碼方面的能力提升。


對于需要編輯大型文件的 API 開發者來說,GPT-4.1 在處理各種格式的代碼 diff 時更可靠。在 Aider 的多語言差異基準測試中,GPT-4.1 的得分是 GPT-4o 的兩倍多,甚至比 GPT-4.5 高出 8%。這項評估既衡量了跨多種編程語言的編碼能力,也衡量了模型在整體和 diff 格式下生成更改的能力。

OpenAI 專門訓練了 GPT-4.1,使其能夠更可靠地遵循 diff 格式,這使得開發者只需輸出更改的行,而無需重寫整個文件,節省成本和延遲。同時,對于喜歡重寫整個文件的開發者,OpenAI 將 GPT-4.1 的輸出 token 限制增加到 32,768 個 token(高于 GPT-4o 的 16,384 個 token)。OpenAI 還建議使用預測輸出來減少完整文件重寫的延遲。


GPT-4.1 在前端編程方面也較 GPT-4o 有了顯著提升,能夠創建功能更強大、更美觀的 Web 應用。在 head-to-head 對比中,付費人工評分員 80% 的評分結果顯示,GPT-4.1 的網站比 GPT-4o 的網站更受歡迎。


除了上述基準測試之外,GPT-4.1 在遵循格式方面表現更佳,可靠性更高,并且減少了無關編輯的頻率。在 OpenAI 內部評估中,代碼中的無關編輯從 GPT-4o 的 9% 下降到了 GPT-4.1 的 2%。

03指令遵循

GPT-4.1 能夠更可靠地遵循指令,并在各種指令遵循評估中實現了顯著的改進。OpenAI 開發了一個內部指令遵循評估系統,用于跟蹤模型在多個維度和幾個關鍵指令執行類別中的表現,包括:

  • 格式遵循。提供指令,指定模型響應的自定義格式,例如 XML、YAML、Markdown 等。

  • 負面指令。指定模型應避免的行為,例如:「不要要求用戶聯系支持人員」。

  • 有序指令。提供一組模型必須按給定順序遵循的指令,例如:「首先詢問用戶的姓名,然后詢問他們的電子郵件地址」。

  • 內容要求。輸出包含特定信息的內容,例如:「編寫營養計劃時,務必包含蛋白質含量」。

  • 排序。以特定方式對輸出進行排序,例如:「按人口數量對響應進行排序」。

  • 過度自信。指示模型在請求的信息不可用或請求不屬于給定類別時回答「我不知道」或類似的內容,例如:「如果您不知道答案,請提供支持聯系電子郵件地址」。

這些類別是根據開發者的反饋得出的,表明了哪些指令遵循對他們來說最相關且最重要。在每個類別中,OpenAI 將其分為簡單、中等和困難提示。GPT-4.1 在困難提示方面的表現尤其優于 GPT-4o。


多輪指令遵循對許多開發者來說至關重要。對于模型來說,在對話中保持連貫性并跟蹤用戶之前輸入的內容至關重要。GPT-4.1 能夠更好地從對話中的過往消息中識別信息,從而實現了更自然的對話。Scale 的 MultiChallenge基準測試是衡量這一能力的有效指標,GPT-4.1 的表現比 GPT-4o 提高了 10.5%。


GPT-4.1 在 IFEval 上也得到了 87.4%,而 GPT-4o 的得分為 81.0%。IFEval 使用帶有可驗證指令的提示,例如指定內容長度或避免使用某些術語或格式。


更佳的指令遵循能力使現有應用程序更加可靠,并支持此前受可靠性低下限制的新應用程序。早期測試人員指出,GPT-4.1 可以更加直觀,因此 OpenAI 建議在提示中更加明確和具體。

04長上下文

GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano最多可處理 100 萬個上下文 token,而之前的 GPT-4o 模型最多可處理 12.8 萬個。100 萬個 token 相當于 8 個完整的 React 代碼庫,因此長上下文非常適合處理大型代碼庫或大量長文檔。

GPT-4.1 能夠可靠地處理 100 萬 token 上下文長度的信息,并在注意相關文本和忽略長短上下文干擾項方面比 GPT-4o 更加可靠。長上下文理解是法律、編程、客戶支持以及許多其他領域應用的關鍵能力。


OpenAI 演示了 GPT-4.1 檢索位于上下文窗口內各個點的隱藏小信息(needle)的能力。GPT-4.1 能夠持續準確地檢索所有位置和所有上下文長度的 needle,最大檢索量可達 100 萬個 token。無論這些 token 在輸入中的位置如何,GPT-4.1 都能有效地提取與當前任務相關的細節。

然而,現實世界中很少有任務像檢索一個顯而易見的「needle 」答案那樣簡單。OpenAI 發現用戶經常需要模型檢索和理解多條信息,并理解這些信息之間的相互關聯。為了展示這一能力,OpenAI 開源了一項新的評估:OpenAI-MRCR(多輪共指)。

OpenAI-MRCR 測試模型識別并消除上下文中隱藏的多個「needle 」的能力。評估包括用戶和助手之間的多輪合成對話,用戶要求助手撰寫一篇關于某個主題的文章,例如「寫一首關于貘的詩」或「寫一篇關于巖石的博客文章」,接著會在整個上下文中插入兩個、四個或八個相同的請求,最后模型必須檢索與特定實例對應的響應(例如「給我第三首關于貘的詩」)。

挑戰在于這些請求與上下文其余部分的相似性,模型很容易被細微的差異誤導,例如關于貘的短篇故事而不是詩歌,或者關于青蛙的詩歌而不是貘。OpenAI 發現,GPT-4.1 在上下文長度高達 128K 個 token 時的表現優于 GPT-4o,并且即使長度高達 100 萬個 token 時也能保持強勁的性能。


OpenAI 還發布了 Graphwalks?,這是一個用于評估多跳長上下文推理的數據集。許多開發者在長上下文用例中需要在上下文中進行多次邏輯跳躍,例如在編寫代碼時在多個文件之間跳轉,或在回答復雜的法律問題時交叉引用文檔。

理論上,模型(甚至人類)可以通過一遍遍閱讀提示詞來解決 OpenAI-MRCR 問題,但 Graphwalks 的設計要求在上下文中的多個位置進行推理,并且無法按順序求解。

Graphwalks 會用由十六進制哈希值組成的有向圖填充上下文窗口,然后要求模型從圖中的隨機節點開始執行廣度優先搜索 (BFS)。然后要求它返回一定深度的所有節點。結果顯示,GPT-4.1 在此基準測試中達到了 61.7% 的準確率,與 o1 的性能相當,并輕松擊敗了 GPT-4o。


05視覺

GPT-4.1 系列模型在圖像理解方面同樣非常強大,尤其是 GPT-4.1 mini 實現了重大的飛躍,在圖像基準測試中經常擊敗 GPT-4o。

以下為 MMMU(回答包含圖表、圖解、地圖等的問題)、MathVista?(解決視覺數學問題)、CharXiv-Reasoning(回答科學論文中關于圖表的問題)等基準上的表現對比。




長上下文性能對于多模態用例(例如處理長視頻)也至關重要。在 Video-MME(長視頻無字幕)中,模型基于 30-60 分鐘長的無字幕視頻回答多項選擇題。GPT-4.1 達到了最佳性能,得分為 72.0%,高于 GPT-4o 的 65.3%。


更多測試指標請參考 OpenAI 原博客。

地址:https://openai.com/index/gpt-4-1/


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
事發突然,比亞迪大量車型突然開始大降價,降幅高達34%

事發突然,比亞迪大量車型突然開始大降價,降幅高達34%

流蘇晚晴
2025-05-29 18:54:41
1959年,彭德懷搬離中南海,毛主席得知后吩咐楊尚昆:你去辦件事

1959年,彭德懷搬離中南海,毛主席得知后吩咐楊尚昆:你去辦件事

簡史檔案館
2023-12-04 10:51:46
微軟把蘇州員工騙到西雅圖,不到一年瘋狂裁員,美國法:沒有補償

微軟把蘇州員工騙到西雅圖,不到一年瘋狂裁員,美國法:沒有補償

社會醬
2025-05-29 17:05:42
曾因問題疫苗引咎辭職,畢井泉被查,系今年打掉第5個正部

曾因問題疫苗引咎辭職,畢井泉被查,系今年打掉第5個正部

南方都市報
2025-05-29 21:24:24
美歐談崩,特朗普給了歐盟兩條路:要么對中國加稅,要么被美加稅

美歐談崩,特朗普給了歐盟兩條路:要么對中國加稅,要么被美加稅

袁周院長
2025-05-29 10:16:55
美國終于動手,27萬中國學生,將被陸續遣返,中方警告兩大后果

美國終于動手,27萬中國學生,將被陸續遣返,中方警告兩大后果

阿傖說事
2025-05-29 16:03:16
轟轟烈烈上任,冷冷清清離開!馬斯克128天白宮行,臨別時特朗普無回應

轟轟烈烈上任,冷冷清清離開!馬斯克128天白宮行,臨別時特朗普無回應

紅星新聞
2025-05-29 18:03:21
央視放大招,首次向全世界展示,最先進光刻機!

央視放大招,首次向全世界展示,最先進光刻機!

阿傖說事
2025-05-29 07:37:36
湖北應城通報一起故意傷害案件:2人死亡,55歲嫌疑人已被控制

湖北應城通報一起故意傷害案件:2人死亡,55歲嫌疑人已被控制

紅星新聞
2025-05-29 12:51:06
19歲女生哭泣照被“高潮針”廣告盜用最新進展:相關涉黃網站永久關閉

19歲女生哭泣照被“高潮針”廣告盜用最新進展:相關涉黃網站永久關閉

極目新聞
2025-05-29 20:48:31
深圳男子買彩票中2億,6天后去兌獎,卻被工作人員趕了出去

深圳男子買彩票中2億,6天后去兌獎,卻被工作人員趕了出去

今天說故事
2025-05-28 14:49:59
86票贊成,美國得州通過新法案,不許中國等外國人在美買房買地

86票贊成,美國得州通過新法案,不許中國等外國人在美買房買地

南權先生
2025-05-29 13:47:51
公職人員下班后聚餐算違紀嗎?中紀委給出明確標準

公職人員下班后聚餐算違紀嗎?中紀委給出明確標準

戶外小阿隋
2025-05-29 10:16:20
上市即巔峰,連續43個跌停,從106跌到0.06,里面散戶全線被套!

上市即巔峰,連續43個跌停,從106跌到0.06,里面散戶全線被套!

財經市界
2025-05-29 08:54:16
《色即是空》女主河智苑被偶遇,身材好到爆人又漂亮,46歲如少女

《色即是空》女主河智苑被偶遇,身材好到爆人又漂亮,46歲如少女

叨嘮
2025-05-28 19:42:24
總統拒絕下臺,28萬菲軍作出選擇,馬科斯用7個字判老杜“死刑”

總統拒絕下臺,28萬菲軍作出選擇,馬科斯用7個字判老杜“死刑”

聞識
2025-05-29 15:58:59
兩位正部級,黃明、王榮有新身份,曾長期在江蘇工作

兩位正部級,黃明、王榮有新身份,曾長期在江蘇工作

揚子晚報
2025-05-29 17:32:25
腦梗去世的人越來越多?醫生勸告:天熱寧可打麻將,也別做4件事

腦梗去世的人越來越多?醫生勸告:天熱寧可打麻將,也別做4件事

華庭講美食
2025-05-29 08:52:24
國務院任免21名干部!剛卸任副省長的她進京履新,他“空降”江蘇后被免去公安部職務

國務院任免21名干部!剛卸任副省長的她進京履新,他“空降”江蘇后被免去公安部職務

上觀新聞
2025-05-29 18:06:09
24歲外甥強奸31歲舅媽,其父親索賠8千巨款賠償說:他還是個處男

24歲外甥強奸31歲舅媽,其父親索賠8千巨款賠償說:他還是個處男

胖胖侃咖
2025-05-28 08:00:18
2025-05-29 22:07:00
FounderPark incentive-icons
FounderPark
關注AI創業,專注和創業者聊真問題
762文章數 133關注度
往期回顧 全部

科技要聞

英偉達財報炸裂 黃仁勛卻嘆退出中國太可惜

頭條要聞

疑因2年前的一句"阿姨" 男子遭電話短信騷擾不敢回家

頭條要聞

疑因2年前的一句"阿姨" 男子遭電話短信騷擾不敢回家

體育要聞

納達爾,法網,漫長告別

娛樂要聞

辛柏青沉默8天后,這些事還是發生了

財經要聞

若對等關稅叫停,特朗普還能怎么加關稅

汽車要聞

換上高爾夫GTI同款2.0T動力 新凌渡L GTS實車曝光

態度原創

數碼
教育
時尚
親子
手機

數碼要聞

vivo TWS Air3 半入耳無線耳機發布,售價 99 元

教育要聞

剛剛發布:南京市開始啟動!

鞋子專場|| 舒服到能暴走的鞋,我幫你們找到了!

親子要聞

孩子脾胃虛,眼底發青,這碗水煮給孩子喝

手機要聞

全球首款雙2億像素手機被曝光!OPPO要狂卷旗艦機?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 化州市| 柳河县| 达拉特旗| 宜兰市| 日喀则市| 昭平县| 宜阳县| 贵港市| 綦江县| 屏南县| 巫山县| 乌兰浩特市| 桐梓县| 米泉市| 买车| 万荣县| 平度市| 宜黄县| 平原县| 长乐市| 宿州市| 莱西市| 和平区| 罗城| 庆城县| 临沧市| 郁南县| 鄂伦春自治旗| 毕节市| 德令哈市| 上饶县| 丰镇市| 漳浦县| 镇江市| 丰宁| 新沂市| 定襄县| 永顺县| 宁乡县| 集安市| 自贡市|