網易首頁 > 網易號 > 正文申請入駐

OpenAI發布GPT-4.1：百萬token上下文，全方位碾壓4o并且價格更低，GPT-4.5三個月后下線

2025-04-15 10:58:53　來源: FounderPark

北京舉報

分享至

文章轉載自「機器之心」

今天凌晨，OpenAI 發布了新模型 GPT-4.1。

該系列包含了三個模型，分別是 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano，它們僅通過 API 調用，并已向所有開發者開放。

OpenAI 表示，這三個模型的性能全面超越了 GPT-4o 和 GPT-4o mini，并在編程和指令遵循方面均有顯著提升。它們還擁有更大的上下文窗口 —— 支持高達 100 萬個上下文 token，并且能夠通過改進的長上下文理解更好地利用這些上下文。知識截止日期已更新至 2024 年 6 月。

隨著該模型在很多關鍵功能上提供了類似或更強的性能，并且成本和延遲更低，因此 OpenAI 將開始在 API 中棄用 GPT-4.5 預覽版。棄用時間為三個月后（2025 年 7 月 14 日），從而為開發者提供時間過渡。

總的來說，GPT-4.1 在以下行業標準指標上表現出色：

編程：GPT-4.1 在 SWE-bench Verified 測試中得分為 54.6%，比 GPT-4o 提升 21.4%，比 GPT-4.5 提升 26.6%，使其成為領先的編程模型。
指令遵循：在 Scale 的 MultiChallenge 基準測試（衡量指令遵循能力的指標）中，GPT-4.1 得分為 38.3%，比 GPT-4o 提升了 10.5%。
長上下文：在多模態長上下文理解基準測試 Video-MME 中，GPT-4.1 創下了新的最高紀錄 —— 在長篇無字幕測試中得分為 72.0%，比 GPT-4o 提升了 6.7%。

Founder Park 正在搭建開發者社群，邀請積極嘗試、測試新模型、新技術的開發者、創業者們加入，請掃碼詳細填寫你的產品/項目信息，通過審核后工作人員會拉你入群～

進群之后，你有機會得到：

高濃度的主流模型（如 DeepSeek 等）開發交流；
資源對接，與 API、云廠商、模型廠商直接交流反饋的機會；
好用、有趣的產品/案例，Founder Park 會主動做宣傳。

01性能全面超越 GPT-4o

GPT-4.1 模型系列以更低的成本提供了卓越的性能。這些模型在延遲曲線的每個點上都實現了性能的提升。

GPT-4.1 mini 在小型模型性能上實現了顯著飛躍，甚至在多項基準測試中超越了 GPT-4o。該模型在智能評估方面與 GPT-4o 旗鼓相當甚至超越，同時將延遲降低了近一半，成本降低了 83%。

對于要求低延遲的任務，GPT-4.1 nano 是 OpenAI 目前速度最快、成本最低的模型。該模型擁有 100 萬 token 上下文窗口，在小規模下仍能提供卓越的性能，在 MMLU 測試中得分達 80.1%、在 GPQA 測試中得分達 50.3%、在 Aider 多語言編碼測試中得分達 9.8%，甚至高于 GPT-4o mini。該模型是分類或自動補全等任務的理想選擇。

在指令遵循可靠性和長上下文理解方面的改進，也使 GPT-4.1 模型在驅動智能體（即能夠代表用戶獨立完成任務的系統）方面更加高效。結合 Responses API 等原語，開發者現在可以構建在實際軟件工程中更有用、更可靠的智能體，從大型文檔中提取洞見，以最少的手動操作解決客戶請求，以及執行其他復雜任務。

同時，通過提升推理系統的效率，OpenAI 得以降低 GPT-4.1 系列的價格。GPT-4.1 的中等規模查詢成本比 GPT-4o 低 26%，而 GPT-4.1 nano 是 OpenAI 迄今為止最便宜、速度最快的模型。

對于重復傳遞相同上下文的查詢，OpenAI 將新系列模型的即時緩存折扣從之前的 50% 提升至 75%。此外，除了標準的每 token 成本外，OpenAI 還提供長上下文請求，并且無需額外付費。

OpenAI CEO 山姆?奧特曼表示，GPT-4.1 不僅基準測試成績優異，并且專注真實世界的實用性，應該會令開發者開心的。

看起來，OpenAI 實現了自家模型能力上的「4.10﹥4.5」。

02編程能力出色

GPT-4.1 在各種編碼任務上都顯著優于 GPT-4o，包括智能體解決編碼任務、前端編程、減少無關編輯、可靠遵循 diff 格式、確保工具使用一致性等任務。

在衡量真實世界軟件工程技能的 SWE-bench Verified 測試中，GPT-4.1 完成了 54.6% 的任務，而 GPT-4o（2024-11-20）完成了 33.2%。這反映了該模型在探索代碼庫、完成任務以及生成可運行和通過測試的代碼方面的能力提升。

對于需要編輯大型文件的 API 開發者來說，GPT-4.1 在處理各種格式的代碼 diff 時更可靠。在 Aider 的多語言差異基準測試中，GPT-4.1 的得分是 GPT-4o 的兩倍多，甚至比 GPT-4.5 高出 8%。這項評估既衡量了跨多種編程語言的編碼能力，也衡量了模型在整體和 diff 格式下生成更改的能力。

OpenAI 專門訓練了 GPT-4.1，使其能夠更可靠地遵循 diff 格式，這使得開發者只需輸出更改的行，而無需重寫整個文件，節省成本和延遲。同時，對于喜歡重寫整個文件的開發者，OpenAI 將 GPT-4.1 的輸出 token 限制增加到 32,768 個 token（高于 GPT-4o 的 16,384 個 token）。OpenAI 還建議使用預測輸出來減少完整文件重寫的延遲。

GPT-4.1 在前端編程方面也較 GPT-4o 有了顯著提升，能夠創建功能更強大、更美觀的 Web 應用。在 head-to-head 對比中，付費人工評分員 80% 的評分結果顯示，GPT-4.1 的網站比 GPT-4o 的網站更受歡迎。

除了上述基準測試之外，GPT-4.1 在遵循格式方面表現更佳，可靠性更高，并且減少了無關編輯的頻率。在 OpenAI 內部評估中，代碼中的無關編輯從 GPT-4o 的 9% 下降到了 GPT-4.1 的 2%。

03指令遵循

GPT-4.1 能夠更可靠地遵循指令，并在各種指令遵循評估中實現了顯著的改進。OpenAI 開發了一個內部指令遵循評估系統，用于跟蹤模型在多個維度和幾個關鍵指令執行類別中的表現，包括：

格式遵循。提供指令，指定模型響應的自定義格式，例如 XML、YAML、Markdown 等。
負面指令。指定模型應避免的行為，例如：「不要要求用戶聯系支持人員」。
有序指令。提供一組模型必須按給定順序遵循的指令，例如：「首先詢問用戶的姓名，然后詢問他們的電子郵件地址」。
內容要求。輸出包含特定信息的內容，例如：「編寫營養計劃時，務必包含蛋白質含量」。
排序。以特定方式對輸出進行排序，例如：「按人口數量對響應進行排序」。
過度自信。指示模型在請求的信息不可用或請求不屬于給定類別時回答「我不知道」或類似的內容，例如：「如果您不知道答案，請提供支持聯系電子郵件地址」。

這些類別是根據開發者的反饋得出的，表明了哪些指令遵循對他們來說最相關且最重要。在每個類別中，OpenAI 將其分為簡單、中等和困難提示。GPT-4.1 在困難提示方面的表現尤其優于 GPT-4o。

多輪指令遵循對許多開發者來說至關重要。對于模型來說，在對話中保持連貫性并跟蹤用戶之前輸入的內容至關重要。GPT-4.1 能夠更好地從對話中的過往消息中識別信息，從而實現了更自然的對話。Scale 的 MultiChallenge基準測試是衡量這一能力的有效指標，GPT-4.1 的表現比 GPT-4o 提高了 10.5%。

GPT-4.1 在 IFEval 上也得到了 87.4%，而 GPT-4o 的得分為 81.0%。IFEval 使用帶有可驗證指令的提示，例如指定內容長度或避免使用某些術語或格式。

更佳的指令遵循能力使現有應用程序更加可靠，并支持此前受可靠性低下限制的新應用程序。早期測試人員指出，GPT-4.1 可以更加直觀，因此 OpenAI 建議在提示中更加明確和具體。

04長上下文

GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano最多可處理 100 萬個上下文 token，而之前的 GPT-4o 模型最多可處理 12.8 萬個。100 萬個 token 相當于 8 個完整的 React 代碼庫，因此長上下文非常適合處理大型代碼庫或大量長文檔。

GPT-4.1 能夠可靠地處理 100 萬 token 上下文長度的信息，并在注意相關文本和忽略長短上下文干擾項方面比 GPT-4o 更加可靠。長上下文理解是法律、編程、客戶支持以及許多其他領域應用的關鍵能力。

OpenAI 演示了 GPT-4.1 檢索位于上下文窗口內各個點的隱藏小信息（needle）的能力。GPT-4.1 能夠持續準確地檢索所有位置和所有上下文長度的 needle，最大檢索量可達 100 萬個 token。無論這些 token 在輸入中的位置如何，GPT-4.1 都能有效地提取與當前任務相關的細節。

然而，現實世界中很少有任務像檢索一個顯而易見的「needle 」答案那樣簡單。OpenAI 發現用戶經常需要模型檢索和理解多條信息，并理解這些信息之間的相互關聯。為了展示這一能力，OpenAI 開源了一項新的評估：OpenAI-MRCR（多輪共指）。

OpenAI-MRCR 測試模型識別并消除上下文中隱藏的多個「needle 」的能力。評估包括用戶和助手之間的多輪合成對話，用戶要求助手撰寫一篇關于某個主題的文章，例如「寫一首關于貘的詩」或「寫一篇關于巖石的博客文章」，接著會在整個上下文中插入兩個、四個或八個相同的請求，最后模型必須檢索與特定實例對應的響應（例如「給我第三首關于貘的詩」）。

挑戰在于這些請求與上下文其余部分的相似性，模型很容易被細微的差異誤導，例如關于貘的短篇故事而不是詩歌，或者關于青蛙的詩歌而不是貘。OpenAI 發現，GPT-4.1 在上下文長度高達 128K 個 token 時的表現優于 GPT-4o，并且即使長度高達 100 萬個 token 時也能保持強勁的性能。

OpenAI 還發布了 Graphwalks?，這是一個用于評估多跳長上下文推理的數據集。許多開發者在長上下文用例中需要在上下文中進行多次邏輯跳躍，例如在編寫代碼時在多個文件之間跳轉，或在回答復雜的法律問題時交叉引用文檔。

理論上，模型（甚至人類）可以通過一遍遍閱讀提示詞來解決 OpenAI-MRCR 問題，但 Graphwalks 的設計要求在上下文中的多個位置進行推理，并且無法按順序求解。

Graphwalks 會用由十六進制哈希值組成的有向圖填充上下文窗口，然后要求模型從圖中的隨機節點開始執行廣度優先搜索 (BFS)。然后要求它返回一定深度的所有節點。結果顯示，GPT-4.1 在此基準測試中達到了 61.7% 的準確率，與 o1 的性能相當，并輕松擊敗了 GPT-4o。

05視覺

GPT-4.1 系列模型在圖像理解方面同樣非常強大，尤其是 GPT-4.1 mini 實現了重大的飛躍，在圖像基準測試中經常擊敗 GPT-4o。

以下為 MMMU（回答包含圖表、圖解、地圖等的問題）、MathVista?（解決視覺數學問題）、CharXiv-Reasoning（回答科學論文中關于圖表的問題）等基準上的表現對比。

長上下文性能對于多模態用例（例如處理長視頻）也至關重要。在 Video-MME（長視頻無字幕）中，模型基于 30-60 分鐘長的無字幕視頻回答多項選擇題。GPT-4.1 達到了最佳性能，得分為 72.0%，高于 GPT-4o 的 65.3%。

更多測試指標請參考 OpenAI 原博客。

地址：https://openai.com/index/gpt-4-1/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.