網易首頁 > 網易號 > 正文申請入駐

OpenAI 正式發布 GPT-4.1 系列：百萬 Token 長文本、更強編碼、價格更優！

2025-04-15 07:09:12　來源: AI范兒

上海舉報

分享至

OpenAI 正式發布了 GPT-4.1，這是一個以“ 強大編程能力 ”為核心的新模型系列，意在再次突破人工智能的邊界。新發布的包括主力模型 GPT-4.1，以及更小更快的 GPT-4.1 mini 和 GPT-4.1 nano。

GPT-4.1 模型系列以更低的成本提供了卓越的性能。這些模型在延遲曲線的每個點上都實現了性能的提升。

高速的GPT-4.1 mini 在小模型性能上實現了顯著飛躍，甚至在多項基準測試中超越了 GPT-4o。它在智能評估方面達到甚至超越了 GPT-4o，同時將延遲降低了近一半，成本降低了 83%。

對于需要低延遲的任務，GPT-4.1 nano 是目前速度最快、成本最低的模型。它擁有 100 萬個 token 上下文窗口，在小規模下實現了卓越的性能，甚至高于 GPT-4o mini。它是分類或自動完成等任務的理想選擇。

這一系列模型專為開發者而生，并且僅通過 OpenAI API 提供使用，展現了公司希望在競爭日益激烈的 AI 戰場中搶占開發者生態主導地位的野心。

三款模型，滿足不同開發需求

不同于面向大眾用戶、為 ChatGPT 提供支持的 GPT-4o，GPT-4.1 是專門為程序員和企業用戶打造的。主力版本 GPT-4.1 擁有驚人的 100 萬 token 上下文窗口，大致相當于 75 萬字的容量，可以一口氣“讀完”一本《戰爭與和平》，非常適合處理大體量的數據任務，比如代碼生成、法律分析、學術研究等。

Mini 和 Nano 版本則主打“快”和“省”，犧牲部分精度以換取更低延遲和更低成本，適合對響應速度和預算敏感的項目。

OpenAI 也推出了分層定價策略。完整 GPT-4.1 每百萬輸入 token 收費 2 美元，輸出 8 美元；Mini 模型的價格降低至 0.40 美元和 1.60 美元；而 Nano 版本則僅需 0.10 美元和 0.40 美元，是目前 OpenAI 最快、最便宜的模型。

這種“價格戰”姿態明顯針對 Google 的 Gemini 2.5 Pro 和 Anthropic 的 Claude 3.7 Sonnet，試圖通過低價爭奪 AI 云服務市場。

編程能力是 GPT-4.1 的主打賣點

GPT-4.1 最顯著的優勢在于其出色的編程能力。

OpenAI 表示，該模型在前端開發、格式對齊和工具調用方面表現突出。在 SWE-bench Verified 這一軟件工程任務的行業評測中，GPT-4.1 的得分在 52% （前端編碼）到 54.6% 之間，雖然比不上 Google Gemini 2.5 Pro（63.8%）和 Claude 3.7 Sonnet（62.3%），但依然具備實用價值。

OpenAI 表示，這個系列是根據真實開發者的反饋進行優化的，可以勝任從修復 bug 到生成 UI 設計等多種開發任務。

“這些模型是我們打造智能編程助手愿景的重要一步，”OpenAI 首席財務官 Sarah Friar 在倫敦一場科技峰會上表示。她強調，未來的模型將有能力完成從零開發整個應用的全流程，包括測試和文檔撰寫。

目前，像 Windsurf 、Cursor這類開發平臺，已開始使用 GPT-4.1 來提升代碼生成效率。

性能全面超越 GPT-4o

除了編碼能力以外，GPT-4.1 在多個關鍵領域展現了顯著的性能提升，尤其是在以下方面：

指令遵循：模型對復雜指令的理解能力大幅提高，能夠更精準地捕捉用戶意圖，減少歧義。
長文本處理：GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 最多可以處理 100 萬個上下文Token，而之前的 GPT-4o 型號最多可以處理 128,000 個。得益于超大上下文窗口，GPT-4.1 在長篇寫作、翻譯和總結任務中表現出更高的連貫性和準確性。
知識廣度與深度：模型在 STEM（科學、技術、工程、數學）、人文學科和專業領域（如法律、醫學）的表現均有提升。

在基準測試中，GPT-4.1 的綜合性能超越了 GPT-4o 和 GPT-4o mini，尤其在 MMLU（大規模多任務語言理解）和 HumanEval（代碼生成）等指標上取得了更高的分數。

多模態能力再升級

GPT-4.1 和前代 GPT-4o 一樣，是“多模態”模型，既能理解文本，也能處理圖像，部分情況下還支持視頻。

OpenAI 的測試數據顯示，該模型在 Video-MME 基準測試中對無字幕視頻的理解準確率達 72%，為目前業界領先。這意味著它在實時視頻分析和自動化內容審核方面有潛在應用價值。

不過，隨著輸入信息的增多，模型表現也會下降。從 OpenAI 的測試結果來看，模型在 8000 token 時準確率可達 84%，但當輸入擴展到 100 萬 token 時，準確率會降至 50%，說明即使是最強模型在處理超大規模信息時也仍有限制。

GPT-4.1 也繼承了 GPT-4o 的多語言能力，對 50 種語言支持更強，且知識更新至 2024 年 6 月，適應當前資訊環境。不過 OpenAI 也強調，這一模型并不屬于公司 o1 或 o3 系列的“推理型”模型，后者擅長逐步解決數學和科學問題。GPT-4.1 更注重上下文理解與直覺表達，目標是“聊得自然”，而不是“算得精準”。

競爭對手環伺，OpenAI 如何突圍？

在 GPT-4.1 發布之際，AI 領域競爭已達白熱化。Google 的 Gemini 2.5 Pro 擁有同樣的 100 萬 token 上下文窗口，并在編程性能上領先；Anthropic 的 Claude 3.7 Sonnet 擅長理解復雜指令。

而中國初創企業 DeepSeek 推出的 V3 模型性能相近，但價格更低，給 OpenAI 在新興市場的定價帶來壓力。社交平臺 X 上的開發者們一片熱議，有人將百萬上下文窗口稱為“革命性升級”，但也有人吐槽 OpenAI 的命名方式（如 o4-mini 和 4.1-mini）太容易混淆。

OpenAI 自身也面臨節奏壓力。該公司在 2 月預覽的 GPT-4.5 不久后便被棄用，顯示其產品迭代快到“追不上自己”。據消息人士透露，OpenAI 部分模型發布被推遲，是因為遭遇算力瓶頸，這也是 AI 擴展過程中普遍的問題。

此外，從通用聊天模型轉向以“代碼”為核心的專業工具，也標志著 OpenAI 的戰略轉型。正如 CEO Sam Altman 所說，他們更關注“高價值場景”，而不是僅僅做聊天機器人。

未來尚未明朗

GPT-4.1 的發布依舊展現了 OpenAI 對行業趨勢的引領能力。公司正押注于這樣一種未來：AI 將不只是出現在表面炫目的 App 中，而是深深嵌入企業的底層流程中，成為“看不見的基礎設施”。

至于 GPT-4.1 能否真的改變軟件開發的游戲規則，還要看開發者們如何在真實世界中用好它。可以肯定的是，這一次 OpenAI 又在 AI 競賽中打出了重磅一擊，行業也在屏息以待。

? AI范兒

要進“交流群”，請關注公眾號獲取進群方式

投稿、需求合作或報道請添加公眾號獲取聯系方式

GPT-4o 再更新，性能超越 4.5，成本卻只有 1/30

GPT-4o 已成為文生圖王者！

OpenAI 推出新功能，ChatGPT 將記住你每一次對話

點這里關注我，記得標星哦～

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.