OpenAI 正式發布了 GPT-4.1,這是一個以“ 強大編程能力 ”為核心的新模型系列,意在再次突破人工智能的邊界。新發布的包括主力模型 GPT-4.1,以及更小更快的 GPT-4.1 mini 和 GPT-4.1 nano。
GPT-4.1 模型系列以更低的成本提供了卓越的性能。這些模型在延遲曲線的每個點上都實現了性能的提升。
高速的GPT-4.1 mini 在小模型性能上實現了顯著飛躍,甚至在多項基準測試中超越了 GPT-4o。它在智能評估方面達到甚至超越了 GPT-4o,同時將延遲降低了近一半,成本降低了 83%。
對于需要低延遲的任務,GPT-4.1 nano 是目前速度最快、成本最低的模型。它擁有 100 萬個 token 上下文窗口,在小規模下實現了卓越的性能,甚至高于 GPT-4o mini。它是分類或自動完成等任務的理想選擇。
這一系列模型專為開發者而生,并且僅通過 OpenAI API 提供使用,展現了公司希望在競爭日益激烈的 AI 戰場中搶占開發者生態主導地位的野心。
三款模型,滿足不同開發需求
不同于面向大眾用戶、為 ChatGPT 提供支持的 GPT-4o,GPT-4.1 是專門為程序員和企業用戶打造的。主力版本 GPT-4.1 擁有驚人的 100 萬 token 上下文窗口,大致相當于 75 萬字的容量,可以一口氣“讀完”一本《戰爭與和平》,非常適合處理大體量的數據任務,比如代碼生成、法律分析、學術研究等。
Mini 和 Nano 版本則主打“快”和“省”,犧牲部分精度以換取更低延遲和更低成本,適合對響應速度和預算敏感的項目。
OpenAI 也推出了分層定價策略。完整 GPT-4.1 每百萬輸入 token 收費 2 美元,輸出 8 美元;Mini 模型的價格降低至 0.40 美元和 1.60 美元;而 Nano 版本則僅需 0.10 美元和 0.40 美元,是目前 OpenAI 最快、最便宜的模型。
這種“價格戰”姿態明顯針對 Google 的 Gemini 2.5 Pro 和 Anthropic 的 Claude 3.7 Sonnet,試圖通過低價爭奪 AI 云服務市場。
編程能力是 GPT-4.1 的主打賣點
GPT-4.1 最顯著的優勢在于其出色的編程能力。
OpenAI 表示,該模型在前端開發、格式對齊和工具調用方面表現突出。在 SWE-bench Verified 這一軟件工程任務的行業評測中,GPT-4.1 的得分在 52% (前端編碼)到 54.6% 之間,雖然比不上 Google Gemini 2.5 Pro(63.8%)和 Claude 3.7 Sonnet(62.3%),但依然具備實用價值。
OpenAI 表示,這個系列是根據真實開發者的反饋進行優化的,可以勝任從修復 bug 到生成 UI 設計等多種開發任務。
“這些模型是我們打造智能編程助手愿景的重要一步,”OpenAI 首席財務官 Sarah Friar 在倫敦一場科技峰會上表示。她強調,未來的模型將有能力完成從零開發整個應用的全流程,包括測試和文檔撰寫。
目前,像 Windsurf 、Cursor這類開發平臺,已開始使用 GPT-4.1 來提升代碼生成效率。
性能全面超越 GPT-4o
除了編碼能力以外,GPT-4.1 在多個關鍵領域展現了顯著的性能提升,尤其是在以下方面:
指令遵循:模型對復雜指令的理解能力大幅提高,能夠更精準地捕捉用戶意圖,減少歧義。
長文本處理:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 最多可以處理 100 萬個上下文Token,而之前的 GPT-4o 型號最多可以處理 128,000 個。得益于超大上下文窗口,GPT-4.1 在長篇寫作、翻譯和總結任務中表現出更高的連貫性和準確性。
知識廣度與深度:模型在 STEM(科學、技術、工程、數學)、人文學科和專業領域(如法律、醫學)的表現均有提升。
在基準測試中,GPT-4.1 的綜合性能超越了 GPT-4o 和 GPT-4o mini,尤其在 MMLU(大規模多任務語言理解) 和 HumanEval(代碼生成) 等指標上取得了更高的分數。
多模態能力再升級
GPT-4.1 和前代 GPT-4o 一樣,是“多模態”模型,既能理解文本,也能處理圖像,部分情況下還支持視頻。
OpenAI 的測試數據顯示,該模型在 Video-MME 基準測試中對無字幕視頻的理解準確率達 72%,為目前業界領先。這意味著它在實時視頻分析和自動化內容審核方面有潛在應用價值。
不過,隨著輸入信息的增多,模型表現也會下降。從 OpenAI 的測試結果來看,模型在 8000 token 時準確率可達 84%,但當輸入擴展到 100 萬 token 時,準確率會降至 50%,說明即使是最強模型在處理超大規模信息時也仍有限制。
GPT-4.1 也繼承了 GPT-4o 的多語言能力,對 50 種語言支持更強,且知識更新至 2024 年 6 月,適應當前資訊環境。不過 OpenAI 也強調,這一模型并不屬于公司 o1 或 o3 系列的“推理型”模型,后者擅長逐步解決數學和科學問題。GPT-4.1 更注重上下文理解與直覺表達,目標是“聊得自然”,而不是“算得精準”。
競爭對手環伺,OpenAI 如何突圍?
在 GPT-4.1 發布之際,AI 領域競爭已達白熱化。Google 的 Gemini 2.5 Pro 擁有同樣的 100 萬 token 上下文窗口,并在編程性能上領先;Anthropic 的 Claude 3.7 Sonnet 擅長理解復雜指令。
而中國初創企業 DeepSeek 推出的 V3 模型性能相近,但價格更低,給 OpenAI 在新興市場的定價帶來壓力。社交平臺 X 上的開發者們一片熱議,有人將百萬上下文窗口稱為“革命性升級”,但也有人吐槽 OpenAI 的命名方式(如 o4-mini 和 4.1-mini)太容易混淆。
OpenAI 自身也面臨節奏壓力。該公司在 2 月預覽的 GPT-4.5 不久后便被棄用,顯示其產品迭代快到“追不上自己”。據消息人士透露,OpenAI 部分模型發布被推遲,是因為遭遇算力瓶頸,這也是 AI 擴展過程中普遍的問題。
此外,從通用聊天模型轉向以“代碼”為核心的專業工具,也標志著 OpenAI 的戰略轉型。正如 CEO Sam Altman 所說,他們更關注“高價值場景”,而不是僅僅做聊天機器人。
未來尚未明朗
GPT-4.1 的發布依舊展現了 OpenAI 對行業趨勢的引領能力。公司正押注于這樣一種未來:AI 將不只是出現在表面炫目的 App 中,而是深深嵌入企業的底層流程中,成為“看不見的基礎設施”。
至于 GPT-4.1 能否真的改變軟件開發的游戲規則,還要看開發者們如何在真實世界中用好它。可以肯定的是,這一次 OpenAI 又在 AI 競賽中打出了重磅一擊,行業也在屏息以待。
? AI范兒
要進“交流群”,請關注公眾號獲取進群方式
投稿、需求合作或報道請添加公眾號獲取聯系方式
GPT-4o 再更新,性能超越 4.5,成本卻只有 1/30
GPT-4o 已成為文生圖王者!
OpenAI 推出新功能,ChatGPT 將記住你每一次對話
點這里關注我,記得標星哦~
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.