昨晚,OpenAI 推出了名為 GPT-4.1 的新模型,該系列優(yōu)先提升了編碼能力和指令跟隨能力,同時將上下文窗口擴展到了100萬個tokens,大約相當于75萬個單詞。所有這些模型的知識截止日期為2024年6月,能提供更貼合當下的上下文理解。
該系列包括標準的GPT-4.1、GPT-4.1 mini和GPT-4.1 nano,所有版本都可以通過API使用,但無法在ChatGPT中使用。
目前,已經有不少用戶在體驗GPT-4.1的效果了。一位網友在試用后表示,“GPT-4.1可以處理所有其他OpenAI模型無法應對的大篇幅上下文。”還有網友用GPT-4.1模型繪制一只鵜鶘,并將其與Grok 3、LLama 4 和 Gemini 2.5 Pro 的生成結果進行比較,被評Gemini做得更好。 Box AI則分享了用GPT-4.1模型來研讀一份冗長的收益報告文檔、從中提取出數(shù)據(jù)字段的例子,并表示其“能夠大規(guī)模查詢、整合、分析和總結任何數(shù)據(jù)類型”。
此外,GPT 4.1現(xiàn)已接入ChatLLM。在代碼處理方面,它似乎不如Gemini 2.5 Pro和Claude 3.7 Sonnet。
OpenAI 聲稱,在包括SWE-bench在內的編碼基準測試中,完整的GPT-4.1模型的表現(xiàn)優(yōu)于其GPT-4o和GPT-4o mini模型。其中,GPT-4.1 mini和nano更高效、更快速,但也犧牲了一定準確性。GPT-4.1在SWE-bench Verified上的得分介于52%和54.6%之間,不過略低于谷歌和Anthropic在同一基準測試中報告的、分別為Gemini 2.5 Pro(63.8%)和Claude 3.7 Sonnet(62.3%)的分數(shù)。
并且,GPT-4.1在Video-MME的長視頻理解測試中達到了72%的準確率,相比GPT-4o的65.3%有了顯著提升。
OpenAI還宣布,將在7月14日之前從 API 訪問中淘汰GPT-4.5。該公司稱,GPT-4.1能夠以低成本提供“相當或更優(yōu)的性能”。有網友表示,在SimpleQA基準測試中,GPT-4.5 仍比 GPT-4.1 好得多。
也有不少網友調侃OpenAI的命名方式,“難道是擲骰子嗎?4.1怎么能算是4.5的升級版?”“為什么不直接用4.1更新4.5?這會比倒回去更新更合理。”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.