編輯|蛋醬、Sia
很好,今天一打開 ChatGPT 主頁,發現 GPT-4.1 和 GPT-4.1-mini 上線了。
很多人還記得,最開始,OpenAI 并沒有打算讓 GPT-4.1 和 GPT-4.1 mini 上線 ChatGPT,只是面向開發者推出了 API。
因為這兩個模型的定位,自誕生那一天就是「OpenAI o3 和 OpenAI o4-mini 的替代方案」,用來滿足開發者更簡單的日常編程需求。
一般來說,GPT-4o 是可以解決大部分日常任務的,所以我們日常對話一般默認用這個模型。除非是特別需要推理能力的對話,我們會切換到 o 系列。
而 GPT-4.1 和 GPT-4.1-mini,就更適合編程和分析,談不上如 GPT-4o 一般全能,但在精確指令執行和 Web 開發任務方面比 4o 更加強大。
似乎有「一些用戶」向 OpenAI 有關部門反饋了什么,所以 OpenAI 說:自 4 月份在 API 中推出以來,GPT-4.1 就成為了開發人員的最愛。應群眾的要求,我們直接在 ChatGPT 上線 GPT-4.1 了。
就好像麥當勞的脆薯餅老師,本來只需要在早餐時段工作,上午十點半就下班。后來在群眾的呼吁下,變成了全日制員工:
不幸的是,GPT-4o mini 的位置已經被頂替,悄悄從 ChatGPT 中下架了。
喜歡 GPT-4o 的人們不必擔心,這款通用模型短時間內應該不會離開。
只能說這個龐大的模型家族里,每一位都有屬于自己的命運。
這次「轉正」來得也不算意料之外。當時,GPT-4.1 是拿到了非常不錯的測試得分:
編程:GPT-4.1 在 SWE-bench Verified 測試中得分為 54.6%,比 GPT-4o 提升 21.4%,比 GPT-4.5 提升 26.6%,使其成為領先的編程模型。
指令遵循:在 Scale 的 MultiChallenge 基準測試(衡量指令遵循能力的指標)中,GPT-4.1 得分為 38.3%,比 GPT-4o 提升了 10.5%。
長上下文:在多模態長上下文理解基準測試 Video-MME 中,GPT-4.1 創下了新的最高紀錄 —— 在長篇無字幕測試中得分為 72.0%,比 GPT-4o 提升了 6.7%。
但 OpenAI 特別強調過,他們訓練這兩個模型時重點關注了實際效用。連奧特曼自己也宣傳,GPT-4.1 是專注真實世界的實用性的。
現在的問題是,面對新上線的 GPT-4.1 和 GPT-4.1-mini,我們這種非開發者身份(但每個月都在交會員費)的 ChatGPT 用戶能用它們來做點什么好玩的事情?
我們先是在網絡上看到了一些博主的整活,還是先說編程的事。
有博主給了 GPT-4.1 一段簡短的提示詞:"create something I can paste into p5js that will startle me with its cleverness in creating something that invokes the control panel of a starship in the distant future"(“創造一些我可以粘貼到 p5js 中的東西,讓我驚嘆于它的聰明才智,創造出一些可以調用遙遠未來星際飛船控制面板的東西 "。)
它的結果是這樣的。博主的評價是「Not bad」,還不錯。
圖源:https://x.com/emollick/status/1922749136996114771
其實,同樣的提示詞他已經用了半年多。
三個月前,他曾經讓 Claude 3.7 和 Grok 3 做過同樣的任務。
這是 Claude 3.7 給到的。博主認為這個生成結果是當時的全場最佳,因為下方視頻中的儀表盤是可交互的:
這是 Grok 3 給到的。有交互的成分,但不多:
半年前,他還讓輪流讓 Gemini 2 Flash、Claude 3.5、Grok2、OpenAI o1 pro、GPT-4o、Llama 3.2 試過,至于當時生成內容的情況,好看是都挺好看的,但確實沒有任何實用價值。
這里我們把同樣的提示詞再拋給 GPT-4.1 一次:
完全可以說,大模型的編程能力近來真正進步了不少。
然后我們用 GPT-4.1 寫了一個非常簡單的消消樂游戲,不僅要求這個游戲交互流暢,還要逐漸增加通關的難度,它也很好地完成了:https://chatgpt.com/share/6825a290-7860-8007-978f-9692dad0e439
我們又嘗試了稍微復雜一點的編程任務。
提示語:「創建一個可以在 twigl.app 中運行的視覺上有趣的著色器,使其像暴風雨中的海洋一樣」
作為對比,我們再看看 Gemini 2.5 pro,似乎更好一些。
對于每天都要面對大量敲代碼工作的開發者來說,GPT-4.1 有幾方面的能力是很實用的,就像是上方的網頁小游戲,大模型可以在幾秒內創建用戶界面的原型,可以編寫測試,可以幫忙生成復雜代碼的片段,可以自動寫注釋,等等。
有一些從事開發工作的用戶會使用得更加復雜:
大多數人力資源管理系統工具的構建需要數周時間,SaaS Builder + GPT 4.1 非常狂野,幾分鐘的時間內就上線了一個。
對于當下的從業者來說,一般要花大量精力去處理使用 AI 編程的后續工作,「流程管理能力」的重要性一直在上升。
比如你用了幾分鐘搭建了原型,但你需要持續完善它,所以你花了幾個小時去看明白 AI 到底都寫了什么東西,否則就不太敢下手。
所謂的「提示工程」都可以理解為管理技能—— 清楚地了解要完成的任務以及完成任務所需的信息,向 AI 解釋任務,提供有用的反饋以改進輸出,并將經驗教訓概括為一個流程。
但 GPT-4.1 用戶的使用情況是:它在生成用戶界面方面表現更佳,并且不太可能產生冗余代碼,這意味著開發人員將不必花費太多時間來篩選其輸出。
說了半天編程能力,我們差點忘了,GPT-4.1 的指令遵循水平也很高。這里拋磚引玉一下。
為了測試出卓越的指令遵循能力和精確性 ,我們選擇了最讓人頭疼的聚餐菜品設計,正所謂「眾口難調」,看看 AI 策劃師能不能記住這么多瑣碎的禁忌和要求:
提示語:本周末家中聚餐,請幫我設計一份兼顧多樣飲食需求、美味健康、操作簡便的晚餐菜單,具體要求如下:
人員與需求:
爺爺:牙口不好,需軟爛、低糖、中式燉蒸菜;不吃羊肉
表妹:健身高蛋白、低脂低碳、主菜 < 450 大卡 / 份,喜歡雞胸肉 / 魚蝦 / 綠葉蔬菜;不吃紅肉,乳制品少量可
朋友:嚴格素食,不含任何動物制品(含蛋奶蜂蜜);喜歡豆制品、菌菇、蔬菜,能吃微辣,需高植物蛋白
我:不吃香菜、內臟,對花生和杏仁嚴重過敏,喜歡新風味
菜單要求:
5 個熱菜,需含:至少 1 款嚴格素食主菜,1 款高蛋白低脂低碳主菜(<450 大卡 / 份),1 款適合爺爺和我的主菜
主食至少 1 款,須兼顧低糖和低碳水(可多選)
甜點 1 款,須嚴格素食低糖
每道菜名后標注其主要特點 / 適合人群(如:素食 Vegan、高蛋白低卡、軟爛低糖、無堅果)
菜品風味豐富,避免單一,創意但易做,不用復雜廚具和特殊食材
下圖是結果,令人很驚訝的是,GPT 4.1 居然都記住了。
向左滑動查看更多
與此同時,還有一則小的消息可以關注:
一開始,GPT-4.1 還因為沒有提供安全報告引發了小小的輿論風波,很多研究者批判 OpenAI 降低了其人工智能模型透明度的標準。
OpenAI 的說法是,GPT-4.1 的性能和速度比 GPT-4o 有所提升,但實際上并非前沿模型,因此不需要像性能更強大的模型那樣提供安全報告。
今天,兩個模型官宣被引入 ChatGPT 后,OpenAI 安全系統負責人 Johannes Heidecke 在 X 上再次申辯:
「在 API 中發布 GPT-4.1 之前,我們進行了評估,以測試該模型的功能和安全性。」
「GPT-4.1 并沒有引入新的模式或與模型交互的方式,在智能方面也沒有超越 o3。這意味著,這里的安全考慮雖然很重要,但與前沿模型有所不同。」
比較早開始使用 GPT-4.1 的人會覺得,這個模型比其之前的模型更不喜歡「閑聊」,對大多數類型的查詢都會給更直接的響應。
用戶普遍的感覺是,它的實際性能略微優于 GPT-4o,但超越的真不多。這可能也是 OpenAI 介紹它時主打「實際應用」的原因之一。
「通過密切關注現實世界的開發人員需求 —— 從編碼到指令遵循和長期上下文理解 —— 這些模型為構建智能系統和復雜的智能體應用程序開辟了新的可能性。」
想要更顯著性能提升的用戶,只能期待 OpenAI 的下一個重大升級版本 GPT-5 的到來了,但目前還沒有「走漏」任何可靠的消息。耐心等待吧。
以后我們會帶來更多好玩有用的 AI 評測,也歡迎大家進群交流。
? THE END
轉載請聯系本公眾號獲得授權
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.