99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

終于,GPT-4.1全量上架ChatGPT:大家都看好我,偏偏我也爭氣

0
分享至


編輯|蛋醬、Sia

很好,今天一打開 ChatGPT 主頁,發現 GPT-4.1 和 GPT-4.1-mini 上線了。


很多人還記得,最開始,OpenAI 并沒有打算讓 GPT-4.1 和 GPT-4.1 mini 上線 ChatGPT,只是面向開發者推出了 API。

因為這兩個模型的定位,自誕生那一天就是「OpenAI o3 和 OpenAI o4-mini 的替代方案」,用來滿足開發者更簡單的日常編程需求。

一般來說,GPT-4o 是可以解決大部分日常任務的,所以我們日常對話一般默認用這個模型。除非是特別需要推理能力的對話,我們會切換到 o 系列。

而 GPT-4.1 和 GPT-4.1-mini,就更適合編程和分析,談不上如 GPT-4o 一般全能,但在精確指令執行和 Web 開發任務方面比 4o 更加強大。

似乎有「一些用戶」向 OpenAI 有關部門反饋了什么,所以 OpenAI 說:自 4 月份在 API 中推出以來,GPT-4.1 就成為了開發人員的最愛。應群眾的要求,我們直接在 ChatGPT 上線 GPT-4.1 了。

就好像麥當勞的脆薯餅老師,本來只需要在早餐時段工作,上午十點半就下班。后來在群眾的呼吁下,變成了全日制員工:


不幸的是,GPT-4o mini 的位置已經被頂替,悄悄從 ChatGPT 中下架了。

喜歡 GPT-4o 的人們不必擔心,這款通用模型短時間內應該不會離開。


只能說這個龐大的模型家族里,每一位都有屬于自己的命運。


這次「轉正」來得也不算意料之外。當時,GPT-4.1 是拿到了非常不錯的測試得分:

  • 編程:GPT-4.1 在 SWE-bench Verified 測試中得分為 54.6%,比 GPT-4o 提升 21.4%,比 GPT-4.5 提升 26.6%,使其成為領先的編程模型。

  • 指令遵循:在 Scale 的 MultiChallenge 基準測試(衡量指令遵循能力的指標)中,GPT-4.1 得分為 38.3%,比 GPT-4o 提升了 10.5%。

  • 長上下文:在多模態長上下文理解基準測試 Video-MME 中,GPT-4.1 創下了新的最高紀錄 —— 在長篇無字幕測試中得分為 72.0%,比 GPT-4o 提升了 6.7%。

但 OpenAI 特別強調過,他們訓練這兩個模型時重點關注了實際效用。連奧特曼自己也宣傳,GPT-4.1 是專注真實世界的實用性的。

現在的問題是,面對新上線的 GPT-4.1 和 GPT-4.1-mini,我們這種非開發者身份(但每個月都在交會員費)的 ChatGPT 用戶能用它們來做點什么好玩的事情?

我們先是在網絡上看到了一些博主的整活,還是先說編程的事。

有博主給了 GPT-4.1 一段簡短的提示詞:"create something I can paste into p5js that will startle me with its cleverness in creating something that invokes the control panel of a starship in the distant future"(“創造一些我可以粘貼到 p5js 中的東西,讓我驚嘆于它的聰明才智,創造出一些可以調用遙遠未來星際飛船控制面板的東西 "。)

它的結果是這樣的。博主的評價是「Not bad」,還不錯。



圖源:https://x.com/emollick/status/1922749136996114771

其實,同樣的提示詞他已經用了半年多。

三個月前,他曾經讓 Claude 3.7 和 Grok 3 做過同樣的任務。

這是 Claude 3.7 給到的。博主認為這個生成結果是當時的全場最佳,因為下方視頻中的儀表盤是可交互的:

這是 Grok 3 給到的。有交互的成分,但不多:


半年前,他還讓輪流讓 Gemini 2 Flash、Claude 3.5、Grok2、OpenAI o1 pro、GPT-4o、Llama 3.2 試過,至于當時生成內容的情況,好看是都挺好看的,但確實沒有任何實用價值。

這里我們把同樣的提示詞再拋給 GPT-4.1 一次:


完全可以說,大模型的編程能力近來真正進步了不少。

然后我們用 GPT-4.1 寫了一個非常簡單的消消樂游戲,不僅要求這個游戲交互流暢,還要逐漸增加通關的難度,它也很好地完成了:https://chatgpt.com/share/6825a290-7860-8007-978f-9692dad0e439

我們又嘗試了稍微復雜一點的編程任務。

提示語:「創建一個可以在 twigl.app 中運行的視覺上有趣的著色器,使其像暴風雨中的海洋一樣」


作為對比,我們再看看 Gemini 2.5 pro,似乎更好一些。


對于每天都要面對大量敲代碼工作的開發者來說,GPT-4.1 有幾方面的能力是很實用的,就像是上方的網頁小游戲,大模型可以在幾秒內創建用戶界面的原型,可以編寫測試,可以幫忙生成復雜代碼的片段,可以自動寫注釋,等等。

有一些從事開發工作的用戶會使用得更加復雜:

大多數人力資源管理系統工具的構建需要數周時間,SaaS Builder + GPT 4.1 非常狂野,幾分鐘的時間內就上線了一個。

對于當下的從業者來說,一般要花大量精力去處理使用 AI 編程的后續工作,「流程管理能力」的重要性一直在上升。

比如你用了幾分鐘搭建了原型,但你需要持續完善它,所以你花了幾個小時去看明白 AI 到底都寫了什么東西,否則就不太敢下手。

所謂的「提示工程」都可以理解為管理技能—— 清楚地了解要完成的任務以及完成任務所需的信息,向 AI 解釋任務,提供有用的反饋以改進輸出,并將經驗教訓概括為一個流程。

但 GPT-4.1 用戶的使用情況是:它在生成用戶界面方面表現更佳,并且不太可能產生冗余代碼,這意味著開發人員將不必花費太多時間來篩選其輸出。

說了半天編程能力,我們差點忘了,GPT-4.1 的指令遵循水平也很高。這里拋磚引玉一下。

為了測試出卓越的指令遵循能力和精確性 ,我們選擇了最讓人頭疼的聚餐菜品設計,正所謂「眾口難調」,看看 AI 策劃師能不能記住這么多瑣碎的禁忌和要求:

提示語:本周末家中聚餐,請幫我設計一份兼顧多樣飲食需求、美味健康、操作簡便的晚餐菜單,具體要求如下:

人員與需求:

  • 爺爺:牙口不好,需軟爛、低糖、中式燉蒸菜;不吃羊肉

  • 表妹:健身高蛋白、低脂低碳、主菜 < 450 大卡 / 份,喜歡雞胸肉 / 魚蝦 / 綠葉蔬菜;不吃紅肉,乳制品少量可

  • 朋友:嚴格素食,不含任何動物制品(含蛋奶蜂蜜);喜歡豆制品、菌菇、蔬菜,能吃微辣,需高植物蛋白

  • 我:不吃香菜、內臟,對花生和杏仁嚴重過敏,喜歡新風味

菜單要求:

  • 5 個熱菜,需含:至少 1 款嚴格素食主菜,1 款高蛋白低脂低碳主菜(<450 大卡 / 份),1 款適合爺爺和我的主菜

  • 主食至少 1 款,須兼顧低糖和低碳水(可多選)

  • 甜點 1 款,須嚴格素食低糖

  • 每道菜名后標注其主要特點 / 適合人群(如:素食 Vegan、高蛋白低卡、軟爛低糖、無堅果)

  • 菜品風味豐富,避免單一,創意但易做,不用復雜廚具和特殊食材

下圖是結果,令人很驚訝的是,GPT 4.1 居然都記住了。




向左滑動查看更多


與此同時,還有一則小的消息可以關注:

一開始,GPT-4.1 還因為沒有提供安全報告引發了小小的輿論風波,很多研究者批判 OpenAI 降低了其人工智能模型透明度的標準。

OpenAI 的說法是,GPT-4.1 的性能和速度比 GPT-4o 有所提升,但實際上并非前沿模型,因此不需要像性能更強大的模型那樣提供安全報告。

今天,兩個模型官宣被引入 ChatGPT 后,OpenAI 安全系統負責人 Johannes Heidecke 在 X 上再次申辯:

「在 API 中發布 GPT-4.1 之前,我們進行了評估,以測試該模型的功能和安全性。」

「GPT-4.1 并沒有引入新的模式或與模型交互的方式,在智能方面也沒有超越 o3。這意味著,這里的安全考慮雖然很重要,但與前沿模型有所不同。」

比較早開始使用 GPT-4.1 的人會覺得,這個模型比其之前的模型更不喜歡「閑聊」,對大多數類型的查詢都會給更直接的響應。

用戶普遍的感覺是,它的實際性能略微優于 GPT-4o,但超越的真不多。這可能也是 OpenAI 介紹它時主打「實際應用」的原因之一。

「通過密切關注現實世界的開發人員需求 —— 從編碼到指令遵循和長期上下文理解 —— 這些模型為構建智能系統和復雜的智能體應用程序開辟了新的可能性。」

想要更顯著性能提升的用戶,只能期待 OpenAI 的下一個重大升級版本 GPT-5 的到來了,但目前還沒有「走漏」任何可靠的消息。耐心等待吧。

以后我們會帶來更多好玩有用的 AI 評測,也歡迎大家進群交流。

? THE END

轉載請聯系本公眾號獲得授權

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
狂野的3方交易方案:杜蘭特+理查茲去湖人;里夫斯去太陽!三贏?

狂野的3方交易方案:杜蘭特+理查茲去湖人;里夫斯去太陽!三贏?

毒舌NBA
2025-05-30 06:47:46
黑手伸向學生“飯碗”,揚州儀征一小學校長被判刑

黑手伸向學生“飯碗”,揚州儀征一小學校長被判刑

現代快報
2025-05-29 13:49:20
河南省衛健委原主任闞全程被查,曾長期執掌“醫療航母”鄭大一附院

河南省衛健委原主任闞全程被查,曾長期執掌“醫療航母”鄭大一附院

澎湃新聞
2025-05-29 11:12:26
王勵勤徒弟崛起,超越林高遠,國乒新星備受矚目!

王勵勤徒弟崛起,超越林高遠,國乒新星備受矚目!

縱人離
2025-05-30 09:37:33
蘇州一女生在大城市流浪,誰管吃住就跟誰走,網友喊她:女大神

蘇州一女生在大城市流浪,誰管吃住就跟誰走,網友喊她:女大神

唐小糖說情感
2025-05-27 08:53:19
巴克利吐槽唐斯愚蠢犯規太多,唐斯:說得對,我會改正

巴克利吐槽唐斯愚蠢犯規太多,唐斯:說得對,我會改正

雷速體育
2025-05-30 11:28:54
汪小菲夫婦婚后返臺!馬筱梅給小玥兒穿長裙,陪她玩耍還幫她背包

汪小菲夫婦婚后返臺!馬筱梅給小玥兒穿長裙,陪她玩耍還幫她背包

史書無明
2025-05-30 10:06:02
5.30早評|反轉!特朗普關稅再次恢復!

5.30早評|反轉!特朗普關稅再次恢復!

龍行天下虎
2025-05-30 08:54:36
這就是格局!汪小菲家中宴請賓客,小玥兒姐弟出鏡,圍著吃烤全羊

這就是格局!汪小菲家中宴請賓客,小玥兒姐弟出鏡,圍著吃烤全羊

界史
2025-05-19 15:57:26
航班大面積取消!深圳撐不起日本航線了?

航班大面積取消!深圳撐不起日本航線了?

環球旅訊
2025-05-29 20:14:59
痛心!2歲男童幼兒園午睡,頭卡護欄離世,監控視頻看得讓人心碎

痛心!2歲男童幼兒園午睡,頭卡護欄離世,監控視頻看得讓人心碎

界史
2025-05-29 15:42:34
AC米蘭喜憂參半!新教練加盟卻遭轉會困擾!

AC米蘭喜憂參半!新教練加盟卻遭轉會困擾!

人間販夢者
2025-05-30 09:49:47
含淚收下勝利錫伯杜收起農場主皮鞭 排十人長輪換扳回一城

含淚收下勝利錫伯杜收起農場主皮鞭 排十人長輪換扳回一城

直播吧
2025-05-30 10:44:15
黑獨山不黑了?青海黑獨山疑遭游客“撿石褪黑”,景區:山腳確實沒以前黑了

黑獨山不黑了?青海黑獨山疑遭游客“撿石褪黑”,景區:山腳確實沒以前黑了

上游新聞
2025-05-29 09:17:05
新冠再次爆發,可能不發燒!提醒:出現 5 個癥狀,病毒或已來敲門

新冠再次爆發,可能不發燒!提醒:出現 5 個癥狀,病毒或已來敲門

健身狂人
2025-05-28 13:41:50
“征服”一個中年女人,不要送禮物,也不要打電話,而是這樣做

“征服”一個中年女人,不要送禮物,也不要打電話,而是這樣做

蓮子說情感
2025-05-04 10:06:26
多名網友曝光一男子帶不同小孩長期在鄭州地鐵“賣慘行乞”,警方稱已全線查找該男子 村干部:他說的都是假的

多名網友曝光一男子帶不同小孩長期在鄭州地鐵“賣慘行乞”,警方稱已全線查找該男子 村干部:他說的都是假的

縱覽新聞
2025-05-29 21:46:19
連續兩年倒在西決難受嗎?華子:我才23歲 更為康利感到難過

連續兩年倒在西決難受嗎?華子:我才23歲 更為康利感到難過

直播吧
2025-05-29 12:07:08
你以為我在“洗白”安祿山,你錯了,這才是歷史上真實的安祿山

你以為我在“洗白”安祿山,你錯了,這才是歷史上真實的安祿山

縱古貫今
2025-05-09 21:37:12
女子爬山,發現一男子神似因公殉職的兒子,親子鑒定后她崩潰了

女子爬山,發現一男子神似因公殉職的兒子,親子鑒定后她崩潰了

夸夸專欄
2025-05-25 13:58:01
2025-05-30 11:59:00
AI好好用 incentive-icons
AI好好用
探索人工智能應用場景及商業化
2096文章數 4432關注度
往期回顧 全部

科技要聞

榮耀新CEO放話:下半年重返前三,靠譜嗎?

頭條要聞

女廳官被"雙開":曾花4000萬買別墅 850萬裝修極盡奢華

頭條要聞

女廳官被"雙開":曾花4000萬買別墅 850萬裝修極盡奢華

體育要聞

當我終于回國時,可能已認不出我的家

娛樂要聞

央視主持人朱迅在景區救治高反游客

財經要聞

美國政府殺瘋了,全世界目瞪口呆

汽車要聞

約合人民幣47.10萬元起 阿維塔11在香港上市

態度原創

家居
旅游
游戲
時尚
本地

家居要聞

原木純白 邂逅自然本真

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

《東京地下殺手》或今夏發布 制作組發布招聘廣納賢才

和劉亦菲一起來場“時裝出逃”的旅行

本地新聞

云游中國 |來仰天湖大草原,一起策馬奔騰

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 临潭县| 五原县| 静宁县| 金平| 舟曲县| 阜宁县| 九江市| 揭西县| 桃园县| 合肥市| 商水县| 海南省| 普兰店市| 达孜县| 西安市| 瑞丽市| 马关县| 嘉义县| 越西县| 甘德县| 普定县| 新田县| 呼玛县| 乌拉特后旗| 罗甸县| 庆阳市| 湘乡市| 泰州市| 大兴区| 阜康市| 北碚区| 辉南县| 乳源| 郁南县| 搜索| 北流市| 兰溪市| 延川县| 贵港市| 宜兰市| 武义县|