99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

剛剛,OpenAI 發布 GPT-4.1 !吊打 GPT-4.5,14 萬/月的博士級 AI 曝光

0
分享至

昨天,OpenAI 宣布調整 API 使用規則。

未來訪問 OpenAI 旗下最新大模型,需要通過身份驗證的 ID(即 OpenAI 支持的國家/地區之一的政府簽發的身份證件,且一個身份證件每 90 天只能驗證一個組織),未通過驗證將影響模型使用。

新規引起的爭議尚未平息,OpenAI 于今天凌晨順勢推出了三款 GPT-4.1 系列模型,不過,只能通過 API 用,不會直接出現在 ChatGPT 里。

GPT-4.1:旗艦模型,在編碼、指令遵循和長上下文理解方面表現最佳,適用于復雜任務。

GPT-4.1 mini:小型高效模型,在多個基準測試中超越 GPT-4o,同時將延遲降低近一半,成本降低 83%,適合需要高效性能的場景。

GPT-4.1 nano:OpenAl 首個超小型模型,速度最快、成本最低,擁有 100 萬 token 上下文窗口,適用于低延遲任務如分類和自動補全。


盡管對 OpenAI 混亂的命名邏輯早有心理準備,但 GPT-4.1 還是遭到了網友的一致吐槽,就連 OpenAI 首席產品官 Kevin Weil 也自嘲:「這周我們的命名水平肯定也沒啥進步」。


GPT-4.1 模型卡 https://platform.openai.com/docs/models/gpt-4.1

編程+長文本,GPT-4.1>GPT-4.5?

技術才是硬道理,雖然命名飽受詬病,但 GPT-4.1 的實力還是有目共睹。

OpenAI 宣稱 GPT-4.1 系列模型在多項基準測試中表現出色,堪稱當前最強大的編程模型之一。

能夠自主完成復雜編碼任務

前端開發能力提升

減少多余代碼修改

更好地遵循 diff 格式

工具調用更加一致穩定

OpenAI 更是將 GPT-4.1 比喻為「quasar」(類星體),暗示它像類星體一樣在 AI 領域中具有強大的影響力和能量。


在真實軟件工程能力的評估標準 SWE-bench Verified 基準測試中,GPT-4.1 得分 54.6%,較 GPT-4o 提升 21.4 個百分點,較 GPT-4.5 提升 26.6 個百分點。


GPT?4.1 在 diff 格式方面經過專門訓練,更能穩定輸出修改片段,節省延遲與成本。此外,OpenAI 已將 GPT?4.1 的輸出 token 上限提升至 32768 tokens,便于應對全文件重寫的需求。

在前端開發任務中,OpenAI 盲測結果顯示,80%評估者偏愛 GPT-4.1 生成的網頁。


OpenAI 今天凌晨的直播也邀請了 Windsurf 的創始人兼 CEO Varun Mohan 分享經驗。Varun 透露,其內部基準測試顯示,GPT-4.1 性能比 GPT-4 提升了 60%。

鑒于 GPT-4.1 的出色表現,Windsurf 決定為所有用戶提供一周的 GPT-4.1 免費體驗,隨后以大幅折扣繼續提供該模型。另外,Cursor 用戶現在也可以免費使用 GPT-4.1。


在真實對話中,尤其是多輪交互任務中,模型能否記住并正確引用上下文中的信息至關重要。在 Scale 的 MultiChallenge 基準測試中,GPT?4.1 比 GPT?4o 提升了 10.5 個百分點。

IFEval 是一個以明確指令(如內容長度、格式限制)為基礎的測試集,用于評估模型是否能遵循具體規則輸出內容。GPT-4.1 的表現依然力壓 GPT-4o。


在多模態長上下文基準 Video-MME 的無字幕長視頻類別中,GPT-4.1 以 72.0% 的得分創下新紀錄,領先 GPT-4o 6.7 個百分點。

模型小型化是 AI 商業化的必然趨勢。

「以小博大」的 GPT?4.1 mini 在多項測試中甚至超越 GPT-4o,同時在保持與 GPT?4o 相似或更高智能表現的同時,延遲幾乎減半,成本降低了 83%。

OpenAI 研究員 Aidan McLaughlin 發文稱,有了 GPT-4.1 mini/nano,現在可以用一種成本低得多(25 倍更便宜)的方式實現類似 GPT-4 質量的功能,性價比超高。


GPT?4.1 nano 則是 OpenAI 目前速度最快、成本最低的模型,適合需要低延遲的任務。

它同樣支持 100 萬 token 的上下文窗口,在MMLU、GPQA和 Aider polyglot 編程測試中的得分分別為 80.1%、50.3% 和 9.8%,均高于 GPT-4o mini,適合分類、自動補全等輕量任務。


不過,GPT-4.1 只能通過 API 用,不會直接出現在 ChatGPT 里。但好消息是,ChatGPT 的 GPT-4o 版本已經悄悄加入了 GPT-4.1 的部分功能,未來還會加更多。

GPT?4.5 Preview 將于 2025 年 7 月 14 日下線。開發者 API 的核心模型也將逐步替換成 GPT-4.1。

據官方解釋,GPT-4.1 在性能、成本和速度上都更勝一籌,而 GPT-4.5 中用戶喜愛的創意表達、文字質量、幽默感與細膩風格會在以后的模型里繼續保留。

GPT-4.1 在指令理解方面也升級了,不管是格式要求、內容控制,還是復雜的多步任務,甚至是多輪對話中保持前后一致,也都做得更好。

長文本是 GPT-4.1 系列的一大亮點,其支持高達 100 萬 token 的超長上下文處理能力,約等于 8 套完整的 React 源碼,或成百上千頁文檔,遠超 GPT-4o 的 12.8 萬token,適用于大型代碼庫分析、多文檔審閱等任務。

在「大海撈針」測試中,GPT-4.1 精準檢索超長上下文信息,表現優于 GPT-4o;在搜索測試中,其區分相似請求和跨位置推理能力更強,準確率達 62%,遠超 GPT-4o 的 42%。


盡管支持超長上下文,GPT-4.1 的響應速度還不慢,128K token 請求約 15 秒,nano 型號低于 5 秒,OpenAI 還優化了提示緩存機制,將折扣從 50% 提升至 75%,用起來更便宜。

在今天凌晨的直播演示環節,OpenAI 通過兩個案例充分展示了 GPT-4.1 強大的長上下文處理能力和嚴格的指令遵循能力,對于開發者來說,或許也是相當實用的的使用場景。


在第一個案例中,演示者讓 GPT-4.1 創建了一個可以上傳和分析大型文本文件的網站,然后使用這個新創建的網站上傳了一個 NASA 的 1995 年 8 月的服務器請求日志文件。

演示者在這個日志文件中「偷偷」插入了一行非標準的 HTTP 請求記錄,讓 GPT-4.1 分析整個文件并找出這個異常記錄,結果,模型成功地在這個約 45 萬 token 的文件中找到了這行異常記錄。


在第二個案例中,演示者設置了一個系統消息,讓模型扮演日志分析助手,規定了輸入數據必須在 標簽內,用戶問題必須在 標簽內。

當演示者問了一個沒有用 標簽包裹的問題時,模型拒絕回答,當正確使用標簽后,模型準確回答了關于日志文件的問題。相比之下,之前的 GPT-4o 則會忽略這些規則限制,直接回答問題。

簡言之,GPT-4.1 核心優勢包括超長上下文支持、強大檢索推理、出色多文檔處理、低延遲高性能、成本效益高,適配法律、金融、編程等場景,是代碼搜索、智能合同分析、客服等任務的理想選擇。

OpenAI 的真正大招,是能像費曼一樣思考的推理模型

OpenAI 還沒正式推出 o3,但已經有些消息傳出來了。

據 The Information 援引三位參與測試的知情人士消息稱,OpenAI 計劃本周推出的全新 AI 模型將能跨學科整合概念,提出涉及從核聚變到病原體檢測等全新實驗思路。

OpenAI 自去年 9 月首次推出以推理為核心的模型,這類模型在處理數學定理等可驗證問題時表現尤為出色,思考時間越長,效果越好。

隨著 Scaling Law 陷入「撞墻」的瓶頸,OpenAI 也將研發重點轉向推理方向,相信未來可提供每月高達 2 萬美元(折合人民幣 14 萬元)的訂閱服務,為博士級研究提供支持。


這種推理模型像特斯拉或科學家費曼那樣,能整合生物學、物理學及工程等多領域知識,提出獨特見解。要知道,現實里,這種跨學科成果得靠團隊 耗時費力的合作,但 OpenAI 的新模型可獨立完成類似任務。

ChatGPT 的「深度研究」工具支持瀏覽網頁、整理報告,科學家可借此總結文獻并提出新實驗方法,展示了這方面的潛力。據一位測試者介紹,科學家可以使用該 AI 閱讀多個科學領域的公開文獻,總結已有實驗,并提出尚未嘗試過的新方法。

現有的推理模型也已經大幅提升科研效率。

The Information 舉例稱,伊利諾伊州阿貢國家實驗室的分子生物學家 Sarah Owens 利用 o3-mini-high 模型,快速設計出應用生態學相關技術檢測污水病原體的實驗,節省數天時間。

化學家 Massimiliano Delferro 則用 AI 設計塑料分解實驗,獲得包括溫度和壓力范圍的完整方案,效率遠超預期。在今年 2 月的「AI 即興實驗」中,測試者使用 o1-pro 和 o3-mini-high 評估建設電廠或礦山在特定地理區域內的潛在環境影響,效果也遠超預期。


報道稱,在田納西州橡樹嶺國家實驗室舉行的一次實驗活動中,OpenAI 總裁 Greg Brockman 對來自九個聯邦研究所的千名科學家表示:

「我們正在朝著一種趨勢發展——AI 會花大量時間『認真思考』重要的科學問題,而這將使你們在接下來的幾年里效率提高十倍甚至百倍?!?/strong>

目前,OpenAI 已承諾為多個國家實驗室提供私有訪問權限,讓他們使用托管在洛斯阿拉莫斯國家實驗室超級計算機上的推理模型。

然而,理想很豐滿,現實卻很骨感。在很多情況下,AI 給出的建議與科學家驗證這些想法的能力之間仍存在差距。比方說,模型可建議激光強度以釋放特定能量,但仍需模擬器驗證;涉及化學或生物的建議則需實驗室測試。


OpenAI 也曾發布名為 Operator 的 AI Agent,但卻因常出現錯誤遭到吐槽。

據知情人士透露,OpenAI 計劃通過「基于人類反饋的強化學習」(RLHF),在用戶實際使用數據的基礎上篩選失敗案例,并以成功示例訓練 Operator,以此改進表現。

Amazon AGI SF Lab 負責人、前 OpenAI 工程主管 David Luan 提供了一個有趣的視角。他表示,在推理模型出現前,如果一個傳統 AI 模型「發現了一個全新數學定理」,因為訓練數據中沒有,它反而會被「懲罰」。

此外,OpenAI 也正在開發更先進的編程 Agent。OpenAI CFO Sarah Friar 今年 3 月份在倫敦高盛峰會上透露:

「接下來我們要推出的是我們稱之為 A-SWE 的產品。順便說一句,我們的營銷水平確實不是最強的(笑),A-SWE 指的是『自主型軟件工程師(Agentic Software Engineer)』?!?/p>


她表示,A-SWE 不只是像現在 Copilot 那樣輔助你團隊中的軟件工程師,而是真正具備「自主能力」的軟件工程師,它可以獨立為你開發一個應用。

只需要像給普通工程師一樣提交一份 PR(Pull Request),它就能獨立完成整個開發過程。

「它不僅能完成開發,還能做所有工程師最討厭的那些工作:它會自己做 QA(質量保障)、自己測試并修復 bug、還會寫文檔——這些通常很難讓工程師主動去做的事。所以,你的工程團隊戰斗力將被極大地放大?!?/p>

一方面,像 GPT-4.1 這樣的模型通過超長上下文和精準指令遵循能力,已能處理比以往更復雜的任務;另一方面,推理模型和自主型 Agent 正打破傳統 AI 的局限,向真正的自主思考能力邁進。

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
婆婆分家產沒我份,我沒鬧,婆婆生病,婆婆全家給我打100個電話

婆婆分家產沒我份,我沒鬧,婆婆生病,婆婆全家給我打100個電話

故事秘棧
2025-06-03 16:26:53
毀天滅地!烏對俄發起驚天一擊,從戰略轟炸機到核潛艇基地

毀天滅地!烏對俄發起驚天一擊,從戰略轟炸機到核潛艇基地

史政先鋒
2025-06-02 10:49:45
徐云涌任江西省委副秘書長、辦公廳主任

徐云涌任江西省委副秘書長、辦公廳主任

中國經濟網
2025-06-05 16:30:02
國足無緣2026世界杯 王大雷:有些東西沒法控制,非常遺憾

國足無緣2026世界杯 王大雷:有些東西沒法控制,非常遺憾

閃電新聞
2025-06-06 00:17:07
證監會的努力成果!6月6日,深夜爆出的三大重要消息沖擊來襲

證監會的努力成果!6月6日,深夜爆出的三大重要消息沖擊來襲

風口招財豬
2025-06-06 01:01:38
英媒:尋鋒計劃多次遇挫,曼聯再次接觸葡體前鋒哲凱賴什

英媒:尋鋒計劃多次遇挫,曼聯再次接觸葡體前鋒哲凱賴什

雷速體育
2025-06-05 18:16:02
鬧大了!發文硬剛網友后,官媒下場3問蔣雨融,個個問題切中要害

鬧大了!發文硬剛網友后,官媒下場3問蔣雨融,個個問題切中要害

頭號劇委會
2025-06-04 21:56:42
外媒揭秘鄭欽文:常年居住安道爾,年收入高達2.2億,是國際團寵

外媒揭秘鄭欽文:常年居住安道爾,年收入高達2.2億,是國際團寵

聚合大娛
2025-02-25 11:56:48
證監會停止降溫股市?6月5日,凌晨的三大重要消息全面來襲!

證監會停止降溫股市?6月5日,凌晨的三大重要消息全面來襲!

風口招財豬
2025-06-05 01:05:04
6月起,中國或將迎來“4大降價潮”!你想買的機會,是不是來了?

6月起,中國或將迎來“4大降價潮”!你想買的機會,是不是來了?

小談食刻美食
2025-06-05 17:06:37
國產“路虎攬勝”來了,車長5米4,配三激光雷達,擁有1197馬力!

國產“路虎攬勝”來了,車長5米4,配三激光雷達,擁有1197馬力!

小怪吃美食
2025-06-06 02:21:54
1948年大決戰在即,毛主席突然下令處決一將領:誰求情都不行!

1948年大決戰在即,毛主席突然下令處決一將領:誰求情都不行!

野蠻不失女人心
2024-10-08 09:19:52
我每月花8000反對兒媳辭職,3個月后全家都哭了

我每月花8000反對兒媳辭職,3個月后全家都哭了

青竹情感悅讀
2025-06-04 19:49:13
白峰美羽:島國最強御姐!9頭身長腿身材,藏不住

白峰美羽:島國最強御姐!9頭身長腿身材,藏不住

云端小院
2025-06-05 09:31:02
2-1,感謝,高芙!鄭欽文雙喜臨門,輸得不冤

2-1,感謝,高芙!鄭欽文雙喜臨門,輸得不冤

漣漪讀史
2025-06-05 11:33:31
王鷗這個顏值下滑的也太厲害了,生完孩子后,簡直老了十歲

王鷗這個顏值下滑的也太厲害了,生完孩子后,簡直老了十歲

情感大頭說說
2025-05-30 15:27:33
四川挖出一具遺骸,腳帶7公斤鐵鏈,腳踝釘著4顆鉚釘,經考證,他是失蹤40多年的……

四川挖出一具遺骸,腳帶7公斤鐵鏈,腳踝釘著4顆鉚釘,經考證,他是失蹤40多年的……

財經三分鐘pro
2024-12-19 22:21:42
降價也賣不動?寶馬X3降到26萬多,配2.0T+8AT+四驅,月銷2742輛

降價也賣不動?寶馬X3降到26萬多,配2.0T+8AT+四驅,月銷2742輛

西莫的藝術宮殿
2025-06-06 02:10:07
別再為孫穎莎被罵打抱不平了!張繼科:她本就不只靠天賦贏的

別再為孫穎莎被罵打抱不平了!張繼科:她本就不只靠天賦贏的

行舟問茶
2025-06-06 01:54:48
國足未來10號?19歲蒯紀聞全運原地擺腿轟世界波!網友:快補招他

國足未來10號?19歲蒯紀聞全運原地擺腿轟世界波!網友:快補招他

我愛英超
2025-06-05 16:57:10
2025-06-06 03:35:00
AppSo incentive-icons
AppSo
讓智能手機更好用的秘密
5362文章數 26570關注度
往期回顧 全部

科技要聞

對話盛景網聯彭志強:跳出SaaS虧損黑洞!從“賣工具”到“賣結果”的AI RaaS轉型法則

頭條要聞

27歲女子被咬傷身亡 三亞衛健委再通報搶救全過程

頭條要聞

27歲女子被咬傷身亡 三亞衛健委再通報搶救全過程

體育要聞

提前無緣美加墨世界杯 國足眾將賽后落淚

娛樂要聞

陳赫宴請好友,李乃文攜妻子罕見亮相

財經要聞

習近平同美國總統特朗普通電話

汽車要聞

旗艦+大六座+百萬級 阿維塔全新SUV預計明年量產

態度原創

本地
游戲
時尚
公開課
軍事航空

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

《馬里奧賽車世界》M站已有評測:兩家媒體給90+分

泰權威!復刻三分已成濃顏貴女

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

普京明確:沒有人會與“恐怖分子”談判

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 独山县| 南郑县| 黑龙江省| 新丰县| 蓬溪县| 宁化县| 河曲县| 上林县| 祁门县| 温泉县| 红河县| 崇仁县| 桑日县| 芜湖县| 开江县| 江都市| 兴国县| 旬阳县| 东阳市| 夹江县| 越西县| 偏关县| 浦江县| 浮梁县| 普定县| 彩票| 铁力市| 婺源县| 莲花县| 盱眙县| 新干县| 锡林浩特市| 泊头市| 上高县| 海盐县| 上虞市| 兴城市| 铜鼓县| 营口市| 锡林郭勒盟| 屏东县|