99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

剛剛,OpenAI發布GPT-4.1,性能暴漲、100萬上下文

0
分享至

今天凌晨1點,OpenAI進行了技術直播發布了最新模型——GPT-4.1。

除了GPT-4.1之外,還有GPT 4.1-Mini和GPT 4.1-Nano兩款模型,在多模態處理、代碼能力、指令遵循、成本方面實現大幅度提升。特別是支持100萬token上下文,這對于金融分析、小說寫作、教育等領域幫助巨大。

由于GPT-4.1的發布,OpenAI宣布將會淘汰剛發布不久的GPT-4.5,其能力可見一斑。

目前,如果想體驗GPT-4.1而無法通過API身份驗證的小伙伴,微軟已經在Azure OpenAI上線了該模型,可以使用了。


GPT-4.1簡單介紹

GPT-4.1最大亮點之一就是支持100萬tokens上下文,這也是OpenAI首次發布長窗口模型。

與前代模型相比,GPT-4.1、GPT-4.1 Mini和GPT-4.1 Nano能夠處理多達100萬tokens的上下文,是GPT-4o的8倍。

OpenAI在Long Context Evals上對長文本進行了測試,測試結果顯示,GPT-4.1系列的三個模型均能夠在語料庫的任何深度找到目標文本,無論是開頭、中間還是結尾,甚至在長達100萬tokens的上下文中,模型依然能夠準確地定位目標文本。


OpenAI還在Multi-Round Coreference進行了測試,通過創建合成對話來測試模型在長上下文中的理解和推理能力。在這些對話中,用戶和助手交替進行對話,用戶可能會要求模型生成一首關于某個主題的詩,接著要求生成另一首關于不同主題的詩,然后可能要求生成一個關于第三個主題的短故事。模型需要在這些復雜的對話中找到特定的內容,例如“第二篇關于某個主題的短故事”。

測試結果顯示,GPT-4.1在處理長達128K tokens的數據時顯著優于GPT-4o,并且在長達100萬tokens的上下文中依然能夠保持較高的性能。


在編碼能力測試中,SWEBench評估將模型置于 Python 代碼庫環境,讓其探索代碼庫、編寫代碼和測試用例。結果顯示,GPT-4.1 的準確率達到 55% ,而 GPT-4o僅為 33%。


在多語言編碼能力測試方面,Ader polyglot 基準測試涵蓋多種編程語言和不同格式要求。GPT-4.1 在差異性能上較 GPT-4o提升一倍,在處理多語言編程任務、代碼優化和版本管理時更高效。

在指令遵循能力測試中,OpenAI 構建內部評估體系,模擬 API 開發者使用場景,測試模型對復雜指令的遵循能力。每個樣本包含分屬不同類別的復雜指令,并分難度等級。在困難子集評估中,GPT-4.1 遠超 GPT-4o。


在多模態處理測試的視頻 MME 基準測試中,GPT 4.1 對30 - 60 分鐘無字幕視頻進行理解并回答多項選擇題,取得72%的成績,達到當前最佳水平,在視頻內容理解上實現重大突破。


價格方面,GPT -4.1系列在性能提升的同時,價格更具競爭力。GPT -4.1 相比 GPT-4o 價格降低 26%,而GPT -4.1 Nano 作為最小、最快且最便宜的模型,每百萬 token 的成本僅為12美分。

實際應用GPT-4.1案例

湯森路透是全球領先的金融和法律信息提供商,其專業級AI助手CoCounsel被廣泛應用于法律工作。

CoCounsel的主要任務是幫助法律專業人士處理復雜的法律文件和工作流程。在測試GPT-4.1時,路透社發現該模型在多文檔審查方面表現出色,尤其是在處理涉及多個長文檔的復雜法律工作流程時。

與GPT-4o相比,GPT-4.1在內部長上下文基準測試中的多文檔審查準確性提高了17%。這一提升對于法律專業人士來說至關重要,因為它直接關系到CoCounsel處理復雜法律工作流程的能力。


法律文件通常包含多個長文檔,這些文檔之間可能存在復雜的相互關系,例如沖突條款或補充上下文。GPT-4.1在這些方面表現出了極高的可靠性,能夠準確識別文檔之間的細微關系,這對于法律分析和決策至關重要。

而在處理多個法律文件時,GPT-4.1能夠有效地維護跨文檔的上下文信息,并準確識別出文檔之間的沖突條款或補充信息。這

Carlyle是一家全球領先的私募股權投資公司,其業務涉及大量的金融數據分析和文檔處理。Carlyle使用GPT-4.1來從多個長文檔中準確提取顆粒化的金融數據,這些文檔包括PDF文件、Excel表格和其他復雜格式。

Carlyle的內部評估顯示,GPT-4.1在從大型文檔中檢索數據方面的表現比其他可用模型高出50%。

GPT-4.1在處理非常大的文檔時表現出色,尤其是在密集數據的檢索方面。該模型成功克服了其他模型的關鍵限制,包括檢索問題、中間位置丟失信息的錯誤以及跨文檔的多跳推理。

這些能力使得GPT-4.1能夠更高效地從復雜的金融文檔中提取關鍵信息,為Carlyle的分析師提供了更準確、更全面的數據支持。


Windsurf是一家專注于提供高效開發工具的公司,其內部編碼基準測試為評估AI模型在實際開發中的表現提供了一個重要的參考。在對GPT-4.1進行測試時,Windsurf發現該模型在編碼任務中的表現比前代GPT-4o有了顯著提升:GPT-4.1在Windsurf的內部編碼基準測試中得分比GPT-4o高出60%。

Windsurf的用戶反饋顯示,GPT-4.1在工具調用方面比GPT-4o更高效,效率提升了30%。GPT-4.1在編碼過程中重復進行不必要的編輯或過度細化的步驟的可能性比GPT-4o降低了約50%。

本文素材來源OpenAI,如有侵權請聯系刪除

報告下載

大 佬觀點分享

關于RPA、AI、企業數字化轉型

(點擊文字即可閱讀)

| |

| | |

| | |

| | |

| |

行業知識交流分享,結識擴展人脈圈層

公眾號后臺回復【RPA】或者【流程挖掘】

可受邀加入相關的交流群

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
NASA衛星照片證明美軍空襲炸偏了?

NASA衛星照片證明美軍空襲炸偏了?

樞密院十號
2025-06-22 23:06:01
上海市中心隱藏了一片260000㎡超大綠地!晴天雨天都好拍,獨擁一抹清涼綠意→

上海市中心隱藏了一片260000㎡超大綠地!晴天雨天都好拍,獨擁一抹清涼綠意→

上觀新聞
2025-06-22 22:12:24
王岳倫做夢也想不到,離婚4年,李湘高調宣布喜訊,女兒已成驕傲

王岳倫做夢也想不到,離婚4年,李湘高調宣布喜訊,女兒已成驕傲

容景談
2025-06-23 15:40:56
俄方通告全球,不許暗殺哈梅內伊,否則4字伺候,特朗普急踩剎車

俄方通告全球,不許暗殺哈梅內伊,否則4字伺候,特朗普急踩剎車

通文知史
2025-06-22 16:57:18
森林北刪官宣視頻,汪峰趕忙曬合照陪逛街,終于明白章子怡輸在哪

森林北刪官宣視頻,汪峰趕忙曬合照陪逛街,終于明白章子怡輸在哪

葡萄說娛
2025-06-23 16:03:33
謝逸楓:顫抖吧!前5月全國賣地收入斷崖式下滑,怎么辦

謝逸楓:顫抖吧!前5月全國賣地收入斷崖式下滑,怎么辦

謝逸楓看樓市
2025-06-22 21:39:44
許多人以為殉葬就是活人被推進地宮,事實上殉葬人可能會拼命求生

許多人以為殉葬就是活人被推進地宮,事實上殉葬人可能會拼命求生

南權先生
2025-06-17 12:07:39
何志旭被查,兩年前落選院士,9天前還有公開活動

何志旭被查,兩年前落選院士,9天前還有公開活動

政知新媒體
2025-06-23 11:25:20
曝加盟雄鹿!你好,NBA全明星控衛!有望影響東部季后賽格局

曝加盟雄鹿!你好,NBA全明星控衛!有望影響東部季后賽格局

籃球實戰寶典
2025-06-22 23:19:08
9.9元“蘇超”球票炒到600元,江蘇怒抓105名“黃牛”!他們如何繞過實名制的?

9.9元“蘇超”球票炒到600元,江蘇怒抓105名“黃牛”!他們如何繞過實名制的?

上觀新聞
2025-06-23 15:28:10
從承諾歸還搶走的土地,到提出出海權,大毛時隔100年又服軟了?

從承諾歸還搶走的土地,到提出出海權,大毛時隔100年又服軟了?

花仙歷史說
2025-06-23 14:09:37
上海、深圳出現了5大現象,開始逐步蔓延全國,值得大家深思!

上海、深圳出現了5大現象,開始逐步蔓延全國,值得大家深思!

山丘樓評
2025-06-06 14:49:25
中國工程界最大烏龍!研究沙漠種小麥技術,卻意外解開1世界難題

中國工程界最大烏龍!研究沙漠種小麥技術,卻意外解開1世界難題

紅豆講堂
2024-09-07 09:56:30
網友直言:別焦慮了 原來林允也有麒麟臂

網友直言:別焦慮了 原來林允也有麒麟臂

可樂談情感
2025-06-23 12:55:33
以色列宣布關閉空域

以色列宣布關閉空域

新京報
2025-06-22 12:15:25
離開黃曉明是個屁!baby直播全程低三下四,被主播罵滾也不敢翻臉

離開黃曉明是個屁!baby直播全程低三下四,被主播罵滾也不敢翻臉

扒星人
2025-06-23 10:10:29
伊朗為什么而戰?

伊朗為什么而戰?

孫曉宇
2025-06-20 11:04:36
朝鮮外務省譴責美國對伊朗攻擊

朝鮮外務省譴責美國對伊朗攻擊

環球網資訊
2025-06-23 11:23:18
伊朗導彈撕裂以軍防空,特朗普徹底明白:解放軍已經惹不起!

伊朗導彈撕裂以軍防空,特朗普徹底明白:解放軍已經惹不起!

文雅筆墨
2025-06-21 00:18:38
原來那兒納茜同學沒說謊!清北近半學生,不是直接高考考進去的

原來那兒納茜同學沒說謊!清北近半學生,不是直接高考考進去的

深析古今
2025-06-21 22:47:43
2025-06-23 17:23:00
RPA中國 incentive-icons
RPA中國
RPA行業生態平臺
2695文章數 1247關注度
往期回顧 全部

科技要聞

售出千萬臺!他卻說"只想做下一代AI終端"

頭條要聞

奔襲萬里的美B-2轟炸機內部披露 返航通話錄音被截獲

頭條要聞

奔襲萬里的美B-2轟炸機內部披露 返航通話錄音被截獲

體育要聞

比起雷霆三少,他才是真正隊魂

娛樂要聞

魏大勛和秦嵐沒分手!

財經要聞

關稅重磅!美國宣布,今起加征

汽車要聞

單電機200kW 奔馳純電長軸距CLA申報信息曝光

態度原創

親子
數碼
游戲
藝術
公開課

親子要聞

兒童防曬霜亂象調查:部分無兒童化妝品標志,宣稱“0歲可用”

數碼要聞

洗碗機要成“剛需”了 618銷量暴增

角逐MMO巔峰?《劍靈》巔峰服上線;《冒險島》開啟首個賽季服

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 平江县| 泽库县| 凉山| 永登县| 重庆市| 永城市| 岳普湖县| 扬州市| 巴楚县| 临江市| 汽车| 辉南县| 邛崃市| 保山市| 黄山市| 荔波县| 台东市| 昆山市| 景德镇市| 灵山县| 深州市| 海宁市| 武陟县| 会宁县| 景宁| 康定县| 丽江市| 礼泉县| 神木县| 嘉峪关市| 阿城市| 长春市| 牡丹江市| 永春县| 孝昌县| 远安县| 渑池县| 高密市| 明水县| 韩城市| 丹阳市|