99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

OpenAI發布最強推理模型o3和o4-mini:圖像深度思考首秀,還能自主調用工具

0
分享至

文 | 蘇揚 金鹿

轉載自 | 騰訊科技(ID:qqtech)

北京時間4月17日凌晨,OpenAI 發布了兩款突破性AI模型——o3和o4-mini,它們能通過圖像進行推理,并可自主調用多種工具,被專家稱為人工智能能力的一次飛躍式提升。


這兩款模型都是OpenAI “o 系列” 推理模型的最新成員,經過訓練后,它們可在響應前進行更長時間的思考。同時,它們也是OpenAI迄今發布的最智能、最強大的模型。

這些推理模型可以自主組合并使用ChatGPT內的所有工具——包括網頁搜索、利用Python分析上傳的文件和數據、對視覺輸入進行深入推理,甚至還能生成圖像。

最重要的是,這些模型不僅能判斷何時使用工具,還能決定如何使用工具,從而以正確的輸出格式,在一分鐘內給出經過深思熟慮的詳細回答,幫助解決更復雜的問題。

這意味著它們能更高效地應對多層次、多步驟的問題,讓ChatGPT具備“自主執行任務”的能力。將頂級推理能力與完整工具訪問權限結合在一起,讓這些新模型在學術評測和實際任務中的表現都有了顯著提升。

Sam Altman在X上引述內測用戶、免疫學專家Derya Unutmaz對o3模型的評價,稱其“近乎天才水準”。



性能提升

OpenAI聲稱, o3是其迄今推出的最強大推理模型,在編程、數學、科學、視覺理解等多個領域均取得了突破性進展。它在多項基準測試中都創下新紀錄,包括Codeforces、SWE-bench和MMMU。


OpenAI新模型o3和o4-mini等在數學競賽、編程、指令遵循和工具調用方面的表現

這款模型非常適合需要多維度分析、答案并不直觀的復雜查詢,在視覺任務(如圖像、圖表和圖形分析)中表現尤為突出。

根據外部專家的評估,在現實世界的高難度任務中,o3的重大錯誤率比OpenAI o1降低了20%,在編程、商業/咨詢和創意構思等領域表現也很出色。早期測試者稱其為具有極高分析能力的“思考伙伴”,尤其擅長在生物學、數學和工程領域提出并評估全新的假設。

與o3相比,OpenAI o4-mini是一款更小巧、但高效能的推理模型,專為快速、成本友好的應用場景而優化。在數學、編程和視覺任務上,它展現出了驚人的性價比。o4-mini是AIME 2024和AIME2025基準測試中表現最好的模型之一。

在專家評估中,o4-mini在非STEM任務(科學、技術、工程、數學)上的表現超越了o3-mini。憑借出色的計算效率,o4-mini支持比o3更高的使用頻率,使其成為需要推理能力的高頻、高吞吐量場景的理想選擇。

外部專家評估認為,得益于智能水平的提升和網絡信息的引入,這兩款模型在遵循指令和提供更有用、可驗證的回答方面均優于前代模型。與此前的推理模型相比,它們的對話體驗也更加自然,尤其是在引用記憶和過往對話時,能夠提供更個性化、更相關的回答。

持續擴展強化學習能力

在OpenAI o3的開發過程中,OpenAI發現大規模強化學習(RL)呈現出與GPT系列預訓練 相同的規律——“計算量越大,性能越強”。

同時,模型在被允許“思考”得越久,表現就越好。

在相同延遲和成本條件下,o3在ChatGPT中的表現優于o1。同時,如果允許模型進行更長時間的思考,它的表現還會進一步提升。

OpenAI通過強化學習訓練這兩款模型如何使用工具,還讓它們學會判斷何時使用工具,從而在開放式任務中表現更出色,尤其是在視覺推理和多步驟工作流程任務中。

首次實現圖像思維鏈整合


在上述示例中,OpenAI首次展示了其模型如何將圖像直接整合進推理思維鏈中。模型不僅能“看到”圖像,更能“用圖像進行思考”。這一突破實現了視覺與文本推理的深度融合,使其在多模態基準測試中達到最先進水平。

用戶可以上傳照片,比如:白板內容、教科書里的圖示,甚至是手繪草圖,模型都能理解它們。即使圖像存在模糊、倒置或低質量的情況,模型仍能準確解析。

結合工具調用能力,模型還能在推理過程中即時操控圖像,比如旋轉、縮放、格式轉換等,讓圖像處理成為其思考的一部分。

這些模型在視覺感知任務中表現出業界領先的準確率,能解決過去難以應對的問題。

自主完成工具調用

OpenAI 的o3和o4-mini模型在ChatGPT中擁有對所有工具的完整訪問權限,開發者還可以通過API中的函數調用功能接入自定義工具。

例如,當用戶提出“與去年相比,加州今年夏天的能源使用情況有何變化?”這個問題時,模型可以執行一連串工具調用:搜索公共能源數據、編寫Python代碼進行預測、生成圖表或圖像,并解釋預測背后的關鍵因素。

通過推理,它可以根據新獲取的信息靈活應變,例如多次搜索不同關鍵詞、分析結果、再嘗試新的搜索策略。

這種靈活、策略性較強的方式,使模型能夠完成那些超出其內部知識、需要實時信息、跨模態推理與綜合輸出的復雜任務。

性價比

OpenAI稱o3和o4-mini在很多情況下,它們都比各自的前代o1與o3-mini更高效,也更節省成本。在AME2025基準測試中,性價比都遠遠超過前代模型。


價格方面,OpenAI o3的輸入為每100萬個tokens收費10美元,緩存輸入為每100萬個tokens收費2.5美元,輸出為每100萬個tokens收費40美元。


OpenAI o4-mini的輸入為每100萬個tokens收費1.1美元,緩存輸入為每100萬個tokens收費0.275美元,輸出為每100萬個tokens收費4.4美元。

安全性

對于o3和o4-mini,OpenAI全面重構了安全訓練數據集,新增了針對生物威脅(生物風險)、惡意軟件生成、越獄提示等領域的拒絕示例,讓兩個模型在其內部安全拒絕基準測試中表現優異,例如在指令層級理解和越獄防護上都展現出強大的防護能力。

除了模型自身的表現外,OpenAI還開發了系統層面的風險緩解機制,用于識別和標記涉及前沿風險領域的危險提示。

例如,該公司訓練了一個基于推理的語言模型監控器,能夠依據人類編寫的可解釋安全規范進行判斷。在生物風險的紅隊測試中,該監控器成功識別并標記了約99%的高風險對話。

OpenAI對這兩個模型進行了迄今為止最嚴格的安全測試,按照最新的 《準備度框架》(Preparedness Framework)標準,對其在以下三個能力領域進行了評估:

——生物與化學風險

——網絡安全

——AI 自我改進能力

根據評估結果,o3與o4-mini在上述所有領域均處于“低風險”級別(低于框架中設定的“高”風險閾值)。

全新實驗項目Codex CLI

OpenAI還發布了一個全新的實驗項目:Codex CLI —— 一款輕量級的編程智能體,專為最大化o3和o4-mini等模型的推理能力而設計,并即將支持GPT-4.1等更多API模型。

用戶可以直接從命令行體驗多模態推理,比如向模型傳遞截圖或低保真草圖,結合本地代碼環境,讓模型參與解決實際編程任務。

OpenAI將Codex CLI視為一種最簡約的界面,用于將強大的AI模型與用戶的計算機無縫連接。

OpenAI首席執行官山姆·奧特曼發帖稱:“o3和o4-mini非常擅長編碼,所以我們發布了一個新產品Codex CLI,讓它們更容易使用。這是一個在用戶計算機上運行的編程智能體。它是完全開源的,現在就可以使用;我們希望它能迅速改進。”


同時,OpenAI也啟動了一個總額100萬美元的資助計劃,專門支持使用Codex CLI和OpenAI模型的項目。每個項目將以2.5萬美元等值的API使用額度發放。

如何使用o3與o4-mini

從4月17日開始,ChatGPT Plus、Pro和Team用戶將在模型選擇器中看到o3、o4-mini和o4-mini-high,它們將取代之前的o1、o3-mini和o3-mini-high。ChatGPT Enterprise和Edu用戶將在一周后獲得訪問權限。

免費用戶可以在撰寫查詢前點擊 “Think” 按鈕,嘗試 o4-mini的推理能力。

此外,OpenAI計劃在未來幾周推出支持全部工具功能的OpenAI o3-pro。

與此同時,o3和o4-mini也將通過Chat Completions API和Responses API向開發者開放,部分開發者可能需驗證組織身份。

Responses API提供支持推理摘要、保留函數調用上下文以提升性能的能力,未來還將支持內置工具(如網頁搜索、文件檢索和代碼解釋器)。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
被控行賄950萬!52歲央視名嘴段暄時隔2年露面 滿頭白發致敬穆勒

被控行賄950萬!52歲央視名嘴段暄時隔2年露面 滿頭白發致敬穆勒

我愛英超
2025-05-11 15:03:55
母親節s媽發文,曬多張大s和具俊曄未公開照片 ,大s美,具俊曄老

母親節s媽發文,曬多張大s和具俊曄未公開照片 ,大s美,具俊曄老

二月侃事
2025-05-11 16:37:49
小米退車風波發酵!車主眾籌120萬請律師硬剛,雷軍回應風波!

小米退車風波發酵!車主眾籌120萬請律師硬剛,雷軍回應風波!

古希臘掌管松餅的神
2025-05-11 16:18:15
幾十塊和幾百塊的T恤:到底差哪?別只看價格!內行教你一眼辨別

幾十塊和幾百塊的T恤:到底差哪?別只看價格!內行教你一眼辨別

時尚搭配師Nicole
2025-05-11 15:02:23
華發集團曝出軌, 女客服知三當三,男主管:不用洗,坐我臉上蹭

華發集團曝出軌, 女客服知三當三,男主管:不用洗,坐我臉上蹭

社會醬
2025-05-11 10:15:07
暴利!重慶一高?;?5萬采購一臺路由器,網上同型號只賣150塊

暴利!重慶一高校花85萬采購一臺路由器,網上同型號只賣150塊

小蘿卜絲
2025-05-11 08:32:40
突發!蘋果商店下架國家反詐中心APP

突發!蘋果商店下架國家反詐中心APP

新浪財經
2025-05-11 12:22:12
50架飛機全退?美要中國承擔百億違約,2國背刺,中方硬氣亮劍

50架飛機全退?美要中國承擔百億違約,2國背刺,中方硬氣亮劍

帝王崛起
2025-05-11 12:35:08
iPhone 16 Pro系列降價促銷,京東支持國補最高直降2500元

iPhone 16 Pro系列降價促銷,京東支持國補最高直降2500元

環球網資訊
2025-05-11 12:11:31
確認裁員了,很嚴重,大家提前做好準備吧!

確認裁員了,很嚴重,大家提前做好準備吧!

地產人言
2025-05-11 18:09:13
99年北京一男子花500萬入股中國人壽,18年后,分紅把他嚇住了

99年北京一男子花500萬入股中國人壽,18年后,分紅把他嚇住了

紅豆講堂
2025-05-09 14:26:45
85歲大爺臥病后才明白:不靠子女,存錢自己養老,是最愚蠢的決定

85歲大爺臥病后才明白:不靠子女,存錢自己養老,是最愚蠢的決定

烙任情感
2025-05-10 19:56:08
國產機擔心的事果然來了:iPhone16 Pro降價2000,國補后5499元

國產機擔心的事果然來了:iPhone16 Pro降價2000,國補后5499元

互聯網.亂侃秀
2025-05-11 09:42:54
13秒23!徐卓一世界田聯巡回賽男子110米欄奪冠,成績達標世錦賽

13秒23!徐卓一世界田聯巡回賽男子110米欄奪冠,成績達標世錦賽

直播吧
2025-05-11 17:52:10
“花75萬元采購市價299元產品”,重慶三峽學院回應

“花75萬元采購市價299元產品”,重慶三峽學院回應

界面新聞
2025-05-11 15:46:35
月薪九千胖東來殺魚姐離職后悔了,她沒想到自己只是捆螃蟹的繩子

月薪九千胖東來殺魚姐離職后悔了,她沒想到自己只是捆螃蟹的繩子

漣漪讀史
2025-05-11 18:30:59
14名北大學生聯合報案,已告破!

14名北大學生聯合報案,已告破!

新京報政事兒
2025-05-11 16:24:15
嘆息!字節跳動最悲慘的高管今日離職!

嘆息!字節跳動最悲慘的高管今日離職!

挖掘機007
2025-05-11 14:55:32
印巴?;鹎鞍胄r,巴鐵遭受開戰來最大損失:5名空軍飛行員陣亡

印巴?;鹎鞍胄r,巴鐵遭受開戰來最大損失:5名空軍飛行員陣亡

說天說地說實事
2025-05-11 18:26:05
一男子在35樓大廈擦玻璃被男孩割斷安全繩,父母看到孩子死相崩潰

一男子在35樓大廈擦玻璃被男孩割斷安全繩,父母看到孩子死相崩潰

懸案解密檔案
2025-05-10 11:18:43
2025-05-11 21:44:49
直面派 incentive-icons
直面派
講述值得講述的真實故事
148文章數 217關注度
往期回顧 全部

科技要聞

首款折疊屏iPhone,有新消息!

頭條要聞

兩名連襟騎手先后猝死 軟件顯示生前3天每日工作超11小時

頭條要聞

兩名連襟騎手先后猝死 軟件顯示生前3天每日工作超11小時

體育要聞

分手7年之后,漢堡終于原諒了德甲

娛樂要聞

陳曉東吐槽權志龍演唱會 說實話遭圍攻

財經要聞

重慶一家人把755億巨債留給了股民

汽車要聞

空間表現是優勢 極狐T1將于5月底正式亮相發布

態度原創

健康
家居
本地
游戲
藝術

唇皰疹和口腔潰瘍是"同伙"嗎?

家居要聞

整潔寬敞 黑白木色拼接

本地新聞

非遺里的河南|汴梁鳶舞千年韻!宋室風箏藏多少絕活

手游吃瓜周報:棕色塵埃2被迫升級18+?米哈游大動作不斷

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 敖汉旗| 荆门市| 恩平市| 新干县| 建始县| 和田县| 汤阴县| 新野县| 辽阳县| 高雄市| 哈巴河县| 沅陵县| 延寿县| 大余县| 崇左市| 濮阳市| 和政县| 英超| 哈密市| 南靖县| 拉孜县| 浠水县| 射阳县| 哈尔滨市| 景谷| 双江| 康定县| 迁西县| 江门市| 石狮市| 湛江市| 砀山县| 长子县| 宜丰县| 连城县| 教育| 新野县| 定日县| 莱州市| 宜昌市| 汶上县|