OpenAI 今日發布兩款新型 AI 推理模型:o3——該公司稱其為「最強大的推理模型」,以及 o4-mini——一款更小巧、更快速的模型,「以其尺寸和成本實現了卓越性能」。
OpenAI 稱,o3 是其迄今為止最先進的推理模型,在數學、編程、推理、科學和視覺理解能力的測試中表現優于公司之前的模型。與此同時,o4-mini 提供了 OpenAI 所說的在價格、速度和性能之間的競爭力平衡。
o3 和 o4-mini 將具備「圖像思維」能力,即能夠「將圖像直接融入其思維鏈中」。OpenAI 稱,這些模型還能在推理過程中通過放大或旋轉圖像來調整畫面。
OpenAI 宣布其推理模型將能夠使用所有 ChatGPT 工具,如網絡瀏覽、Python 代碼執行、圖像處理及圖像生成。這些工具今日起面向 ChatGPT Plus、Pro 及 Team 用戶開放,適用于 o3、o4-mini 和 o4-mini-high 版本,并將在「幾周內」登陸 o3-pro 版本。(o1、o3-mini 及 o3-mini-high 版本將逐步從這些層級中淘汰。)
定價較 o1 同檔大幅下降(o3?mini 對 o1?mini 便宜 63%)。
在 API 中,o4-mini 和 o3 提供 200,000 個 token 的上下文窗口,最多 100,000 個輸出 token,知識截止日期為 2024 年 6 月 1 日
Sam Altman 表示,o3 和 o4-mini 可能是 ChatGPT 在 GPT-5 之前的最后獨立 AI 推理模型。GPT-5 是該公司宣稱將統一傳統模型(如 GPT-4.1)與其推理模型的新一代產品。
o3 和 o4-mini 現已通過 Chat Completions API 和 Responses API 向開發者開放(部分開發者需驗證其組織身份以訪問這些模型)。
點擊關注,每天更新深度 AI 行業洞察
01評測成績繼續刷新榜單記錄
o3 在 Codeforces、SWE-bench 和 MMMU 等基準測試中創下了新的 SOTA 記錄。它特別適合需要多角度分析且答案可能并非顯而易見的復雜查詢。在視覺任務方面,如分析圖像、圖表和圖形,o3 表現尤為出色。根據外部專家的評估,在困難的現實世界任務中,o3 比 OpenAI o1 減少了 20% 的重大錯誤——尤其在編程、商業/咨詢和創意構思等領域表現卓越。
OpenAI o4-mini 是一款專為快速、經濟高效的推理而優化的輕量級模型——憑借其小巧的體積和低廉的成本,在數學、編程及視覺任務中展現出卓越性能。在 AIME 2025 基準測試中,當配備 Python 解釋器時,o4-mini 以 99.5% 的成績近乎完美地突破了該測試上限。專家評估還顯示,其在非 STEM 領域和數據科學等任務上的表現也超越了前代產品 o3-mini。得益于高效設計,o4-mini 支持比 o3 顯著提升的使用頻率上限,成為需要復雜推理場景下理想的高吞吐量解決方案。
本次的兩款模型效率通常也超越了前代產品 OpenAI o1 和 o3-mini。以 2025 年 AIME 數學競賽為例,o3 在性價比邊界上全面優于 o1,同樣地,o4-mini 的邊界表現也顯著超越 o3-mini??傮w而言,在大多數實際應用場景中,o3 和 o4-mini 將分別比 o1 和 o3-mini 更智能且成本更低。
02
錄首批使用圖像思考的模型
OpenAI 宣稱o3 和 o4-mini 是其首批能夠「用圖像思考」的模型。實際應用中,用戶可向 ChatGPT 上傳圖片,如白板草圖或 PDF 中的圖表,模型會在「思維鏈」階段分析這些圖像后再作答。得益于這一新能力,o3 和 o4-mini 能理解模糊和低質量的圖像,并在推理過程中執行放大或旋轉圖像等操作。
它能無縫結合高級推理與網絡搜索、圖像處理等工具——自動縮放、裁剪、翻轉或優化圖片——甚至能從有缺陷的照片中提取洞見。例如,用戶可以上傳經濟學習題集的照片獲取逐步解析,或分享構建錯誤的截圖迅速獲得根本原因分析。
OpenAI 在多樣化的人類考試和機器學習基準上測試了 OpenAI o3 和 o4-mini。這些新型視覺推理模型在所有測試的多模態任務中均顯著超越前代產品。
03
會自主使用工具
OpenAI 的 o3 和 o4-mini 模型能夠完全訪問 ChatGPT 內的工具,并通過 API 中的函數調用使用用戶自定義的工具。這些模型經過訓練,能夠推理解決問題的方法,選擇何時以及如何使用工具,快速生成詳細且深思熟慮的答案,通常在一分鐘內完成,并以正確的輸出格式呈現。
例如,用戶可能會問:「加州夏季能源使用量與去年相比會如何?」模型可以搜索網絡獲取公共事業數據,編寫 Python 代碼構建預測,生成圖表或圖像,并解釋預測背后的關鍵因素,將多個工具調用串聯起來。推理能力使模型能夠根據需要對其遇到的信息做出反應和調整。例如,它們可以在搜索提供商的幫助下多次搜索網絡,查看結果,并在需要更多信息時嘗試新的搜索。
04
強化學習的 Scaling Law
在 OpenAI o3 的開發過程中,OpenAI 觀察到大規模強化學習展現出與 GPT 系列預訓練相同的「計算量越大=性能越好」趨勢。通過重新探索擴展路徑——這次是在強化學習領域——將訓練計算量和推理時的思考量都提升了一個數量級,但依然能看到明顯的性能提升,這驗證了模型性能會隨著思考時間的增加而持續進步。在與 OpenAI o1 相同的延遲和成本下,o3 在 ChatGPT 中提供了更高的性能——而且已經驗證,如果讓它思考更長時間,其性能還會繼續攀升。
OpenAI 還通過強化學習訓練了兩種模型使用工具的能力——不僅教會它們如何使用工具,還教會它們推理何時使用工具。它們根據預期結果部署工具的能力,使它們在開放式情境中表現更出色,尤其是在涉及視覺推理和多步驟工作流程的情況下。據早期測試者反饋,這一改進既體現在學術基準測試中,也體現在實際任務中。
05
Codex CLI:終端推理工具
Codex CLI,一個可以從終端運行的輕量級編碼代理。它直接在您的計算機上運行,它能將自然語言轉化為可運行的代碼,旨在最大化 o3 和 o4-mini 等模型的推理能力,并即將支持 GPT-4.1?等更多 API 模型。
OpenAI 的一位發言人向 TechCrunch 表示:「Codex CLI 是一款輕量級、開源的編碼代理,可在您的終端本地運行?!蛊淠繕耸恰笧橛脩籼峁┮粋€極簡、透明的界面,直接將模型與代碼和任務聯系起來?!?/p>
用戶可以通過命令行將截圖或低保真草圖傳遞給模型,并結合本地代碼訪問,獲得多模態推理的優勢。OpenAI 將其視為連接我們的模型與用戶及其計算機的最小界面。Codex CLI 現已完全開源,請訪問 github.com/openai/codex?。
轉載原創文章請添加微信:founderparker
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.