會聊天的 AI,我們已經(jīng)見多了。能干實事的 AI,才剛剛開始登場。
昨晚,OpenAI 一口氣發(fā)布兩款新模型:o3和o4-mini,沒有等 GPT-5,沒有開發(fā)布會,更沒有宣傳大模型參數(shù)。它們的重點不是“更強”,而是“更能干”。
這次更新的信號很明確:AI,不再只是回答你,而是能理解問題 → 分析路徑 → 自選工具 → 自己動手。AI 正在從“陪聊型選手”,轉(zhuǎn)向“動手型搭子”。
GPT-5 沒來,但 OpenAI 先放出更關(guān)鍵的東西
原本,o3 是為 GPT-5 準備的旗艦?zāi)K。但面對開發(fā)者對“能解決問題的 AI”需求高漲,OpenAI 做了一個戰(zhàn)略決策:不等了,單發(fā)出場。
于是我們迎來了這組“雙子星”模型:
o3:面向?qū)I(yè)場景的旗艦?zāi)P停评砟芰︼@著增強。
o4-mini:輕量級版本,主打性價比,每百萬 tokens 僅 $1.10,遠低于 Claude 和 Gemini 等主流模型。
更關(guān)鍵的是,它們都秉持 OpenAI 近幾輪的核心思路:從語言模型,向任務(wù)代理模型進化。
真·能干活的 AI,到底長什么樣?
如果你想知道“動手型 AI”到底哪不一樣,可以看這些新特性:
-高級推理:不再死記硬背,而是像人一樣“邊想邊修”。通過強化學(xué)習(xí)優(yōu)化后的推理路徑更完整、可追溯,尤其在需要深度邏輯思維的任務(wù)上,性能相比前代 o1 有了顯著提升。
-看圖理解:不只是“看懂圖”,而是能將圖表、草圖、演示稿中的信息納入推理鏈路。這是 OpenAI 推理模型首次具備真正的圖像參與式理解能力。
你可以上傳圖片,例如白板筆記、圖表或模糊掃描件,模型不僅能分析、放大、旋轉(zhuǎn)圖像,還能基于圖中信息進行推理。在一次直播演示中,o3 成功解析了一張科學(xué)研究海報,通過瀏覽相關(guān)文獻、放大特定區(qū)域,推斷出圖像中未直接呈現(xiàn)的結(jié)論。
這類能力顯著增強了 AI 在教育、科研和技術(shù)分析等場景下的實用性。
- 自動選工具:不等你下指令,它能自行決定是要瀏覽網(wǎng)頁、執(zhí)行代碼、生成圖像,還是解釋文件——這是真正意義上的“任務(wù)代理”。
o3 與 o4-mini 首次具備了在 ChatGPT 中自主調(diào)用多個工具的能力,包括:網(wǎng)頁瀏覽、Python 代碼執(zhí)行、圖像處理與生成、文檔解析等
當你交代一個復(fù)雜任務(wù)時,模型可以根據(jù)上下文自行“組裝”解決路徑。例如,遇到編碼問題時,o3 能直接在 ChatGPT 的代碼畫布中編寫、執(zhí)行并調(diào)試 Python 腳本,大幅簡化開發(fā)者的工作流程。
-編程副駕:發(fā)布了本地工具 Codex CLI,直接在命令行里和你并肩寫代碼、調(diào) bug、跑腳本。
-成本大幅下降,高級模型不再高不可攀:如果說 o3 面向的是高階用戶,那 o4-mini 則是一次真正的“成本革命”。
它的 API 定價僅為每百萬輸入 token$1.10、輸出$4.40,相比 o3 的 10/40 美元,價格下降了近九成,同時也對 DeepSeek R1(0.14 / 2.19 美元)等性價比模型發(fā)起正面競爭。
從今年初的 o3-mini 起,OpenAI 就在試圖“把高級推理拉下神壇”。如今的 o4-mini,正是這場策略的延續(xù) ——讓開發(fā)者和普通用戶都能以低門檻接入高能力 AI。
?Kevin點評:別再問 AI 能做什么,要看它值不值得天天用。
這些能力的本質(zhì),不是某項技術(shù)點的大爆發(fā),而是整套系統(tǒng)向“任務(wù)代理協(xié)作系統(tǒng)”的方向邁出的一大步。
推理戰(zhàn)爭,已經(jīng)開打了
眼下,各家模型都在比“誰能干更多事”,但其實本質(zhì)都在卷一件事:推理能力到底能不能落地?
-DeepSeek靠 R1 拼性價比,吸開發(fā)者。
-Gemini把多模態(tài)和搜索生態(tài)打包說事。
-Meta押注開源,試圖全域覆蓋。
而 OpenAI 的組合打法很清晰:
一邊用 o3 占領(lǐng)高階場景,
一邊用 o4-mini 放低門檻爭取開發(fā)者和大眾用戶,
再搭配 Codex CLI 等工作流級工具,逐步筑起“閉環(huán)生態(tài)”。
而且官方還透露:后續(xù)將推出推理能力極強的開源模型。
?Kevin點評:它不是不告訴你答案,而是先判斷你為啥問。AI 的“人味”,從這一刻開始。
這是一次對“開源陣營”的正面宣戰(zhàn),也是在為整個 AI 社群重新立標桿。
類人協(xié)作,成了新階段起點
在性能測試上,o3 和 o4-mini 也確實給出了不俗表現(xiàn):
數(shù)學(xué) / 科學(xué)類推理測試,顯著優(yōu)于前代 GPT-4。
GitHub 編程題準確率達 70%,超越 Claude 3.7。
ARC-AGI 測試得分高達 87.5%,超過人類平均水平。
但更值得注意的是,它們的“行為模式”也發(fā)生了結(jié)構(gòu)性變化。
OpenAI 引入了新的“審慎對齊(Cautious Alignment)”機制——模型不再簡單“拒絕回答”,而是會評估你的意圖,判斷是否協(xié)助。更像一個“理性判斷的同事”,而不是“機械的客服”。
這固然更接近人類,但也開啟了一輪新問題:模型是否會“想太多”?開放性是否變差?黑箱風險是否加劇?
現(xiàn)在沒有標準答案,但可以確定的是——AI 的“參與感”正在增強。
最后說句現(xiàn)實的
不管你是程序員、教師、研究員,還是內(nèi)容創(chuàng)作者,這波更新都值得親測。
現(xiàn)在,o3 和 o4-mini 已全面開放,首次實現(xiàn)“強模型 + 低門檻”的雙重突破。
你可以通過 ChatGPT 使用(Plus、Pro 和 Team 用戶直接可選),也可以通過 API 接入開發(fā),甚至免費用戶也能有限體驗 o3-mini,未來 o4-mini 也可能下放。
? Kevin點評:從“高價嘗鮮”到“低門檻上手”,這次模型升級真正打通了“能用”與“常用”之間的鴻溝。
比起 GPT-4 的“全能+高價”,o3 和 o4-mini 更明確地告訴你:
我能做什么、做得多好、你花多少錢。
這才是 AI 工具成為“日常搭子”的分水嶺,也是一場推理競賽的新起點。
你最近在用哪款 AI 模型?
你覺得 o3 和 o4-mini 夠“動手”了嗎?歡迎評論區(qū)聊聊你真實的使用感受。
本文由「AI 范兒」出品
我每天都在更新,如果你覺得這些內(nèi)容對你有用,
那我們就加個關(guān)注、交個朋友。
點這里關(guān)注我,記得標星哦~
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.