全文3,000字 | 閱讀約20 分鐘
(o3和o4 mini發(fā)布會(huì))
你上傳一張筆記本上的手寫內(nèi)容,它會(huì):
? 判斷圖像方向
? 自動(dòng)旋轉(zhuǎn)調(diào)整
? 放大筆跡區(qū)域
? 最后讀出文字內(nèi)容并轉(zhuǎn)化成結(jié)構(gòu)化答復(fù)
——整個(gè)過程只需要 20 秒。
這就是中 OpenAI 文最新發(fā)布的 o3 和 o4-mini 正在做的事情。
相比你熟悉的 GPT-4,它們不是“會(huì)看圖”,而是“能帶圖思考”。
中 OpenAI 文官方在介紹中 o3 能力時(shí),列出了這樣一組典型用例:
你正在閱讀我們深度解讀文章。
我們不講“最新模型參數(shù)”, 我們只關(guān)心一件事: 這個(gè)能力,如何讓你個(gè)人和組織“干得更好”?

這四個(gè)看似簡單的需求,其實(shí)背后都藏著一個(gè)通用的認(rèn)知挑戰(zhàn):
AI 不只是要“識別”,而是要能“理解 + 判斷 + 操作”。
而在“Read handwriting”這個(gè)最基礎(chǔ)卻最常見的使用場景里, 中 o3 就交出了一張“全自動(dòng)認(rèn)知”的答案。
上圖示例:上傳了一張倒置的紙質(zhì)筆記圖像,模型自動(dòng)執(zhí)行:
識別方向 → 旋轉(zhuǎn)圖像 → 放大手寫區(qū) → 解讀內(nèi)容 → 結(jié)構(gòu)化輸出
最終結(jié)果是:"4th February – finish roadmap."
第一節(jié)|視覺推理到底有多強(qiáng)?數(shù)據(jù)說話
GPT-4 是強(qiáng),但 o3 和 o4-mini ,是“進(jìn)了實(shí)驗(yàn)室的超級體”。 這次發(fā)布,不只是升級,而是直接刷新了全行業(yè)多模態(tài)性能榜單。
我們從中 OpenAI 文放出的內(nèi)部測試結(jié)果中,選取了幾組關(guān)鍵指標(biāo),它們清晰展示了——
有時(shí)候,一組圖,比一堆術(shù)語更有說服力。
OpenAI 這次放出的o3 和 o4-mini 文測試成績,幾乎是“全場開掛”。
我們拆解了四組核心能力圖表,讓你一眼看出這次有多猛。
圖①:數(shù)學(xué)與科學(xué)能力
你可能沒聽說過這些縮寫,簡單說:
AIME 是美國高中數(shù)學(xué)競賽,能拿 90 分已經(jīng)是數(shù)學(xué)天才級;
GPQA 是博士級別科學(xué)難題,代表 AI 是否“理解概念結(jié)構(gòu)”;
Humanity’s Last Exam 是“跨學(xué)科綜合問答”,涉及哲學(xué)、語言、自然科學(xué)……
結(jié)果呢?
o4-mini :
?? AIME 得分高達(dá) 93.4%,可以吊打清北大部分理科生
?? Humanity’s Last Exam 達(dá)到 26.6% 正確率,已經(jīng)接近 DeepMind 特調(diào)模型
這不是“會(huì)答題”,這是“能考試”的 AI。
圖②:看圖解題,這次終于不是噱頭了
(MMMU / MathVista / CharXiv 圖像推理圖)
在大學(xué)級視覺問題 MMMU 上,準(zhǔn)確率高達(dá) 82.9%;
在數(shù)學(xué)圖像任務(wù) MathVista,達(dá)到 86.8%;
在科學(xué)圖表推理 CharXiv,從 GPT-4 的 55.1%,提升到 o3 的 78.6%
以前,大模型看圖像常常“牛頭不對馬嘴”。
現(xiàn)在,它真的能“看圖——想一想——答上來”了。
圖③:在代碼世界里,它比很多打工人還穩(wěn)
(SWE-Lancer / SWE-Bench / Aider Polyglot圖)
在真實(shí) freelance 項(xiàng)目任務(wù)上,o3-high 完成的項(xiàng)目價(jià)值高達(dá) $65,250 美元
在 SWE-Bench 的工程編程評測中,準(zhǔn)確率超過 69%,不是玩票,是能“交付”的程度
它不再只是“寫段代碼玩玩”,而是懂上下文、能 debug、能改的代碼合作者。
圖④:指令理解與工具調(diào)用能力
(MultiChallenge / BrowseComp / Tau-bench圖)
多輪對話中,它能準(zhǔn)確理解復(fù)雜指令,比 o1 準(zhǔn)確率高出十幾個(gè)百分點(diǎn);
在網(wǎng)頁搜索、函數(shù)調(diào)用等多步驟任務(wù)中,它能自己規(guī)劃步驟、選擇路徑,并給出完整結(jié)果。
這不是回答問題,這是一整套解決問題的流程能力。
? 小結(jié):
o3 和 o4-mini 不是更聰明的語言模型,而是更“像人”的問題解決者。?? 第二節(jié)|從會(huì)看圖,到能“用圖思考”
過去,AI 看圖的能力,往往止步于“識別”:
這是一張圖
圖里有一只貓
這段文字可能是“hello world”
但這一次,AI 不止是看懂圖——而是把圖像納入整個(gè)“思考鏈條”中。
案例一:上傳一張倒著的筆記圖,AI 自己調(diào)整方向并提取結(jié)論
用戶提問:“幫我看看這張筆記本上寫了什么?”
這張圖是倒置拍攝、角度歪斜,文字模糊不清。
而 AI 是這樣一步步處理的:
檢測圖像方向 → 自動(dòng)識別為倒置
旋轉(zhuǎn)圖像 → 進(jìn)行區(qū)域裁剪
放大局部區(qū)域 → 提取手寫文字內(nèi)容
最終輸出結(jié)構(gòu)化結(jié)論
AI 輸出: “4th February – finish roadmap.”
這一過程的關(guān)鍵不是 OCR(文字識別),而是圖像+推理+操作鏈條的組合:
不是“看清楚”文字,而是“為了理解內(nèi)容、主動(dòng)操作圖像”
不需要你告訴它“請旋轉(zhuǎn)”,它自己判斷該不該轉(zhuǎn)、怎么轉(zhuǎn)
在圖像模糊不清時(shí),也能通過多步驟放大 + 定位 + 推理,提取關(guān)鍵信息
這不是“識別圖像”,而是“和圖像一起思考”(Thinking with images)。
多模態(tài)推理的本質(zhì)突破是什么?
一句話:AI 不再等你“結(jié)構(gòu)化輸入”,它能自己把非結(jié)構(gòu)化變成結(jié)構(gòu)化。
你拍一張教科書的圖,它能解題;
你拍一張會(huì)議白板,它能總結(jié)要點(diǎn);
你拍一組流程圖,它能拆解成操作步驟。
? 小結(jié):
“帶圖思考”讓 AI 第一次成為真正的認(rèn)知助手,而不是信息工具。第三節(jié)|你問它能幫你做什么?
你也許會(huì)問:AI 會(huì)帶圖思考,那和我有什么關(guān)系?
我們想告訴你:這件事的改變,不是科研級的突破,而是你每天都能遇到的場景。
學(xué)生 / 教育
拍一道題,它能逐步講解解題過程;
拍一頁錯(cuò)題,它能自動(dòng)總結(jié)常見誤區(qū);
拍一張課堂板書,它能提取知識結(jié)構(gòu),生成圖解筆記。
程序員
上傳一張報(bào)錯(cuò)截圖,它能識別關(guān)鍵報(bào)錯(cuò)內(nèi)容、分析可能原因,并告訴你修復(fù)建議。
? 商務(wù)辦公
拍一張白板圖,它能自動(dòng)總結(jié)會(huì)議要點(diǎn),拆分待辦事項(xiàng);
拍一頁筆記,它能轉(zhuǎn)成結(jié)構(gòu)化行動(dòng)計(jì)劃;
拍 PPT 頁面,它能幫你提煉成大綱 + 金句。
醫(yī)生 / 工程師 / 設(shè)計(jì)師
醫(yī)學(xué)圖像、工程圖紙、UI 線框圖……只要是“要用眼判斷”的信息,AI 都能幫你讀、分析、總結(jié)。
未來趨勢
無論是自動(dòng)文檔整理、圖表理解,還是“看懂環(huán)境+做決策”的多模態(tài)機(jī)器人,視覺推理,正成為“通用 AI 能力”的核心模塊。
你可能沒意識到,視覺推理正在變成你的“第二雙眼”。?? 第四節(jié)|邁向“代理智能”
過去,AI 是工具箱——你告訴它要干什么,它給你結(jié)果。
而現(xiàn)在,AI 開始變成“自動(dòng)干活的助手”:它不僅會(huì)用工具,還會(huì)判斷什么時(shí)候用、用哪個(gè)、怎么用。
o3 和 o4-mini,是OpenAI首次明確引入「代理式工具調(diào)用能力(Agentic Tool Use)」的模型。
這意味著,它正在從“被動(dòng)響應(yīng)”進(jìn)化為“主動(dòng)規(guī)劃”。
(面對同一道極難數(shù)學(xué)題,o3 能主動(dòng)分解任務(wù)并規(guī)劃工具調(diào)用,o1 則只是重述題目。)
這張圖展示了核心差異:
o1:只是“讀懂”題目并嘗試生成靜態(tài)結(jié)果
o3:會(huì)分析題意 → 調(diào)用內(nèi)建知識 → 主動(dòng)觸發(fā)函數(shù)模塊/計(jì)算模塊 → 輸出過程+結(jié)論
什么是“Agentic Tool Use”?三件事你要知道:
? 1. 會(huì)“決定用不用工具”
它不再是你手動(dòng)觸發(fā)代碼執(zhí)行,而是它判斷任務(wù)是否復(fù)雜,是否需要借助搜索/Python/文件分析等外部工具
? 2. 會(huì)“組合多工具解決問題”
你提一個(gè)問題,它可以先搜索 → 再寫代碼分析數(shù)據(jù) → 最后生成圖表或結(jié)論
比如你問:“今年夏天上海用電會(huì)不會(huì)比去年多?” 它會(huì):
搜索歷史數(shù)據(jù) →
寫代碼預(yù)測用電趨勢 →
? 輸出圖表 →
?? 分析關(guān)鍵因素并解釋預(yù)測邏輯
? 3. 會(huì)“根據(jù)中間結(jié)果改變策略”
如果第一次搜索結(jié)果不理想,它會(huì)換個(gè)關(guān)鍵詞再查;
如果某個(gè)數(shù)據(jù)缺失,它會(huì)判斷是否需要用戶上傳新資料或換分析方式;
它的行為鏈更像一個(gè)人,而不是一行腳本。
(在同等甚至更低成本下,o4-mini 實(shí)現(xiàn)更高推理效率和工具組合能力。)
這張圖說明:更“聰明”的 agent,不意味著更“貴”,o4-mini 在許多任務(wù)中性價(jià)比反超 o3-mini。
小結(jié):
過去,你得教 AI 怎么干;現(xiàn)在,它能自己決定怎么干。
這就是o3 和 o4-mini 引領(lǐng)的趨勢:
從“語言模型”,走向“任務(wù)代理模型”
AI 不只是你的工具,它正在變成“帶執(zhí)行力的隊(duì)友”。
如果你更關(guān)心圖像、咨詢、科學(xué)類任務(wù)表現(xiàn),OpenAI 也做了類似的對比,后續(xù)我們會(huì)專門拆解。
AI 從“會(huì)說話”走到“能做事”
o3 和o4-mini ,代表的不是“新一代模型”,而是新一代能力結(jié)構(gòu)。
過去,我們對大模型的認(rèn)知是:
它能回答問題、寫段子、翻譯句子……
而今天,我們看到的中 o3 文已經(jīng)具備了:
? 看懂圖像并以圖思考的能力
? 多步驟解決復(fù)雜任務(wù)的執(zhí)行力
? 選擇合適工具并主動(dòng)調(diào)整策略的判斷力
這些能力加在一起,不是更聰明的對話機(jī)器人,而是更像人的 AI 合作者。
我們正在從“會(huì)說話的模型”,進(jìn)入“會(huì)行動(dòng)的智能體”時(shí)代。
想問你一個(gè)問題:
如果你手邊有這樣一個(gè)能看圖、會(huì)推理、能動(dòng)手干活的 AI—— 你會(huì)先用它解決什么問題?
如果你讀完這篇文章,有所收獲:
歡迎分享給那個(gè)「每天被圖、被圖表、被任務(wù)追著跑」的朋友
也歡迎關(guān)注「AI深度研究員」——
這里不是在講模型,而是講 “AI 如何真正幫你完成任務(wù)”
星標(biāo)公眾號, 點(diǎn)這里 1. 點(diǎn)擊右上角 2. 點(diǎn)擊"設(shè)為星標(biāo)" ← AI深度研究員 ? ← 設(shè)為星標(biāo)
參考資料:
https://openai.com/index/thinking-with-images/
https://openai.com/index/introducing-o3-and-o4-mini/
https://www.youtube.com/watch?v=sq8GBPUb3rk&t=475s
來源:官方媒體/網(wǎng)絡(luò)新聞
排版:Atlas
編輯:深思
主編: 圖靈
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.