作者|沐風(fēng)
來源|AI先鋒官
就在今天凌晨,OpenAI以一場20分鐘的極簡直播發(fā)布了滿血版o3和o4-mini。
o3滿血版和o4-min的登場,堪稱視覺推理領(lǐng)域的一次革命。
它首次實(shí)現(xiàn)了“用圖像思考”,將圖像推理與思維鏈相結(jié)合,這種能力使得模型可以像人類一樣從圖表、圖形,甚至是對圖像中提取信息、進(jìn)行深度推理并解決問題。
老規(guī)矩,先看性能。
據(jù)最新測試結(jié)果,o3和o4-mini(無工具版本)在AIME 2024數(shù)學(xué)競賽題目中的準(zhǔn)確率分別達(dá)91.6%和93.4%。
一旦允許它調(diào)用Python,o3準(zhǔn)確率就飆到95.2%,而o4-mini則沖到98.7%。
另外,在AIME 2025中,o4-mini配合Python解釋器取得了99.5%高分,幾乎滿分拿下這項(xiàng)基準(zhǔn)測試。
在Codeforces編程競賽評分中,o3和o4-mini得分均超2700分,顯示出在復(fù)雜數(shù)學(xué)與代碼任務(wù)中的強(qiáng)大推理與執(zhí)行能力。
再來看PhD級科學(xué)題(GPQA Diamond)和專家級綜合測試(Humanity’s Last Exam),無需額外工具時,o3在科學(xué)題上能以 83.3%稍微領(lǐng)先于o4-mini的81.4%。
而面對專家綜合考題,不帶插件的o3準(zhǔn)確率約為20.3%,添上Python、網(wǎng)絡(luò)瀏覽甚至調(diào)用多種工具后能推到24.9%。
相比之下,不帶插件的o4-mini為14.3%,但借助插件也僅為17.7%,不及o3。
我們再來看看MMMU、MathVista、CharXiv-Reasoning三個數(shù)據(jù)集。
在大學(xué)級別的MMMU數(shù)據(jù)集上,o3直接達(dá)到了82.9%,o4-mini為81.6%,而o1在只拿到了77.6%,
面對直觀的MathVista,o1只有71.8%,o3則直接沖到87.5%。
在CharXiv-Reasoning上,o3更是遠(yuǎn)超o1的55.1%,拿到了75.4%。
不得不說,這次o3滿血版和o4-mini將視覺推理能力推到了一個全新的高度。
不過,這個成績的代價是,需要投入o1十倍以上的算力。
從今天起,Plus、Pro和Team用戶將第一時間體驗(yàn)到o3、o4-mini和o4-mini-high,它們將取代o1、o3-mini和o3-mini-high。
同時,這兩款模型也將通過Chat Completions API和Responses API,向所有開發(fā)者提供。
在定價上,o3比o1的定價便宜了三分之一,o4-mini相比o3-mini沒漲價。
與o1相比,o3和o4-mini不僅支持了OpenAI的所有工具,還新添了一個特性“視覺推理”。
接下來,我們重點(diǎn)來了解一下視覺推理。
o3和o4-mini可以將圖像直接整合到他們的思維鏈中。
他們不僅看到圖像,還可以隨圖像一起思考。它融合了視覺和文本推理,解鎖了一類新的問題解決方式。
用戶上傳照片、教科書圖表或手繪草圖后,模型可以對其進(jìn)行解釋,即使圖像模糊、顛倒或質(zhì)量低下,模型也能放大看清細(xì)節(jié)。
我們來看幾個示例(注:所有示例均使用o3完成):
比如,一個放在桌子上幾乎與視線平行的筆記本,上面有兩行倒置且模糊的字,問他“筆記本上寫了什么?”
或者再讓他解決圖片中的問題。
或閱讀標(biāo)志。
另外,最新的視覺推理模型還可以與 Python 數(shù)據(jù)分析、網(wǎng)絡(luò)搜索、圖像生成等其他工具協(xié)同工作,以創(chuàng)造性和有效地解決更復(fù)雜的問題。
如:走迷宮示例。
查找活動日期。
不難看出,視覺推理讓AI具備了在一種專業(yè)場景下的觀察力,這也意味著很多原本需要人眼判斷的崗位,會被徹底改寫。
除了模型本身,OpenAI 這次還開源了一個新工具“Codex CLI”。一個可以直接在終端(terminal)運(yùn)行的輕量級AI編程助手,支持調(diào)用 o3 和 o4-mini 等模型。
開源地址:
https://github.com/openai/codex
OpenAI還透露將在數(shù)周內(nèi)推出 o3-pro,提供更全面的工具支持。
掃碼邀請進(jìn)群,我們帶你一起來玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學(xué)一些AI搞錢技能。
往期文章回顧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.