剛剛，o4-mini發(fā)布！OpenAI史上最強、最智能模型

2025-04-17 14:17:53　來源: RPA中國

北京舉報

分享至

今天凌晨1點，OpenAI進行了技術(shù)直播，發(fā)布了最強、最智能模型o4-mini和滿血版o3。

o4-mini和o3是兩款多模態(tài)模型，能同時處理文本、圖像和音頻，并且能作為Agent智能體自動調(diào)用網(wǎng)絡(luò)搜索、圖像生成、代碼解析等工具以及深度思考模式（思維鏈中可以思考圖像）。

根據(jù)OpenAI公布的測試數(shù)據(jù)顯示，o4-mini在AIME2024和2025中，分別達到了93.4%和92.7%，比滿血版o3還強，成為目前準確率最高的模型；在Codeforces測試中達到了2700分，成為全球前200名最強程序員。

完整直播視頻

o3和o4-mini簡單介紹

傳統(tǒng)大模型往往局限于對輸入數(shù)據(jù)的直接處理和生成輸出結(jié)果，而OpenAI首次賦予o3 和 o4-mini調(diào)用外部工具的能力。

在訓(xùn)練過程中，模型不僅學習如何生成文本，還學習如何在面對復(fù)雜任務(wù)時選擇合適的工具來輔助推理。例如，在解決復(fù)雜的數(shù)學問題時，模型可以調(diào)用計算器工具來完成復(fù)雜的計算過程；在處理圖像數(shù)據(jù)時，可以調(diào)用圖像處理工具來完成裁剪、旋轉(zhuǎn)等操作。

這種工具使用能力的實現(xiàn)，使得模型能夠處理更加復(fù)雜的任務(wù)場景，而不僅僅局限于簡單的文本生成。

多模態(tài)推理能力則是 o3和 o4-mini 模型的另外一大亮點，可以同時處理文本、圖像、音頻等，并將這些不同模態(tài)的數(shù)據(jù)進行有機整合。架構(gòu)上，OpenAI使用了創(chuàng)新的神經(jīng)網(wǎng)絡(luò)架構(gòu)，使模型能夠?qū)D像和文本數(shù)據(jù)分別編碼為統(tǒng)一的特征表示。

例如，對于圖像數(shù)據(jù)，模型通過卷積神經(jīng)網(wǎng)絡(luò)提取圖像的特征；對于文本數(shù)據(jù)，模型使用 Transformer 編碼器提取文本的語義信息。

然后，模型通過一個融合模塊將這些不同模態(tài)的特征進行整合，生成統(tǒng)一的特征表示，從而在推理過程中實現(xiàn)多模態(tài)數(shù)據(jù)的聯(lián)合處理。

o3和 o4-mini多模態(tài)處理模塊的另一個重要特點是其對不同模態(tài)數(shù)據(jù)的動態(tài)處理能力。模型可以根據(jù)任務(wù)的需求，動態(tài)地調(diào)整對不同模態(tài)數(shù)據(jù)的處理權(quán)重。

例如，在處理一個以圖像為主的任務(wù)時，模型會更多地關(guān)注圖像數(shù)據(jù)的特征；而在處理一個以文本為主的任務(wù)時，模型會更多地關(guān)注文本數(shù)據(jù)的語義信息。

在訓(xùn)練過程中，OpenAI 采用了大規(guī)模的無監(jiān)督學習和少量的監(jiān)督學習相結(jié)合的方式。無監(jiān)督學習部分，模型通過大量的文本和圖像數(shù)據(jù)進行預(yù)訓(xùn)練，學習到語言和圖像的基本特征和模式；監(jiān)督學習部分，則通過標注數(shù)據(jù)和工具使用數(shù)據(jù)，對模型進行微調(diào)，使其能夠更好地理解和使用工具。

o3和o4-mini測試數(shù)據(jù)

在基準測試方面，o3和o4-mini模型的表現(xiàn)非常強。在AIME 2024測試中，在不使用外部工具的情況下，o3準確率為91.6%，o4-mini為93.4%；AIME 2025測試中，o3準確率為88.9%，o4-mini為92.7%。

而在編程競賽（Codeforces）測試中，o4-mini達到了驚人的2719分，能夠位列全球前200名參賽者之列；o3則為2706分。

在博士級問題解答GPQA測試中，在不使用工具的情況下，o3模型的準確率達到了83%，o4-mini為81.4%；人類最終測試中，o3為20.32分，o4-mini為24.9分都略低于OpenAI發(fā)布的Agent模型Deep research。

在多模態(tài)任務(wù)方面，o3和o4-mini在MMU Math、Vista、Charive 和 Vstar 等多模態(tài)基準測試中同樣表現(xiàn)非常出色。

除了常規(guī)測試之外，OpenAI還根據(jù)科研人員的使用，分享了一些實際使用測試結(jié)果。

在科學研究領(lǐng)域，模型能夠幫助研究人員快速分析實驗數(shù)據(jù)、查閱文獻并提出新的研究思路。例如，在一個物理學研究項目中，模型通過分析實驗數(shù)據(jù)和查閱相關(guān)文獻，成功地幫助研究人員完成了一個復(fù)雜的物理量估計任務(wù)。

這一過程僅用了幾分鐘，而人類研究人員可能需要數(shù)天甚至數(shù)周的時間來完成。不僅展示了模型在處理復(fù)雜科學問題時的高效性，更證明了其在實際科學研究中的巨大潛力。

在軟件開發(fā)領(lǐng)域，模型能夠幫助開發(fā)者快速定位和修復(fù)代碼中的錯誤。通過調(diào)用代碼分析工具和調(diào)試工具，模型能夠快速地識別出代碼中的問題，并提出有效的解決方案。

在實際測試中，模型在處理一個復(fù)雜的Python包問題時，通過調(diào)用容器工具和代碼分析工具，成功地定位并修復(fù)了一個復(fù)雜的錯誤，這一過程也僅用了幾分鐘。

從今天開始，ChatGPT Plus、Pro和Team 用戶將在模型選擇器中看到 o3、o4-mini 和 o4-mini-high。ChatGPT Enterprise 和 Edu 用戶將在一周后獲得訪問權(quán)限，所有計劃的速率限制與之前的模型保持不變。

滿血o3和o4-mini也通過 Chat Completions API 和 Responses API 向開發(fā)者開放。Responses API 支持推理摘要功能，能夠在函數(shù)調(diào)用時保留推理標記以提升性能，并且很快將支持內(nèi)置工具，包括網(wǎng)頁搜索、文件搜索和代碼解釋器，以增強模型的推理能力。

本文素材來源OpenAI，如有侵權(quán)請聯(lián)系刪除

報告下載

大佬觀點分享

關(guān)于RPA、AI、企業(yè)數(shù)字化轉(zhuǎn)型

(點擊文字即可閱讀)

| |

| | |

| |

行業(yè)知識交流分享，結(jié)識擴展人脈圈層

公眾號后臺回復(fù)【RPA】或者【流程挖掘】

可受邀加入相關(guān)的交流群

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.