網易首頁 > 網易號 > 正文申請入駐

接近“天才水平”？！OpenAI新模型o3和o4-mini稱霸Aider排行榜，附贈開源編碼工具

2025-04-17 20:15:57　來源: 大數據文摘

北京舉報

分享至

大數據文摘受權轉載自頭部科技

文丨譚梓馨

正如網友所預測的那樣，OpenAI全新一代頂尖模型o3和o4-mini終于揭開面紗。

今天，OpenAI聯合創始人Greg Brockman帶隊開播進行了產品介紹，開發人員稱o3和o4-mini是OpenAI迄今為止發布的最智能模型，代表著ChatGPT能力的又一次重大飛躍。

這也是OpenAI推理模型首次能夠智能調度使用和組合ChatGPT中的每個工具——包括搜索網頁、使用Python分析文件和其他數據、對視覺輸入進行深度推理，以及生成圖像等等，從而能更有效地幫助用戶處理多方面的復雜問題。

即日起，o3、o4-mini和o4-mini-high將會取代o1、o3-mini和o3-mini-high，開發者也可通過Chat Completions API和Responses API進行調用。

o3和o4-mini非常擅長編碼，因此OpenAI還同步推出了Codex CLI，一個可以在終端中運行的開源輕量級編碼代理，Greg Brockman表示，Codex CLI是未來幾個月內要發布的一系列工具中的第一個，它展示了編程的未來。

新品發布后，OpenAI CEO Sam Altman轉發用戶的評價稱“達到或接近天才水平”，數千萬美元花得值，并表示會在未來幾周內把o3-pro發布到Pro用戶層。

最強多模式推理

將最先進的推理能力與完全的工具訪問權限相結合，讓o3和o4-mini模型在實際任務和各大學術基準測試中表現出色。

OpenAI這次推出o3和o4-mini模型的一大亮點在于“圖像思考”，可以把用戶上傳的圖片直接集成到思路鏈中，這意味著AI模型不只是看到圖像，還能識別出關鍵信息并用它來思考，圖片可以是白板照片、教科書圖表或手繪草圖。

ChatGPT增強的視覺感知能夠全面、準確和可靠地分析圖像，并且將高級推理與網頁搜索、圖像處理（自動縮放、裁剪、翻轉或增強圖像）等工具無縫結合，即使照片質量不太好，也能從中提取關鍵信息和分析洞見，可以無縫融合視覺和文本推理，標志著模型在多模式推理方面邁出重要一步。

這個“圖像思考”功能有多強？OpenAI展示了o3的一些實際用例，比如識別遠處筆記本上的手寫字體，即便是人眼也很難分辨的內容，o3模型通過拉近縮放旋轉圖像，成功識別出了上面寫的內容。

不僅能精準識別，而且識別之后還能幫助用戶去分析解決實際問題，比如當它識別到手寫的內容是計算費曼圖振幅的圖示，它就能幫用戶提供解題思路。

當視覺推理與Python數據分析、網絡搜索、圖像生成等其他工具協同工作，還可以有創造性地解決更復雜的問題，為用戶提供多模式代理體驗。

比如讓o3分析一個迷宮圖，找出最近的走出路線，o3會將圖像轉化為程序問題進行破解處理，然后按照用戶要求繪制出路線。

在STEM問答（MMMU、MathVista）、圖表閱讀和推理（CharXiv）、感知基元（VLM為盲）以及視覺搜索（V*）等不同的測試基準上，o3和o4-mini均創下了新的最高水平，在V*測試中，視覺推理方法達到了95.7%的準確率。

當然，在o3和o4-mini之間也存在定位上的差異化。

OpenAI官方表示，o3是一個跨多個領域的強大模型，為編碼、數學、科學和視覺推理任務設定了新的行業標準。在外部專家的評估中，o3在困難的現實任務中比o1模型犯的錯誤少20%，尤其是在編程、商業/咨詢和創意構思等領域表現出色，而且在生物學、數學和工程學知識領域也非常厲害。

o4-mini則是一款體型更小的模型，專為快速、經濟高效的推理而優化，它以其尺寸和成本實現了卓越性能，尤其是在數學、編程和視覺任務方面，它支持比o3更高的使用限制，使其成為一個有性價比的高容量、高吞吐量解決方案，適合所有需要推理能力的用戶。

而且，o3和o4-mini相比較它們的前輩模型o1和o3-mini成本與性能比更高效，更經濟。尤其是o3模型，幾乎是對o1模型質的改進，提升幅度非常大。

OpenAI今天的上新反映了其模型的發展方向：將O系列的專業推理能力與GPT系列的自然對話能力和工具使用能力融合在一起，通過整合這些優勢，未來的AI模型將支持無縫、自然的對話，以及主動的工具使用和高級問題解決能力。

重新霸榜，逼近AGI

值得關注的是，在業內備受關注的Aider多語言編碼基準測試排行榜上，OpenAI依靠o3和o4-mini重回巔峰寶座，把谷歌Gemini 2.5 Pro和Anthropic的claude 3.7 sonnet都壓了一頭，也進一步拉開了與DeepSeek R1和V3-0324之間的差距，打了一次硬核翻身仗。

來自網友的旋轉彈跳小球測試，在完全相同的提示語之下對頂級推理模型進行測試，OpenAI這一回合PK完勝。

還有更離譜的測試，有用戶在上班路上隨手拍了張照片測試視覺推理能力，讓o3分析其所在位置，它首先截取放大了圖片，分析圖中的車牌號、門店關鍵信息，然后搜索相關網頁一步步縮小搜索范圍，最后準確給出了位置信息，網友們直呼這種“柯南式”的分析能力有點恐怖。

還有用戶丟給o3一張車內照片，詢問汽車的品牌和型號，o3經過多次裁剪圖片，不停調用Python寫代碼分析多個細節，進行了大量網絡搜索對比，4分鐘內分析出了正確答案。

杰克遜實驗室生物醫學科學家Derya Unutmaz發帖表示，o3的智能程度已經達到或接近天才的水平了，其新型代理式工具能夠以令人難以置信的推理和精度輕松處理多步驟任務，并根據需要生成復雜的、具有洞察力和科學基礎的假設。

Derya Unutmaz向o3提出一些頗具挑戰性的臨床或醫學問題時，它的回答聽起來就像直接來自專科醫生：精準、全面、基于證據的自信，而且非常專業，就像一位該領域的真正專家，智能程度優于Gemini 2.5 pro。

o3還可以幫助用戶推理解決一些數學推導問題，例如它會根據圖中已知的綠色柱狀體參數信息推算出光線的斜率，然后再去推導紅色柱狀體的高度，對圖像的理解思考能力進入了新階段。

不少網友直呼，o3是一次質的飛躍，代表了AI大模型的下一個階別，可能已經算是AGI了。

再次提振開源影響力

除了新模型，OpenAI今天還罕見地拋出一款輕量級編碼代理開源工具。

由于o3和o4-min非常擅長編碼，因此OpenAI特意發布了一款實驗性的新產品Codex CLI，它可以直接在用戶的計算機上運行，旨在最大限度地提升o3和o4-mini等模型的推理能力，目前該項目已在github上開源可訪問，不到一天時間內已超11K星，非常火爆。

具體而言，Codex CLI可以將自然語言轉化為可執行代碼，開發者只需要告訴Codex CLI要構建、修復或解釋什么，然后它會將想法變成現實，Codex CLI可用來快速構建應用程序、修復錯誤并更快地理解代碼庫，并且兼容所有o3、o4-mini和GPT-4.1等新模型。

Codex CLI專為那些已經習慣使用本地AI終端，并希望擁有ChatGPT級別推理能力及實際運行代碼、操作文件和迭代能力的開發者打造，這跟國內已經有的無代碼開發平臺類似，是一種聊天驅動的開發方式，能夠理解并執行開發者的代碼庫。

為了在開源社區打開影響力，OpenAI還為此推出一項價值100萬美元的計劃，以支持使用Codex及其他OpenAI模型的開源項目，資助會以每次2.5萬美元的API使用額度形式發放。

除了多模式推理，從本次發布的技術趨勢來看，OpenAI正在加速把所有主流AI Agent功能與頂尖模型進行深度融合內化。

為了增強模型的競爭力，其他競爭對手如谷歌可能也會快速跟進，這將對一些第三方AI Agent產品發展帶來影響，例如Manus、MainFunc等等，它們依托頂尖模型來集成各種功能提供面對用戶的產品，如果大模型本身就具備了強大的多模式AI Agent能力，可能就不太需要其他“中間商”了。

而且為了抵御DeepSeek的開源攻勢，OpenAI正在借助其在開發者群體中的影響力加強在開源社區的影響力滲透，可謂下了一步好棋。

盡管GPT-5尚未到來，但o3已經再次提高了大模型競爭對壘高度，谷歌、Anthropic或開源之王DeepSeek將會如何出招對戰OpenAI可以一起期待下。

GPU算力按需租用

A100/H100 GPU算力按需租用，

秒級計費，平均節省開支30%以上！

掃碼了解詳情?

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.