OpenAI又出招了
昨晚,OpenAI官宣上線史上最強推理模型——o3-pro
o3-pro不僅是一個通用型助手,而是兼具長思考、超長上下文,工具調(diào)用于一體的超級智能AI。
在多項基準測試中,o3-pro的數(shù)學、科學和編程性能驚艷,大幅超越o1-pro。
甚至,大佬首測后發(fā)現(xiàn),就連Gemini 2.5 Pro(0605)、Claude 4 Opus都被全面壓制。
當然,最震撼的是相較于o1-pro,o3-pro的價格降低了87%
簡單來說,o3 和 o4-mini 模型的設計目標是整合 ChatGPT 所有可用工具。被標注為“pro”的模型意味著能投入更多時間處理提問,換取更高質(zhì)量與更精確的回答。
真的是最強嗎?
我找到一張評測圖,這張圖展示的是不同模型在 ARC-AGI 測評中的表現(xiàn),重點是 o3 Pro 模型在半私有評測中的位置和性價比。
分析之前,先來簡單科普下ARC-AGI-1 和 ARC-AGI-2,它們是用于衡量通用人工智能(AGI)推理能力的基準測試。
ARC-AGI-1 是較早的評測版本,任務更標準化 ARC-AGI-2 是新版本,測試更注重純推理能力,目前大部分模型表現(xiàn)都很低(<5%)
下面我來逐部分解讀這張圖和數(shù)據(jù)——
ARC-AGI-1 的 o3 系列表現(xiàn):
o3-preview (Low):得分 59%,單任務 $4.16(圖中位于最右上角,精度最高但成本也高) o3-pro (Med):得分 57%,單任務 $3.18 o3-mini (Low):得分 44%,單任務 $1.64
這三組分別對應不同定價版本的模型
ARC-AGI-2 的表現(xiàn):
所有模型(包括 o3)準確率都在 5% 以下,且成本 $4-7/任務,說明任務更難。
一句話——
o3-pro 的表現(xiàn)與 o3 系列保持一致:說明性能穩(wěn)定。o3 的新定價重新定義了 ARC-AGI-1 的性價比邊界:圖中可見,o3-pro 和 o3-mini 刷新了“最優(yōu)性價比”的 Pareto 曲線。
OpenAI 在 o3-pro 的更新說明中表示:“我們建議在那些對結果可靠性要求更高、可以接受等待幾分鐘的復雜問題中使用該模型。”
有個網(wǎng)友發(fā)了個“Hi”
確實要幾分鐘(有關hi的108種解讀...)
而且還花了80刀...
不過目前o3-pro 在 ChatGPT 的部分功能上仍有限制,目前尚不支持圖像生成和 Canvas,用戶需切換至其他模型才能使用這些服務。
來,說說你被ai玩過嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.