99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

OpenAI發布o3、o4-mini:首批使用圖片思考的推理模型,會自主使用工具、評測繼續刷榜

0
分享至

OpenAI 今日發布兩款新型 AI 推理模型:o3——該公司稱其為「最強大的推理模型」,以及 o4-mini——一款更小巧、更快速的模型,「以其尺寸和成本實現了卓越性能」。

OpenAI 稱,o3 是其迄今為止最先進的推理模型,在數學、編程、推理、科學和視覺理解能力的測試中表現優于公司之前的模型。與此同時,o4-mini 提供了 OpenAI 所說的在價格、速度和性能之間的競爭力平衡。


o3 和 o4-mini 將具備「圖像思維」能力,即能夠「將圖像直接融入其思維鏈中」。OpenAI 稱,這些模型還能在推理過程中通過放大或旋轉圖像來調整畫面。

OpenAI 宣布其推理模型將能夠使用所有 ChatGPT 工具,如網絡瀏覽、Python 代碼執行、圖像處理及圖像生成。這些工具今日起面向 ChatGPT Plus、Pro 及 Team 用戶開放,適用于 o3、o4-mini 和 o4-mini-high 版本,并將在「幾周內」登陸 o3-pro 版本。(o1、o3-mini 及 o3-mini-high 版本將逐步從這些層級中淘汰。)


定價較 o1 同檔大幅下降(o3?mini 對 o1?mini 便宜 63%)。

在 API 中,o4-mini 和 o3 提供 200,000 個 token 的上下文窗口,最多 100,000 個輸出 token,知識截止日期為 2024 年 6 月 1 日

Sam Altman 表示,o3 和 o4-mini 可能是 ChatGPT 在 GPT-5 之前的最后獨立 AI 推理模型。GPT-5 是該公司宣稱將統一傳統模型(如 GPT-4.1)與其推理模型的新一代產品。

o3 和 o4-mini 現已通過 Chat Completions API 和 Responses API 向開發者開放(部分開發者需驗證其組織身份以訪問這些模型)。

點擊關注,每天更新深度 AI 行業洞察

01評測成績繼續刷新榜單記錄

o3 在 Codeforces、SWE-bench 和 MMMU 等基準測試中創下了新的 SOTA 記錄。它特別適合需要多角度分析且答案可能并非顯而易見的復雜查詢。在視覺任務方面,如分析圖像、圖表和圖形,o3 表現尤為出色。根據外部專家的評估,在困難的現實世界任務中,o3 比 OpenAI o1 減少了 20% 的重大錯誤——尤其在編程、商業/咨詢和創意構思等領域表現卓越。

OpenAI o4-mini 是一款專為快速、經濟高效的推理而優化的輕量級模型——憑借其小巧的體積和低廉的成本,在數學、編程及視覺任務中展現出卓越性能。在 AIME 2025 基準測試中,當配備 Python 解釋器時,o4-mini 以 99.5% 的成績近乎完美地突破了該測試上限。專家評估還顯示,其在非 STEM 領域和數據科學等任務上的表現也超越了前代產品 o3-mini。得益于高效設計,o4-mini 支持比 o3 顯著提升的使用頻率上限,成為需要復雜推理場景下理想的高吞吐量解決方案。





本次的兩款模型效率通常也超越了前代產品 OpenAI o1 和 o3-mini。以 2025 年 AIME 數學競賽為例,o3 在性價比邊界上全面優于 o1,同樣地,o4-mini 的邊界表現也顯著超越 o3-mini??傮w而言,在大多數實際應用場景中,o3 和 o4-mini 將分別比 o1 和 o3-mini 更智能且成本更低。



02

錄首批使用圖像思考的模型

OpenAI 宣稱o3 和 o4-mini 是其首批能夠「用圖像思考」的模型。實際應用中,用戶可向 ChatGPT 上傳圖片,如白板草圖或 PDF 中的圖表,模型會在「思維鏈」階段分析這些圖像后再作答。得益于這一新能力,o3 和 o4-mini 能理解模糊和低質量的圖像,并在推理過程中執行放大或旋轉圖像等操作。

它能無縫結合高級推理與網絡搜索、圖像處理等工具——自動縮放、裁剪、翻轉或優化圖片——甚至能從有缺陷的照片中提取洞見。例如,用戶可以上傳經濟學習題集的照片獲取逐步解析,或分享構建錯誤的截圖迅速獲得根本原因分析。


OpenAI 在多樣化的人類考試和機器學習基準上測試了 OpenAI o3 和 o4-mini。這些新型視覺推理模型在所有測試的多模態任務中均顯著超越前代產品。

03

會自主使用工具

OpenAI 的 o3 和 o4-mini 模型能夠完全訪問 ChatGPT 內的工具,并通過 API 中的函數調用使用用戶自定義的工具。這些模型經過訓練,能夠推理解決問題的方法,選擇何時以及如何使用工具,快速生成詳細且深思熟慮的答案,通常在一分鐘內完成,并以正確的輸出格式呈現。


例如,用戶可能會問:「加州夏季能源使用量與去年相比會如何?」模型可以搜索網絡獲取公共事業數據,編寫 Python 代碼構建預測,生成圖表或圖像,并解釋預測背后的關鍵因素,將多個工具調用串聯起來。推理能力使模型能夠根據需要對其遇到的信息做出反應和調整。例如,它們可以在搜索提供商的幫助下多次搜索網絡,查看結果,并在需要更多信息時嘗試新的搜索。

04

強化學習的 Scaling Law

在 OpenAI o3 的開發過程中,OpenAI 觀察到大規模強化學習展現出與 GPT 系列預訓練相同的「計算量越大=性能越好」趨勢。通過重新探索擴展路徑——這次是在強化學習領域——將訓練計算量和推理時的思考量都提升了一個數量級,但依然能看到明顯的性能提升,這驗證了模型性能會隨著思考時間的增加而持續進步。在與 OpenAI o1 相同的延遲和成本下,o3 在 ChatGPT 中提供了更高的性能——而且已經驗證,如果讓它思考更長時間,其性能還會繼續攀升。

OpenAI 還通過強化學習訓練了兩種模型使用工具的能力——不僅教會它們如何使用工具,還教會它們推理何時使用工具。它們根據預期結果部署工具的能力,使它們在開放式情境中表現更出色,尤其是在涉及視覺推理和多步驟工作流程的情況下。據早期測試者反饋,這一改進既體現在學術基準測試中,也體現在實際任務中。

05

Codex CLI:終端推理工具

Codex CLI,一個可以從終端運行的輕量級編碼代理。它直接在您的計算機上運行,它能將自然語言轉化為可運行的代碼,旨在最大化 o3 和 o4-mini 等模型的推理能力,并即將支持 GPT-4.1?等更多 API 模型。

OpenAI 的一位發言人向 TechCrunch 表示:「Codex CLI 是一款輕量級、開源的編碼代理,可在您的終端本地運行?!蛊淠繕耸恰笧橛脩籼峁┮粋€極簡、透明的界面,直接將模型與代碼和任務聯系起來?!?/p>

用戶可以通過命令行將截圖或低保真草圖傳遞給模型,并結合本地代碼訪問,獲得多模態推理的優勢。OpenAI 將其視為連接我們的模型與用戶及其計算機的最小界面。Codex CLI 現已完全開源,請訪問 github.com/openai/codex?。


轉載原創文章請添加微信:founderparker

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
事發突然,比亞迪大量車型突然開始大降價,降幅高達34%

事發突然,比亞迪大量車型突然開始大降價,降幅高達34%

流蘇晚晴
2025-05-29 18:54:41
1959年,彭德懷搬離中南海,毛主席得知后吩咐楊尚昆:你去辦件事

1959年,彭德懷搬離中南海,毛主席得知后吩咐楊尚昆:你去辦件事

簡史檔案館
2023-12-04 10:51:46
微軟把蘇州員工騙到西雅圖,不到一年瘋狂裁員,美國法:沒有補償

微軟把蘇州員工騙到西雅圖,不到一年瘋狂裁員,美國法:沒有補償

社會醬
2025-05-29 17:05:42
曾因問題疫苗引咎辭職,畢井泉被查,系今年打掉第5個正部

曾因問題疫苗引咎辭職,畢井泉被查,系今年打掉第5個正部

南方都市報
2025-05-29 21:24:24
美歐談崩,特朗普給了歐盟兩條路:要么對中國加稅,要么被美加稅

美歐談崩,特朗普給了歐盟兩條路:要么對中國加稅,要么被美加稅

袁周院長
2025-05-29 10:16:55
美國終于動手,27萬中國學生,將被陸續遣返,中方警告兩大后果

美國終于動手,27萬中國學生,將被陸續遣返,中方警告兩大后果

阿傖說事
2025-05-29 16:03:16
轟轟烈烈上任,冷冷清清離開!馬斯克128天白宮行,臨別時特朗普無回應

轟轟烈烈上任,冷冷清清離開!馬斯克128天白宮行,臨別時特朗普無回應

紅星新聞
2025-05-29 18:03:21
央視放大招,首次向全世界展示,最先進光刻機!

央視放大招,首次向全世界展示,最先進光刻機!

阿傖說事
2025-05-29 07:37:36
湖北應城通報一起故意傷害案件:2人死亡,55歲嫌疑人已被控制

湖北應城通報一起故意傷害案件:2人死亡,55歲嫌疑人已被控制

紅星新聞
2025-05-29 12:51:06
19歲女生哭泣照被“高潮針”廣告盜用最新進展:相關涉黃網站永久關閉

19歲女生哭泣照被“高潮針”廣告盜用最新進展:相關涉黃網站永久關閉

極目新聞
2025-05-29 20:48:31
深圳男子買彩票中2億,6天后去兌獎,卻被工作人員趕了出去

深圳男子買彩票中2億,6天后去兌獎,卻被工作人員趕了出去

今天說故事
2025-05-28 14:49:59
86票贊成,美國得州通過新法案,不許中國等外國人在美買房買地

86票贊成,美國得州通過新法案,不許中國等外國人在美買房買地

南權先生
2025-05-29 13:47:51
公職人員下班后聚餐算違紀嗎?中紀委給出明確標準

公職人員下班后聚餐算違紀嗎?中紀委給出明確標準

戶外小阿隋
2025-05-29 10:16:20
上市即巔峰,連續43個跌停,從106跌到0.06,里面散戶全線被套!

上市即巔峰,連續43個跌停,從106跌到0.06,里面散戶全線被套!

財經市界
2025-05-29 08:54:16
《色即是空》女主河智苑被偶遇,身材好到爆人又漂亮,46歲如少女

《色即是空》女主河智苑被偶遇,身材好到爆人又漂亮,46歲如少女

叨嘮
2025-05-28 19:42:24
總統拒絕下臺,28萬菲軍作出選擇,馬科斯用7個字判老杜“死刑”

總統拒絕下臺,28萬菲軍作出選擇,馬科斯用7個字判老杜“死刑”

聞識
2025-05-29 15:58:59
兩位正部級,黃明、王榮有新身份,曾長期在江蘇工作

兩位正部級,黃明、王榮有新身份,曾長期在江蘇工作

揚子晚報
2025-05-29 17:32:25
腦梗去世的人越來越多?醫生勸告:天熱寧可打麻將,也別做4件事

腦梗去世的人越來越多?醫生勸告:天熱寧可打麻將,也別做4件事

華庭講美食
2025-05-29 08:52:24
國務院任免21名干部!剛卸任副省長的她進京履新,他“空降”江蘇后被免去公安部職務

國務院任免21名干部!剛卸任副省長的她進京履新,他“空降”江蘇后被免去公安部職務

上觀新聞
2025-05-29 18:06:09
24歲外甥強奸31歲舅媽,其父親索賠8千巨款賠償說:他還是個處男

24歲外甥強奸31歲舅媽,其父親索賠8千巨款賠償說:他還是個處男

胖胖侃咖
2025-05-28 08:00:18
2025-05-29 22:07:00
FounderPark incentive-icons
FounderPark
關注AI創業,專注和創業者聊真問題
762文章數 133關注度
往期回顧 全部

科技要聞

英偉達財報炸裂 黃仁勛卻嘆退出中國太可惜

頭條要聞

疑因2年前的一句"阿姨" 男子遭電話短信騷擾不敢回家

頭條要聞

疑因2年前的一句"阿姨" 男子遭電話短信騷擾不敢回家

體育要聞

納達爾,法網,漫長告別

娛樂要聞

辛柏青沉默8天后,這些事還是發生了

財經要聞

若對等關稅叫停,特朗普還能怎么加關稅

汽車要聞

換上高爾夫GTI同款2.0T動力 新凌渡L GTS實車曝光

態度原創

藝術
旅游
房產
教育
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產要聞

清盤倒計時!這個天河芯紅盤,贏的不止多一點!

教育要聞

剛剛發布:南京市開始啟動!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 泰州市| 福安市| 灵台县| 扎赉特旗| 蒙城县| 海口市| 施甸县| 剑川县| 大荔县| 遂昌县| 明光市| 漳州市| 红桥区| 洛阳市| 建阳市| 乌兰浩特市| 越西县| 南丹县| 荆州市| 忻城县| 东阳市| 包头市| 南皮县| 吐鲁番市| 卢龙县| 深泽县| 西宁市| 墨竹工卡县| 武宣县| 利津县| 海城市| 盈江县| 驻马店市| 仁寿县| 宜州市| 沭阳县| 嘉义县| 思南县| 登封市| 镇沅| 射洪县|