99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

o3和o4-mini來了!OpenAI突破最強“看圖思考”,開源AI編程神器,史上最大收購曝光

0
分享至


智東西
編譯 程茜
編輯 云鵬

智東西4月17日報道,今日凌晨,OpenAI重磅發布兩大視覺推理模型OpenAI o3和o4-mini,這也是OpenAI o系列中首次可以使用圖像進行思維鏈推理的模型。OpenAI還開源了輕量級編程Agent Codex CLI,發布不到7個小時,Star數已超5500。


這兩個模型的區別在于,OpenAI o3是最強大的推理模型;OpenAI o4-mini是一個針對快速、成本效益推理進行優化的較小模型。新模型首次將圖像融入思維鏈過程,還能自主調用工具,在一分鐘內生成答案。


OpenAI開源的編程Agent Codex CLI能最大化模型推理能力,可在端側部署。今日OpenAI還在AI編程領域曝出重磅收購交易。據外媒報道,OpenAI正在洽談以30億美元(約合人民幣219億元)收購AI輔助編程工具Windsurf(前身為Codeium),這將是OpenAI迄今規模最大的一筆收購

今天起,ChatGPT Plus、Pro和Team用戶今天起可以使用o3、o4-mini和o4-mini-high,這些模型會取代o1、o3-mini和o3-mini-high。ChatGPT企業和教育將在一周后獲得訪問權限。免費用戶可以在提交查詢前選擇“思考”來嘗試o4-mini。OpenAI預計在幾周內發布OpenAI o3-pro,并配備完整工具支持。目前Pro用戶仍可訪問o1-pro。o3和o4-mini通過Chat Completions API和Responses API向開發者開放。


OpenAI聯合創始人兼CEO Sam Altman在社交平臺X上發文盛贊o3、o4-mini是“天才水平”。


正在被OpenAI洽談收購的Windsurf,正式名稱為Exafunction Inc.,成立于2021年,已籌集超過2億美元的風險投資資金,估值30億美元,近期與其洽談融資事宜還包括Kleiner Perkins和General Catalyst在內的投資者。去年11月,Windsurf發布了全球首個智能體IDE。


▲Windsurf發布全球首個智能體IDE(Agentic IDE)

近期AI編程創企融資火爆,Cursor背后的初創公司Anysphere在今年早些時候與投資者洽談以近100億美元(約合人民幣731億元)的估值獲得新融資。

此前OpenAI曾收購過向量數據庫公司Rockset和遠程協作平臺Multi。如果收購Windsurf的新交易完成,OpenAI將進一步補充AI編程助手實力,與Anthropic、微軟旗下Github、Anysphere等知名AI編程公司展開更直接的競爭。

交易條款尚未敲定,談判仍有可能發生變化。

一、用圖像思考,手繪草圖、顛倒文字都能處理

o3和o4-mini模型可以直接將圖像整合到思維鏈中,用圖像來進行思考,并且其還會被訓練推理在什么時間點使用哪種工具。

具體來看,模型可以解讀人們上傳的白板照片、教科書圖表或手繪草圖,如果圖像模糊、顛倒,模型也能借助工具實時操作圖像,如進行旋轉、縮放或變換等,或者與Python數據分析、網絡搜索、圖像生成等工具協同工作,這些都是模型推理過程的一部分。

如用戶上傳一張隨手拍的圖片,可以詢問模型圖片“最大船只的名字、在哪里停靠”等問題。


例如在使用內置文獻解決一道數學難題時,OpenAI o3可以在不使用搜索的情況下給出正確答案,o1則無法提供正確響應。


面對幫助用戶“收集區域旅行數據、經濟統計數據和酒店入住率,病直觀分析趨勢并推薦理想的擴張地點”這一復雜問題時,OpenAI o3的結果引用了更多與行業相關的來源,并提出了詳細計劃,同時預測現實世界的挑戰并提供主動的緩解措施。相比之下,01的結果更為寬泛。


在根據用戶上傳的一張“手持節目單”照片進行分析后,OpenAI o3能夠準確考慮日程安排并輸出可用的計劃,而o1存在不準確之處,某些節目時間錯誤。


模型能夠根據遇到的信息做出反應和調整,例如,它們可以在搜索提供商的幫助下多次搜索網絡、查看結果,并在需要更多信息時嘗試新的搜索。這使得模型可以處理需要訪問超出模型內置知識、擴展推理、綜合和跨模態輸出最新信息的任務。

二、多模態任務大幅優于前代模型,視覺推理準確率高達97.5%

在成本和性能方面,OpenAI預計對于大多數實際應用,o3和o4-mini分別將比o1和o3-mini更智能且更便宜

o4-mini和o3-mini在成本和性能方面的對比:


o3和o1在成本和性能方面的對比:


OpenAI在一系列人類考試和機器學習基準測試中測試了OpenAI o3和o4-mini,其結果顯示,這些新的視覺推理模型在所有測試的多模態任務上都顯著優于前代模型

其中,無需瀏覽的圖像思維幾乎在其所有評估的感知基準測試中均取得了顯著提升。OpenAI o3和o4-mini在STEM問答(MMMU、MathVista)、圖表閱讀和推理(CharXiv)、感知原語(VLMs are Blind)和視覺搜索(V*)方面均達到了新的最先進性能。在V*上,新模型的視覺推理方法達到了95.7%的準確率。

o3在分析圖像、圖表和圖形等視覺任務上表現更好。外部專家的評估中,o3在困難、現實世界的任務上比OpenAI o1少犯20%的重大錯誤。早期測試者強調了其在生物學、數學和工程背景中分析嚴謹性問題的能力,以及可以生成和批判性地評估新穎假設的能力。

在專家評估中,o4-mini在非STEM任務以及數據科學等領域表現超過o3-mini。且o4-mini支持比o3高得多的使用限制,具備高容量、高吞吐量的優勢。

外部專家評估員認為這兩個模型都表現出比先前模型更好的指令遵循能力和更有用、可驗證的響應,此外,新模型在自然對話方面,可以參考記憶和過去的對話來使響應更加個性化的回答。


多模態能力的評估結果:


編碼能力的評估結果:


遵循指令和代理工具使用的評估結果:


三、延續“更多計算=更好性能”思路,已開源輕量級編碼智能體

在OpenAI o3的開發過程中,研究人員觀察到大規模強化學習呈現出與GPT系列預訓練中觀察到的“更多計算=更好性能”的趨勢相同。

他們通過在強化學習中追溯擴展路徑,在訓練計算和推理時間上又推進了一個數量級后,看到了模型明顯的性能提升,這驗證了隨著模型被允許進行更多思考,其性能仍在持續提升。

與OpenAI o1相同的延遲和成本下,o3在ChatGPT中實現了更高的性能,并且其在博客中透露,研究人員已經驗證,如果讓模型思考更長的時間,其性能還會繼續提升。

研究人員還通過強化學習訓練了新模型使用工具,不僅包括如何使用工具,還包括如何推理何時使用工具。新模型可以根據期望結果部署工具,使得其在涉及視覺推理和多步驟工作流程等開放式情境的表現更好。

OpenAI還分享了一個輕量級的編程Agent Codex CLI,用來最大化o3和o4-mini等模型的推理能力,用戶可以直接在終端運行,OpenAI計劃支持GPT-4.1等更多API模型。

用戶可以通過傳遞截圖或低保真草圖到模型,結合對本地代碼的訪問,從命令行獲得多模態推理的好處。OpenAI認為這可以將模型與用戶及其計算機連接起來。今天起,Codex CLI已完全開源。


開源地址:github.com/openai/codex

同時,OpenAI啟動了一項100萬美元倡議,以支持使用Codex CLI和OpenAI模型的工程項目,其將評估并接受以25000美元API信用額度形式提供的補助金申請。

四、仍有三大局限性:推理鏈過程、感知錯誤、可靠性不足

不過,在博客中研究人員也提到,圖像推理目前存在以下局限性:

過長的推理鏈:模型可能會執行冗余或不必要的工具調用和圖像處理步驟,導致過長的思維鏈;

感知錯誤:模型仍然可能犯基本的感知錯誤。即使工具調用正確推進推理過程,視覺誤解也可能導致最終答案不正確;

可靠性:模型可能在多次嘗試解決問題時嘗試不同的視覺推理過程,其中一些可能導致錯誤的結果。

在安全方面,OpenA重建了安全訓練數據,在生物威脅(生物風險)、惡意軟件生成和越獄等領域添加了新的拒絕提示。這使得o3和o4-mini在其內部拒絕基準測試中表現較好。

OpenAI還開發了系統級緩解措施,以標記前沿風險區域中的危險提示。研究人員訓練了一個推理大模型監控器,該監控器基于人類編寫的可解釋安全規范。當應用于生物風險時,該監控器成功標記了人類紅隊行動中約 99%的對話。

研究人員更新了應急準備框架,對o3和o4-mini在框架涵蓋的三個跟蹤能力領域進行了評估:生物和化學、網絡安全和AI自我改進。根據這些評估的結果,其確定o3和o4-mini在所有三個類別中均低于框架的“高”閾值。

結語:發力視覺推理,邁向多模態推理

OpenAI o3和o4-mini顯著提升了模型的視覺推理能力,這些模型在視覺感知任務上的提升,使其能夠解決之前模型難以觸及的問題,標志著模型向多模態推理邁出的重要一步。

OpenAI在博客中提到,他們將o系列的專業推理能力與GPT系列的自然對話能力和工具使用能力相結合,未來可以實現模型能支持無縫、自然的對話,同時能主動使用工具并解決更為復雜的問題。

此外,研究人員也在不斷優化模型使用圖像進行推理的能力,使其更加簡潔、更少冗余、更可靠。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
突發利好!人民幣升值2200點,阿布達比剛買進22個股票(附名單)

突發利好!人民幣升值2200點,阿布達比剛買進22個股票(附名單)

鵬哥投研
2025-05-04 11:01:29
火出圈的重慶榮昌區政府食堂,“寵粉” 背后的財政賬該怎么算

火出圈的重慶榮昌區政府食堂,“寵粉” 背后的財政賬該怎么算

食材界
2025-05-04 11:56:44
熱搜第一!“每份菜3元至18元”,7000名游客擠爆政府食堂!“米飯蒸了1000多斤,每次飯一端上來就秒空,飯碗都不夠用了”

熱搜第一!“每份菜3元至18元”,7000名游客擠爆政府食堂!“米飯蒸了1000多斤,每次飯一端上來就秒空,飯碗都不夠用了”

每日經濟新聞
2025-05-02 16:00:08
襄陽首破百億,孝感增長16.3%!湖北各地2025年1-3月財政收入排行

襄陽首破百億,孝感增長16.3%!湖北各地2025年1-3月財政收入排行

娛樂八卦木木子
2025-05-04 15:11:43
游客吐槽天津一奶茶品牌包裝有不雅文字,商家:該包裝已銷毀,不再用

游客吐槽天津一奶茶品牌包裝有不雅文字,商家:該包裝已銷毀,不再用

上游新聞
2025-05-04 15:05:01
美國教授警告印度:華盛頓憎恨中國,不是因為它不好,而是太成功

美國教授警告印度:華盛頓憎恨中國,不是因為它不好,而是太成功

博覽歷史
2025-05-04 08:30:12
美媒:中國在準備持久戰,越來越多國家的錢,源源不斷流向中國!

美媒:中國在準備持久戰,越來越多國家的錢,源源不斷流向中國!

億通電子游戲
2025-05-03 02:23:48
救市的重拳和猛藥!今日凌晨的四大消息沖擊來襲(5.4)!

救市的重拳和猛藥!今日凌晨的四大消息沖擊來襲(5.4)!

愛看劇的阿峰
2025-05-04 14:34:54
中國股市:6只有望能讓全體股民“賺大錢”的業績暴增黑馬

中國股市:6只有望能讓全體股民“賺大錢”的業績暴增黑馬

小羅論事
2025-05-04 19:36:20
廣州白云機場啟動航班大面積延誤應急響應

廣州白云機場啟動航班大面積延誤應急響應

新快報新聞
2025-05-04 19:50:05
趙心童決賽8大看點:中國+亞洲第一位世錦賽冠軍,最強90后球員

趙心童決賽8大看點:中國+亞洲第一位世錦賽冠軍,最強90后球員

全能體育柳號
2025-05-04 05:05:03
黃金有沒有可能是個大騙局?網友:坐等人造黃金批量問世

黃金有沒有可能是個大騙局?網友:坐等人造黃金批量問世

娛樂圈人物大賞
2025-05-04 00:10:06
日本最美賽車皇后奶貼男粉,送福利被求婚:配偶欄簽名

日本最美賽車皇后奶貼男粉,送福利被求婚:配偶欄簽名

葫蘆哥愛吐槽
2025-05-04 15:01:36
官方:上村健一擔任廣州英華思力青訓總監兼一線隊主帥

官方:上村健一擔任廣州英華思力青訓總監兼一線隊主帥

懂球帝
2025-05-04 21:37:12
45集諜戰大劇,開播一天就沖上衛視收視率第一,獵殺時刻一觸即發

45集諜戰大劇,開播一天就沖上衛視收視率第一,獵殺時刻一觸即發

鄉野小珥
2025-05-02 17:28:46
白百何首曬4歲二胎兒子,母子倆五一去露營,在河邊撈魚溫馨有愛

白百何首曬4歲二胎兒子,母子倆五一去露營,在河邊撈魚溫馨有愛

漣漪讀史
2025-05-04 11:52:57
最容易讓女人“出軌”的地方,不是酒吧,而是這2個地方

最容易讓女人“出軌”的地方,不是酒吧,而是這2個地方

農村情感故事
2025-04-13 19:04:10
一個也別想跑:國家衛健委下場,驚動京城多家頂級醫院!

一個也別想跑:國家衛健委下場,驚動京城多家頂級醫院!

科學傭人
2025-05-02 03:29:43
淚目!奧沙利文罕見曬照,揭秘他與中國天才趙心童的特殊情緣!

淚目!奧沙利文罕見曬照,揭秘他與中國天才趙心童的特殊情緣!

上饒網
2025-05-04 21:10:56
9場6球!王鈺棟成為國足的亞馬爾,18歲的他已被歐洲球探關注!

9場6球!王鈺棟成為國足的亞馬爾,18歲的他已被歐洲球探關注!

海浪星體育
2025-05-04 19:06:22
2025-05-05 00:52:49
智東西 incentive-icons
智東西
聚焦智能變革,服務產業升級。
9797文章數 116749關注度
往期回顧 全部

科技要聞

巴菲特:理性看待AI炒作 耐心是關鍵

頭條要聞

胡塞武裝高超音速導彈襲擊以機場 以媒:彈頭大威力強

頭條要聞

胡塞武裝高超音速導彈襲擊以機場 以媒:彈頭大威力強

體育要聞

聯盟30隊首發得分后衛,他只能排第29位?

娛樂要聞

55歲王菲跟“李亞鵬時期”完全不同!

財經要聞

一個時代的結束!巴菲特年底將卸任

汽車要聞

小米SU7大優惠!5月限時購車權益送輔助駕駛

態度原創

房產
健康
時尚
本地
公開課

房產要聞

最強書包官宣落位!海口這個片區,將徹底引爆!

唇皰疹和口腔潰瘍是"同伙"嗎?

卷首語 | 今天,致敬青春,致敬自己!

本地新聞

春色滿城關不住 | 花漾千陽!塬上秘境藏幾重詩意?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 黔南| 铁岭市| 宁安市| 霍州市| 焦作市| 浮梁县| 夹江县| 阳江市| 新沂市| 辽中县| 兴化市| 博兴县| 岐山县| 福泉市| 蒙山县| 拜城县| 兴城市| 赞皇县| 仪征市| 郴州市| 江安县| 都匀市| 绥化市| 侯马市| 元谋县| 丽江市| 高唐县| 浙江省| 巴青县| 桑植县| 左云县| 林芝县| 怀远县| 潞西市| 德安县| 澄城县| 卢湾区| 金沙县| 富裕县| 大新县| 共和县|