99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

接近“天才水平”?!OpenAI新模型o3和o4-mini稱霸Aider排行榜,附贈開源編碼工具

0
分享至

大數據文摘受權轉載自頭部科技

文丨譚梓馨

正如網友所預測的那樣,OpenAI全新一代頂尖模型o3o4-mini終于揭開面紗。

今天,OpenAI聯合創始人Greg Brockman帶隊開播進行了產品介紹,開發人員稱o3o4-mini是OpenAI迄今為止發布的最智能模型,代表著ChatGPT能力的又一次重大飛躍。


這也是OpenAI推理模型首次能夠智能調度使用和組合ChatGPT中的每個工具——包括搜索網頁、使用Python分析文件和其他數據、對視覺輸入進行深度推理,以及生成圖像等等,從而能更有效地幫助用戶處理多方面的復雜問題。

即日起,o3、o4-mini和o4-mini-high將會取代o1、o3-mini和o3-mini-high,開發者也可通過Chat Completions API和Responses API進行調用。

o3和o4-mini非常擅長編碼,因此OpenAI還同步推出了Codex CLI,一個可以在終端中運行的開源輕量級編碼代理,Greg Brockman表示,Codex CLI是未來幾個月內要發布的一系列工具中的第一個,它展示了編程的未來。



新品發布后,OpenAI CEO Sam Altman轉發用戶的評價稱“達到或接近天才水平”,數千萬美元花得值,并表示會在未來幾周內把o3-pro發布到Pro用戶層。

最強多模式推理


將最先進的推理能力與完全的工具訪問權限相結合,讓o3和o4-mini模型在實際任務和各大學術基準測試中表現出色。

OpenAI這次推出o3和o4-mini模型的一大亮點在于“圖像思考”,可以把用戶上傳的圖片直接集成到思路鏈中,這意味著AI模型不只是看到圖像,還能識別出關鍵信息并用它來思考,圖片可以是白板照片、教科書圖表或手繪草圖。


ChatGPT增強的視覺感知能夠全面、準確和可靠地分析圖像,并且將高級推理與網頁搜索、圖像處理(自動縮放、裁剪、翻轉或增強圖像)等工具無縫結合,即使照片質量不太好,也能從中提取關鍵信息和分析洞見,可以無縫融合視覺和文本推理,標志著模型在多模式推理方面邁出重要一步。

這個“圖像思考”功能有多強?OpenAI展示了o3的一些實際用例,比如識別遠處筆記本上的手寫字體,即便是人眼也很難分辨的內容,o3模型通過拉近縮放旋轉圖像,成功識別出了上面寫的內容。


不僅能精準識別,而且識別之后還能幫助用戶去分析解決實際問題,比如當它識別到手寫的內容是計算費曼圖振幅的圖示,它就能幫用戶提供解題思路。


當視覺推理與Python數據分析、網絡搜索、圖像生成等其他工具協同工作,還可以有創造性地解決更復雜的問題,為用戶提供多模式代理體驗。

比如讓o3分析一個迷宮圖,找出最近的走出路線,o3會將圖像轉化為程序問題進行破解處理,然后按照用戶要求繪制出路線。


在STEM問答(MMMU、MathVista)、圖表閱讀和推理(CharXiv)、感知基元(VLM為盲)以及視覺搜索(V*)等不同的測試基準上,o3和o4-mini均創下了新的最高水平,在V*測試中,視覺推理方法達到了95.7%的準確率。


當然,在o3和o4-mini之間也存在定位上的差異化。

OpenAI官方表示,o3是一個跨多個領域的強大模型,為編碼、數學、科學和視覺推理任務設定了新的行業標準。在外部專家的評估中,o3在困難的現實任務中比o1模型犯的錯誤少20%,尤其是在編程、商業/咨詢和創意構思等領域表現出色,而且在生物學、數學和工程學知識領域也非常厲害。

o4-mini則是一款體型更小的模型,專為快速、經濟高效的推理而優化,它以其尺寸和成本實現了卓越性能,尤其是在數學、編程和視覺任務方面,它支持比o3更高的使用限制,使其成為一個有性價比的高容量、高吞吐量解決方案,適合所有需要推理能力的用戶。



而且,o3和o4-mini相比較它們的前輩模型o1和o3-mini成本與性能比更高效,更經濟。尤其是o3模型,幾乎是對o1模型質的改進,提升幅度非常大。


OpenAI今天的上新反映了其模型的發展方向:將O系列的專業推理能力與GPT系列的自然對話能力和工具使用能力融合在一起,通過整合這些優勢,未來的AI模型將支持無縫、自然的對話,以及主動的工具使用和高級問題解決能力。

重新霸榜,逼近AGI


值得關注的是,在業內備受關注的Aider多語言編碼基準測試排行榜上,OpenAI依靠o3和o4-mini重回巔峰寶座,把谷歌Gemini 2.5 Pro和Anthropic的claude 3.7 sonnet都壓了一頭,也進一步拉開了與DeepSeek R1和V3-0324之間的差距,打了一次硬核翻身仗。


來自網友的旋轉彈跳小球測試,在完全相同的提示語之下對頂級推理模型進行測試,OpenAI這一回合PK完勝。


還有更離譜的測試,有用戶在上班路上隨手拍了張照片測試視覺推理能力,讓o3分析其所在位置,它首先截取放大了圖片,分析圖中的車牌號、門店關鍵信息,然后搜索相關網頁一步步縮小搜索范圍,最后準確給出了位置信息,網友們直呼這種“柯南式”的分析能力有點恐怖。


還有用戶丟給o3一張車內照片,詢問汽車的品牌和型號,o3經過多次裁剪圖片,不停調用Python寫代碼分析多個細節,進行了大量網絡搜索對比,4分鐘內分析出了正確答案。


杰克遜實驗室生物醫學科學家Derya Unutmaz發帖表示,o3的智能程度已經達到或接近天才的水平了,其新型代理式工具能夠以令人難以置信的推理和精度輕松處理多步驟任務,并根據需要生成復雜的、具有洞察力和科學基礎的假設。


Derya Unutmaz向o3提出一些頗具挑戰性的臨床或醫學問題時,它的回答聽起來就像直接來自專科醫生:精準、全面、基于證據的自信,而且非常專業,就像一位該領域的真正專家,智能程度優于Gemini 2.5 pro。


o3還可以幫助用戶推理解決一些數學推導問題,例如它會根據圖中已知的綠色柱狀體參數信息推算出光線的斜率,然后再去推導紅色柱狀體的高度,對圖像的理解思考能力進入了新階段。


不少網友直呼,o3是一次質的飛躍,代表了AI大模型的下一個階別,可能已經算是AGI了。

再次提振開源影響力


除了新模型,OpenAI今天還罕見地拋出一款輕量級編碼代理開源工具。

由于o3和o4-min非常擅長編碼,因此OpenAI特意發布了一款實驗性的新產品Codex CLI,它可以直接在用戶的計算機上運行,旨在最大限度地提升o3和o4-mini等模型的推理能力,目前該項目已在github上開源可訪問,不到一天時間內已超11K星,非常火爆。


具體而言,Codex CLI可以將自然語言轉化為可執行代碼,開發者只需要告訴Codex CLI要構建、修復或解釋什么,然后它會將想法變成現實,Codex CLI可用來快速構建應用程序、修復錯誤并更快地理解代碼庫,并且兼容所有o3、o4-mini和GPT-4.1等新模型。

Codex CLI專為那些已經習慣使用本地AI終端,并希望擁有ChatGPT級別推理能力實際運行代碼、操作文件和迭代能力的開發者打造,這跟國內已經有的無代碼開發平臺類似,是一種聊天驅動的開發方式,能夠理解并執行開發者的代碼庫。


為了在開源社區打開影響力,OpenAI還為此推出一項價值100萬美元的計劃,以支持使用Codex及其他OpenAI模型的開源項目,資助會以每次2.5萬美元的API使用額度形式發放。

除了多模式推理,從本次發布的技術趨勢來看,OpenAI正在加速把所有主流AI Agent功能與頂尖模型進行深度融合內化。

為了增強模型的競爭力,其他競爭對手如谷歌可能也會快速跟進,這將對一些第三方AI Agent產品發展帶來影響,例如Manus、MainFunc等等,它們依托頂尖模型來集成各種功能提供面對用戶的產品,如果大模型本身就具備了強大的多模式AI Agent能力,可能就不太需要其他“中間商”了。

而且為了抵御DeepSeek的開源攻勢,OpenAI正在借助其在開發者群體中的影響力加強在開源社區的影響力滲透,可謂下了一步好棋。

盡管GPT-5尚未到來,但o3已經再次提高了大模型競爭對壘高度,谷歌、Anthropic或開源之王DeepSeek將會如何出招對戰OpenAI可以一起期待下。

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒級計費,平均節省開支30%以上!

掃碼了解詳情?


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
人社定調2025養老金從1月補發,前年漲3.8%去年漲3%,今年漲多少

人社定調2025養老金從1月補發,前年漲3.8%去年漲3%,今年漲多少

糖逗在娛樂
2025-05-02 07:52:24
江蘇富婆3月內換7名男保姆,卻因尿失禁送往醫院,直呼后悔

江蘇富婆3月內換7名男保姆,卻因尿失禁送往醫院,直呼后悔

罪案洞察者
2025-04-09 11:50:35
67歲和保姆同居11年,每天給20塊,分手時,大爺:我不需要照顧了

67歲和保姆同居11年,每天給20塊,分手時,大爺:我不需要照顧了

小波股事歷程
2025-05-02 15:42:31
山東引援大動作,劍鎖遼寧核心?這次真拼了

山東引援大動作,劍鎖遼寧核心?這次真拼了

體育籃球弟
2025-05-03 01:30:06
夫妻生活里,微胖的女人,有這三大好處,你認可嗎?

夫妻生活里,微胖的女人,有這三大好處,你認可嗎?

星辰生肖館
2025-04-20 02:30:04
現在兒童醫院哄娃手段有多逆天?看完分享,酸的我都想回爐重造!

現在兒童醫院哄娃手段有多逆天?看完分享,酸的我都想回爐重造!

墻頭草
2025-05-01 11:25:41
5月3日俄烏最新:川普的第2步

5月3日俄烏最新:川普的第2步

西樓飲月
2025-05-03 12:51:45
江西一小三被原配當街暴打,爬起后的一句話,讓原配當場愣住

江西一小三被原配當街暴打,爬起后的一句話,讓原配當場愣住

青青會講故事
2025-04-30 13:14:37
7.4級地震!已有國家發布海嘯預警

7.4級地震!已有國家發布海嘯預警

FM93浙江交通之聲
2025-05-03 06:36:13
男生的尿酸,是怎么一步一步失控的?

男生的尿酸,是怎么一步一步失控的?

奔波兒灞與灞波兒奔
2025-03-21 21:36:35
有兒子但口袋里沒有錢的中年人,你的兒子大概率會終身打光棍

有兒子但口袋里沒有錢的中年人,你的兒子大概率會終身打光棍

笑熬漿糊111
2025-05-02 13:04:44
一篇能進中央的申論滿分文章,絕了!“領”“導”“干”“部“四個字,字字珠璣!

一篇能進中央的申論滿分文章,絕了!“領”“導”“干”“部“四個字,字字珠璣!

深度報
2025-04-27 23:43:53
她曾被稱為“第一車模”,不雅視頻被男友傳上網,現在怎么樣了?

她曾被稱為“第一車模”,不雅視頻被男友傳上網,現在怎么樣了?

阿胡
2025-04-23 16:30:24
風韻佳人428

風韻佳人428

東方不敗然多多
2025-05-03 10:56:54
“女人最佳生育年齡”揭曉,產科醫生:超過這個年紀就盡量別生了

“女人最佳生育年齡”揭曉,產科醫生:超過這個年紀就盡量別生了

西紅柿媽媽
2025-04-19 08:40:09
崔康熙下課,土帥僅一人可接手泰山隊,球迷站為麥麥提江

崔康熙下課,土帥僅一人可接手泰山隊,球迷站為麥麥提江

金風說
2025-05-03 12:31:54
頭一次接客,就被折磨死了

頭一次接客,就被折磨死了

華人星光
2025-05-02 14:12:57
20年,維持原判!李鐵二審結果出爐,退贓金額曝光,里皮被提起

20年,維持原判!李鐵二審結果出爐,退贓金額曝光,里皮被提起

體育有點水
2025-04-30 11:16:52
日本變陣沖擊決賽!國羽7次交手全部獲勝,蘇杯四強中日陣容出爐

日本變陣沖擊決賽!國羽7次交手全部獲勝,蘇杯四強中日陣容出爐

排球黃金眼
2025-05-03 01:06:24
劉青山被槍斃40年后,他親弟弟公開發言,對毛主席的決定作出評價

劉青山被槍斃40年后,他親弟弟公開發言,對毛主席的決定作出評價

歷史求知所
2025-03-06 18:00:13
2025-05-03 13:52:49
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6611文章數 94407關注度
往期回顧 全部

科技要聞

特朗普下手,英偉達對華“特供版”要改

頭條要聞

文旅局直播間涌入大量游客求房 當地騰1600間校舍安置

頭條要聞

文旅局直播間涌入大量游客求房 當地騰1600間校舍安置

體育要聞

北京請神馬布里?許利民真有“玄學”!

娛樂要聞

趙又廷節目中高調撒糖 大贊高圓圓超好

財經要聞

巴菲特年度盛會,六大看點前曕!

汽車要聞

易三方科技體驗日·北京站上演硬核駕控

態度原創

健康
家居
時尚
房產
公開課

唇皰疹和口腔潰瘍是"同伙"嗎?

家居要聞

意式輕奢 低飽和質感美學

伊姐五一熱推:電視劇《淮水竹亭》;電視劇《藏珠》......

房產要聞

最強書包官宣落位!海口這個片區,將徹底引爆!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 镶黄旗| 榆林市| 阿合奇县| 玉环县| 玛多县| 和平县| 广州市| 丰县| 桐城市| 皋兰县| 蒲江县| 武汉市| 泉州市| 宁都县| 宁津县| 东港市| 滨海县| 山丹县| 辽宁省| 得荣县| 黄浦区| 青河县| 天津市| 得荣县| 荥经县| 淄博市| 德安县| 连江县| 福安市| 河间市| 富民县| 余干县| 肃宁县| 保康县| 富锦市| 岐山县| 焦作市| 高清| 长垣县| 洪洞县| 武汉市|