99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI發(fā)新模型!首次實現(xiàn)“圖像思維”,可利用所有ChatGPT工具

0
分享至

OpenAI周三發(fā)布新款AI模型o3和o4-mini,模仿人類的推理過程,解決復雜編程和視覺任務的推理。同時,該公司也發(fā)布開源AI agent CodeX CLI,用于幫助用戶執(zhí)行編程任務,從而改善市場競爭能力。

OpenAI此次推出的主要新型推理模型名為o3,同時還發(fā)布了一款更小型的模型,命名為o4-mini。這一發(fā)布延續(xù)了去年9月OpenAI首個推理模型o1的問世,當時o1主要專注于解決復雜問題,并通過多步驟的方式進行思考和作答。

該公司表示,新發(fā)布的o3模型在響應用戶提示之前會花費更多時間進行計算,目標是解決與科學、數(shù)學和編程相關的更復雜的多步驟問題。借助o3,用戶可以上傳白板筆記、草圖和其他圖像內(nèi)容,讓AI進行分析與討論。這些模型還能對圖像進行旋轉(zhuǎn)、縮放等編輯操作。

跑分進步 首次實現(xiàn)“圖像思維”

據(jù)最新測試結果,o3和o4-mini(無工具版本)在AIME 2024數(shù)學競賽題目中的準確率分別達91.6%和93.4%,遠超前代模型o1的74.3%。在AIME 2025題目中,兩者準確率分別達88.9%和92.7%。在Codeforces編程競賽評分中,支持終端工具的o3和o4-mini分別取得了2706和2719的ELO分數(shù),顯著領先于o1的1891和o3-mini的2073,顯示出在復雜數(shù)學與代碼任務中的強大推理與執(zhí)行能力。


同時,o3(無工具)在博士水平科學問答中的準確率為83.3%,高于前代模型o1的78.0%,而o4-mini(無工具)也緊隨其后,達81.4%。在右圖所示的“人類最后的考試”高難度跨學科題目中,開啟Python與瀏覽工具的o3模型準確率達24.9%,顯著優(yōu)于o1-pro的8.12%和o3-mini的13.4%,顯示出多工具組合在處理復雜問題上的巨大潛力。值得注意的是,Deep Research實驗系統(tǒng)在該測試中表現(xiàn)最佳,準確率達26.6%。這進一步突顯OpenAI新模型在推理鏈、跨模態(tài)理解和工具協(xié)同方面的持續(xù)進步。


在多模態(tài)推理方面,OpenAI新發(fā)布的o3和o4-mini模型在多項視覺推理測試中全面超越前代模型o1。在MMMU大學級視覺問題解決任務中,o3的準確率達82.9%,領先于o1的77.6%;o4-mini表現(xiàn)相近,為81.6%。在MathVista視覺數(shù)學推理測試中,o3取得86.8%的成績,遠高于o1的71.8%;而o4-mini則達84.3%。在CharXiv科學圖表推理測試中,o3的準確率為78.6%,大幅領先o1的55.1%,o4-mini則達到72%。整體來看,o3在處理圖像與文本結合任務中展現(xiàn)出強大能力,o4-mini則在保持高性能的同時提升了響應速度與成本效率,展現(xiàn)出OpenAI多模態(tài)模型在復雜視覺任務中的顯著進展。


與此同時,o4-mini則提供了價格、速度和性能之間的“有競爭力的平衡”,這是開發(fā)者在選擇AI模型為其應用提供支持時經(jīng)常考慮的三大因素。兩款模型現(xiàn)已向OpenAI付費用戶開放。


OpenAI在公告中寫道,o3和o4-mini是首批能夠“圖像思維”的AI模型:

這是我們首次推出能夠獨立使用全部ChatGPT工具的推理模型——包括網(wǎng)頁瀏覽、Python編程、圖像理解和圖像生成能力。這使得它們在解決復雜的多步驟問題時更加高效,并朝著自主執(zhí)行任務的方向邁出了真正一步。”

該公司解釋稱,這意味著“它們不僅能看圖,還能將視覺信息直接整合進推理鏈條之中”。


OpenAI表示,o3在SWE-bench verified測試中表現(xiàn)達到了當前最先進的水平(不使用自定義結構),該測試主要評估編程能力,o3的得分為69.1%。o4-mini的得分也相當出色,達到68.1%。作為對比,OpenAI此前最好的模型o3-mini在該測試中得分為49.3%,而Anthropic的Claude 3.7 Sonnet得分為62.3%。


DeepSeek壓力下 OpenAI也想開源了?

OpenAI在2022年底推出ChatGPT,引發(fā)了生成式人工智能的熱潮。當時這款產(chǎn)品搭載的是GPT-3.5模型。此后,該公司陸續(xù)發(fā)布了多個日益復雜的系統(tǒng),包括多個推理模型。但OpenAI目前面臨著來自中國新興企業(yè)DeepSeek、Anthropic以及馬斯克旗下xAI等公司的巨大壓力,這些公司不斷推出一系列具備類似前沿能力的AI模型。

分析認為,編程已成為生成式AI應用中增長最快的領域之一,也是OpenAI的一個關鍵競爭戰(zhàn)場。Anthropic和谷歌母公司Alphabet都大力宣傳其新一代AI系統(tǒng)的編程能力。其他創(chuàng)業(yè)公司,如Cursor的開發(fā)商Anysphere,也憑借面向程序員的AI工具獲得了廣泛關注。

為在這個競爭激烈的市場中更具優(yōu)勢,OpenAI周三宣布推出Codex CLI,這是一款旨在與如o3等模型協(xié)同工作的AI代理,可幫助用戶完成編程任務。該產(chǎn)品是開源的,意味著將免費向用戶開放,并可直接在用戶的計算機終端程序中運行。

奧特曼此前曾表示,公司正在開發(fā)一個開源版本的推理模型,計劃在未來幾個月內(nèi)發(fā)布,此舉是為了回應DeepSeek旗下開源系統(tǒng)R1走紅后的市場影響。

OpenAI還表示,未來幾周內(nèi)將推出o3-pro,這是o3的一個升級版本,使用更多計算資源生成回答,僅向ChatGPT Pro訂閱用戶開放。而奧特曼此前曾表示,o3和o4-mini可能是OpenAI在GPT-5發(fā)布之前推出的最后一批獨立推理模型。GPT-5預計將融合傳統(tǒng)模型(如GPT-4.1)與推理模型,實現(xiàn)統(tǒng)一發(fā)展方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
性生活的藝術:夫妻如何享受性愛的樂趣?

性生活的藝術:夫妻如何享受性愛的樂趣?

精彩分享快樂
2025-05-31 00:56:48
貝弗利:亞歷山大26歲拿MVP 但誰說愛德華茲3年后就拿不了呢

貝弗利:亞歷山大26歲拿MVP 但誰說愛德華茲3年后就拿不了呢

直播吧
2025-05-29 21:40:08
鄭欽文獲大滿貫第30勝,三大突破令人驚嘆!

鄭欽文獲大滿貫第30勝,三大突破令人驚嘆!

許礆很機智
2025-05-31 01:12:05
國米歐冠決賽首發(fā)預測:帕瓦爾回歸,圖拉姆搭檔勞塔羅

國米歐冠決賽首發(fā)預測:帕瓦爾回歸,圖拉姆搭檔勞塔羅

懂球帝
2025-05-31 00:52:26
今天的日本,可能就是20年后的中國!日本的現(xiàn)狀很多地方值得警惕

今天的日本,可能就是20年后的中國!日本的現(xiàn)狀很多地方值得警惕

井普椿的獨白
2025-05-27 23:40:44
17歲中學生從北坡登頂珠峰能保送清北?清華大學回應:目前沒有這類招生計劃

17歲中學生從北坡登頂珠峰能保送清北?清華大學回應:目前沒有這類招生計劃

大象新聞
2025-05-31 00:53:19
周華健長子周厚安官宣結婚!首次公開與妻子合照,婚禮僅親友參加

周華健長子周厚安官宣結婚!首次公開與妻子合照,婚禮僅親友參加

娛樂看阿敞
2025-05-30 15:38:50
2025年高考最新預測:本科錄取率僅37.6%,超800萬學生將落榜!

2025年高考最新預測:本科錄取率僅37.6%,超800萬學生將落榜!

教育導向分享
2025-05-30 16:51:31
中央決定:中國一重董事長調(diào)整

中央決定:中國一重董事長調(diào)整

魯中晨報
2025-05-30 18:09:19
一男子嫖娼被趕出門外,小姐稱:吃藥過來的,沒把我當人

一男子嫖娼被趕出門外,小姐稱:吃藥過來的,沒把我當人

傳情說事局
2024-05-27 21:40:50
江蘇一女子,因“把茨菇當綠植養(yǎng)”火了,亭亭玉立,太養(yǎng)眼了~

江蘇一女子,因“把茨菇當綠植養(yǎng)”火了,亭亭玉立,太養(yǎng)眼了~

平祥生活日志
2025-05-30 16:13:51
一個不紅的老戲骨,演了96部戲也叫不出名字,如今52歲被孫儷帶紅

一個不紅的老戲骨,演了96部戲也叫不出名字,如今52歲被孫儷帶紅

野山歷史
2025-05-04 17:17:32
熱搜第一!瑞幸咖啡回應“邁入6塊9時代”,網(wǎng)友:實在是喝不動了

熱搜第一!瑞幸咖啡回應“邁入6塊9時代”,網(wǎng)友:實在是喝不動了

齊魯壹點
2025-05-30 22:07:36
尊界S800是誰在買?華為系最貴新車上市,售價自“砍”30多萬元

尊界S800是誰在買?華為系最貴新車上市,售價自“砍”30多萬元

時代周報
2025-05-30 22:57:07
鐵衛(wèi)回歸!國米大戰(zhàn)之前獲利好消息 后防線最大短板將不復存在

鐵衛(wèi)回歸!國米大戰(zhàn)之前獲利好消息 后防線最大短板將不復存在

雪狼侃體育
2025-05-30 15:29:50
炸裂!女子稱被按摩師脫內(nèi)褲摸隱私部位30分鐘,是猥褻還是按摩?

炸裂!女子稱被按摩師脫內(nèi)褲摸隱私部位30分鐘,是猥褻還是按摩?

鋭娛之樂
2024-12-15 21:13:25
低密度脂蛋白指數(shù)躍過3.4的警戒線,掌握“三食三忌”的飲食智慧

低密度脂蛋白指數(shù)躍過3.4的警戒線,掌握“三食三忌”的飲食智慧

孫振興筋骨養(yǎng)生
2025-05-29 15:00:08
深夜突發(fā)!大跳水!

深夜突發(fā)!大跳水!

中國基金報
2025-05-30 00:10:39
河南兄弟倆1年里奸淫殺害14名小姐,放在絞肉機和硫酸里碎尸

河南兄弟倆1年里奸淫殺害14名小姐,放在絞肉機和硫酸里碎尸

午夜故事會
2023-08-28 09:05:03
“怎么會有人這樣做?”巴勒斯坦代表淚灑安理會

“怎么會有人這樣做?”巴勒斯坦代表淚灑安理會

看看新聞Knews
2025-05-29 07:51:57
2025-05-31 03:24:49
華爾街見聞官方 incentive-icons
華爾街見聞官方
中國領先的金融商業(yè)信息提供商
130328文章數(shù) 2649549關注度
往期回顧 全部

科技要聞

尊界S800上市 指導價70.8萬起 8月中旬交車

頭條要聞

小伙睡夢中被貸款5萬:看手機在自己輸密碼頭皮都麻了

頭條要聞

小伙睡夢中被貸款5萬:看手機在自己輸密碼頭皮都麻了

體育要聞

唐斯的媽媽,一定會感到驕傲的

娛樂要聞

趙麗穎新劇撲街?演技扛劇能力遭質(zhì)疑

財經(jīng)要聞

向松祚:不必擔憂美債高企 美可無限發(fā)債

汽車要聞

新增配色+動力升級 粵港澳車展探館新款smart #1

態(tài)度原創(chuàng)

健康
教育
手機
時尚
本地

唇皰疹和口腔潰瘍是"同伙"嗎?

教育要聞

最高法“六一”公眾開放日:師生同上法治課

手機要聞

哪款手機最好賣?全球暢銷機型TOP10來了

今年夏天,穿得越放松越好看!

本地新聞

云游中國 |來仰天湖大草原,一起策馬奔騰

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 云南省| 彰武县| 都昌县| 沅陵县| 龙海市| 鄂托克前旗| 沁阳市| 朔州市| 镇坪县| 平果县| 会宁县| 宝丰县| 岐山县| 嵊泗县| 防城港市| 涿鹿县| 成武县| 江孜县| 三河市| 岳阳市| 华坪县| 龙胜| 攀枝花市| 通州区| 图们市| 凤山县| 五莲县| 泰和县| 南部县| 比如县| 玉树县| 万山特区| 阿勒泰市| 桑植县| 沭阳县| 芜湖市| 炎陵县| 固始县| 东乌珠穆沁旗| 贵定县| 苍山县|