99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

OpenAI 最強推理模型 o3 發布，AGI 測試能力暴漲，它有多強大？會對哪些領域帶來影響？

2024-12-21 08:51:17　來源: 平凡AI

海外舉報

0

分享至

12天的直播，最后一天放出來的東西大家都知道是個大招，挺多人猜GPT5的，因為最后壓軸的大概率是大模型本身。

因為升級大模型，特別是對于OpenAI這種標桿公司，每一次的模型升級，基本上都代表了AI大模型領域的某種風向。

這次壓軸大菜上的是o3模型，包括我在內的很多人都很疑惑，o1之后為什么不是o2，而是o3。

OpenAI的CEO山姆奧特曼特意解釋了原因，就是他們公司非常不擅長起名字，然后o1之后就直接o3了。（可能這就是任性吧）

其實OpenAI的o系列模型，最大的特點就是擅長推理。比如說編程中涉及到了推理，數學也需要，物理化學這樣的理科學科也需要大量的推理，而o系列在這樣的任務中表現的尤其突出。

新的o3模型在推理上更進一步，在Software Engineering和Codeforeces這倆測試上分數相比它的上一代，o1模型提升很大。

第一個測試集的分數從48.9提升到了71.7，第二個從1891到2727，提升幅度很大。

然后在數學上也有了提升，在AIME這個測試集上o1就已經達到了83.3，o3直接把準確率提升到了96.7，幾乎相同于一套數學卷子只錯一個的程度。

然后下一個測試集叫GPQA，它是一個博士生級別的問題測試集，如果要某個學科的博士來答題，一般能拿到70分左右。

o1模型可以做到78分左右，o3直接把分數拉到87.7，遠超人類選手的程度。

除了這幾個很常見的測試集，甚至引入了一個不太常見的測試集ARC AGI，它的全稱是Abstraction and Reasoning Corpus for Artificial General Intelligence ，專門設計出來測試AI。

這個相比大多數測試用的數據集都要難，其中的題目大多是這種推理問題，下面是一個簡單的例子，憑借直覺就能答得上來。

但是有些題目難度很高，比如下面這個。

黃色塊中有幾個其他色塊，新圖像外面就有幾層相同色塊。

你可以看到GPT4o只有9%的分數，但是o1直接翻了兩倍多到了21%，o3的分數遠超第二名的60%，達到了82.8%。

你可以看ARC AGI主席公開的數據，o系列模型性能提升太線性了，甚至有點兒過于線性。

o3模型有幾個形態，除了o3，還有o3 mini，應該是蒸餾出來的小模型，mini版本也分為三種類型，分類的標準是推理消耗的計算資源。

分為low，medium以及high三種，滿足計算資源給的越多，性能越好的定理。

直播中測試了o3 mini low模式，用它做198道題，速度極快，只用了45秒，準確率61.62%，估計用high模式或者o3滿血版，可能分數會提升非常大。

最后，OpenAI提到了他們對于安全性的升級，總的來說，就是讓模型可以在這兩個維度上達到了很優化的平衡。

它們用下面兩個維度做了評估：

?拒絕惡意提示（jailbreaks）：測試模型是否能拒絕回答惡意請求，如繞過政策或生成有害內容。

?避免過度拒絕（overrefusal）：檢查模型在處理無害請求時是否會過于保守而拒絕回答。

o1 模型（深綠色星形）在拒絕惡意提示方面表現突出，同時對無害提示也更寬容，達到安全性和靈活性的平衡。

GPT-4o 表現較好，但相較于 o1 模型，在靈活性或安全性之間略顯妥協。Claude 3.5 和 Gemini 1.5 模型分別在某些方面表現突出，但無法同時兼顧兩方面優化。

這一切的原因都來自于安全方面的考慮：

·大型語言模型容易受到對抗性攻擊（例如越獄攻擊、濫用內容等）的威脅，同時可能過于保守，對無害請求拒絕回答。

·主要挑戰：

a.如何防止模型生成有害內容？

b.如何避免對無害輸入的過度拒絕？

現有方法的缺陷：

·傳統方法依賴于“強化學習獎勵優化”（RLHF）和“對抗性訓練”（Adversarial Training），但這些方法存在以下問題：

a.過度依賴人工標注，訓練成本高，且難以擴展。

b.泛化能力較差，在處理分布外輸入（out-of-distribution）時表現不穩定。

新方法 - 深思熟慮的對齊 (Deliberative Alignment)：

·提出了一個新型訓練框架，結合了過程監督和結果監督，以改進模型的安全性和泛化能力。

·自動生成訓練數據，減少人工依賴，提升對惡意提示的抵抗能力，同時減少對無害請求的過度拒絕。

下面的圖片詳細的介紹了幾個不同模型訓練和推理的邏輯，o3采用的方法更多的利用了COT以及包含了大量的推理。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

OpenAI底層AGI技術被曝光！前研究主管豪言：從此再無新范式

新智元 2025-06-21 17:34:26
2 跟貼 2
Sam Altman提醒創業者：ChatGPT將來要做的，大家就繞開吧

機器之心Pro 2025-06-23 10:55:04
3 跟貼 3

OpenAI CEO深度訪談：吐槽Meta1億美金挖墻角，透露造“AI伴侶”

智東西 2025-06-22 18:45:53
15 跟貼 15

推理正確率下降65.5%！斯坦福、MIT等用「不等式」拷問AI邏輯極限

新智元 2025-06-23 13:17:43
3 跟貼 3
5年白領下崗，AGI靠RL一飛沖天？網友：這是讓狗學會打麻將！

新智元 2025-06-22 12:20:53
2 跟貼 2

AI需要「像人類」那樣思考？AlphaOne揭示大模型的「思考之道」

機器之心Pro 2025-06-23 17:37:28
0 跟貼 0

28歲輟學生掌舵Meta超級AI！小扎擲千億，與奧特曼密謀，新「王」登頂

新智元 2025-06-23 16:49:53
0 跟貼 0
AGI時代的教育我們應該學什么？

經濟觀察報 2025-05-09 15:41:04
0 跟貼 0

我在哪？要去哪？字節跳動Astra雙模型架構助力機器人自由導航

機器之心Pro 2025-06-23 17:44:23
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
冠軍隊獨享200w？這波是沖大學生來的，超千支隊伍已組隊報名

量子位 2025-06-23 17:40:57
0 跟貼 0
具身智能創業來了位浙大博導，機器人會飛，VC搶著投

量子位 2025-06-23 20:25:19
0 跟貼 0
生成式AI的“安全溢價”與生態競爭專訪亞馬遜云科技陳曉建：我們不打極致的“價格戰”

每日經濟新聞 2025-06-23 21:04:17
0 跟貼 0
MWC上海觀察 | 最新戰略發布！長飛如何筑牢AI時代“高速公路”

通信世界 2025-06-23 20:08:43
0 跟貼 0
超算互聯網上線開源AI社區！模型+數據+算力，一站式解決

量子位 2025-06-23 20:07:47
0 跟貼 0
統一框架下的具身多模態推理

機器之心Pro 2025-06-18 14:49:46
0 跟貼 0
螞蟻開源輕量級推理模型Ring-lite，多項Benchmark達到SOTA

量子位 2025-06-23 21:18:50
0 跟貼 0
【產業互聯網周報】 OpenAI開始提供ChatGPT企業版折扣；國家互聯網信息辦公室：中國已有433款大模型完成備案；消息稱微軟計劃裁員數千人，主要集

鈦媒體APP 2025-06-23 09:59:47
0 跟貼 0
奧特曼YC硬核訪談：走ChatGPT之路必死，世界差點沒有OpenAI！

新智元 2025-06-23 14:47:51
1 跟貼 1
腳氣反復出現，鉆心的癢！醫生：試試夏天去沙灘踩“熱”沙子！

BRTV新聞 2025-06-22 23:47:09
693 跟貼 693
特朗普的性格缺什么？#特朗普#性格 #缺陷#事安#你怎么看

雨果說 2025-06-21 09:57:45
383 跟貼 383
梅德韋杰夫稱有國家準備直接向伊提供核彈頭萬斯回應

環球網資訊 2025-06-23 11:56:50
27430 跟貼 27430
直播間里的“老酒”是假酒？總臺《財經調查》曝光虛構“年份酒”→

央視財經 2025-06-22 20:35:40
0 跟貼 0
道具模型太貴怎么辦，導演直接整上真家伙

影帝俠 2025-06-21 13:03:31
253 跟貼 253
2025.6.20日報第一集（共四集，注意查看主頁）

獨夫之心 2025-06-21 23:47:04
0 跟貼 0
Labubu徹底拆開，各位看看這東西成本值多少

硬核拆解 2025-06-23 19:03:51
25 跟貼 25
磊磊直播回應28案，甩鍋吐槽不斷，真相究竟幾何？

A娛樂小王子 2025-06-23 10:09:07
42 跟貼 42
姑娘開直播小伙送外賣，姑娘餓了點外賣，小伙休息了看直播！

陳翔愛搞笑 2025-06-23 10:04:16
1 跟貼 1
劉宇寧直播間翻車哈哈

娛樂瑣瑣碎 2025-06-21 07:38:09
0 跟貼 0
重磅發布會，明天上午10時舉行！

中國網 2025-06-23 13:39:24
11835 跟貼 11835
無損減少80%激活值內存，提升5倍訓練序列長度，僅需兩行代碼

機器之心Pro 2025-06-23 15:55:45
0 跟貼 0
第一天直播收入幾百塊，如今每天1萬5！下午3點就有人等，杭州這家店怎么火了？

都市快報橙柿互動 2025-06-23 21:55:21
1 跟貼 1
突發！63歲馬景濤直播間暈倒，后腦著地，現場混亂緊急關播

虎兔運動吧 2025-06-22 17:42:12
0 跟貼 0
張凌赫拒絕和金靖演夫妻張凌赫你小子也是裝上了，聽見和金靖是夫妻立馬裝暈開始推理吧娛樂評論大賞抖音

麻花娛樂ya 2025-06-19 12:36:36
0 跟貼 0
單集成本高達一億美金的科幻神劇能有多亮眼

風靈剪輯 2025-06-21 05:34:00
0 跟貼 0
三哥選拔航天員使用的大招，成本低技術高，坐的跟耍的都有水平！

嗡嗡生活說 2025-06-21 09:25:58
0 跟貼 0
這主播講的太好了

阿秀解說 2025-06-23 01:20:28
0 跟貼 0
真正的智能體軟件工程師：OpenAI研發A-SWE能寫代碼、測試質量、修復Bug

量子位 2025-04-14 19:04:43
0 跟貼 0
丁禹兮在中餐廳感受到歸屬感，表示不想學會分離

四川衛視 2025-06-19 19:40:48
0 跟貼 0
水貝電商直播季新星主播登頂梧桐山巔！300米高空瞰水貝黃金版圖

深圳晚報 2025-06-22 20:57:41
14 跟貼 14

也門胡塞武裝：與美國達成停火協議是在其與伊朗“開戰”之前，我們對美國襲擊伊朗的回應只是時間問題

也門胡塞武裝：與美國達成停火協議是在其與伊朗“開戰”之前，我們對美國襲擊伊朗的回應只是時間問題

和訊網

2025-06-22 15:13:11

印度拒絕用中國北斗，成功國產出衛星，性能超過美國GPS和北斗？

印度拒絕用中國北斗，成功國產出衛星，性能超過美國GPS和北斗？

慎獨贏

2025-01-14 11:32:15

消息證實！著名導演醫治無效，不幸去世

消息證實！著名導演醫治無效，不幸去世

FM93浙江交通之聲

2025-06-23 22:35:57

還是卡魯索有經驗！哈滕：球隊沒人會開香檳，卡魯索不得不現場教學

還是卡魯索有經驗！哈滕：球隊沒人會開香檳，卡魯索不得不現場教學

雷速體育

2025-06-23 12:28:29

女子6歲的小貓發燒不吃不喝，母親誤認為將離世準備悼詞：希望貓咪來世考上大連理工

女子6歲的小貓發燒不吃不喝，母親誤認為將離世準備悼詞：希望貓咪來世考上大連理工

瀟湘晨報

2025-06-23 18:11:46

俄羅斯準備支持伊朗發展和平核能！普京擔心沖突“滑向第三次世界大戰”

俄羅斯準備支持伊朗發展和平核能！普京擔心沖突“滑向第三次世界大戰”

魯中晨報

2025-06-21 16:45:13

突發！千億級國企原副總經理投案，兩天前剛辭職

突發！千億級國企原副總經理投案，兩天前剛辭職

中國房地產報官方號

2025-06-23 15:12:42

2025年5月燃油車銷量排行榜（轎車/SUV）

2025年5月燃油車銷量排行榜（轎車/SUV）

中汽數研

2025-06-21 15:10:11

00后殘疾男子爸媽是親兄妹，外公外婆是兄妹，新型“龍蝦族”出現

00后殘疾男子爸媽是親兄妹，外公外婆是兄妹，新型“龍蝦族”出現

葡萄說娛

2025-06-18 14:45:33

藏了40年的爸爸竟是陳道明！不拼爹不炒作，怪不得她這么優秀

藏了40年的爸爸竟是陳道明！不拼爹不炒作，怪不得她這么優秀

卷史

2025-06-14 18:48:15

伊第17波導彈，鐵穹攔截失敗，伊實戰告訴美軍：中國導彈攔不住！

伊第17波導彈，鐵穹攔截失敗，伊實戰告訴美軍：中國導彈攔不住！

星辰故事屋

2025-06-22 13:06:36

“事出反常必有妖”：竟然有高手總結了中國的現狀，絕了！

“事出反常必有妖”：竟然有高手總結了中國的現狀，絕了！

詩詞中國

2025-06-22 14:46:30

北青：東亞杯男足賽事將全部選用東南亞裁判因經費有限不采用VAR

北青：東亞杯男足賽事將全部選用東南亞裁判因經費有限不采用VAR

直播吧

2025-06-23 21:05:43

29歲郭麒麟再破天花板，這一次，他讓岳云鵬和整個內娛“沉默”了

29歲郭麒麟再破天花板，這一次，他讓岳云鵬和整個內娛“沉默”了

跳跳歷史

2025-06-23 17:33:34

哈梅內伊敢封鎖霍爾木茲海峽？中國沙特反對，伊朗經濟無異于自殺

哈梅內伊敢封鎖霍爾木茲海峽？中國沙特反對，伊朗經濟無異于自殺

肖茲探秘說

2025-06-23 21:41:31

剛剛！地震了！東莞震感明顯！

東莞好生活

2025-06-23 20:02:02

皇馬3-1，驗出20歲新卡卡！組織＋推射進球，外形帥氣，未來可期

皇馬3-1，驗出20歲新卡卡！組織＋推射進球，外形帥氣，未來可期

阿泰希特

2025-06-23 10:19:05

德媒：俄軍全線攻勢猛如壓路機，烏軍僅剩3成兵力毫無反手之力

德媒：俄軍全線攻勢猛如壓路機，烏軍僅剩3成兵力毫無反手之力

哲學船

2025-06-23 21:15:54

許多人以為殉葬就是活人被推進地宮，事實上殉葬人可能會拼命求生

許多人以為殉葬就是活人被推進地宮，事實上殉葬人可能會拼命求生

南權先生

2025-06-17 12:07:39

嘴角壓不住了！亞歷山大手捧總冠軍獎杯+FMVP獎杯拍攝定妝照

嘴角壓不住了！亞歷山大手捧總冠軍獎杯+FMVP獎杯拍攝定妝照

直播吧

2025-06-23 13:32:18

高校AI從業者

26文章數 23關注度

往期回顧全部

科技要聞

售出千萬臺！他卻說"只想做下一代AI終端"

頭條要聞

玉淵譚天：美軍轟炸伊朗的武器僅美國有但掏空了老本

頭條要聞

玉淵譚天：美軍轟炸伊朗的武器僅美國有但掏空了老本

體育要聞

比起雷霆三少，他才是真正隊魂

娛樂要聞

魏大勛和秦嵐沒分手！

財經要聞

以伊沖突升級，對經濟和股市影響有多大？

汽車要聞

真香價格+質保承諾別克E5很難讓人拒絕了

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

教育

手機

公開課

軍事航空

家居要聞

山水之間墨染風雨云間

溫暖明亮三代同堂之家
輕奢簡約大戶型三代之家
遠行而歸臺式極簡布局

教育要聞

南京新民辦——海門模式的代表，南京江北新城高中發來邀請函！

手機要聞

Nothing Phone（3）外觀諜照曝光：后置三攝+數顯矩陣屏

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產30天

軍事要聞

伊朗：即便核設施被毀游戲也遠未結束

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：颍上县| 开鲁县| 湾仔区| 惠州市| 宣武区| 慈利县| 巢湖市| 福海县| 仁怀市| 颍上县| 彭泽县| 曲周县| 双城市| 遵化市| 宁乡县| 安国市| 大化| 会宁县| 长春市| 通道| 阿克陶县| 乐陵市| 汉源县| 德昌县| 章丘市| 榆林市| 孟津县| 利津县| 宽城| 道真| 新蔡县| 斗六市| 阜南县| 武冈市| 客服| 资阳市| 克拉玛依市| 嘉荫县| 彭阳县| 于田县| 丁青县|

<bdo id="ssvwl"><code id="ssvwl"><thead id="ssvwl"></thead></code></bdo>

<em id="ssvwl"><tt id="ssvwl"></tt></em>

<tt id="ssvwl"><b id="ssvwl"></b></tt>

<del id="ssvwl"></del>

<pre id="ssvwl"><b id="ssvwl"></b></pre>