99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

OpenAI 最強推理模型 o3 發布,AGI 測試能力暴漲,它有多強大?會對哪些領域帶來影響?

0
分享至

12天的直播,最后一天放出來的東西大家都知道是個大招,挺多人猜GPT5的,因為最后壓軸的大概率是大模型本身。

因為升級大模型,特別是對于OpenAI這種標桿公司,每一次的模型升級,基本上都代表了AI大模型領域的某種風向。

這次壓軸大菜上的是o3模型,包括我在內的很多人都很疑惑,o1之后為什么不是o2,而是o3。

OpenAI的CEO山姆奧特曼特意解釋了原因,就是他們公司非常不擅長起名字,然后o1之后就直接o3了。(可能這就是任性吧)


其實OpenAI的o系列模型,最大的特點就是擅長推理。比如說編程中涉及到了推理,數學也需要,物理化學這樣的理科學科也需要大量的推理,而o系列在這樣的任務中表現的尤其突出。

新的o3模型在推理上更進一步,在Software Engineering和Codeforeces這倆測試上分數相比它的上一代,o1模型提升很大。


第一個測試集的分數從48.9提升到了71.7,第二個從1891到2727,提升幅度很大。

然后在數學上也有了提升,在AIME這個測試集上o1就已經達到了83.3,o3直接把準確率提升到了96.7,幾乎相同于一套數學卷子只錯一個的程度。


然后下一個測試集叫GPQA,它是一個博士生級別的問題測試集,如果要某個學科的博士來答題,一般能拿到70分左右。

o1模型可以做到78分左右,o3直接把分數拉到87.7,遠超人類選手的程度。


除了這幾個很常見的測試集,甚至引入了一個不太常見的測試集ARC AGI,它的全稱是Abstraction and Reasoning Corpus for Artificial General Intelligence ,專門設計出來測試AI。


這個相比大多數測試用的數據集都要難,其中的題目大多是這種推理問題,下面是一個簡單的例子,憑借直覺就能答得上來。


但是有些題目難度很高,比如下面這個。


黃色塊中有幾個其他色塊,新圖像外面就有幾層相同色塊。

你可以看到GPT4o只有9%的分數,但是o1直接翻了兩倍多到了21%,o3的分數遠超第二名的60%,達到了82.8%。


你可以看ARC AGI主席公開的數據,o系列模型性能提升太線性了,甚至有點兒過于線性。


o3模型有幾個形態,除了o3,還有o3 mini,應該是蒸餾出來的小模型,mini版本也分為三種類型,分類的標準是推理消耗的計算資源。

分為low,medium以及high三種,滿足計算資源給的越多,性能越好的定理。


直播中測試了o3 mini low模式,用它做198道題,速度極快,只用了45秒,準確率61.62%,估計用high模式或者o3滿血版,可能分數會提升非常大。


最后,OpenAI提到了他們對于安全性的升級,總的來說,就是讓模型可以在這兩個維度上達到了很優化的平衡。

它們用下面兩個維度做了評估:

?拒絕惡意提示(jailbreaks):測試模型是否能拒絕回答惡意請求,如繞過政策或生成有害內容。

?避免過度拒絕(overrefusal):檢查模型在處理無害請求時是否會過于保守而拒絕回答。


o1 模型(深綠色星形)在拒絕惡意提示方面表現突出,同時對無害提示也更寬容,達到安全性和靈活性的平衡。


GPT-4o 表現較好,但相較于 o1 模型,在靈活性或安全性之間略顯妥協。Claude 3.5 和 Gemini 1.5 模型分別在某些方面表現突出,但無法同時兼顧兩方面優化。

這一切的原因都來自于安全方面的考慮:

·大型語言模型容易受到對抗性攻擊(例如越獄攻擊、濫用內容等)的威脅,同時可能過于保守,對無害請求拒絕回答。

·主要挑戰:

a.如何防止模型生成有害內容?

b.如何避免對無害輸入的過度拒絕?

現有方法的缺陷

·傳統方法依賴于“強化學習獎勵優化”(RLHF)和“對抗性訓練”(Adversarial Training),但這些方法存在以下問題:

a.過度依賴人工標注,訓練成本高,且難以擴展。

b.泛化能力較差,在處理分布外輸入(out-of-distribution)時表現不穩定。

新方法 - 深思熟慮的對齊 (Deliberative Alignment):

·提出了一個新型訓練框架,結合了過程監督和結果監督,以改進模型的安全性和泛化能力。

·自動生成訓練數據,減少人工依賴,提升對惡意提示的抵抗能力,同時減少對無害請求的過度拒絕。

下面的圖片詳細的介紹了幾個不同模型訓練和推理的邏輯,o3采用的方法更多的利用了COT以及包含了大量的推理。


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
也門胡塞武裝:與美國達成停火協議是在其與伊朗“開戰”之前,我們對美國襲擊伊朗的回應只是時間問題

也門胡塞武裝:與美國達成停火協議是在其與伊朗“開戰”之前,我們對美國襲擊伊朗的回應只是時間問題

和訊網
2025-06-22 15:13:11
印度拒絕用中國北斗,成功國產出衛星,性能超過美國GPS和北斗?

印度拒絕用中國北斗,成功國產出衛星,性能超過美國GPS和北斗?

慎獨贏
2025-01-14 11:32:15
消息證實!著名導演醫治無效,不幸去世

消息證實!著名導演醫治無效,不幸去世

FM93浙江交通之聲
2025-06-23 22:35:57
還是卡魯索有經驗!哈滕:球隊沒人會開香檳,卡魯索不得不現場教學

還是卡魯索有經驗!哈滕:球隊沒人會開香檳,卡魯索不得不現場教學

雷速體育
2025-06-23 12:28:29
女子6歲的小貓發燒不吃不喝,母親誤認為將離世準備悼詞:希望貓咪來世考上大連理工

女子6歲的小貓發燒不吃不喝,母親誤認為將離世準備悼詞:希望貓咪來世考上大連理工

瀟湘晨報
2025-06-23 18:11:46
俄羅斯準備支持伊朗發展和平核能!普京擔心沖突“滑向第三次世界大戰”

俄羅斯準備支持伊朗發展和平核能!普京擔心沖突“滑向第三次世界大戰”

魯中晨報
2025-06-21 16:45:13
突發!千億級國企原副總經理投案,兩天前剛辭職

突發!千億級國企原副總經理投案,兩天前剛辭職

中國房地產報官方號
2025-06-23 15:12:42
2025年5月燃油車銷量排行榜(轎車/SUV)

2025年5月燃油車銷量排行榜(轎車/SUV)

中汽數研
2025-06-21 15:10:11
00后殘疾男子爸媽是親兄妹,外公外婆是兄妹,新型“龍蝦族”出現

00后殘疾男子爸媽是親兄妹,外公外婆是兄妹,新型“龍蝦族”出現

葡萄說娛
2025-06-18 14:45:33
藏了40年的爸爸竟是陳道明!不拼爹不炒作,怪不得她這么優秀

藏了40年的爸爸竟是陳道明!不拼爹不炒作,怪不得她這么優秀

卷史
2025-06-14 18:48:15
伊第17波導彈,鐵穹攔截失敗,伊實戰告訴美軍:中國導彈攔不住!

伊第17波導彈,鐵穹攔截失敗,伊實戰告訴美軍:中國導彈攔不住!

星辰故事屋
2025-06-22 13:06:36
“事出反常必有妖”:竟然有高手總結了中國的現狀,絕了!

“事出反常必有妖”:竟然有高手總結了中國的現狀,絕了!

詩詞中國
2025-06-22 14:46:30
北青:東亞杯男足賽事將全部選用東南亞裁判 因經費有限不采用VAR

北青:東亞杯男足賽事將全部選用東南亞裁判 因經費有限不采用VAR

直播吧
2025-06-23 21:05:43
29歲郭麒麟再破天花板,這一次,他讓岳云鵬和整個內娛“沉默”了

29歲郭麒麟再破天花板,這一次,他讓岳云鵬和整個內娛“沉默”了

跳跳歷史
2025-06-23 17:33:34
哈梅內伊敢封鎖霍爾木茲海峽?中國沙特反對,伊朗經濟無異于自殺

哈梅內伊敢封鎖霍爾木茲海峽?中國沙特反對,伊朗經濟無異于自殺

肖茲探秘說
2025-06-23 21:41:31
剛剛!地震了!東莞震感明顯!

剛剛!地震了!東莞震感明顯!

東莞好生活
2025-06-23 20:02:02
皇馬3-1,驗出20歲新卡卡!組織+推射進球,外形帥氣,未來可期

皇馬3-1,驗出20歲新卡卡!組織+推射進球,外形帥氣,未來可期

阿泰希特
2025-06-23 10:19:05
德媒:俄軍全線攻勢猛如壓路機,烏軍僅剩3成兵力毫無反手之力

德媒:俄軍全線攻勢猛如壓路機,烏軍僅剩3成兵力毫無反手之力

哲學船
2025-06-23 21:15:54
許多人以為殉葬就是活人被推進地宮,事實上殉葬人可能會拼命求生

許多人以為殉葬就是活人被推進地宮,事實上殉葬人可能會拼命求生

南權先生
2025-06-17 12:07:39
嘴角壓不住了!亞歷山大手捧總冠軍獎杯+FMVP獎杯拍攝定妝照

嘴角壓不住了!亞歷山大手捧總冠軍獎杯+FMVP獎杯拍攝定妝照

直播吧
2025-06-23 13:32:18
2025-06-23 23:28:49
平凡AI incentive-icons
平凡AI
高校AI從業者
26文章數 23關注度
往期回顧 全部

科技要聞

售出千萬臺!他卻說"只想做下一代AI終端"

頭條要聞

玉淵譚天:美軍轟炸伊朗的武器僅美國有 但掏空了老本

頭條要聞

玉淵譚天:美軍轟炸伊朗的武器僅美國有 但掏空了老本

體育要聞

比起雷霆三少,他才是真正隊魂

娛樂要聞

魏大勛和秦嵐沒分手!

財經要聞

以伊沖突升級,對經濟和股市影響有多大?

汽車要聞

真香價格+質保承諾 別克E5很難讓人拒絕了

態度原創

家居
教育
手機
公開課
軍事航空

家居要聞

山水之間 墨染風雨云間

教育要聞

南京新民辦——海門模式的代表,南京江北新城高中發來邀請函!

手機要聞

Nothing Phone(3)外觀諜照曝光:后置三攝+數顯矩陣屏

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗:即便核設施被毀 游戲也遠未結束

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 颍上县| 开鲁县| 湾仔区| 惠州市| 宣武区| 慈利县| 巢湖市| 福海县| 仁怀市| 颍上县| 彭泽县| 曲周县| 双城市| 遵化市| 宁乡县| 安国市| 大化| 会宁县| 长春市| 通道| 阿克陶县| 乐陵市| 汉源县| 德昌县| 章丘市| 榆林市| 孟津县| 利津县| 宽城| 道真| 新蔡县| 斗六市| 阜南县| 武冈市| 客服| 资阳市| 克拉玛依市| 嘉荫县| 彭阳县| 于田县| 丁青县|