99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

先別急著給OpenAI加冕!陶哲軒:這種「金牌」,含金量取決于賽制

0
分享至

機器之心報道

機器之心編輯部

昨天,OpenAI 官宣了一個重磅消息:他們的一個推理模型在國際數學奧林匹克(IMO)競賽中獲得了金牌水平的表現。



官宣該消息的 OpenAI 研究科學家 Alexander Wei 表示,在評估過程中,研究團隊嚴格按照人類選手的比賽規則進行測試:模型需要在兩個 4.5 小時的考試環節中,在沒有任何工具或網絡輔助的情況下,閱讀官方題目并撰寫自然語言證明。



在評估中,該模型成功解決了 2025 年 IMO 六道題目中的五道,獲得了 35 分(滿分 42 分)的成績,足以獲得金牌。每道題目都由三位前 IMO 獎牌獲得者獨立評分,并在達成一致后確定最終分數。



在該消息公布后,整個 AI 社區都為之振奮。Alexander Wei 還曬出了 OpenAI 新模型生成的證明過程。



證明過程鏈接:https://github.com/aw31/openai-imo-2025-proofs/

而且有趣的是,就在 Alexander Wei 發帖之前不久,各家 AI 模型剛被曝出在 IMO 中表現不佳,得分最高的 Gemini 2.5 Pro 得分僅為 13 分,OpenAI 的 o3(high)則拿了 7 分。OpenAI 新模型成績的官宣讓這一事件出現了驚人的反轉。





不過,在這些消息發酵后不久,數學家陶哲軒站了出來,勸大家「謹慎看待」。他認為,如果沒有嚴格控制、標準化的測試條件,我們就無法用一種有意義的方式來比較 AI 模型與人類,并表示自己「不會評論任何在競賽前未公開其方法的自我報告的 AI 競賽結果」。這引發了大家對于 AI 模型實際進展的思考。



陶哲軒:謹慎看待各大 AI 模型的 IMO 成績

陶哲軒在博客中寫道:

人們很容易把當下 AI 的能力當成一個「一刀切」的單一指標:任務 X 要么在現有工具的能力之內,要么不在。實際上,AI 的能力差距可以拉開好幾個數量級,具體取決于給它什么資源、輔助方式,以及大家如何匯報自己的結果。

我用一個比喻來說明這一點。就取剛結束的國際數學奧林匹克(IMO)競賽做例子。

標準賽制是:每個國家派 6 名高中生參賽,由一名領隊(通常是職業數學家)帶隊。兩天里,選手每天 4.5 小時用紙筆獨立解答 3 道難題;考試期間選手之間、選手與領隊之間不得交流,只能請監考員澄清題意。閱卷時領隊為學生辯護,但并不直接參與做題。能拿到金牌(今年分數線 35/42,即 6 題里完美做出 5 題)被視為高中生極高的數學成就。

但是,如果我們通過各種方式改變奧林匹克競賽的形式,思考一下其難度會發生什么變化:

  • 給學生幾天時間來完成每道題目,而不是在四個半小時內完成三道題。(稍微延伸一下這個比喻,想象一個科幻場景:學生仍然只有四個半小時,但領隊將他們置于某種昂貴且高耗能的時間加速機器中,在此期間學生們經歷了數月甚至數年的時間。)
  • 考試開始前,領隊以一種學生認為更容易處理的形式重寫題目。
  • 領隊允許學生無限制地使用計算器、計算機代數系統、形式化證明助手、教科書,或使用互聯網搜索。
  • 領隊讓六名隊員組成的團隊同時解決同一個問題,并就各自的部分進展和遇到的死胡同進行溝通。
  • 領隊向學生提示可能有效的方法,并在某個學生花費太多時間在一個他們知道不太可能成功的方向上時進行干預。
  • 團隊中的六名學生都提交解答,但領隊只選擇「最佳」解答提交給競賽,而將其余的丟棄。
  • 如果團隊中沒有一個學生得出滿意的解答,領隊則完全不提交任何解答,并悄悄退出比賽,他們的參與記錄也無從知曉。

在上述每一種形式中,提交的解答從技術上講仍然是由高中參賽選手生成的,而非領隊。然而,學生們在競賽中報告的成功率可能會因這些形式上的改變而受到顯著影響;一個在標準考試條件下可能連銅牌水平都達不到的學生或團隊,在上述某些修改后的形式下,反而可能達到金牌水平。

因此,在缺乏一種非參賽團隊自選的、受控的測試方法論的情況下,人們應該警惕將不同 AI 模型在 IMO 這類競賽中的表現,或將這些模型與人類參賽者的表現進行「同類比較」。

與此相關的是,對于任何未在賽前披露其方法論的、自我報告的 AI 競賽表現結果,我將不予置評。

網友:能寫幾頁紙的證明本身就值得關注

對于陶哲軒提出的質疑,網友展開了廣泛討論。首先需要指出,陶哲軒在帖子中提到的挑戰 IMO 的 AI 模型可能不是特指 OpenAI 的模型,因此里面指出的一些問題對于 OpenAI 來說可能并不完全適用。



比如,從 OpenAI 的聲明來看,他們似乎沒有使用工具調用。



不過,有人反駁說,模型在訓練期間就記住了整個互聯網的語料,即使不調用工具,讓他們和無法訪問互聯網的人類學生相比也不夠公平。



還有人指出,這些問題其實并不值得糾結。從 OpenAI 的這個模型中,我們應該看到的是:AI 已經能夠在一個「難以驗證」的領域進行超過一個小時的推理并給出正確答案了。



所謂的「難以驗證」,相對的是容易驗證,比如像 AIME(美國數學競賽體系中的高階邀請賽)中的數學題,每題答案為 000-999 之間的整數,無需證明過程,僅填數字。對于這類問題,我們很容易用標準答案來訓練模型,用強化學習等方法來教會模型解決這類問題。但對于長達多頁的證明,我們一直缺乏明確的訓練范式。這也是 OpenAI 的研究最令人好奇的地方。



在關于該模型的討論中,OpenAI 推理研究主管 Noam Brown 也專門指出了這一點,而且明確表示他們「還有很大的空間來進一步提升測試時的計算能力和效率」。





如果 OpenAI 真的掌握了讓模型解決「難以驗證」的問題的訓練方法,他們是不是又往前走了一大步?



目前,這些問題尚無定論。OpenAI 的做法也非常神秘:他們提到最近會發布 GPT-5,但又明確指出這個拿到 IMO 金牌的模型不是 GPT-5。這個模型的面世可能還要等幾個月。



One more thing:領導神秘模型的 Alexander Wei 是誰?

這個拿到 IMO 金牌的推理模型來自 Alexander Wei 領導的一個小組。Noam Brown 提到,在新模型中,Alexander Wei 采取了一個鮮有人相信的想法,并利用它取得了極少人認為可能實現的結果。



Alexander Wei 專注于 LLM 的推理能力提升,特別是在數學推理和自然語言證明生成方面。他還曾獲得國際信息學奧林匹克(IOI)金牌。



他于 2023 年獲得加州大學伯克利分校的計算機科學博士學位,師從 Nika Haghtalab、Michael I. Jordan 及 Jacob Steinhardt。此前,他于 2020 年在哈佛大學完成了計算機科學的本碩學習。他的研究曾榮獲 SODA 最佳學生論文獎和 INFORMS 拍賣與市場設計領域的 Rothkopf 獎。



加入 OpenAI 之前,Wei 博士曾先后在 Meta AI (FAIR)、Microsoft Research 及 D. E. Shaw 公司積累了豐富的研究與行業經驗。



在 Meta AI (FAIR) 期間,他參與研發了在策略游戲《外交》(Diplomacy) 中達到人類頂尖水平的 AI 系統 CICERO,該成果發表于 2022 年的《Science》雜志。

Alexander Wei 小組的工作給最近深陷挖腳危機的 OpenAI 注入了一針強心劑,Noam Brown 似乎也有意借此向外界傳遞一個重要信號:OpenAI 依然是一個前沿技術實驗室,其擁有的技術比其他實驗室提前幾個月。只有在這里工作,你才能在第一時間接觸到這些東西。你同意他的看法嗎?



參考鏈接:https://x.com/alexwei_/status/1946477754372985146

https://x.com/polynoamial/status/1946478252496695523

https://mathstodon.xyz/@tao/114881420636881657

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
石破茂下臺已定?日本新首相人選浮出水面,對中日關系是個壞消息

石破茂下臺已定?日本新首相人選浮出水面,對中日關系是個壞消息

獵火照狼山
2025-07-21 22:23:37
吃相太難看!全程戴面具開演唱會,票價比刀郎還高,誰給的自信

吃相太難看!全程戴面具開演唱會,票價比刀郎還高,誰給的自信

白面書誏
2025-07-21 21:40:58
“穿越者”葉志平走了,有人說他是泄露了太多的天機

“穿越者”葉志平走了,有人說他是泄露了太多的天機

明月聊史
2025-07-18 15:33:39
雅魯藏布江驚雷炸響!10萬鐵軍筑壩,西方噤聲莫迪失語

雅魯藏布江驚雷炸響!10萬鐵軍筑壩,西方噤聲莫迪失語

智觀科技
2025-07-20 23:52:15
李連杰終究還是顧及了向家的臉面,給了向佐最大的體面!

李連杰終究還是顧及了向家的臉面,給了向佐最大的體面!

小娛樂悠悠
2025-06-24 07:55:54
四川省2025年養老金漲2%,調整方案會咋變?今年能漲多少錢?

四川省2025年養老金漲2%,調整方案會咋變?今年能漲多少錢?

記錄生活日常阿蜴
2025-07-22 06:04:09
雷霆三少誰賺得最多?杜蘭特5.1億,哈登4億,看到威少我服了

雷霆三少誰賺得最多?杜蘭特5.1億,哈登4億,看到威少我服了

星Xin辰大海
2025-07-22 06:14:23
日本奈良公園偶遇汪峰和女友,身邊跟著森林北的女兒像一家三口

日本奈良公園偶遇汪峰和女友,身邊跟著森林北的女兒像一家三口

手工制作阿殲
2025-07-22 08:56:16
早上6點,鄭欽文最快復出時間曝光!央視記者確認了,趕得上美網

早上6點,鄭欽文最快復出時間曝光!央視記者確認了,趕得上美網

侃球熊弟
2025-07-21 23:40:04
例外,解讀龐麥郎,可能99%的人都無法理解!

例外,解讀龐麥郎,可能99%的人都無法理解!

可樂談情感
2025-07-22 05:55:18
跟布克來一場11分單挑誰會贏?巴特勒:布克,他會打我11-0

跟布克來一場11分單挑誰會贏?巴特勒:布克,他會打我11-0

雷速體育
2025-07-21 09:47:23
賺麻了!開拓者選中楊瀚森后,短短一個月收入暴漲11倍,遠超去年

賺麻了!開拓者選中楊瀚森后,短短一個月收入暴漲11倍,遠超去年

侃球熊弟
2025-07-21 23:44:35
開局不利,陷入苦戰,垂死掙扎,發表獲勝感言,熟悉的柯潔回來了

開局不利,陷入苦戰,垂死掙扎,發表獲勝感言,熟悉的柯潔回來了

月滿大江流
2025-07-21 10:14:45
弗蘭克:保羅將以替補控衛身份加入 并樂于接受任何角色

弗蘭克:保羅將以替補控衛身份加入 并樂于接受任何角色

北青網-北京青年報
2025-07-22 09:15:03
新任公安部副部長凌志峰,已兼任特勤局局長

新任公安部副部長凌志峰,已兼任特勤局局長

觀察者網
2025-07-21 21:54:13
飛機突然墜毀,已造成至少19人死亡、100多人受傷!現場視頻曝光

飛機突然墜毀,已造成至少19人死亡、100多人受傷!現場視頻曝光

FM93浙江交通之聲
2025-07-21 20:46:41
有含絲量的花是無敵的!

有含絲量的花是無敵的!

貴圈真亂
2025-07-02 06:09:02
不吹不黑,日本這四大“運動品牌”確實碾壓nike、阿迪,舒適高級

不吹不黑,日本這四大“運動品牌”確實碾壓nike、阿迪,舒適高級

白宸侃片
2025-07-17 10:27:43
中國頂級陽謀!1.2萬億雅魯藏布江水電站開建,印度沒有選擇了

中國頂級陽謀!1.2萬億雅魯藏布江水電站開建,印度沒有選擇了

阿傖說事
2025-07-20 07:55:56
“別讓李嘉誠跑了!”中方這次下了死命令,這一道口子絕對不能開

“別讓李嘉誠跑了!”中方這次下了死命令,這一道口子絕對不能開

科學發掘
2025-07-21 15:29:09
2025-07-22 09:43:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10911文章數 142389關注度
往期回顧 全部

科技要聞

洋老板"認慫"放權,合資電車終于能打了?

頭條要聞

俄羅斯商品館"退潮" 從遍地開花到大規模閉店不到一年

頭條要聞

俄羅斯商品館"退潮" 從遍地開花到大規模閉店不到一年

體育要聞

這四位大兄弟,你們真敢要3000萬吶

娛樂要聞

五哈全員為寶石老舅送祝福

財經要聞

白宮力推的5000億美元AI計劃陷僵局

汽車要聞

勞斯萊斯前設計師全新力作 榮威M7正式亮相

態度原創

時尚
游戲
手機
教育
數碼

水晶專場|| 我最近超愛戴這條!被大家追著問的鏈接終于來了~

PS5 Pro將幫助索尼這一代主機延長到2029年

手機要聞

各品牌旗艦處理器國內銷量對比,蘋果成老大,聯發科排名第四

教育要聞

初中數學解分式方程,關鍵在于兩個變形!

數碼要聞

蘋果錯誤地發布了macOS Tahoe公開測試版 現已將其撤下

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 赤壁市| 新竹县| 蕉岭县| 汶川县| 吉安市| 横山县| 汝城县| 江西省| 翁源县| 依兰县| 黄大仙区| 苍梧县| 株洲市| 澜沧| 淮北市| 东源县| 伊金霍洛旗| 买车| 将乐县| 岢岚县| 兴城市| 青浦区| 渑池县| 岳阳市| 黎城县| 上杭县| 鲁山县| 望谟县| 连云港市| 石楼县| 循化| 色达县| 威远县| 漯河市| 杭锦后旗| 扶绥县| 珠海市| 桐庐县| 沙湾县| 余干县| 麟游县|