機器之心報道
機器之心編輯部
剛剛,谷歌 DeepMind 宣布,其新一代 Gemini 進階版模型在 IMO 競賽中正式達到金牌得主水平,成功解決了六道超高難度試題中的五道,拿下 35 分(滿分 42 分),成為首個獲得奧賽組委會官方認定為金牌的AI系統。
更重要的是,該系統首次證明人工智能無需依賴專業編程語言,僅通過自然語言理解即可攻克復雜數學難題。
谷歌 DeepMind 首席執行官哈薩比斯在社交媒體平臺 X 上強調:這是官方結果!
谷歌這項成績遠超其在 2024 年的表現。當時,AlphaProof 和 AlphaGeometry 系統組合解決了六個問題中的四個,榮獲銀牌。
今年的突破來自 Gemini Deep Think,這是一個增強型推理系統,采用了研究人員所謂的并行思維。與遵循單一推理鏈的傳統人工智能模型不同,Deep Think 會同時探索多種可能的解決方案,最終得出答案。
哈薩比斯在后續帖子中解釋道:谷歌的模型以自然語言進行端到端運行,直接從官方問題描述中生成嚴格的數學證明。并強調,該系統在比賽標準的 4.5 小時時限內完成了任務。
谷歌這次官宣,讓 OpenAI 處于尷尬的處境,畢竟 OpenAI 因繞過官方競賽規則提前官宣,遭到很多人吐槽。可參考《OpenAI 拿 IMO 金牌是火了,但惹怒大批人:搶發炒作,搶學生風頭》。
谷歌 DeepMind 這種謹慎的發布方式贏得了 AI 界的廣泛贊譽,尤其與競爭對手 OpenAI 對類似成績的處理方式形成了鮮明對比。
「我們沒有在周五宣布這一消息,是因為我們尊重 IMO 理事會最初的要求,即所有人工智能實驗室只有在官方結果經過獨立專家驗證,并且學生獲得應有的贊譽后,才能分享其成果。」哈薩比斯寫道。
對比之下,大家都在譴責 OpenAI 做事不地道、毫無風度、無禮。反觀谷歌 DeepMind ,行事正直,符合人性。
這種批評源于 OpenAI 決定在不參與 IMO 官方評估流程的情況下公布自己的成績。OpenAI 讓一個由前 IMO 參賽選手組成的小組對其 AI 的表現進行評分,社區中的一些人認為這種做法缺乏可信度。
OpenAI 又來回應了
OpenAI 研究科學家 Noam Brown 向谷歌發來祝賀,說是祝賀,更多的是為了回應質疑。以下是回應內容。
谷歌采用的方法與我們略有不同,這表明還有很多研究方向值得探討。
兩個月前,IMO 組委會曾通過郵件邀請我們參加基于 Lean 語言的正式比賽。由于我們一直致力于不受 Lean 限制的自然語言通用推理研究,因此婉拒了該邀請。組委會從未就自然語言解題形式與我們進行過接洽。
在過去的幾個月里,我們在通用推理方面取得了很大進展。這包括收集、整理和訓練高質量的數學數據,這些數據也將用于未來的模型。在 IMO 評估中,我們沒有使用 RAG 或任何其他工具。
我們提交的每份證明都由三位外部 IMO 獎牌獲得者評分,并獲得了一致的正確性認可。我們還將證明公開發布,以便任何人都可以驗證其正確性。
證明地址:https://github.com/aw31/openai-imo-2025-proofs/
在分享我們的結果之前,我們與 IMO 的一位董事會成員進行了交談,他要求我們等到頒獎典禮結束后再公開結果,我們的發布滿足要求。
我們在頒獎典禮結束后,于太平洋時間~凌晨 1 點(澳大利亞東部標準時間下午 6 點)宣布。從來沒有人要求我們晚于此宣布。
最重要的是,我們很高興與世界分享我們的進展和成果。AI 推理能力正在快速發展,這些 IMO 結果確實表明了這一點。
通過這件事,我們不難發現,這場 AI 登上數學奧林匹克舞臺的較量,不只是一次技術競賽,更是一場關于規范、節奏與合作精神的展示。DeepMind 選擇了等待官方認可,再謹慎發布成績,贏得了金牌,也贏得了尊重。而 OpenAI 盡管也取得了不俗成果,卻因時機與方式的問題,引發了爭議。這背后提醒我們,在通往 AGI 的路上,除了技術力,如何與人類社會的規則與價值觀對齊,正變得愈發重要。
https://x.com/polynoamial/status/1947398536577822798
https://venturebeat.com/ai/google-deepmind-makes-ai-history-with-gold-medal-win-at-worlds-toughest-math-competition/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.