大數據文摘出品
Gemini Deep Think正式跨入國際數學奧林匹克(IMO)金牌行列。
谷歌DeepMind宣布,其搭載Deep Think模式的先進版本Gemini,在2025年IMO中斬獲35分,成功達到了金牌標準。
這一成績來自對6道題中的5道完美解答,評分標準、比賽時間、參賽流程與人類選手完全一致。
更關鍵的是,這是IMO官方首次對AI參賽結果進行正式認證,并給出與學生相同的評分機制。
IMO主席Gregor Dolinar明確表示:“我們可以確認,Google DeepMind達到了這一備受期待的里程碑。解答清晰、精準,大多數都易于理解?!?/p>
要知道,去年的銀牌得主是DeepMind旗下的AlphaProof與AlphaGeometry組合系統,用了兩到三天的時間、依賴形式語言翻譯,才完成28分的成績。
今年的Gemini Deep Think,在4.5小時內用英語讀題、用英語寫出完整證明,全程自然語言,端到端完成任務,完成了從“翻譯數學”到“思維數學”的跨越。
DeepMind科學家Thang Luong稱,這是AI在數學理解領域的“范式轉變”。
更引人注目的是,這款Gemini新模型尚未公開,但DeepMind已承諾將先開放給受信任的數學家進行測試,后續逐步向Google AI Ultra用戶推出。
一、技術之上,是節奏與分寸
然而,在DeepMind宣布突破之前,另一場圍繞“誰先發聲”的風波,先點燃了整個AI圈。
知情者透露,DeepMind其實在7月19日(周五)下午就完成了內部驗證。但為了配合IMO官方“閉幕式后一周再公布”的非正式約定,他們決定等到下周一再正式發布。
沒想到,OpenAI在19日凌晨突然宣布:“我們也做到了!”
結果,所有注意力一夜之間傾斜向了OpenAI,DeepMind的節奏被徹底打亂。
社交平臺瞬間炸開了鍋。有推特網友一針見血地指出:“在這個游戲里,速度大于官僚主義。錯過時機,你就失去了話語權。”
而據IMO相關協調員透露,OpenAI并未與IMO官方合作測試其模型,可能“并不知道”需要等待閉幕式之后才宣布。
OpenAI研究員Noam Brown隨后澄清稱,他們確實在閉幕式結束后才公布成績,并事先知會了部分組織者。
但據IMO內部人員披露,OpenAI其實在閉幕晚會前就公布了結果,這種行為被評價為“粗魯和不恰當”。
DeepMind CEO哈薩比斯雖然在推文中“只字未提”OpenAI,卻通過強調三個點回應了全部質疑:我們沒有搶跑,成績是IMO官方認證,模型也會正式發布。
這三點,恰恰擊中了OpenAI的三個軟肋。
不僅DeepMind的節奏更體面,他們在技術層面也選擇了更高成本、更針對性的AI模型研發路徑。
Gemini Deep Think并非通用模型,而是一個專為復雜問題設計的增強推理系統,融合了DeepMind最新的研究成果。
而OpenAI的做法,則被不少網友評價為“通用模型,低資源,博營銷”。
二、增強推理,邁向直覺
Gemini Deep Think最核心的優勢,來自它獨特的“并行思維”能力。
在解題過程中,模型不再像傳統AI那樣順著一條邏輯線推演,而是同時展開多個可能的解法路徑,并在最終組合成最優方案后給出答案。
這讓它擁有比人類更廣闊的思維幅度,又不失推理的嚴謹性。
此外,為進一步發揮推理能力,DeepMind采用了多項技術升級:使用全新的強化學習方式訓練模型;提供高質量的數學問題和解答數據集;加入專門的IMO題目解題提示與策略指令。
更驚人的是,在今年的第三題中,大部分人類選手使用了研究生級別的技巧完成,而Gemini僅用初等數論,就完成了一個邏輯自洽的完整證明。
至于那唯一沒有解出的第六題?據說人類選手中也僅有五人解出。Gemini只是“選錯了方向”。
目前,DeepMind已將Gemini解答的五道題目完整公開,接受全網檢驗。
與Gemini Deep Think同時被提及的,還有DeepMind之前的形式化系統:AlphaProof和AlphaGeometry。
雖然今年Gemini完全依賴自然語言完成任務,但DeepMind明確表示,這兩條路線仍會并行推進。
他們的目標,是構建一個既能理解人類語言,又能進行嚴格形式證明的“超級數學助手”。
這種AI,將不止用于數學競賽,還能成為科學研究、工程設計、理論建模等領域的核心工具。
作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!
GPU 訓練特惠!
H100/H200 GPU算力按秒計費,平均節省開支30%以上!
掃碼了解詳情?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.