網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

金牌模型三位核心華人光速離職！谷歌IMO奪金24h即遭小扎閃電抄家

2025-07-23 10:24:25　來源: 新智元

北京舉報

分享至

新智元報道

編輯：桃子

【新智元導(dǎo)讀】谷歌DeepMind剛拿下金牌后，3位Gemini核心研究員光速離職了。沒錯，這一次又是小扎干的好事。

前腳剛奪下IMO金牌，后腳就被小扎抄家了。

剛剛，Information爆料稱，Meta從谷歌DeepMind金牌模型團隊中，再次挖走了三位華人學(xué)者。

這三人分別是Tianhe Yu、Cosmo Du和Weiyue Wang，一同參與了Gemini開發(fā)。

而且，就在谷歌慶祝IMO奪金的第二天，三位研究員「閃電」離職，轉(zhuǎn)投入Meta超級智能實驗室。

就在昨天，GDM的官宣博文中，詳細(xì)列出了所有參與Gemini模型開發(fā)的研究人員。

這些研究人員的含金量，不言而喻。

諷刺的是，今早，微軟也被爆出從谷歌DeepMind挖走了20多位頂尖研究人員。

2016年，AlphaGO在圍棋領(lǐng)域擊敗李世石；如今不到10年的時間，Gemini再次攻克奧數(shù)難題斬獲金牌。

不容置疑的是，這場AI軍備賽，正向ASI階段全面邁進，頂尖人才爭奪戰(zhàn)也變得愈發(fā)激烈。

官宣第二天，Gemini老將離職

被挖走IMO金牌模型團隊三位研究員，都有怎樣的背景呢？

Tianhe Yu

Tianhe Yu現(xiàn)任谷歌DeepMind研究科學(xué)家。

在GDM期間，Tianhe Yu曾參與了Gemini 2.5、初代Gemini、Gemini 1.5等全家桶的研發(fā)，甚至包括千億參數(shù)大模型PaLM-E的開發(fā)。

值得一提是，他還在谷歌RT-1、RT-2機器人模型上做出了貢獻。

他曾獲得了坦福大學(xué)計算機科學(xué)博士學(xué)位，師從Chelsea Finn教授。本科畢業(yè)于加州大學(xué)伯克利分校，以最高榮譽同時獲得計算機科學(xué)、應(yīng)用數(shù)學(xué)與統(tǒng)計學(xué)三個學(xué)位。

昨天，GDM公布IMO金牌結(jié)果后，Tianhe Yu本人也發(fā)文稱，參與了Gemini Deep Think模型后訓(xùn)練、思維研發(fā)。

他激動表示，「離ASI越來越近了」！

Cosmo Du（杜宇）

杜宇在2017年便加入谷歌，任谷歌DeepMind首席科學(xué)家兼總監(jiān)，專注于Gemini的后訓(xùn)練、思維與代碼生成。

他同樣是Gemini 1、1.5、2和2.5的核心貢獻者，并開發(fā)了Gemini-0801——谷歌首個在LMSYS排行榜上位列第一的模型。

此前，他還主導(dǎo)了Bard/LaMDA的后訓(xùn)練工作，并開發(fā)了Bard首個內(nèi)部版本。

更早之前，他專注于任務(wù)型對話系統(tǒng)，幫助Duplex實現(xiàn)了10倍Scaling。

他曾獲得了浙江大學(xué)計算機科學(xué)博士學(xué)位，本科畢業(yè)于華東理工大學(xué)計算機科學(xué)專業(yè)。

Weiyue Wang

Weiyue Wang任谷歌DeepMind研究工程師，在加入谷歌之前，她曾在Waymo擔(dān)任軟件工程師。

她曾獲得了南加州大學(xué)博士學(xué)位，導(dǎo)師是Ulrich Neumann教授；獲得了俄亥俄州立大學(xué)電子和計算機工程碩士學(xué)位；上交大EEE學(xué)士學(xué)位。

她本人的研究專注于計算機視覺領(lǐng)域，特別是3D場景理解與重建。

以下是所有參與谷歌IMO 2025系統(tǒng)的研究人員。

我們讓ChatGPT將核心負(fù)責(zé)人，以及Gemini Deep Think團隊列出。

有網(wǎng)友對此表示，GDM列出所有人名單有些太不明智了。

Gemini 2.5 Pro也能奪金

其實，不用Gemini Deep Think，Gemini 2.5 Pro也能拿下IMO金牌。

來自加州大學(xué)洛杉磯分校副教授Lin Yang和Yichen Huang（黃溢辰）一起做了這個實驗，并將結(jié)果發(fā)表在arXiv上。

論文地址：https://arxiv.org/pdf/2507.15855

他們通過精心設(shè)計的流程和提示工程，讓Gemini 2.5 Pro也能攻克5道奧數(shù)難題。這究竟是如何做到的？

研究人員的流程設(shè)計，一共分為了以下六步：

·初始解答生成：通過第3.1節(jié)的提示詞生成初始解；

·自我改進：對初始解進行優(yōu)化；

·驗證：進入步驟4或步驟；

·驗證檢查：判斷解的合理性；

·糾正：若驗證失敗，返回步驟3；

·接受或拒絕：最終決定是否采納該解。

在初始階段，需要多次運行Gemini 2.5 Pro以獲取問題的若干初始解樣本。

這一采樣過程類似于探索性嘗試，希望至少有一個樣本能部分接近正確解法。隨后，再通過迭代優(yōu)化這些解，最終篩選出高質(zhì)量結(jié)果。

具體而言，首先讓Gemini 2.5 Pro嘗試通過提示詞解決問題，第二步中，模型被要求自我審查并改進其解答。

盡管Gemini 2.5 Pro擅長數(shù)學(xué)推理，但作為通用LLM，它并非專為解決極高難度數(shù)學(xué)問題而設(shè)計。一個關(guān)鍵限制是思維預(yù)算：即使證明一個簡單事實也可能消耗數(shù)千token，而Gemini 2.5 Pro的最大上下文token為32768，這通常不足以完整解決一道IMO試題。

研究人員觀察到，在第一步中模型幾乎總會耗盡全部預(yù)算，導(dǎo)致無法完成完整求解。

因此，他們將解題過程分解為多步驟，第二步的核心目標(biāo)是通過額外分配32768 token的預(yù)算，讓模型能夠復(fù)查并延續(xù)其工作。實際監(jiān)測顯示，第二步的輸出質(zhì)量顯著提升。

接下來，驗證器將參與迭代優(yōu)化并決定是否接受改進后的解。

詳細(xì)指令參考，覆蓋了核心要求、輸出格式、自我糾正的指令，具體可參見下圖。

比如，讓Gemini 2.5 Pro去解決P1題，再向模型發(fā)送問題陳述后，又追加了一句話「讓我們嘗試用歸納法來解決這個問題」。

別小瞧了這句話，可以為模型提供一個強大的方向性引導(dǎo)。而且，就題目組合問題而言，確實也可以通過數(shù)學(xué)歸納法解決。

設(shè)想一個旨在解決復(fù)雜問題的多智能體系統(tǒng)：這類任務(wù)通常需要大量探索——需要讓不同智能體嘗試不同方法，以期其中某個能找到可行路徑。

在此情境下，對于任何適用于正整數(shù)的命題，數(shù)學(xué)歸納法都是標(biāo)準(zhǔn)且常用的有效方法。

其余題目的提示，以及解題過程，可參考論文中的細(xì)節(jié)。

順便提一句，字節(jié)也在今年IMO上，憑借Seed Prover取得了銀牌分?jǐn)?shù)。

具體來說，Seed Prover完整破解了6題中的4題，最終獲取了30分。另外，在賽后嘗試后，AI一共證明了5道題，也算是拿下了金牌。

如今，OpenAI和GDM先后憑借AI，攻克了前5題，拿下了IMO金牌。

IMO的人類陣地，就僅剩下P6題了。

參考資料：

https://x.com/theinformation/status/1947755575808262417 https://arxiv.org/abs/2507.15855

https://x.com/lyang36/status/1947466281990738339

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.