網易首頁 > 網易號 > 正文申請入駐

【人工智能】谷歌 DeepMind 的新 AI Agent 比人類更能解決現實世界的問題

2025-05-17 06:05:34　來源: 七元宇宙

廣東舉報

分享至

AlphaEvolve 使用大型語言模型來尋找超越數據中心管理、芯片設計等領域最佳人造解決方案的新算法。

谷歌 DeepMind 再次運用大型語言模型，探索數學和計算機科學領域長期存在的問題的新解決方案。這一次，該公司證明了其方法不僅可以解決尚未解決的理論難題，還能改進一系列重要的現實世界流程。

Google DeepMind 的新工具 AlphaEvolve 使用 Gemini 2.0 系列大型語言模型 (LLM) 為各種不同的任務生成代碼。眾所周知，LLM在編碼方面表現不穩定。AlphaEvolve 的獨特之處在于，它會對 Gemini 的每條建議進行評分，不斷剔除不好的，調整好的，這個過程會不斷迭代，直到生成最佳算法。在許多情況下，其結果比現有的最佳（人工編寫的）解決方案更高效或更準確。

“你可以把它看作是一種超級編碼 Agent，”谷歌 DeepMind 副總裁、AI for Science 團隊負責人 Pushmeet Kohli 說道。“它不僅僅是提出一段代碼或進行一次編輯，它實際上會生成一個可能無人知曉的結果。”

尤其是 AlphaEvolve，它提出了一種改進谷歌用于向其遍布全球數百萬臺服務器分配任務的軟件的方法。谷歌 DeepMind 聲稱，該公司已在其所有數據中心使用這款新軟件一年多，釋放了谷歌 0.7% 的總計算資源。這聽起來可能不多，但以谷歌的規模來看，這可謂是巨大的進步。

英國華威大學數學家雅各布·穆斯鮑爾對此印象深刻。他表示，AlphaEvolve 尋找能夠產生特定解決方案的算法（而非尋找解決方案本身）的方式使其格外強大。“這使得該方法適用于各種各樣的問題，”他說道。“人工智能正在成為數學和計算機科學領域不可或缺的工具。”

AlphaEvolve 延續了谷歌 DeepMind 多年來一直致力于的研究方向。其愿景是讓人工智能助力人類在數學和科學領域的知識進步。2022 年，谷歌開發了 AlphaTensor 模型，該模型找到了一種更快的矩陣乘法求解方法——這是計算機科學中的一個基本問題——打破了保持了 50 多年的紀錄。2023 年，谷歌發布了 AlphaDev 模型，它找到了更快的方法來執行計算機每天執行數萬億次的基本計算。AlphaTensor 和 AlphaDev 都將數學問題轉化為一種游戲，然后尋找一系列制勝的策略。

2023年末推出的FunSearch，用能夠生成代碼的LLM取代了游戲AI。由于LLM可以執行一系列任務，FunSearch可以解決比其前輩更廣泛的問題，而前輩們只接受過單一類型游戲的訓練。該工具曾被用于破解純數學中一個著名的未解難題。

AlphaEvolve 是 FunSearch 的下一代版本。它不像 FunSearch 那樣，只能用一小段代碼來解決特定問題，而是可以生成數百行代碼的程序。這使得它能夠應用于更廣泛的問題。

理論上，AlphaEvolve 可以應用于任何可以用代碼描述且有可由計算機評估的解決方案的問題。“算法運行著我們周圍的世界，因此其影響是巨大的，”領導算法探索團隊的谷歌 DeepMind 研究員 Matej Balog 說道。

適者生存

它的工作原理如下：AlphaEvolve 可以像任何 LLM 一樣進行提示。輸入問題描述以及任何你想要的額外提示，例如先前的解決方案，AlphaEvolve 就會使用 Gemini 2.0 Flash（谷歌 DeepMind 旗艦 LLM 最小、最快的版本）生成多個代碼塊來解決問題。

然后，它會獲取這些候選解決方案，運行它們以評估其準確性和效率，并根據一系列相關指標進行評分。這些代碼是否產生了正確的結果？它的運行速度是否比之前的解決方案更快？等等。

然后，AlphaEvolve 從當前一批解決方案中選取最佳方案，并請求 Gemini 進行改進。有時，AlphaEvolve 會將之前的解決方案重新加入，以防止 Gemini 陷入死胡同。

當遇到瓶頸時，AlphaEvolve 還可以調用 Gemini 2.0 Pro，這是谷歌 DeepMind 最強大的法學碩士 (LLM)。其理念是先用速度更快的 Flash 生成大量解決方案，然后在需要時從速度較慢的 Pro 中添加解決方案。

這些生成、計分和再生的循環一直持續，直到雙子座無法想出比已有的更好的東西為止。

數字游戲

該團隊在一系列不同的問題上測試了 AlphaEvolve。例如，他們再次研究了矩陣乘法，以比較像 AlphaEvolve 這樣的通用工具與專用 AlphaTensor 的性能。矩陣是數字的網格。矩陣乘法是一項基本計算，支撐著從人工智能到計算機圖形學等許多應用，但沒有人知道最快的計算方法。“這仍然是一個懸而未決的問題，這有點令人難以置信，”Balog 說。

該團隊向 AlphaEvolve 提供了問題描述以及一個標準算法示例。該工具不僅生成了新的算法，能夠比任何現有方法更快地計算 14 種不同大小的矩陣，還改進了 AlphaTensor 打破兩個 4×4 矩陣相乘記錄的結果。

AlphaEvolve 對 Gemini 建議的 16,000 個候選集進行了評分，最終找到了最終解決方案，但 Balog 表示，AlphaEvolve 的效率仍然高于 AlphaTensor。AlphaTensor 的解決方案也僅在矩陣由 0 和 1 填充時有效。AlphaEvolve 也能解決其他數字的問題。

奧地利林茨約翰內斯開普勒大學的數學家 Manuel Kauers 對此表示贊同：“矩陣的改進可能具有實際意義。”

巧合的是，考爾斯和一位同事剛剛使用了另一種計算技術，發現了 AlphaEvolve 的一些加速效果。兩人上周在網上發表了一篇論文，報告了他們的研究成果。

“很高興看到我們對矩陣乘法的理解不斷進步，”考爾斯說道，“每一項有用的技術都是對這項工作的寶貴貢獻。”

現實世界的問題

矩陣乘法只是其中一項突破。谷歌 DeepMind 總共用 AlphaEvolve 測試了 50 多個不同類型的知名數學難題，包括傅里葉分析問題（數據壓縮背后的數學原理，對視頻流等應用至關重要）、最小重疊問題（數學家保羅·埃爾德什于 1955 年提出的數論開放問題）以及接吻數（艾薩克·牛頓提出的一個問題，在材料科學、化學和密碼學領域都有應用）。AlphaEvolve 在 75% 的案例中匹配到了現有的最佳解決方案，并在 20% 的案例中找到了更優的解決方案。

隨后，谷歌 DeepMind 將 AlphaEvolve 應用于一些實際問題。除了提出一種更高效的跨數據中心計算資源管理算法外，該工具還找到了降低谷歌專用張量處理單元芯片功耗的方法。

AlphaEvolve 甚至找到了一種加速 Gemini 本身訓練的方法，即通過生成一種更有效的算法來管理訓練過程中使用的某種類型的計算。

Google DeepMind 計劃繼續探索其工具的潛在應用。AlphaEvolve 的一個局限性在于，它無法用于需要人工評分的解題，例如需要解釋的實驗室實驗。

穆斯鮑爾還指出，雖然 AlphaEvolve 可能在一系列問題上取得令人印象深刻的新成果，但它卻很少提供關于其如何得出這些解決方案的理論見解。這對于提升人類理解力來說是一個缺陷。

即便如此，像 AlphaEvolve 這樣的工具注定會改變研究人員的工作方式。“我認為我們還沒有完成，”Kohli 說。“就這種方法的威力而言，我們還有很長的路要走。”

免責聲明：

本文所發布的內容和圖片旨在傳播行業信息，版權歸原作者所有，非商業用途。如有侵權，請與我們聯系。所有信息僅供參考和分享，不構成任何投資建議。投資者應基于自身判斷和謹慎評估做出決策。投資有風險，入市需謹慎。

關注我們，一起探索AWM！

2025-05-08

2025-05-06

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.