大型語言模型 (LLM) 功能極其豐富,它們可以匯總文檔、生成代碼,甚至集思廣益,提出新想法。現在,谷歌 DeepMind 擴展了這些功能,使其能夠解決數學和現代計算領域中基礎且高度復雜的問題。
近日,谷歌 DeepMind 公布了其在自動化算法探索領域的最新進展——AlphaEvolve。該系統融合了大型語言模型的強大代碼生成能力與進化算法的迭代優化思想,構成一個能夠自主發現并改進復雜算法的 AI 智能體,致力于在通用算法的發現和優化方面取得突破。
AlphaEvolve 利用谷歌的 Gemini 大型語言模型家族(包括Gemini Flash 和 Gemini Pro)為各種不同的任務生成和改進代碼。其核心在于其創新的“進化”方法:它不僅僅是單次生成代碼,而是通過一個迭代循環,不斷對 Gemini 生成的算法進行測試、評估、篩選和優化。表現不佳的方案被剔除,有潛力的方案則被進一步調整和改進,直至系統收斂到當前問題下的最優算法。在許多測試中,其結果比現有的、由人類專家編寫的最佳解決方案更高效或更準確。
據悉,AlphaEvolve 提升了谷歌數據中心、芯片設計和 AI 訓練流程的效率,包括訓練 AlphaEvolve 本身所依賴的 LLM。它還幫助設計了更快的矩陣乘法算法,并為一些懸而未決的數學問題找到了新的解決方案,展現出在眾多科學和工程領域應用的巨大潛力。
工作原理
AlphaEvolve 延續了谷歌 DeepMind 多年來的研究方向,其核心理念是通過人工智能推動數學與科學領域的人類認知邊界。2022 年問世的 AlphaTensor 模型在計算機科學基礎難題——矩陣乘法求解上取得突破,將保持了 50 余年的計算效率紀錄一舉刷新;2023 年推出的 AlphaDev 則發現了每日執行數萬億次的基礎運算的加速方法。這兩項技術均將數學問題轉化為"游戲對弈"模式,通過尋找最優步驟序列來破解難題。
而 2023 年底亮相的 FunSearch 實現了范式革新——它用具備代碼生成能力的大語言模型替代了游戲 AI。由于大語言模型具有多任務處理能力,相比僅專精單一游戲類型的早期系統,FunSearch 能攻克更多樣化的問題。該工具甚至成功破解了純數學領域一個長期懸而未決的著名難題。
AlphaEvolve 是 FunSearch 的升級版本。與 FunSearch 只能生成解決特定問題的簡短代碼片段不同,它能編寫長達數百行的完整程序。這一突破使其能夠應對更廣泛的問題類型。
從理論上說,任何能用代碼描述且解決方案可通過計算機評估的問題,AlphaEvolve 都能處理。"算法驅動著我們周圍的世界,因此這項技術的影響將無比深遠,"谷歌 DeepMind 算法探索團隊負責人 Matej Balog 說道。
(來源:DeepMind)
AlphaEvolve 的具體工作流程可以概括為一個進化式搜索循環。其核心組件協同工作:首先,一個程序數據庫 (Program Database) 負責存儲當前已發現的、有潛力的程序(算法)及其評估分數,并在進化過程中不斷更新。
接著,提示采樣器 (Prompt Sampler) 從程序數據庫中選擇一個或多個“父程序”以及一些“靈感”代碼片段,構建一個具有引導性的提示。
隨后,系統的 LLM 核心,主要利用快速高效的 Gemini Flash 模型接收此提示,并生成對父程序的修改建議(通常以 diff 的形式體現),這些修改旨在探索新的算法變體。當需要更深入、更具洞察力的分析或遇到瓶頸時,系統可以靈活調用能力更強但速度稍慢的 Gemini Pro 模型。生成的 diff 會被應用到父程序上,從而創造出新的“子程序”。
這些新誕生的子程序接下來會進入評估器池 (Evaluators Pool),這是關鍵的反饋環節。在這里,它們會接受嚴格的自動化測試,評估器根據預設的指標(如正確性、運行速度、資源消耗、輸出精度等)對子程序進行打分。
最后,評估結果優異的子程序會被添加回程序數據庫中,成為下一輪進化的潛在父程序。這個“采樣-生成-評估-選擇”的循環會持續進行,不斷迭代,直到 Gemini 模型無法再提出能夠超越數據庫中現有最佳方案的新解法,或者達到預設的計算資源上限。
這種進化方法使得 AlphaEvolve 能夠主動探索廣闊的解決方案空間,發現人類可能從未想到的新穎方法,并通過自動化的評估過程不斷優化這些方法。
解決多個問題
該團隊在一系列不同的問題上測試了 AlphaEvolve。例如,他們再次研究了矩陣乘法,以比較像 AlphaEvolve 這樣的通用工具與專用 AlphaTensor 的性能。矩陣是由數字構成的網格,而矩陣乘法作為基礎運算支撐著從人工智能到計算機圖形學等諸多應用領域,但至今無人知曉其最快計算方法。“這仍然是一個懸而未決的問題。”Balog 表示。
團隊向 AlphaEvolve 輸入了問題描述和標準算法示例。該工具不僅針對 14 種不同規模的矩陣提出了超越現有方法的快速計算算法,更在 4x4 矩陣乘法這一具體問題上突破了 AlphaTensor 創下的速度記錄。
AlphaEvolve 從 Gemini 生成的 16,000 個候選方案中篩選出了最優解,但其效率仍高于 AlphaTensor。而且 AlphaTensor 的解決方案僅適用于由 0 和 1 構成的矩陣,而 AlphaEvolve 還能處理包含其他數字的矩陣運算。
矩陣乘法只是其中一項突破。DeepMind 總共用 AlphaEvolve 測試了 50 多個不同類型的知名數學難題,包括傅里葉分析問題、最小重疊問題以及接吻數問題等。AlphaEvolve 在 75% 的案例中匹配到了現有的最佳解決方案,并在 20% 的案例中找到了更優的解決方案。
例如,它推進了接吻數問題。這項幾何挑戰吸引了數學家們超過 300 年,它關注的是與一個共同單位球面相切的不重疊球體的最大數量。AlphaEvolve 發現了一個由 593 個外球體組成的結構,直接刷新了 11 維空間中的下限。
(來源:DeepMind)
隨后,谷歌 DeepMind 將 AlphaEvolve 應用于一些實際問題。AlphaEvolve 幫助谷歌改進了其下一代張量處理單元的設計,并找到了一種更有效地利用谷歌全球計算能力的方法,節省了 0.7% 的總資源。
AlphaEvolve 甚至找到了一種加速 Gemini 本身訓練的方法,它將 Gemini 架構中這一關鍵內核的速度提高了 23%,從而使 Gemini 的訓練時間縮短了 1%。除了性能提升之外,AlphaEvolve 還顯著縮短了內核優化所需的工程時間,從數周的專家工作縮短為數天的自動化實驗,從而幫助研究人員更快地進行創新。
AlphaEvolve 還能優化底層 GPU 指令——這個通常已被編譯器深度優化的超復雜領域,人類工程師往往不會直接修改。在基于 Transformer 的 AI 模型中,AlphaEvolve為 FlashAttention 內核實現了高達 32.5% 的速度提升。這類優化不僅能幫助專家精準定位性能瓶頸,還能輕松將改進方案集成到代碼庫中,既提升了開發效率,又為未來節省算力和能耗鋪平道路。
谷歌 DeepMind 計劃繼續探索該工具的潛在應用場景。目前的一個局限是,AlphaEvolve 無法適用于需要人工評分的解決方案,比如需要主觀判讀的實驗室實驗。
英國華威大學數學家 Jakob Moosbauer 指出,雖然 AlphaEvolve 能在諸多領域產出令人驚艷的新成果,但它幾乎不提供關于解題過程的理論闡釋。這對于推進人類認知而言是個明顯缺陷。
盡管如此,這類工具注定將重塑科研人員的工作方式。
1.https://www.technologyreview.com/2025/05/14/1116438/google-deepminds-new-ai-uses-large-language-models-to-crack-real-world-problems/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.