網易首頁 > 網易科技 > 網易科技 > 正文

AI編程王者易主：谷歌Gemini 2.5 Pro I/O版力壓Claude 3.7 Sonnet

2025-05-07 09:58:51　來源: 網易科技報道

北京舉報

分享至

5月7日消息，AI編程領域迎來了新的王者：谷歌DeepMind人工智能研究部門周二發布了全新升級的Gemini 2.5 Pro “I/O”版，這是其今年3月推出、大受歡迎的多模態大語言模型Gemini 2.5 Pro的最新版本。DeepMind首席執行官德米斯·哈薩比斯（Demis Hassabis）在社交媒體上表示，這是“我們構建過的最佳編程模型！”

谷歌公布的初步基準測試結果印證了這一說法。數據顯示，自2022年底ChatGPT正式掀起生成式人工智能熱潮以來，谷歌首次在關鍵編程基準測試中超越所有其他模型，躍居榜首。

此次更新的模型版本編號為“gemini-2.5-pro-preview-05-06”，已取代之前的03-25版本，并已面向Google AI Studio的獨立開發者、Vertex AI云平臺的企業用戶，以及Gemini移動應用的個人用戶全面開放。谷歌在官方博文中表示，該模型還驅動Gemini移動應用中的Canvas等多項功能。

新版本為Gemini 95等應用的功能開發提供支持，其模型可自動匹配跨組件的視覺風格。該版本還支持將YouTube視頻轉化為全功能學習應用等復雜工作流，并能創建高度樣式化的組件——如響應式視頻播放器或動畫聽寫界面——幾乎無需手動編寫CSS代碼。

作為專有模型，企業需付費并通過谷歌的網絡服務訪問。不過本次更新未調整價格與調用限制：當前Gemini 2.5 Pro用戶將自動升級至新版本，定價仍為每百萬tokens輸入/輸出分別1.25/10美元（支持20萬tokens的上下文長度），相較Claude 3.7 Sonnet的3/15美元定價具有優勢。

谷歌選擇在年度I/O開發者大會（5月20-21日于山景城及線上舉行）前夕推出更新，官方表示這是對開發者社區關于Gemini在實際代碼生成和界面設計中實用性的強烈反饋的回應。Gemini API與Google AI Studio高級產品經理洛根·基爾帕特里克（Logan Kilpatrick）在開發者博客中確認，本次更新有效回應了開發者關于函數調用的關鍵反饋，在減少錯誤和提升觸發可靠性方面取得顯著改進。

在人類評分員的網頁應用生成任務中排名第一

在第三方評估標準WebDev Arena排行榜中，Gemini 2.5 Pro Preview（05-06）在生成美觀且實用的網頁應用方面獲得了最高人類評分，成功超越Anthropic的Claude 3.7 Sonnet，躍居第一。

新版本模型得分為1499.95，顯著高于Sonnet 3.7的1377.10。前代Gemini 2.5 Pro（03-25）以1278.96分位列第三，I/O版相比之下提升了221分。

正如AI領域資深用戶“Lisan al Gaib”在X上指出的，即使是OpenAI新發布的GPT-4o（“o3”）都未能動搖Sonnet 3.7的地位，足見Gemini此次躍升的突破性。

這一性能躍升體現在生成內容的可靠性、美觀性與實用性等方面的全面提升。

獲得開發者廣泛好評

Gemini 2.5 Pro Preview（05-06）迅速獲得開發者社群廣泛好評，多位行業領袖稱其可靠性和生產場景應用表現遠超以往：

人工智能初創公司Cognition聯合創始人塞拉斯·阿爾貝蒂（Silas Alberti）指出，Gemini 2.5 Pro是首個成功完成復雜后端路由系統重構的AI模型，展現出類似資深開發者的判斷與決策能力。

AI編程平臺Cursor首席執行官邁克爾·特魯爾（Michael Truell）稱，內部測試顯示工具調用失敗率明顯下降，過去這一問題飽受詬病。他認為用戶將在真實開發環境中明顯感受到新版本效能提升。Cursor已將Gemini 2.5 Pro集成進其編程智能體中，顯示出開發者已將其視為智能開發工作流中的組件。

云端協同開發平臺Replit總裁米歇爾·卡塔斯塔（Michele Catasta）認為，Gemini 2.5 Pro是在模型性能與響應速度之間實現最佳平衡的前沿模型。他的評價暗示，Replit正在考慮將該模型納入自身工具體系中，特別是在需要響應速度與穩定性的任務場景中。

AI教育者兼BlueShell私有AI聊天機器人創始人保羅·庫弗特（Paul Couvert）表示：“Gemini 2.5 Pro的代碼與用戶界面生成能力令人驚艷。”

AI藝術工具EverArt首席執行官彼得羅·斯基拉諾（Pietro Schirano）稱，Gemini 2.5 Pro I/O版能夠根據單個提示詞生成互動模擬，如近期社交媒體流行的“1只大猩猩對戰100名人類”迷因。

X用戶“RameshR”（@rezmeram）還展示了該模型在不到一分鐘內生成的一款互動式俄羅斯方塊風格游戲，并配有音效，他在帖文中寫道：“休閑游戲行業已經完了！！”

這些正面的行業認可增強了DeepMind關于模型實際性能提升的說法，也可能進一步推動其在開發者平臺中的廣泛應用。

單個提示即可生成完整應用程序

此次更新的亮點之一是：用戶可通過簡單提示生成完整的互動網頁應用或模擬程序，這完美契合DeepMind簡化原型設計與開發流程的愿景。

Gemini應用內的演示顯示，用戶可以將視覺模式或主題提示直接轉化為可用代碼，大幅降低設計導向開發團隊的技術門檻，為嘗試新想法的團隊提供高效工具。

盡管谷歌尚未公開Gemini 2.5 Pro的底層架構與內部改動，但其重點顯然是提供更快、更直觀的開發體驗。

通過強化代碼生成能力與多模態輸入整合，Gemini 2.5 Pro不再是實驗型產品，而成為應對實際開發挑戰的強大工具。此次提前發布也表明，谷歌DeepMind有意在I/O大會前積極響應開發者需求，并持續保持發展勢頭。（小小）