智東西
編譯 王涵
編輯 漠影
谷歌史上最強編程模型來了!
智東西5月7日消息,北京時間5月6日晚,谷歌DeepMind AI研究部門正式推出Gemini 2.5 Pro “I/O”特別版,回應開發者社區對實際編程和界面設計效能的強烈需求,給全球用戶提前“嘗鮮”。
WebDev Arena Leaderboard基準測試最新榜單顯示,自2022年底ChatGPT引爆生成式AI競賽以來,谷歌首次在關鍵編程基準測試中超越Claude,實現全面領先。新版模型代號“Gemini-2.5-pro-preview-05-06”已取代03-25版本,目前可通過Gemini API、Vertex AI、AI Studio平臺獲取,普通用戶可以通過Gemini聊天機器人應用體驗。
▲數據來源于Imarena.AI
新模型定價與Gemini 2.5 Pro模型相同,每百萬token輸入和輸出費用分別為1.25美元和10美元(約合人民幣9元和72元)(支持20萬token上下文),相較Anthropic的Claude 3.7 Sonnet模型的3美元和15美元(約合人民幣22元和108元)更具性價比。
谷歌DeepMind首席執行官戴密斯·哈薩比斯(Demis Hassabis)在海外社交媒體X平臺盛贊其為“我們迄今構建的最強編程模型”。
一、編程能力首次超越Claude,AI編程“頭把交椅”或將易主
這次的特別款是三月發布的大熱模型Gemini 2.5 Pro的升級新版本,谷歌Gemini API高級產品經理Logan Kilpatrick在技術博客中確認,本次升級重點優化了函數調用功能,降低錯誤率并提升觸發可靠性。據谷歌博客內容,Gemini 2.5 Pro“I/O”特別版在編程和構建交互式網頁應用方面的能力有“顯著”提升,在代碼轉換(即修改代碼以實現特定目標)等任務上的表現也更好。
▲數據來源于WebDev Arena Leaderboard
博客文章中提到了Gemini 2.5 Pro“I/O”特別版在WebDev Arena Leaderboard基準測試(衡量模型創建美觀且功能完備的網頁應用的能力)中的表現。在最新排名中,Gemini 2.5 Pro Preview (05-06)以1419.95分超越Claude 3.7 Sonnet(1357.10分)登頂,相較前代03-25版本1272.96分的表現,新版實現了146.99分的提升。
谷歌DeepMind首席執行官哈薩比斯對此十分自豪,還狠狠“凡爾賽”了一番:
此外,本次升級最突出的能力在于根據單條文本提示生成完整交互式網頁應用或模擬程序。Gemini應用內的演示顯示,用戶可將視覺圖案或主題提示直接轉化為可用代碼,大幅降低設計導向型開發者的入門門檻。
二、視頻理解超強,領跑視覺基準測試
Gemini 2.5 Pro“I/O”特別版在視頻理解方面也具備超高性能,谷歌在其博客中稱該版本在VideoMME基準測試中獲得84.8%的分數,占據榜首。據谷歌官方博客透露,該模型還驅動著Gemini移動應用的Canvas畫布等核心功能。
▲數據來源于Imarena.AI
在Gemini 95等應用中,新模型能自動統一視覺元素的風格匹配。其工作流支持將YouTube視頻轉化為功能完備的學習應用,并可快速生成響應式視頻播放器、動態聽寫界面等高度風格化組件,幾乎無需手動編寫CSS代碼。
結語:谷歌Gemini模型向實用生產力工具轉型
AI編程工具企業Cursor的首席執行官Michael Truell透露,內部測試顯示Gemini 2.5 Pro“I/O”特別版的工具調用失敗率顯著下降。目前Cursor已將Gemini 2.5 Pro集成至其code agent系統。
代碼托管平臺公司Replit的總裁Michele Catasta也評價稱該模型是“平衡性能與延遲的最先進模型”。
雖然谷歌未公開Gemini 2.5 Pro的架構細節,但其核心目標始終是提供更快速、更直觀的開發體驗。通過強化代碼生成和多模態輸入優勢,Gemini 2.5 Pro正從研究性創新轉向解決實際編程挑戰的生產力工具。此次提前發布讓谷歌DeepMind在重大會議前滿足開發者需求、保持市場勢頭的意圖更加明確。
來源:TechCrunch,VentureBeat,Google Blog,Imarena.AI
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.