谷歌AI拿下三連冠
科技巨頭谷歌突然開大,在AI領域掀起了滔天巨浪。
近日,谷歌提前放出了全新升級的Gemini 2.5 Pro Preview(I/O版),新模型一舉拿下三連冠,登頂LMeana。
同時,它也成為首個橫掃文本、視覺、WebDev Arena基準的SOTA模型。
進一步說,這也是自2022年底ChatGPT引爆生成式AI熱潮以來,谷歌首次在關鍵的代碼生成評估指標上全面領先,擊敗所有競爭對手。
圖源:Google
此次發布的版本是今年3月發布的多模態大語言模型Gemini 2.5 Pro的重大升級版。
谷歌在表示,本來計劃在谷歌I/O上發布這個更新,但看到大家對這款模型的熱情高漲,所以決定提前放出,讓所有人能盡早開發使用。
目前,該模型已向Google AI Studio的獨立開發者、Vertex AI云平臺的企業用戶以及Gemini應用的普通用戶開放。
同時,谷歌表示,其并未調整模型定價或速率限制:目前使用Gemini 2.5 Pro的用戶將自動切換至新模型,價格仍為每百萬輸入token收費1.25美元,每百萬輸出token收費10美元,最多支持20萬token的上下文窗口。
相較于Claude 3.7 Sonnet的15美元,很顯然谷歌模型更具價格優勢。并且,企業用戶還可通過Canvas工具實現低代碼開發流程。
圖源:Google
公開數據表明,谷歌新模型得分為1499.95,遠高于Sonnet 3.7的1377.10,編碼性能碾壓Claude 3.7 Sonnet。
圖源:微博
此前,舊版本的Gemini 2.5 Pro(03-25)得分為1278.96,排名位列第三。當然,這也意味著新版本實現了221分的大幅躍升。
同時,DeepMind CEO德米斯·哈薩比斯也表示,“非常高興能與大家分享我們有史以來構建的最佳編程模型!今天,我們發布了 Gemini 2.5 Pro Preview I/O 版,編程能力得到了大幅提升。此版本在 LMArena 編程類別中排名第一,在 WebDev Arena 排行榜上同樣領先。”
圖源:微博
可以說,頭把交椅的易主,盡顯谷歌的實力與野心。
新模型的三大亮點解讀
當然,從谷歌公布的各項初步基準測試結果來看,外界對新模型的盛譽也并非夸大其詞。那么,我們來聊一聊有哪些讓人眼前一亮的提升。
首先,Gemini 2.5 Pro Preview(I/O版)重點突破在于:只需通過一條提示即可構建完整、可交互的網頁應用或模擬程序。
對此,谷歌表示,用戶可以輸入視覺模式或主題性提示,將其直接轉化為可運行的代碼,這顯著降低了設計導向型開發者或創新團隊的入門門檻。
圖源:Google
換句話說,作為普通用戶,即便沒有編程基礎,也能通過Gemini 2.5 Pro Preview(I/O版)快速構建復雜應用。
例如,用戶只需用自然語言描述需求,或上傳一張手繪草圖,Gemini 2.5 Pro I/O版就能自動識別草圖布局并生成響應式代碼,若用戶繪制了一個麥克風圖標,系統不僅會生成錄音按鈕,還會配套動態波形動畫和暫停邏輯,最后自動生成功能完備的Web應用。
圖源:微博
同時,用戶添加新功能時,模型能繼承現有項目的視覺風格,避免“拼貼感”,例如在已有React項目中新增組件時,CSS類名和動畫曲線會自動對齊。
對此功能,AI藝術工具EverArt首席執行官彼得羅·斯基拉諾測試后直接表示,新版Gemini 2.5 Pro I/O能夠通過一個提示就生成互動模擬游戲,完美還原了“1只大猩猩大戰100人”的社交媒體梗。
圖源:微博
同時,Hyperbolic聯合創始人兼CTO Yuchen Jin也寫道:“Gemini 2.5 Pro Preview(05-06)現已成為我的首選編程模型。在多個高難度提示詞測試中,它已超越o3(GPT-4o)和Claude 3.7 Sonnet。以編寫模擬水桶來回晃動的水體效果這個提示為例,其表現完全碾壓另外兩個模型。谷歌,這完全夠格稱為Gemini 3了!”
圖源:微博
此外,某位X用戶“RameshR”(@rezmeram)也測試并展示了該模型在不到一分鐘內生成的一款互動式俄羅斯方塊風格拼圖游戲,并配有真實音效,他在帖文中寫道:“休閑游戲行業要完蛋了!”
除了單條文本提示便能生成完整應用這一亮點以外,Gemini 2.5 Pro I/O版還將視頻理解能力推向新高度。
圖源:微博
憑借在VideoMME等基準測試中高達84.8%的SOTA視頻理解能力,Gemini 2.5 Pro能夠將視頻內容直接轉化為交互式學習應用,為教育、產品演示等領域開辟了新途徑。
在前端開發流程中,Gemini 2.5 Pro致力于智能化“設計稿到代碼”的過程。它能更好地理解設計風格,自動生成匹配的CSS代碼,例如在現有應用風格基礎上添加新功能時,能自動匹配整體視覺設計,從而簡化開發。
此外,模型在快速將概念轉化為兼具功能與美感的應用方面也展現出潛力。
例如,在谷歌DeepMind研究員Ali Eslami發布的另一個演示中,用Gemini 2.5 Pro“氛圍編程”功能進行了芝加哥藝術學院收藏品的3D導覽。
圖源:微博
最后,針對企業級開發的痛點,Gemini 2.5 Pro I/O版還展現出了優越的代碼維護能力。
一方面,其支持跨框架遷移,如React轉Vue,能夠自動更新依賴項并修復兼容性問題。例如,有團隊將10萬行代碼庫從Angular遷移到Next.js,錯誤率僅0.3%。
另一方面,針對長期困擾開發者的“AI幻覺”問題,新一代模型通過強化學習機制將API調用錯誤率壓到了40%。例如,其在支付功能開發場景中,系統會智能規避虛構接口陷阱,直接調用Stripe等經過驗證的官方SDK,減少代碼坑害。
進一步說,Gemini 2.5 Pro I/O版更令人驚艷的是其注釋優化能力,可以自動生成符合JSDoc規范的注釋,并支持一鍵過濾冗余說明,使得技術審查效率提升三倍以上。
綜上,Gemini 2.5 Pro I/O版的更新,實現了簡單提示詞生成代碼、圖片和視頻轉化為交互式網頁。
也就是說,AI已經不僅僅是為用戶生成答案的搜索引擎,甚至可以直接充當主體的角色,進行創作、數據分析、編程等,因此,直接弱化了工具與創造者的界限。
盡管在抽象思維層面尚未突破人類天花板,但其在具體場景中展現的效能已足夠顛覆傳統開發流程。
對于普通用戶而言,個體不再需要掌握編程語言,只需想象力和清晰的目的,就可以借助AI進行內容創作,全民AI的藍圖無疑更加清晰。
同時,效率的提升必然會從個人應用場景蔓延至團隊工作場景,再影響企業的戰略規劃,最終形成社會化的生產力要素來進行價值釋放。
這也意味著,這次更新,不僅是科技巨頭谷歌像外界展示大招,更意味著,人類在使用AI工具時的角色進一步轉變。
不過,對此也有網友變現出部分負面看法,認為這將嚴重擠壓平庸人在社會經濟中的勞動附加值,也就是說,未來面對替代危機的,可能不僅僅是依賴簡單重復性勞動的群體。
或許,Gemini 2.5 Pro的霸榜或許只是序章,隨著科技巨頭的持續迭代,一個由AI驅動、人機共創的軟件工程新時代正在加速到來,讓我們拭目以待。
作者 | 宋輝
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.