AI 編程的競爭已經白熱化。OpenAI 斥資 30 億美元收購代碼平臺 Windsurf,AI 編程工具 Cursor 也剛完成高達 9 億美元的融資。在這股資本與技術雙重高壓下,Google 顯然坐不住了——率先一步,搶在 I/O 大會之前發布了主打編程能力的 Gemini 2.5 Pro “I/O” 預覽版。
這是對今年 3 月 Gemini 2.5 Pro 的一次關鍵升級。Google 旗下的 DeepMind CEO Demis Hassabis 在 X 上直言:“這是我們做過最強的編碼模型!”而從官方發布的初步評測看,這不僅是宣傳,更可能是 Google 自 ChatGPT 引爆生成式 AI 以來,首次在代碼能力上取得壓倒性領先。
一個新的編程王者正在登基。
編程性能的飛躍
Gemini 2.5 Pro 預覽版(I/O 特別版)專為開發者打造,重點在于編程卓越性。
在人類評分為主的 WebDev Arena 排行榜中,Gemini 2.5 Pro Preview(05-06)首次登頂,超越了 Anthropic 的 Claude 3.7 Sonnet,該榜單由第三方根據 Web 應用的視覺效果和功能完成度進行評分。
它在代碼轉換、編輯和構建復雜智能代理工作流等基本編程任務中也表現出色。開發者現在可以通過一個提示構建豐富的交互式 Web 應用,從而簡化流程并減少開發時間。
一項突出功能:視頻轉代碼
例如,該模型能夠從一個 YouTube 視頻生成一個交互式學習應用,依賴其最先進的視頻理解能力(在 VideoMME 基準測試中得分為 84.8%)。這為開發動態應用(如教育工具或交互式模擬)開辟了新可能,所需工作量極少。
為推理與多模態而生
Gemini 2.5 Pro 預覽版是一款“思考型模型”,在回答前先進行問題推理,從而生成更準確、上下文相關的輸出。其推理能力結合 100 萬 token 的上下文窗口(未來計劃擴展至 200 萬),可處理龐大數據量——相當于 75 萬字的小說,非常適合分析大型代碼庫或整合龐大數據集的任務。
該模型的多模態能力使其能無縫處理文本、音頻、圖像和視頻輸入。例如,它可以根據簡單提示創建“宇宙魚”或分形圖案等交互式動畫,或生成像像素恐龍無盡奔跑游戲的可執行代碼。這些能力讓它在創意和技術應用中都非常有用。
基準測試領先地位
Gemini 2.5 Pro 預覽版繼續在業內基準測試中領先。它在 LMArena 排行榜中的人類偏好測試中排名第一,并在 AIME 2025 數學考試(美國數學奧林匹克資格測試)中取得 86.7% 的優異成績。
在檢驗人類知識極限的數據集 Humanity’s Last Exam 中獲得 18.8%,在軟件開發任務基準 SWE-Bench Verified 上獲得 63.8%。這些結果顯示其在推理和編程方面遠勝于 OpenAI 的 o3-mini 或 Anthropic 的 Claude 3.7 Sonnet 等競品。
初期反響與開發者熱情
開發者社區對 Gemini 2.5 Pro 預覽版反應熱烈。在 X 平臺上,用戶稱其是構建應用、編寫文檔和生成工作流的“猛獸”,并稱其在編程任務中優于 ChatGPT。
Replit 的米歇爾·卡塔斯塔(Michele Catasta)指出其“能力與延遲比”優越,而 Cognition 的西拉斯·阿爾貝蒂(Silas Alberti)稱其能夠像資深開發者一樣處理復雜重構任務。這些認可強調了其在軟件開發和企業級 AI 工作流方面的變革潛力。
Gemini 2.5 Pro I/O 版這波更新,看起來確實很猛。無論是代碼能力、交互體驗,還是多模態的整合,都能看出 Google 想在編程這條線上搶回一城。
也許我們很快就會習慣:寫代碼這件事,不是你一個人“打字打出來”的,而是和 AI 一起“說著做出來”的。
如果你也體驗了,或者還在觀望,不妨在評論區聊聊你對這場 AI 編程大戰的看法。誰才是真正的開發者好伙伴?我們拭目以待。
本文由「AI 范兒」出品
我每天都在更新,如果你覺得這些內容對你有用,
那我們就加個關注、交個朋友。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.