網易首頁 > 網易號 > 正文申請入駐

編程新王登基：谷歌Gemini 2Pro超越了Claude 3.7 Sonnet

2025-05-07 09:14:02　來源: AI范兒

上海舉報

分享至

AI 編程的競爭已經白熱化。OpenAI 斥資 30 億美元收購代碼平臺 Windsurf，AI 編程工具 Cursor 也剛完成高達 9 億美元的融資。在這股資本與技術雙重高壓下，Google 顯然坐不住了——率先一步，搶在 I/O 大會之前發布了主打編程能力的 Gemini 2.5 Pro “I/O” 預覽版。

這是對今年 3 月 Gemini 2.5 Pro 的一次關鍵升級。Google 旗下的 DeepMind CEO Demis Hassabis 在 X 上直言：“這是我們做過最強的編碼模型！”而從官方發布的初步評測看，這不僅是宣傳，更可能是 Google 自 ChatGPT 引爆生成式 AI 以來，首次在代碼能力上取得壓倒性領先。

一個新的編程王者正在登基。

編程性能的飛躍

Gemini 2.5 Pro 預覽版（I/O 特別版）專為開發者打造，重點在于編程卓越性。

在人類評分為主的 WebDev Arena 排行榜中，Gemini 2.5 Pro Preview（05-06）首次登頂，超越了 Anthropic 的 Claude 3.7 Sonnet，該榜單由第三方根據 Web 應用的視覺效果和功能完成度進行評分。

它在代碼轉換、編輯和構建復雜智能代理工作流等基本編程任務中也表現出色。開發者現在可以通過一個提示構建豐富的交互式 Web 應用，從而簡化流程并減少開發時間。

一項突出功能：視頻轉代碼

例如，該模型能夠從一個 YouTube 視頻生成一個交互式學習應用，依賴其最先進的視頻理解能力（在 VideoMME 基準測試中得分為 84.8%）。這為開發動態應用（如教育工具或交互式模擬）開辟了新可能，所需工作量極少。

為推理與多模態而生

Gemini 2.5 Pro 預覽版是一款“思考型模型”，在回答前先進行問題推理，從而生成更準確、上下文相關的輸出。其推理能力結合 100 萬 token 的上下文窗口（未來計劃擴展至 200 萬），可處理龐大數據量——相當于 75 萬字的小說，非常適合分析大型代碼庫或整合龐大數據集的任務。

該模型的多模態能力使其能無縫處理文本、音頻、圖像和視頻輸入。例如，它可以根據簡單提示創建“宇宙魚”或分形圖案等交互式動畫，或生成像像素恐龍無盡奔跑游戲的可執行代碼。這些能力讓它在創意和技術應用中都非常有用。

基準測試領先地位

Gemini 2.5 Pro 預覽版繼續在業內基準測試中領先。它在 LMArena 排行榜中的人類偏好測試中排名第一，并在 AIME 2025 數學考試（美國數學奧林匹克資格測試）中取得 86.7% 的優異成績。

在檢驗人類知識極限的數據集 Humanity’s Last Exam 中獲得 18.8%，在軟件開發任務基準 SWE-Bench Verified 上獲得 63.8%。這些結果顯示其在推理和編程方面遠勝于 OpenAI 的 o3-mini 或 Anthropic 的 Claude 3.7 Sonnet 等競品。

初期反響與開發者熱情

開發者社區對 Gemini 2.5 Pro 預覽版反應熱烈。在 X 平臺上，用戶稱其是構建應用、編寫文檔和生成工作流的“猛獸”，并稱其在編程任務中優于 ChatGPT。

Replit 的米歇爾·卡塔斯塔（Michele Catasta）指出其“能力與延遲比”優越，而 Cognition 的西拉斯·阿爾貝蒂（Silas Alberti）稱其能夠像資深開發者一樣處理復雜重構任務。這些認可強調了其在軟件開發和企業級 AI 工作流方面的變革潛力。

Gemini 2.5 Pro I/O 版這波更新，看起來確實很猛。無論是代碼能力、交互體驗，還是多模態的整合，都能看出 Google 想在編程這條線上搶回一城。

也許我們很快就會習慣：寫代碼這件事，不是你一個人“打字打出來”的，而是和 AI 一起“說著做出來”的。

如果你也體驗了，或者還在觀望，不妨在評論區聊聊你對這場 AI 編程大戰的看法。誰才是真正的開發者好伙伴？我們拭目以待。

本文由「AI 范兒」出品

我每天都在更新，如果你覺得這些內容對你有用，

那我們就加個關注、交個朋友。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.