整理|冬梅、核子可樂
I/O 前夕,谷歌突發 Gemini 2.5 Pro 預覽版
昨晚,谷歌在 I/O 大會之前宣布推出 Gemini 2.5 Pro Preview(I/O 版)。作為其旗艦產品 Gemini 2.5 Pro AI 模型的升級版本,搜索巨頭宣稱該模型在多項主流基準測試中均名列前茅。
Gemini 2.5 Pro Preview(I/O 版)可通過 Gemini API 以及谷歌的 Vertex AI 與 AI Studio 平臺獲取,價格則與升級前的 Gemini 2.5 Pro 模型相同。預覽版也被引入到谷歌的 Gemini 聊天機器人應用當中,主要供 Web 及移動設備端使用。
谷歌 DeepMind CEO Demis Hassabis 在 X 上發帖稱:“非常高興能與大家分享我們迄今為止構建的最佳編程模型!今天,我們發布了 Gemini 2.5 Pro Preview 的‘I/O 版’,其編程能力得到了大幅提升。此版本在 LMArena 編程類別中排名第一,在 WebDev Arena 排行榜上同樣拔得頭籌。”
這套模型的發布正值谷歌年度 I/O 開發者大會(因此得名「I/O 版」)召開在際。預計谷歌將在大會上發布一系列模型以及 AI 驅動的工具和平臺。在這場殘酷的 AI 競賽中,谷歌正奮力奪取市場份額與用戶關注;OpenAI 及 xAI 等競爭對手也即將發布性能強大的同類模型。
最新版模型實際上能做些什么?
根據谷歌的介紹,Gemini 2.5 Pro Preview(I/O 版)在編碼和構建交互式 Web 應用方面實現了“顯著”提升。此外,新版本模型在代碼轉換(即修改一段代碼以實現特定目標)與代碼編輯等任務上同樣表現出色。
谷歌在一篇博文中指出,Gemini 2.5 Pro Preview(I/O 版)在 Web Arena 排行榜(旨在衡量模型創建美觀且功能強大的 Web 應用的能力)上名列前茅,比上一版本高出 147 個 Elo 積分。該排行榜衡量了人類對模型構建美觀且功能強大的 Web 應用的能力的偏好。它還繼續鞏固了其在原生多模態和長上下文方面的堅實基礎。
WebDev Arena 由 LMArena 開發,是一項實時 AI 編碼競賽,模型在 Web 開發挑戰中展開正面交鋒
視頻轉代碼
值得一提的是,新版本模型在視頻理解方面同樣擁有一流表現,在熱門基準測試 VideoMME 上取得 84.8% 的得分。
結合編碼功能,Gemini 2.5 Pro Preview 實現了之前版本無法實現的全新流程。憑借更強大的視頻理解能力和更完善的用戶界面,升級后的 Gemini 2.5 Pro 模型比之前的簡單示例提供了更豐富的功能體驗。
谷歌在博文中寫道,“對于正在使用 Gemini 2.5 Pro Preview 的開發者們來說,此次發布的新版本不僅能夠提升編程性能,還將解決開發者提出的多項關鍵反饋,包括減少函數調用中的錯誤并提高函數調用的觸發率。默認情況下,該模型既能保持良好的可操控性,也真正體現出對 Web 開發的審美追求?!?/p>
讓功能開發更簡單
Gemini 2.5 Pro Preview 在前端 Web 開發方面表現優異。實現新功能意味著用戶需要手動深入設計文件,檢查組件以匹配顏色、字體、內邊距、外邊距和邊框等樣式屬性,然后手動編寫所需的 CSS 代碼來準確復制這些視覺屬性。想象一下,在 IDE 中使用 Gemini 2.5 Pro Preview,并讓模型生成新功能,例如添加一個與 Gemini 95 入門應用中其他應用風格相同的視頻播放器。
讓創意更易落地
Gemini 2.5 Pro Preview 讓創意落地變得簡單高效,它既提供強大的實用功能,又擁有優雅的用戶界面。以全新升級的聽寫入門應用為例,該應用基于最新模型構建,充分展現了 Gemini 2.5 Pro Preview 的優勢。
值得關注的是其精致的細節設計:動態波長動畫、流暢的響應式布局,以及巧妙的按鈕懸停交互效果。這一模型天然具備現代化的 Web 開發風格,在確保視覺美感的同時,更注重操作便捷性,幫助開發者快速將概念轉化為可實際運行的 Web 應用。
例如,Gemini 2.5 Pro Preview 能夠為聽寫應用智能設計麥克風 UI 動畫,并自動生成相應代碼,顯著提升開發效率。
外界如何評價?
Gemini 2.5 Pro Preview 發布后立即在社區中引發熱議,AI 編碼工具 Cursor CEO Michael Truell?也忍不住稱贊 Gemini 2.5 Pro Preview 讓編碼能力更進一步。
“我們對最新的 Gemini 2.5 Pro Preview 感到非常興奮,它在其強大的實際編程能力基礎上進一步提升。我們內部觀察到,新型號調用工具失敗的情況顯著減少,我們相信用戶會發現這一改進使 2.5 Pro Preview 在 Cursor 中的效率比以前更高?!?/blockquote>在 Hacker News 上,有用戶認為 Gemini 2.5 系列比其他模型要可靠,但仍然無法與人類開發者媲美:
“前在使用其他模型編程時,我經常遇到一個令人頭疼的問題:它們有時會生成根本不存在的 API。相比之下,Gemini 2.5 系列(包括 Pro 和 Flash 版本)在這方面表現要好得多,比我所嘗試過的任何其他模型都更可靠。 當然,它仍然存在一些明顯的局限性。無論怎樣優化提示詞,當前的模型在抽象思維和系統架構方面還是無法與人類開發者相媲美。但即便如此,我發現 Gemini 已經能夠替代我日常的很多搜索和 StackOverflow 查詢,顯著提升了我的編程效率。”有用戶贊同了上述觀點,認為即使 Gemini 2.5 Pro Preview 在智能編碼方面已經足夠出色,但目前仍無法媲美人類,不過,他認為 AI 在編碼能力方面超越人類只是時間問題。
“很明顯,在代碼設計領域,人類被超越只是時間問題(至于這是 1 年還是 5 年后的事,其實并不重要)。與其糾結于這些無法改變的趨勢,不如把精力放在更有價值的問題上:在這個即將到來的新世界里,我們能做些什么? 我們需要更多建設性的想法,而這里正是推動這些討論的最佳場所?!?/blockquote>一位每日都在使用大模型輔助編程的開發者表示:
“我每天都在使用大語言模型輔助編程。多年來,LLM 的編程能力確實有了顯著進步,但主要集中在"自然語言到代碼"的映射能力上。這種能力雖然強大,使用時仍需注意:需要精心管理上下文以保持模型專注;必須主動引導模型考慮性能優化和系統架構等關鍵因素。我對大模型的推理能力仍持保留態度。這并非否定其價值,而是要認識到其固有局限。我認為,要實現真正類人智能,我們可能需要探索完全不同于 LLM 的技術路徑。”但也有 X 用戶認為,Gemini 2.5 Pro Preview 只有編碼技能略有提高。其他一切都略有下降。因此,這只是一個專為編碼而生的大模型,不適合一般用途(與之前的版本相比)。
https://blog.google/products/gemini/gemini-2-5-pro-updates/
聲明:本文為 AI 前線翻譯整理,不代表平臺觀點,未經許可禁止轉載。
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智能數據基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界?。?/p>
今日薦文
你也「在看」嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.