大數據文摘受權轉載自數字生命卡茲克
作者:卡茲克
Google也不知道受了什么刺激,最近在AI場上,好像越來越有站起來的意思了。
之前我就寫過Gemini 2.5 pro,是在里。
全世界,只有Gemini 2.5 pro,能吃下一個每天999+微信群聊天記錄的上下文,同時還能給你干出,一個還挺好看的可視化網頁。
在Qwen3的跑分中,也印證了,Gemini 2.5 Pro的能力也是真的強。
而我自己在是日常使用中,也幾乎是把Gemini 2.5 Pro,變成了我的默認編程模型。
但是昨晚,Google好死不死的,又把模型更新了一版,把版本號變成了,Genmini 2.5 Pro(I/O版)。
而在后臺的模型調用里,命名是Gemini 2.5 Pro Preview 05-06。
現在在Gemini自己的產品官網上,雖然看著還是原來的2.5 Pro (experimental),但其實背后的模型已經變成Gemini 2.5 Pro Preview 05-06了。
有一說一,Google你的命名到底能不能統一一下。
真的好亂。。。
而且,Google是真的感覺等不及了,其實距離他們一年一度的I/O大會,也就不到兩周時間了,但是還是選擇了把新模型直接放出來。
這種行為,一般要么是真牛逼,要么是來吹牛逼。
但是Google,這回是前者,是真的有點牛逼。
他們自己也說了:
We were going to release this update at Google I/O in a couple weeks, but based on the overwhelming enthusiasm for this model, we wanted to get it in your hands sooner so people can start building.
不是我來營銷,是真的人民群眾需要啊,我只是順勢而為。
這次Gemini 2.5 Pro 05-06版本(后面就簡稱05-06版了),跟今年三月DeepSeek V3 03-24的更新很像。都是完全為了代碼服務的,把代碼能力,往上提升了一個巨大的優先級。
而這次的05-06版,我覺得有兩個亮點:
1. 模型代碼能力在盲測競技場登頂,力壓Claude 3.7 Sonnet。
2. 得益于2.5 Pro強大的多模態能力,這次不僅可以給參考圖生成代碼,還可以,給參考視頻生成代碼。
特別是第二點,目前應該是全球唯一。
先看看代碼能力的跑分。
這次最核心的榜單,就是,WebDev Arena。
https://web.lmarena.ai/leaderboard
0506版直接腳踩Claude 3.7 Sonnet,勇得第一。
可能很多人不知道WebDev Arena是啥,我稍微解釋一下,這玩意,還是挺有含金量的。
LMArena,最著名的大模型盲測競技場,我相信一直關注AI的,大多數人都或多或少的聽過。
跟一些傳統的測試集不一樣,這玩意就是純粹的盲測,用戶提出一個Prompt,然后LMArena直接給你兩個你也不知道是什么模型生成的回答,讓你選你覺得哪個好。
所以,在這上面,你幾乎就做不了弊,全靠普通用戶,一票一票投出來的,就跟拆盲盒一樣。
而WebDev Arena,其實就是一個子榜,還是由LMArena他們開發的,專為評測網頁前端開發任務(比如HTML、CSS 和 JavaScript)而設立的。
玩法跟LMArena一樣,也是用戶盲測二選一。
唯一不同的是,WebDev Arena會生成代碼的預覽給你看,而不只是文字了。
比如我讓他生成一個Web的像素貓小游戲。
在等了一分鐘兩邊全部生成完之后,你就能非常明確的看出來,兩邊哪個是垃圾。。。
傻子都能看出來,右邊爆殺左邊,這個時候,你就為右邊,投出神圣的一票就行。
然后呢,他們用Bradley-Terry(BT)模型,成對對決中的勝負數據,來估算模型的強度,為每個模型計算一個分數,這個分數反映此模型相對于其他模型的獲勝概率。
這個排名系統非常類似于國際象棋和LOL、王者榮耀里中常用的Elo分。
只不過在WebDev Arena里,這個分數,叫做Arena Score。
現在,我們再回過頭去看,你就能看到,05-06版,是結結實實提高了147分。。。
研究過王者榮耀或者LOL的影藏分也就是ELO分機制的朋友,就知道,這玩意提升100多分有多難。。。
這一次,Google的Gemini,登頂了。
第二個亮點,也是我覺得很牛逼的,05-06版本,也提升了視頻的理解能力,在在VideoMME基準測試中得分為84.8%。
這就帶來一個很有趣的化學反應。
過去我們經常給一個PDF、給一個圖片,讓它生成一段可視化網頁,但是現在,你可以,給一個視頻,來變成可視化網頁了。。。
不過現在有點BUG,Gemini官網本身不支持視頻的上傳,只能在AI Studio里傳視頻,但而上傳的時候,又經常會報錯。
Reddit里很多網友也遇到了這個問題。。。
Emmmmm,不過,目前使用YouTube的在線鏈接生成,目前是可以的。
我們直接打開AI studio的官網:
https://aistudio.google.com/
模型調整至05-06版。
在加號那,選YouTube。
我直接扔了一段OpenAI發在YouTube上的Sora教程上去,然后繼續用藏師傅的可視化Prompt。
很快啊,代碼就跑出來了。
我們復制一下,運行看看。
完整版網頁在此:https://2uwv6grszo.app.yourware.so/
雖然這事,看著很NTR,但是,他真的很酷啊。
這玩意用于學習,你就可以想想,他有多棒。
比如我有時候,回去YouTube上看Blender教程。
現在,我就可以把這個視頻和Prompt扔給他。
等輸出完代碼以后,我們看看效果。
真的很爽。。。
所以整體來看,這一次Gemini 2.5 Pro 05-06版本,確實是一次非常實在的升級。
既有實打實的代碼能力提升,也在多模態理解上給到了新可能,尤其是視頻轉網頁這種交叉場景,很可能會帶來新的開發范式。
當然,Google 現在的問題依然是產品打磨還不夠穩,入口混亂、命名迷惑、交互也還有bug,但模型本身的進步,確實值得承認。
它已經不是那個只靠PPT和論文刷存在感的Gemini了。
也不再是每次都被OpenAI狙擊的AI界汪峰了。
接下來就看I/O大會正式發布時。
Google會不會再放出更大一錘了。
我們,拭目以待。
GPU算力按需租用
A100/H100 GPU算力按需租用,
秒級計費,平均節省開支30%以上!
掃碼了解詳情?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.