大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自數(shù)字生命卡茲克
作者:卡茲克
Google也不知道受了什么刺激,最近在AI場(chǎng)上,好像越來(lái)越有站起來(lái)的意思了。
之前我就寫過(guò)Gemini 2.5 pro,是在里。
全世界,只有Gemini 2.5 pro,能吃下一個(gè)每天999+微信群聊天記錄的上下文,同時(shí)還能給你干出,一個(gè)還挺好看的可視化網(wǎng)頁(yè)。
在Qwen3的跑分中,也印證了,Gemini 2.5 Pro的能力也是真的強(qiáng)。
而我自己在是日常使用中,也幾乎是把Gemini 2.5 Pro,變成了我的默認(rèn)編程模型。
但是昨晚,Google好死不死的,又把模型更新了一版,把版本號(hào)變成了,Genmini 2.5 Pro(I/O版)。
而在后臺(tái)的模型調(diào)用里,命名是Gemini 2.5 Pro Preview 05-06。
現(xiàn)在在Gemini自己的產(chǎn)品官網(wǎng)上,雖然看著還是原來(lái)的2.5 Pro (experimental),但其實(shí)背后的模型已經(jīng)變成Gemini 2.5 Pro Preview 05-06了。
有一說(shuō)一,Google你的命名到底能不能統(tǒng)一一下。
真的好亂。。。
而且,Google是真的感覺等不及了,其實(shí)距離他們一年一度的I/O大會(huì),也就不到兩周時(shí)間了,但是還是選擇了把新模型直接放出來(lái)。
這種行為,一般要么是真牛逼,要么是來(lái)吹牛逼。
但是Google,這回是前者,是真的有點(diǎn)牛逼。
他們自己也說(shuō)了:
We were going to release this update at Google I/O in a couple weeks, but based on the overwhelming enthusiasm for this model, we wanted to get it in your hands sooner so people can start building.
不是我來(lái)營(yíng)銷,是真的人民群眾需要啊,我只是順勢(shì)而為。
這次Gemini 2.5 Pro 05-06版本(后面就簡(jiǎn)稱05-06版了),跟今年三月DeepSeek V3 03-24的更新很像。都是完全為了代碼服務(wù)的,把代碼能力,往上提升了一個(gè)巨大的優(yōu)先級(jí)。
而這次的05-06版,我覺得有兩個(gè)亮點(diǎn):
1. 模型代碼能力在盲測(cè)競(jìng)技場(chǎng)登頂,力壓Claude 3.7 Sonnet。
2. 得益于2.5 Pro強(qiáng)大的多模態(tài)能力,這次不僅可以給參考圖生成代碼,還可以,給參考視頻生成代碼。
特別是第二點(diǎn),目前應(yīng)該是全球唯一。
先看看代碼能力的跑分。
這次最核心的榜單,就是,WebDev Arena。
https://web.lmarena.ai/leaderboard
0506版直接腳踩Claude 3.7 Sonnet,勇得第一。
可能很多人不知道WebDev Arena是啥,我稍微解釋一下,這玩意,還是挺有含金量的。
LMArena,最著名的大模型盲測(cè)競(jìng)技場(chǎng),我相信一直關(guān)注AI的,大多數(shù)人都或多或少的聽過(guò)。
跟一些傳統(tǒng)的測(cè)試集不一樣,這玩意就是純粹的盲測(cè),用戶提出一個(gè)Prompt,然后LMArena直接給你兩個(gè)你也不知道是什么模型生成的回答,讓你選你覺得哪個(gè)好。
所以,在這上面,你幾乎就做不了弊,全靠普通用戶,一票一票投出來(lái)的,就跟拆盲盒一樣。
而WebDev Arena,其實(shí)就是一個(gè)子榜,還是由LMArena他們開發(fā)的,專為評(píng)測(cè)網(wǎng)頁(yè)前端開發(fā)任務(wù)(比如HTML、CSS 和 JavaScript)而設(shè)立的。
玩法跟LMArena一樣,也是用戶盲測(cè)二選一。
唯一不同的是,WebDev Arena會(huì)生成代碼的預(yù)覽給你看,而不只是文字了。
比如我讓他生成一個(gè)Web的像素貓小游戲。
在等了一分鐘兩邊全部生成完之后,你就能非常明確的看出來(lái),兩邊哪個(gè)是垃圾。。。
傻子都能看出來(lái),右邊爆殺左邊,這個(gè)時(shí)候,你就為右邊,投出神圣的一票就行。
然后呢,他們用Bradley-Terry(BT)模型,成對(duì)對(duì)決中的勝負(fù)數(shù)據(jù),來(lái)估算模型的強(qiáng)度,為每個(gè)模型計(jì)算一個(gè)分?jǐn)?shù),這個(gè)分?jǐn)?shù)反映此模型相對(duì)于其他模型的獲勝概率。
這個(gè)排名系統(tǒng)非常類似于國(guó)際象棋和LOL、王者榮耀里中常用的Elo分。
只不過(guò)在WebDev Arena里,這個(gè)分?jǐn)?shù),叫做Arena Score。
現(xiàn)在,我們?cè)倩剡^(guò)頭去看,你就能看到,05-06版,是結(jié)結(jié)實(shí)實(shí)提高了147分。。。
研究過(guò)王者榮耀或者LOL的影藏分也就是ELO分機(jī)制的朋友,就知道,這玩意提升100多分有多難。。。
這一次,Google的Gemini,登頂了。
第二個(gè)亮點(diǎn),也是我覺得很牛逼的,05-06版本,也提升了視頻的理解能力,在在VideoMME基準(zhǔn)測(cè)試中得分為84.8%。
這就帶來(lái)一個(gè)很有趣的化學(xué)反應(yīng)。
過(guò)去我們經(jīng)常給一個(gè)PDF、給一個(gè)圖片,讓它生成一段可視化網(wǎng)頁(yè),但是現(xiàn)在,你可以,給一個(gè)視頻,來(lái)變成可視化網(wǎng)頁(yè)了。。。
不過(guò)現(xiàn)在有點(diǎn)BUG,Gemini官網(wǎng)本身不支持視頻的上傳,只能在AI Studio里傳視頻,但而上傳的時(shí)候,又經(jīng)常會(huì)報(bào)錯(cuò)。
Reddit里很多網(wǎng)友也遇到了這個(gè)問(wèn)題。。。
Emmmmm,不過(guò),目前使用YouTube的在線鏈接生成,目前是可以的。
我們直接打開AI studio的官網(wǎng):
https://aistudio.google.com/
模型調(diào)整至05-06版。
在加號(hào)那,選YouTube。
我直接扔了一段OpenAI發(fā)在YouTube上的Sora教程上去,然后繼續(xù)用藏師傅的可視化Prompt。
很快啊,代碼就跑出來(lái)了。
我們復(fù)制一下,運(yùn)行看看。
完整版網(wǎng)頁(yè)在此:https://2uwv6grszo.app.yourware.so/
雖然這事,看著很NTR,但是,他真的很酷啊。
這玩意用于學(xué)習(xí),你就可以想想,他有多棒。
比如我有時(shí)候,回去YouTube上看Blender教程。
現(xiàn)在,我就可以把這個(gè)視頻和Prompt扔給他。
等輸出完代碼以后,我們看看效果。
真的很爽。。。
所以整體來(lái)看,這一次Gemini 2.5 Pro 05-06版本,確實(shí)是一次非常實(shí)在的升級(jí)。
既有實(shí)打?qū)嵉拇a能力提升,也在多模態(tài)理解上給到了新可能,尤其是視頻轉(zhuǎn)網(wǎng)頁(yè)這種交叉場(chǎng)景,很可能會(huì)帶來(lái)新的開發(fā)范式。
當(dāng)然,Google 現(xiàn)在的問(wèn)題依然是產(chǎn)品打磨還不夠穩(wěn),入口混亂、命名迷惑、交互也還有bug,但模型本身的進(jìn)步,確實(shí)值得承認(rèn)。
它已經(jīng)不是那個(gè)只靠PPT和論文刷存在感的Gemini了。
也不再是每次都被OpenAI狙擊的AI界汪峰了。
接下來(lái)就看I/O大會(huì)正式發(fā)布時(shí)。
Google會(huì)不會(huì)再放出更大一錘了。
我們,拭目以待。
GPU算力按需租用
A100/H100 GPU算力按需租用,
秒級(jí)計(jì)費(fèi),平均節(jié)省開支30%以上!
掃碼了解詳情?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.