網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

用AI把一段視頻變成可視化網(wǎng)頁(yè)，Google的新模型又卷飛了。

2025-05-07 14:07:01　來(lái)源: 大數(shù)據(jù)文摘

北京舉報(bào)

分享至

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自數(shù)字生命卡茲克

作者：卡茲克

Google也不知道受了什么刺激，最近在AI場(chǎng)上，好像越來(lái)越有站起來(lái)的意思了。

之前我就寫過(guò)Gemini 2.5 pro，是在里。

全世界，只有Gemini 2.5 pro，能吃下一個(gè)每天999+微信群聊天記錄的上下文，同時(shí)還能給你干出，一個(gè)還挺好看的可視化網(wǎng)頁(yè)。

在Qwen3的跑分中，也印證了，Gemini 2.5 Pro的能力也是真的強(qiáng)。

而我自己在是日常使用中，也幾乎是把Gemini 2.5 Pro，變成了我的默認(rèn)編程模型。

但是昨晚，Google好死不死的，又把模型更新了一版，把版本號(hào)變成了，Genmini 2.5 Pro（I/O版）。

而在后臺(tái)的模型調(diào)用里，命名是Gemini 2.5 Pro Preview 05-06。

現(xiàn)在在Gemini自己的產(chǎn)品官網(wǎng)上，雖然看著還是原來(lái)的2.5 Pro (experimental)，但其實(shí)背后的模型已經(jīng)變成Gemini 2.5 Pro Preview 05-06了。

有一說(shuō)一，Google你的命名到底能不能統(tǒng)一一下。

真的好亂。。。

而且，Google是真的感覺等不及了，其實(shí)距離他們一年一度的I/O大會(huì)，也就不到兩周時(shí)間了，但是還是選擇了把新模型直接放出來(lái)。

這種行為，一般要么是真牛逼，要么是來(lái)吹牛逼。

但是Google，這回是前者，是真的有點(diǎn)牛逼。

他們自己也說(shuō)了：

We were going to release this update at Google I/O in a couple weeks, but based on the overwhelming enthusiasm for this model, we wanted to get it in your hands sooner so people can start building.

不是我來(lái)營(yíng)銷，是真的人民群眾需要啊，我只是順勢(shì)而為。

這次Gemini 2.5 Pro 05-06版本（后面就簡(jiǎn)稱05-06版了），跟今年三月DeepSeek V3 03-24的更新很像。都是完全為了代碼服務(wù)的，把代碼能力，往上提升了一個(gè)巨大的優(yōu)先級(jí)。

而這次的05-06版，我覺得有兩個(gè)亮點(diǎn)：

1. 模型代碼能力在盲測(cè)競(jìng)技場(chǎng)登頂，力壓Claude 3.7 Sonnet。

2. 得益于2.5 Pro強(qiáng)大的多模態(tài)能力，這次不僅可以給參考圖生成代碼，還可以，給參考視頻生成代碼。

特別是第二點(diǎn)，目前應(yīng)該是全球唯一。

先看看代碼能力的跑分。

這次最核心的榜單，就是，WebDev Arena。

https://web.lmarena.ai/leaderboard

0506版直接腳踩Claude 3.7 Sonnet，勇得第一。

可能很多人不知道WebDev Arena是啥，我稍微解釋一下，這玩意，還是挺有含金量的。

LMArena，最著名的大模型盲測(cè)競(jìng)技場(chǎng)，我相信一直關(guān)注AI的，大多數(shù)人都或多或少的聽過(guò)。

跟一些傳統(tǒng)的測(cè)試集不一樣，這玩意就是純粹的盲測(cè)，用戶提出一個(gè)Prompt，然后LMArena直接給你兩個(gè)你也不知道是什么模型生成的回答，讓你選你覺得哪個(gè)好。

所以，在這上面，你幾乎就做不了弊，全靠普通用戶，一票一票投出來(lái)的，就跟拆盲盒一樣。

而WebDev Arena，其實(shí)就是一個(gè)子榜，還是由LMArena他們開發(fā)的，專為評(píng)測(cè)網(wǎng)頁(yè)前端開發(fā)任務(wù)（比如HTML、CSS 和 JavaScript）而設(shè)立的。

玩法跟LMArena一樣，也是用戶盲測(cè)二選一。

唯一不同的是，WebDev Arena會(huì)生成代碼的預(yù)覽給你看，而不只是文字了。

比如我讓他生成一個(gè)Web的像素貓小游戲。

在等了一分鐘兩邊全部生成完之后，你就能非常明確的看出來(lái)，兩邊哪個(gè)是垃圾。。。

傻子都能看出來(lái)，右邊爆殺左邊，這個(gè)時(shí)候，你就為右邊，投出神圣的一票就行。

然后呢，他們用Bradley-Terry（BT）模型，成對(duì)對(duì)決中的勝負(fù)數(shù)據(jù)，來(lái)估算模型的強(qiáng)度，為每個(gè)模型計(jì)算一個(gè)分?jǐn)?shù)，這個(gè)分?jǐn)?shù)反映此模型相對(duì)于其他模型的獲勝概率。

這個(gè)排名系統(tǒng)非常類似于國(guó)際象棋和LOL、王者榮耀里中常用的Elo分。

只不過(guò)在WebDev Arena里，這個(gè)分?jǐn)?shù)，叫做Arena Score。

現(xiàn)在，我們?cè)倩剡^(guò)頭去看，你就能看到，05-06版，是結(jié)結(jié)實(shí)實(shí)提高了147分。。。

研究過(guò)王者榮耀或者LOL的影藏分也就是ELO分機(jī)制的朋友，就知道，這玩意提升100多分有多難。。。

這一次，Google的Gemini，登頂了。

第二個(gè)亮點(diǎn)，也是我覺得很牛逼的，05-06版本，也提升了視頻的理解能力，在在VideoMME基準(zhǔn)測(cè)試中得分為84.8%。

這就帶來(lái)一個(gè)很有趣的化學(xué)反應(yīng)。

過(guò)去我們經(jīng)常給一個(gè)PDF、給一個(gè)圖片，讓它生成一段可視化網(wǎng)頁(yè)，但是現(xiàn)在，你可以，給一個(gè)視頻，來(lái)變成可視化網(wǎng)頁(yè)了。。。

不過(guò)現(xiàn)在有點(diǎn)BUG，Gemini官網(wǎng)本身不支持視頻的上傳，只能在AI Studio里傳視頻，但而上傳的時(shí)候，又經(jīng)常會(huì)報(bào)錯(cuò)。

Reddit里很多網(wǎng)友也遇到了這個(gè)問(wèn)題。。。

Emmmmm，不過(guò)，目前使用YouTube的在線鏈接生成，目前是可以的。

我們直接打開AI studio的官網(wǎng)：

https://aistudio.google.com/

模型調(diào)整至05-06版。

在加號(hào)那，選YouTube。

我直接扔了一段OpenAI發(fā)在YouTube上的Sora教程上去，然后繼續(xù)用藏師傅的可視化Prompt。

很快啊，代碼就跑出來(lái)了。

我們復(fù)制一下，運(yùn)行看看。

完整版網(wǎng)頁(yè)在此：https://2uwv6grszo.app.yourware.so/

雖然這事，看著很NTR，但是，他真的很酷啊。

這玩意用于學(xué)習(xí)，你就可以想想，他有多棒。

比如我有時(shí)候，回去YouTube上看Blender教程。

現(xiàn)在，我就可以把這個(gè)視頻和Prompt扔給他。

等輸出完代碼以后，我們看看效果。

真的很爽。。。

所以整體來(lái)看，這一次Gemini 2.5 Pro 05-06版本，確實(shí)是一次非常實(shí)在的升級(jí)。

既有實(shí)打?qū)嵉拇a能力提升，也在多模態(tài)理解上給到了新可能，尤其是視頻轉(zhuǎn)網(wǎng)頁(yè)這種交叉場(chǎng)景，很可能會(huì)帶來(lái)新的開發(fā)范式。

當(dāng)然，Google 現(xiàn)在的問(wèn)題依然是產(chǎn)品打磨還不夠穩(wěn)，入口混亂、命名迷惑、交互也還有bug，但模型本身的進(jìn)步，確實(shí)值得承認(rèn)。

它已經(jīng)不是那個(gè)只靠PPT和論文刷存在感的Gemini了。

也不再是每次都被OpenAI狙擊的AI界汪峰了。

接下來(lái)就看I/O大會(huì)正式發(fā)布時(shí)。

Google會(huì)不會(huì)再放出更大一錘了。

我們，拭目以待。

GPU算力按需租用

A100/H100 GPU算力按需租用，

秒級(jí)計(jì)費(fèi)，平均節(jié)省開支30%以上！

掃碼了解詳情?

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.