昨晚谷歌終于圓上了他們年底畫的餅。
發布了支持圖片生成和編輯的多模態 Gemini 2.0 模型。
為什么這是一個值得關注的事情呢?
因為原生支持圖片生成的語言模型可以實現以往需要很多工具才能完成的功能。
比如你可以直接通過對話修改你上傳的圖片。
可以通過對話混合兩張圖片,比如將圖 1 的產品放到圖 2 的環境里面
甚至于說讓他從草稿生成完整產品的渲染圖
其中他最強的一個能力是在生成多張跨場景圖片的時候可以保證人物特征的一致性,甚至能保證場景一致性。
這是目前我們做視頻和連續內容最頭疼的部分。現在你只需要動動手指打字就行。
最離譜的是什么呢,你完全可以讓他一次生成一個完整故事所需要的所有圖片分鏡。
由于是一次生成的,所有的圖片都能保證在風格、角色、環境上的一致性,直接解決了現在視頻創作最惡心的問題。
而且效率非常高不需要反復調整,一次能出十幾張。
我就只說了一句話,他就幫我生成了一個睡前故事需要的所有圖片和口播稿,我把他們扔進剪映里面 3 分鐘搞定了這個睡前故事視頻。
以前哪敢想啊家人們。
另外我們完全可以將這些圖片扔到可靈和海螺里直接生成視頻,表現力會大幅上升,比如 Padphone 老師做的這個皮卡丘就是這樣搞得。
稍微產品化一下,我們就能實現一句話生成視頻了,沒想到這一天來的這么快。
最后谷歌這個功能依舊是免費的,你幾乎可以無限白嫖。
使用方式:
打開 AI Studio
右側將模型切換為 Gemini 2.0 Flash Experimental
直接自然語言跟模型溝通就行
趕緊去試試吧,朋友們,單純用來生成圖片的話這個模型的質量也非常不錯。
別忘了 Gemini 2 還是目前視頻多模態理解最強的模型,視頻生成和編排的新時代就要來了,就看哪些團隊能抓住機會了。
如果覺得對你有幫助的話請不要吝嗇你手中的贊、喜歡和分享按鈕??,
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.