如果DeepSeek等語言大模型代表人類左腦,可靈AI有點像人的右腦。
文|《中國企業家》記者 趙東山
編輯|張曉迪
圖片來源|中企圖庫
4月18日~19日,由《中國企業家》雜志社主辦的2025(第十七屆)商界木蘭年會在北京舉辦。圍繞可靈AI的技術進展和實際應用,快手科技副總裁、大模型團隊負責人張迪發表了主題演講。
張迪演講的核心觀點如下:
1.以DeepSeek為代表的大語言模型,代表的是人類的左腦,更多是關于語言和邏輯的部分。可靈AI等視覺大模型,有點像是人的右腦,更多代表的是人類對圖片和視頻的理解以及生成。
2.可靈已經發展成了一個全球化的產品,在全球范圍之內累計超過2200萬的用戶,用戶使用可靈生成了1.68億個視頻,其中包括3.44億張圖片,可靈在阿根廷、智利等8個國家和地區的iOS應用市場下載排到了第一,在北美市場的分類下載也排到了第一。
3.整個科技行業發展非常快,AI發展非常快,中國大模型從前幾年追趕美國的狀態到今天各個領域跟美國的差距在縮小,最重要的還是AI轉化為新質生產力。
以下為張迪演講全文:
大語言模型代表左腦,視頻大模型代表右腦
尊敬的各位領導,各位企業家,大家上午好!我非常開心能夠給大家帶來這個分享,我今天分享的主題是“可靈AI助力開啟視頻創作的新業態”,前面幾位企業家都講到了包括影視跟AI的結合,可以做一個呼應。
我是快手的副總裁,主要在快手負責大模型的研發,我也是一個技術人員,所以接下來我盡可能給大家講一下中國的AI、中國的大模型發展到什么階段了。
最開始先說一下整個大模型技術領域,大概可以分成兩個大的方向,第一,以DeepSeek為代表的大語言模型,代表的是人類的左腦,更多是關于語言和邏輯的部分。第二,我今天講的這部分是關于視覺大模型,有點像是人的右腦,更多代表的是人類對于圖片和視頻的理解以及生成。
首先說一下可靈AI這個業務的愿景,我們的愿景是建設全球領先的AI視覺與表達平臺,讓每一個人都能夠用AI講出一個好故事,這是我們做這件事情的初衷,我們想讓每一個人都可以把自己的創意轉化成一個好的視覺的故事。
我今天盡可能少一些文字,因為我們是一個視覺大模型,我盡可能多一些視頻素材給大家介紹一下。
可靈AI是去年6月份發布的,是全球首個用戶可以使用的真實視頻生成大模型,我相信很多人未必了解它是用來做什么的,我說一下2024年春節的時候一個特別火的模型是OpenAI的Sora,這個在全球范圍之內引起了一個很大的討論,Sora發布之后只發布了一些demo,相當長一段時間都沒有開放給用戶使用,我們也是抓住了這個機會,通過快速研發率先推出了可靈AI。
我們在去年6月份發布的版本上已經可以根據文字描述生成接近電影質感的、比較美輪美奐、比較寫實的、符合物理規律的視頻片段。
在之后我們整個大模型在國內外引起了很好的一個反響,在國際非常知名的視覺模型評測的榜單上,我們可靈AI也是處于第一名的位置,包括OpenAI的Sora、谷歌的Veo2都排在可靈AI之后。
在海外引起了很大關注
可靈AI發布之后無論是國內還是海外都引起很大的關注,尤其在海外引起了很好的反響,包括埃隆·馬斯克都參與到了可靈的討論里面來,除了DeepSeek以外,可靈AI也是在硅谷代表中國影響力最高的一個視覺模型。
我們在這之后也經過了10個月的快速研發,不停地更新我們的模型、產品,經過了二十幾次的迭代,現在我們的可靈已經發展成了一個全球化的產品,我們在全球范圍之內累計超過2200萬的用戶,我們的用戶使用可靈生成了1.68億個視頻,3.44億張圖片,我們的APP也是在阿根廷、智利等8個國家和地區的iOS應用市場下載排到了第一,在北美市場的圖像與設計分類里面的下載也排到了第一。
講完整個可靈的介紹,我接下來就用一組短片給大家介紹一下可靈有什么樣的能力,4月15日,我們發布了可靈2.0,在可靈發布的時候有兩個最核心的模型,一個是可圖大模型2.0,做的是圖像生成的工作,你輸入一段文字,我們就可以按照你的文字指令生成一個圖片;第二個是可靈視頻生成大模型,你輸入一段文字或者輸入一張圖片,我們就可以生成對應的你想要的視頻片段。
從指標上來說,我們發布的新版本在全球范圍之內,在這個領域仍然是行業領先的,包括我們的可圖在評測上超過了我們的競品,包括大家比較了解的Midjourney,我們可靈大模型在模型的性能上比谷歌Veo2和OpenAI的Sora,包括非常知名的Runway要更好一點,這是一個模型指標的參考。
過去一年視頻生成模型在發生什么?
更直觀的,我想給大家展示一下過去一年的時間視頻生成的能力到底有一個什么樣的變化,大家可以看到這是一年之前我們的模型,左側是一段非常復雜的描述詞,它描述的是一個電影場景的人,一個在跑動的場景,一年之前這個畫面沒法看,基本上是一個動圖,這是2024年1月份。2024年6月份我們發布的版本,雖然畫面還是非常糟糕的,至少這個人動起來了,有點像一個視頻。
2024年12月份已經有一點感覺了,雖然整個畫面視頻完成質量很低,但有點感覺了,我們發布的2.0很好地生成了左邊的完整視頻,是跑酷的畫面,整個畫面的質量,整個鏡頭的跟隨程度,整個美學已經達到了電影的質感,整個技術的發展是非常快的,一年以前整個行業都不敢想象我們是可以用文字生成近似于影視質感的視頻,僅一年的時間,就可以發展為輸入左邊的文字就可以生成右邊的視頻,接下來用更多的例子給大家做一個展示。
我們怎么用文字生成圖片,再用圖片生成電影短片的,右邊這個例子是超級創作者用圖像模型、視頻模型的例子,上面用文字生成的圖片,下面用這張圖片生成的視頻,我們的模型可以響應各種各樣的風格,故事片、動作片都可以做得很好,上面這些片段其實是一些電影片段的復現,上面所有的畫面和視頻都是用AI技術生成的,沒有進行任何的拍攝和設計。
一些基本功能,文生視頻,輸入左邊的這些詞,右邊就可以看到片段,左邊是我們的老模型,右邊是我們的新模型,對于人物的動作、表情都可以展現得非常詳細,下面是延遲攝影的示例,這是文生視頻。
圖生視頻,給我一張圖片,可以是生成的,也可以是你拍攝的,就可以生成下面的視頻,無論對于寫實類的還是卡通動畫類的都可以做得非常好。
我們也支持多模態編輯,現有的視頻我們可以對視頻中元素進行增刪改,視頻中的PS也可以實現了,有一個示例,展現我們怎么對現有視頻進行增刪改,這是原始的視頻,可以替換中視頻中的所有元素,讓女生妝容變化、人物變化、吃的東西變化,可以看到這個視頻讓我們感覺現實好像已經不“存在”了,所有的視頻也可以進行動態的變化。
我們知道影視制作除了生成圖片視頻以外,聲音也是很重要的,我們的平臺可以提供聲音、音效生成能力,聲音也是AI生成的,這個短片所有的聲音都是AI生成的,這是一個卡通短片,他講述的是老爺爺和老奶奶回憶自己青春時的經歷,所有的聲音都是根據畫面自動生成的,可以看到無論是圖像、視頻、聲音,AI都代表了新質生產力,大幅降低了創作的成本,提高了創作的效率,這是聲音部分。
可靈AI帶來的新商業機會
AI也可以帶來很多有意思的玩法,我們給木蘭會的LOGO做了一個視頻效果,可以變成非常有意思的動漫特效。
最后我想給大家展示AI做電影、AI做商業化做到什么程度,接下來的短片能夠震撼到大家,這個是我們超級創作者給我們做的最新電影短片中的片段,《王國》,所有內容都是AI生成的,網友們說是AI版《權力的游戲》,如果用傳統的拍攝技術,拍攝難度、拍攝成本都非常高,我們用AI做這個片子大概是幾個人的工作室,做了一周的成本,這是一個短片,真實片子有20分鐘的長度,我們在5月份會有一個完整系列的短片,每個片子有20~40分鐘,有十部片子在全球發布,包括了各種各樣的風格。
整個科技行業發展非常快,AI發展非常快,中國大模型從前幾年追趕美國的狀態到今天各個領域跟美國的差距在縮小,最重要的還是AI轉化為新質生產力,跟各行各業結合在一起。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.