99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

多模態(tài)2025:技術(shù)路線“神仙打架”,視頻生成沖上云霄

0
分享至



文|魏琳華

編|王一粟

一場大會,聚集了中國多模態(tài)大模型的“半壁江山”。

智源大會2025為期兩天的論壇中,匯集了學(xué)界、創(chuàng)業(yè)公司和大廠等三方的熱門選手,關(guān)于多模態(tài)的集中討論達(dá)到了前所未有的熱度。其中,創(chuàng)業(yè)公司就有愛詩科技、生數(shù)科技、Sand.ai、智象未來、Luma AI、智譜等六家公司創(chuàng)始人、CEO分享心得;隸屬大廠隊(duì)的字節(jié)、騰訊、百度的多模態(tài)技術(shù)負(fù)責(zé)人,以及學(xué)術(shù)界的人大和MIT(麻省理工)的相關(guān)專家學(xué)者。

自回歸、擴(kuò)散、原生多模態(tài)......圍繞種種技術(shù)路線的論證和實(shí)踐分享都證明了一件事:相比碩果僅存的大語言模型戰(zhàn)場,多模態(tài)大模型的技術(shù)路線還遠(yuǎn)遠(yuǎn)沒有收斂。

“多模態(tài)大模型已在特定場景啟動落地,但尚未實(shí)現(xiàn)高度普適化。”智源研究院院長王仲遠(yuǎn)給出了這樣的判斷。他指出,根本性突破仍依賴更強(qiáng)大的基礎(chǔ)模型——若多模態(tài)模型達(dá)到足夠可用的水平,將推動產(chǎn)業(yè)進(jìn)一步發(fā)展。

在種種空白中,多模態(tài)想要打開下半場的入口,顯然還有一段路要走。

多模態(tài),尚未迎來“ChatGPT時刻”

“對于多模態(tài)模型而言,現(xiàn)在定義下半場還為時尚早,我們連上半場都還沒有看到邊界在哪里。”

面對“如何看待大模型下半場”的問題時,Sand.ai聯(lián)合創(chuàng)始人張拯給出了這樣的回答。

“慢一拍”的多模態(tài)大模型,限制了應(yīng)用端的能力表現(xiàn)。以視頻生成為例,智象未來CEO梅濤指出,目前視頻生成還處于GPT-2到GPT-3之間的階段。他將視頻創(chuàng)作的三個要素總結(jié)為敘事性、穩(wěn)定性和可控性。

敘事性,即保證視頻“做5分鐘和1小時是完整的故事”,保持IP的一致性;而在穩(wěn)定性上,需要保證畫面質(zhì)量、運(yùn)動連貫性、時序一致性等方面的穩(wěn)定,目前表現(xiàn)較好;可控性,則是衡量視頻內(nèi)容生成的精準(zhǔn)程度,第幾秒出現(xiàn)什么鏡頭,人物做什么表情等要求非常高。但今天的大模型,還無法達(dá)到這樣的水準(zhǔn)。

現(xiàn)階段,想要提升模型生成效果,數(shù)據(jù)質(zhì)量就成了關(guān)鍵。

“我們?yōu)槭裁磿吹紾oogle的Veo 3,很多模型做得很好、做得很逼真,如果在模型架構(gòu)上大家都趨同的話,其實(shí)真正的競爭就取決于高質(zhì)量的數(shù)據(jù)。”智象未來CEO梅濤說,“其實(shí)我們并沒有產(chǎn)生所謂新的智能,只是在復(fù)制我們看到的這個世界。”


Google Veo 3模型展示

圍繞如何提升多模態(tài)大模型的能力,多家企業(yè)所踐行的技術(shù)路線并不相同。

相對于普遍采用Diffusion Transformer(Dit,即擴(kuò)散Transformer)模型的文生圖、文生視頻領(lǐng)域,多模態(tài)大模型到底是采用自回歸模型、擴(kuò)散模型還是其他方式,業(yè)內(nèi)對此沒有達(dá)成共識。

在大會現(xiàn)場,Sand.ai CEO曹越給出了他對擴(kuò)散模型帶來的問題思考:

“技術(shù)層面,主流的Diffusion和Transformer的訓(xùn)練方案還是存在很大問題,核心問題在于可擴(kuò)展性不足。”曹越說,“在Diffusion Transformer路線上,現(xiàn)在證明生成5秒視頻可以有不錯的效果,但隨著模型規(guī)模提升,會快速達(dá)到瓶頸。”

即使在生成機(jī)制一致的情況下,模型架構(gòu)和訓(xùn)練方式的不同也對模型生成效果帶來影響。

在Luma AI創(chuàng)始人宋佳銘看來,多模態(tài)大模型進(jìn)入下半場的前提,是上半場要先把不同模態(tài)像語言一樣統(tǒng)一處理,既要用同一個模型建模,還要保證推理足夠快。

是將多個模態(tài)拼接訓(xùn)練,還是在一開始就采用統(tǒng)一架構(gòu),把各種模態(tài)的信息丟到一起統(tǒng)一訓(xùn)練,這就是多模態(tài)和“原生多模態(tài)”兩條路線的區(qū)分。

“當(dāng)前多模態(tài)大模型的學(xué)習(xí)路徑,尤其是多模態(tài)理解模型,通常是先將語言模型訓(xùn)練到很強(qiáng)的程度,隨后再學(xué)習(xí)其他模態(tài)信息。”王仲遠(yuǎn)說,“這就如同先達(dá)到博士學(xué)位水平,再去接觸其他知識。”

然而,在上述過程中,模型的能力可能會出現(xiàn)下降。用王仲遠(yuǎn)的話說,模型的能力可能從 “博士” 水平降至 “大學(xué)” 甚至 “高中” 水平。

為了解決這個問題,智源研究院早在去年10月上線了全球首個原生多模態(tài)世界大模型Emu3,試圖將多種模態(tài)的數(shù)據(jù)統(tǒng)一在一個架構(gòu)內(nèi)。

作為原生多模態(tài)模型,Emu3采用自回歸的生成方式,基于下一個token預(yù)測范式統(tǒng)一多模態(tài)學(xué)習(xí),通過研發(fā)新型視覺tokenizer將圖像/視頻編碼為與文本同構(gòu)的離散符號序列,構(gòu)建模態(tài)無關(guān)的統(tǒng)一表征空間,實(shí)現(xiàn)文本、圖像、視頻的任意組合理解與生成。

也就是說,你可以隨意將文字、語音和視頻丟給Emu3處理,而它也同樣能夠用這三種形式生成內(nèi)容,實(shí)現(xiàn)跨模態(tài)交互。

想要通往多模態(tài)大模型的下半場,多模態(tài)數(shù)據(jù)形態(tài)的擴(kuò)充也是關(guān)鍵之一。MIT CSAIL何凱明組博士后研究員黎天鴻認(rèn)為,真正的“下半場”多模態(tài),應(yīng)該是模型能處理超越人類感官的數(shù)據(jù)。

在會議現(xiàn)場中,智源研究院也分享了在圖像、文字、聲音和視頻之外,多模態(tài)數(shù)據(jù)形態(tài)的擴(kuò)充——腦信號。

“悟界”大模型系列中的見微Brainμ就脫胎于Emu3的“骨架”中。基于Emu3的底層架構(gòu),智源研究院成功將fMRI、EEG、雙光子等神經(jīng)科學(xué)與腦醫(yī)學(xué)相關(guān)的腦信號統(tǒng)一token化,并完成了100萬單位的神經(jīng)信號預(yù)訓(xùn)練。



“腦信號數(shù)據(jù)是第一個嘗試,”王仲遠(yuǎn)說,“具身領(lǐng)域的數(shù)據(jù)有更多模態(tài),比如,3D信號、時空信號等,都可以作為一種模態(tài)進(jìn)行融合。”

可以說,做原生多模態(tài)大模型的成本高、技術(shù)實(shí)現(xiàn)困難,對于拼落地速度的企業(yè)來說,是一個冒險的嘗試。作為科研機(jī)構(gòu),智源研究院在做的事情,就是先替行業(yè)蹚出一條路。

多模態(tài)生成落地拐點(diǎn),視頻模型加速商業(yè)廝殺

在學(xué)界和業(yè)界探索技術(shù)道路的同時,企業(yè)端正在加速多模態(tài)大模型在行業(yè)中的落地進(jìn)程,這也是中國AI發(fā)展的鮮明特色——商業(yè)化和模型發(fā)展并駕齊驅(qū)。

字節(jié)跳動Seed圖像&視頻生成負(fù)責(zé)人黃偉林給出兩組數(shù)據(jù)印證:2025年,就是圖像生成商業(yè)化元年。

“以效率數(shù)據(jù)為例,用戶生成100張圖的下載率在過去一年提升了3倍,如今高達(dá)60%以上,說明它已經(jīng)越過了商業(yè)化的關(guān)鍵門檻。”黃偉林說,“從用戶留存來看,比如30天留存,從原來的十幾個百分點(diǎn)提升到了40%左右。”


谷歌對多模態(tài)市場規(guī)模的預(yù)估

當(dāng)技術(shù)門檻逐漸降低、成本效率達(dá)到要求,AI視頻生成也迎來了市場增長的黃金期。

黃偉林表示,目前頭部視頻生成產(chǎn)品的年化收入(ARR)預(yù)計(jì)今年達(dá)到1億美元,明年可能增長到5到10億美元。

生數(shù)科技CEO駱怡航也認(rèn)為,今年多模態(tài)生成正處于規(guī)模化生產(chǎn)落地的拐點(diǎn):在技術(shù)迭代迅速,效果、速度和成本提升的同時,行業(yè)需求增長旺盛,視頻相關(guān)產(chǎn)業(yè)的落地節(jié)奏也在提速。

雖然當(dāng)前大模型技術(shù)路線并不收斂,但在目前應(yīng)用落地的階段,AI視頻生產(chǎn)已經(jīng)能夠協(xié)助人類完成那些本身耗時耗力、成本高的拍攝需求,并且把生成時間壓縮到極低。

張拯認(rèn)為,在不同發(fā)展階段,AI視頻生成會有完全不同的PMF。

比如,在早期階段,很多交給人都非常難拍的視頻,即使質(zhì)量很差或者需要非常多的抽卡才能抽到視頻,但是也遠(yuǎn)比搭一個景再拍內(nèi)容的成本低4~5個數(shù)量級。

張拯舉了個例子,比如拍攝在太空中的航空母艦,需要通過特效團(tuán)隊(duì)逐幀去做。但是現(xiàn)在交給模型,哪怕需要100次抽卡,最后要500元才能抽出一個片段,這個成本也比之前低很多。

在大量的應(yīng)用場景下,中國的多模態(tài)大模型公司們,圍繞著B端還是C端、哪條路先走的商業(yè)化路線,給出了不同的答案。

現(xiàn)階段,AI視頻在C端應(yīng)用的突出案例,就是依靠視頻生成的AI視頻特效。

曾在TikTok團(tuán)隊(duì)提供AI視頻技術(shù)支持,愛詩科技創(chuàng)始人王長虎分享了旗下產(chǎn)品PixVerse的突破里程碑,就來自于特效模版的上線。

據(jù)王長虎分享,通過特效視頻模版在抖音以及國內(nèi)外各大社交媒體上的傳播,PixVerse打響了知名度。當(dāng)月,在中國產(chǎn)品出海增速榜,PixVerse排在第二名,訪問量提升80%。他還分享了一個印象深刻的數(shù)據(jù)——今年4月,超過PixVerse MAU增長的AI產(chǎn)品只有DeepSeek。



在技術(shù)快速迭代的同時,愛詩科技在商業(yè)化做出了自己的選擇——先做To C,再做To B。靠著C端帶起的聲量,愛詩科技今年將版圖放到了B端,于今年1月支持各行業(yè)的API和定制化視頻生成,涵蓋互聯(lián)網(wǎng)、營銷、電商等。

相比之下,生數(shù)科技更早聚焦視頻生成大模型如何落地產(chǎn)業(yè)端的問題。成立兩年的時間里,生數(shù)科技有1年半都在琢磨落地問題,更在行業(yè)劃分上,駱怡航給出了“八大行業(yè)、三十大場景”的版圖,其中,互聯(lián)網(wǎng)、廣告、電影、動漫的應(yīng)用占到了8成。

在切入B端的思考中,生數(shù)科技強(qiáng)調(diào)的是對成本以及生產(chǎn)效率的降低。

“要想滿足技術(shù)需求,很重要的一點(diǎn)是,(AI視頻生成)生產(chǎn)效率要提升100倍,生產(chǎn)成本要降低100倍,必須要和行業(yè)深入適配,滿足行業(yè)的專業(yè)需求。”駱怡航說。

駱怡航分享,一家海外動畫工作室和VIDU合作,打造了一個“AI動漫”工作流,能夠批量生成創(chuàng)意,他們用兩個月時間,生產(chǎn)了50集AI動漫短片。

當(dāng)效率和生成達(dá)到滿足商用的節(jié)點(diǎn),當(dāng)AI企業(yè)們陸續(xù)把商業(yè)化提上日程。可以預(yù)見的是,下半年,多模態(tài)領(lǐng)域的AI生成將在商業(yè)化上迎來更激烈的比拼。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
分析師推翻舊預(yù)測:iPhone 17標(biāo)準(zhǔn)版將直接用上A19芯片

分析師推翻舊預(yù)測:iPhone 17標(biāo)準(zhǔn)版將直接用上A19芯片

科技獸
2025-07-15 23:02:53
八國聯(lián)軍:流傳已久的謊言!

八國聯(lián)軍:流傳已久的謊言!

深度報
2025-07-13 22:52:06
初中生飆車撞墻身亡后續(xù):生前視頻被扒,因果報應(yīng),朋友香煙祭拜

初中生飆車撞墻身亡后續(xù):生前視頻被扒,因果報應(yīng),朋友香煙祭拜

黑哥講現(xiàn)代史
2025-07-15 11:24:29
消息稱蘿卜快跑無人出租車在武漢推出 88 元包天服務(wù):無需駕照

消息稱蘿卜快跑無人出租車在武漢推出 88 元包天服務(wù):無需駕照

IT之家
2025-07-15 13:31:41
實(shí)力倒退!湖人!還要交易克內(nèi)克特嗎?

實(shí)力倒退!湖人!還要交易克內(nèi)克特嗎?

籃球?qū)嶄?/span>
2025-07-15 22:48:19
中國第一個“被摘牌”5A的景區(qū),因宰客臭名遠(yuǎn)揚(yáng),如今恢復(fù)5A,卻無人敢去...

中國第一個“被摘牌”5A的景區(qū),因宰客臭名遠(yuǎn)揚(yáng),如今恢復(fù)5A,卻無人敢去...

背包旅行
2025-07-13 10:38:39
海王杰森·莫瑪:28歲全球爆紅,拋棄54歲初戀前妻,曾經(jīng)情比金堅(jiān)

海王杰森·莫瑪:28歲全球爆紅,拋棄54歲初戀前妻,曾經(jīng)情比金堅(jiān)

芳芳?xì)v史燴
2025-07-14 17:36:08
森林北近照曝光 屁股又扁又平鼻孔超大五官不精致 沒法跟章子怡比

森林北近照曝光 屁股又扁又平鼻孔超大五官不精致 沒法跟章子怡比

娛樂小丸子
2025-07-13 15:43:48
宗馥莉的復(fù)仇30年,驚心動魄

宗馥莉的復(fù)仇30年,驚心動魄

販財(cái)局
2025-07-15 13:38:52
電訊報:切爾西將向每位球員發(fā)放35萬鎊的世俱杯奪冠獎金

電訊報:切爾西將向每位球員發(fā)放35萬鎊的世俱杯奪冠獎金

懂球帝
2025-07-15 22:59:12
侃爺上海演唱會未達(dá)標(biāo)最低演出時間120分鐘,網(wǎng)友要求退票無果,大麥最新回應(yīng):過場無法退票

侃爺上海演唱會未達(dá)標(biāo)最低演出時間120分鐘,網(wǎng)友要求退票無果,大麥最新回應(yīng):過場無法退票

FM93浙江交通之聲
2025-07-14 23:06:30
英媒:切爾西為菲利克斯標(biāo)價3500萬鎊,本菲卡只想買一半所有權(quán)

英媒:切爾西為菲利克斯標(biāo)價3500萬鎊,本菲卡只想買一半所有權(quán)

懂球帝
2025-07-15 22:06:18
東大真夠狠!一出手就掏了美國老窩,三萬大軍淪為笑話

東大真夠狠!一出手就掏了美國老窩,三萬大軍淪為笑話

華山穹劍
2025-07-15 20:33:37
太亂了!巴薩巨星搞私人派對,對胸圍要求嚴(yán)格,香艷畫面流出

太亂了!巴薩巨星搞私人派對,對胸圍要求嚴(yán)格,香艷畫面流出

攬星河的筆記
2025-07-14 18:16:40
MPV市場變天了!1-6月銷量:賽那丟冠,別克GL8第5,理想MEGA第22

MPV市場變天了!1-6月銷量:賽那丟冠,別克GL8第5,理想MEGA第22

趣味萌寵的日常
2025-07-15 16:39:03
2億英鎊花完,阿森納8人將離隊(duì)!阿爾特塔態(tài)度明確:保核心清邊緣

2億英鎊花完,阿森納8人將離隊(duì)!阿爾特塔態(tài)度明確:保核心清邊緣

夜白侃球
2025-07-15 23:04:38
“活佛”洛桑丹真:斂財(cái)2億,數(shù)十名女性被毀!最小的僅十幾歲

“活佛”洛桑丹真:斂財(cái)2億,數(shù)十名女性被毀!最小的僅十幾歲

紅夢史說
2025-06-11 07:10:03
車臣局勢暗流涌動:重病的卡德羅夫想讓17歲兒子接班,遭普京拒絕

車臣局勢暗流涌動:重病的卡德羅夫想讓17歲兒子接班,遭普京拒絕

黃娜老師
2025-05-26 10:23:10
古怪的一野:打到最后彭總都怕鎮(zhèn)不住,十萬大軍幾乎成了“川軍”

古怪的一野:打到最后彭總都怕鎮(zhèn)不住,十萬大軍幾乎成了“川軍”

史料布籍
2025-07-14 11:24:22
金正恩訪問越南,乘專列耗時65時40分,為什么不坐飛機(jī)?大有講究

金正恩訪問越南,乘專列耗時65時40分,為什么不坐飛機(jī)?大有講究

文史達(dá)觀
2025-07-05 06:45:03
2025-07-15 23:36:49
光錐智能 incentive-icons
光錐智能
來這里,看千行百業(yè)的數(shù)字化、智能化。
699文章數(shù) 137關(guān)注度
往期回顧 全部

科技要聞

英偉達(dá)H20解禁,黃仁勛嚇壞平替?

頭條要聞

特朗普被指曾問澤連斯基:烏用美武器能否打擊莫斯科

頭條要聞

特朗普被指曾問澤連斯基:烏用美武器能否打擊莫斯科

體育要聞

在中國效力10年,45歲的傳奇外援退役了

娛樂要聞

董璇自曝再婚了!二婚老公被扒是張維伊?

財(cái)經(jīng)要聞

國貨美妝能否脫下“平替”外衣

汽車要聞

六座布局/深淺配色 仰望U8L內(nèi)飾亮相

態(tài)度原創(chuàng)

時尚
本地
家居
旅游
軍事航空

7次拒絕潛規(guī)則!萬茜的逆襲之路,給內(nèi)娛上了一課!

本地新聞

褲子那里鼓鼓的,當(dāng)代都市麗人都被女裝做局了

家居要聞

自由開闊 生活需求塑造

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

軍事要聞

特朗普所謂"重大聲明"揭曉:對俄加關(guān)稅 對烏"送"導(dǎo)彈

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 福安市| 丽江市| 云浮市| 大田县| 巧家县| 吴旗县| 龙口市| 潍坊市| 龙游县| 安乡县| 临邑县| 滨州市| 巴彦县| 新密市| 青州市| 获嘉县| 威远县| 大竹县| 佛冈县| 米易县| 虹口区| 孝义市| 明光市| 井陉县| 台南市| 深州市| 喀什市| 甘孜县| 阳谷县| 伊宁县| 兴业县| 三明市| 韩城市| 恩平市| 桦甸市| 阜康市| 周口市| 和顺县| 邛崃市| 综艺| 宣恩县|