99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

2025年中國多模態大模型行業模型現狀 圖像、視頻、音頻、3D模型等終將打通和融合【組圖】

0
分享至

行業主要上市公司:阿里巴巴(09988.HK,BABA.US);百度(09888.HK,BIDU.US);騰訊(00700.HK, TCEHY);科大訊飛(002230.SZ);萬興科技(300624.SZ);三六零(601360.SH);昆侖萬維(300418.SZ);云從科技(688327.SH);拓爾思(300229.SZ)等

多模態大模型的模型路徑

多模態大模型的探索正在逐步取得進展,近年來產業聚焦在視覺等重點模態領域突破。理想中的“Any-to-Any”大模型,Google Gemini、Codi-2等均是處于探索階段的方案,其最終技術方案的成熟還需要在各個模態領域的路線跑通,實現多模態知識學習,跨模態信息對齊共享,進而實現理想中多模態大模型。現階段產業主要的工作還是聚焦在視覺等典型的重點模態,試圖將Transformer大模型架構進一步在圖像、視頻、3D模型等模態領域引入使用,完善各個模態領域的感知和生成模型,再進一步實現更多模態之間的跨模態打通和融合。


多模態大模型的圖像模型

早在2023年LLM的流行之前,過去產業界在對于圖像的理解和生成模型領域已經打下了堅實的基礎,其中也產生了CLIP、Stable Diffusion、GAN等典型的模型成果,孕育出了Midjourney、DALL·E等成熟的文生圖應用。而更進一步,產業界也在積極探索將Transformer大模型引入圖像相關任務領域(ViT,Vision Transformer;DiT,Diffusion Transformer),探索統一視覺大模型的建立,以及將LLM大語言模型與視覺模型進行更加密切的融合,包括近年來的GLIP、SAM、GPT-V都是其中的重點成果。


注:利用真實文本描述,通過CLIP生成的圖像特征

多模態大模型的視頻模型

由于視頻本質上是由很多幀的圖像疊加而成,因此本質上語言與視頻模態的融合和語言和圖像具有相當多的互通之處,產業界也在嘗試將圖像生成模型遷移到視頻生成,先基于圖像數據進行訓練,再結合時間維度上的對齊,最終實現文生視頻的效果。其中近年來也產生了VideoLDM、W.A.L.T.等典型的成果,并在近期也出現了Sora這樣具有明顯突破性效果的模型,其在視頻生成領域沿用了Diffusion Transformer架構,并在視頻類場景首次呈現出“智能涌現”的跡象。

視頻本質上是一系列圖像的連續展示,圖片生成是視頻生成的基礎。圖片生成的主流技術即擴散模型同樣也是視頻生成的主流技術,目前主流的文生視頻模型的技術路線為基于文生圖模型,通過在時間維度加入卷積或注意力,在生成的關鍵幀基礎上實現時序對齊得到視頻。在此基礎上,插幀+超分、初始噪聲對齊、基于LLM增強描述等方法均有助于增強時序對齊能力,實現更高質量的視頻生成。Zero-shot領域的一系列研究則能夠實現無需訓練,直接將圖片生成模型轉化為視頻生成模型。


多模態大模型的3D模型

實際上3D是由2D+空間信息構成,因此類似于由圖像生成到視頻生成的延伸,2D圖片的生成方法理論上也可以遷移到3D中。近年來產業界也在積極探索將圖像領域的GAN、自回歸、Diffusion、VAE等骨干模型在3D模型生成任務中的擴展,其中也產生了3D GAN、MeshDiffusion、Instant3D等重點的模型成果。但相比圖像和視頻生成,目前的3D模型生成技術還處于早期發展階段,相關模型的成熟度仍有較大提升空間。

3D數據表征:包括網格(Mesh)、點云(Point clouds)等顯式表示,以及NeRF(Neural radiance fields,神經輻射場)等隱式表示,還包括體素(Voxel grids,3D空間中的像素)這類混合表示,其中NeRF具有強大的三維表達能力和潛在的廣泛應用范圍,是3D數據表征的關鍵技術;

3D數據集:包括3D數據(數據量和精度有限)、多視角圖片(用途最為廣泛)、單張圖片(使用仍具有較大難度)等。目前3D對象數據集仍然稀缺,代表性的數據集包括ShapeNet(Chang等,2015)構建了5.1萬個3D CAD模型,為3D數據集的充實做出開創貢獻;Deitke等(2023)構建了Objaverse和Objaverse-xl數據集,分別有80萬和1000萬個3D對象;

3D生成模型:前饋生成(通過前向傳遞中直接生成結果)、基于優化的生成(每次生成需要迭代優化)、程序生成(根據規則創建3D模型)、生成式新視圖合成(生成多視角圖像);

3D應用:包括3D人生成、3D人臉生成、3D物體生成、3D場景生成等應用。


多模態大模型的音頻模型

語音相關的AI技術在過去多年中已經較為成熟,但近年來Transformer大模型在AI音頻領域的投入應用,還是成功推動了相關技術再上臺階,實現更優的音頻理解和生成效果,其中重點的項目成果包括Whisper large-v3、VALL-E等。語音技術沿革可分為三階段,深度學習驅動發展加速。語音技術主要向增強泛化能力的方向持續延伸,Transformer架構引領語音技術迭代浪潮。泛化能力是指模型對于未經訓練的數據的適應能力,技術基礎來自具有強大學習能力的網絡架構和大量多樣化的數據訓練。語音模型泛化能力的增強主要體現在:從覆蓋單一語種到多語種和方言,從處理人聲到自然聲音、音樂,從簡單語音識別或合成到零樣本學習和多任務集成。

Omni模型是利用neural audio codec,主要是對音頻進行編碼以實現音頻合成。文本和聲波會先分別進入embedding和adapter進行編碼,再通過Omni模型進行合成和預測音頻的token,最后通過擴散模型進行訓練,量化再用解碼器合成音頻。


更多本行業研究分析詳見前瞻產業研究院《全球及中國多模態大模型行業發展前景與投資戰略規劃分析報告》

同時前瞻產業研究院還提供產業新賽道研究、投資可行性研究、產業規劃、園區規劃、產業招商、產業圖譜、產業大數據、智慧招商系統、行業地位證明、IPO咨詢/募投可研、專精特新小巨人申報、十五五規劃等解決方案。如需轉載引用本篇文章內容,請注明資料來源(前瞻產業研究院)。

更多深度行業分析盡在【前瞻經濟學人APP】,還可以與500+經濟學家/資深行業研究員交流互動。更多企業數據、企業資訊、企業發展情況盡在【企查貓APP】,性價比最高功能最全的企業查詢平臺。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中國足協:你可千萬別去禍害“蘇超”

中國足協:你可千萬別去禍害“蘇超”

空瓶子
2025-06-05 16:49:25
沙特主帥:直通世界杯大門已基本關閉,戰中國隊時能多進球就好了

沙特主帥:直通世界杯大門已基本關閉,戰中國隊時能多進球就好了

直播吧
2025-06-06 09:45:58
肖戰跪抱陳妍希的這段戲,在全網火了,陳曉的評價終于有人信了!

肖戰跪抱陳妍希的這段戲,在全網火了,陳曉的評價終于有人信了!

大笑江湖史
2025-06-05 12:45:47
西子電梯科技有限公司總裁劉文超據稱墜樓離世,杭州警方已排除刑事案件

西子電梯科技有限公司總裁劉文超據稱墜樓離世,杭州警方已排除刑事案件

紅星新聞
2025-06-05 20:45:13
開售秒罄 華為MateBook Fold 非凡大師今日上市

開售秒罄 華為MateBook Fold 非凡大師今日上市

PChome電腦之家
2025-06-06 12:03:06
體壇:伊萬暫不下課!東亞杯大概率依然由他率隊

體壇:伊萬暫不下課!東亞杯大概率依然由他率隊

直播吧
2025-06-06 14:15:21
特朗普打來電話,對華做出3大承諾,中方回應4字,給了其最想要的

特朗普打來電話,對華做出3大承諾,中方回應4字,給了其最想要的

奇思妙想生活家
2025-06-06 12:45:24
十個壯漢進了母親的房間,父親在外面放風,那晚我推開房門嚇懵了

十個壯漢進了母親的房間,父親在外面放風,那晚我推開房門嚇懵了

民間精選故事匯
2025-05-21 06:10:12
越南航空:與南航成立合資公司,將擴大越中航班網絡

越南航空:與南航成立合資公司,將擴大越中航班網絡

界面新聞
2025-06-06 15:58:31
70年,林立果和林豆豆的合影,注意看林立果的眼神,實在有點嚇人

70年,林立果和林豆豆的合影,注意看林立果的眼神,實在有點嚇人

歷史偉人錄
2025-05-16 10:57:07
碧桂園5月銷量繼續暴降76%!為何還沒成為“第二個恒大”?

碧桂園5月銷量繼續暴降76%!為何還沒成為“第二個恒大”?

愛看劇的阿峰
2025-06-06 03:30:44
廣安一流浪狗咬傷多人:該犬有狂犬病毒,傷者均已注射狂犬病免疫球蛋白

廣安一流浪狗咬傷多人:該犬有狂犬病毒,傷者均已注射狂犬病免疫球蛋白

紅星新聞
2025-06-05 12:15:54
大快人心!浙江27名專家被除名,其中24人構成犯罪將“吃牢飯”

大快人心!浙江27名專家被除名,其中24人構成犯罪將“吃牢飯”

春秋論娛
2025-06-06 06:40:03
住院不用陪床!不用家屬陪也不用請護工,年底前山東所有三級公立醫院提供免陪照護服務

住院不用陪床!不用家屬陪也不用請護工,年底前山東所有三級公立醫院提供免陪照護服務

閃電新聞
2025-06-05 15:44:29
不顧蘇提達感受,雨中瑪哈和歐拉弄大秀恩愛,生日被叫女王也不爽

不顧蘇提達感受,雨中瑪哈和歐拉弄大秀恩愛,生日被叫女王也不爽

李橑在北漂
2025-06-03 23:12:34
NBA高管:若唐斯在解雇錫伯杜事件中扮演了重要角色 那我不會驚訝

NBA高管:若唐斯在解雇錫伯杜事件中扮演了重要角色 那我不會驚訝

直播吧
2025-06-06 02:04:27
凌晨!馬斯克曝出特朗普“驚天大料”;央行出手:1萬億元!就在今天;國足輸了,無緣2026世界杯

凌晨!馬斯克曝出特朗普“驚天大料”;央行出手:1萬億元!就在今天;國足輸了,無緣2026世界杯

第一財經資訊
2025-06-06 08:43:09
醫生坦言:長期不喝酒,用不了多長時間,身體可能會有這4個變化

醫生坦言:長期不喝酒,用不了多長時間,身體可能會有這4個變化

袁醫生課堂
2025-06-06 10:20:15
突發!俄羅斯發動大規模襲擊

突發!俄羅斯發動大規模襲擊

風華講史
2025-06-06 09:13:37
上海前“私募一哥”徐翔因按摩不當入院搶救?接近人士回應:假的!

上海前“私募一哥”徐翔因按摩不當入院搶救?接近人士回應:假的!

可達鴨面面觀
2025-06-05 17:15:56
2025-06-06 16:43:00
前瞻網 incentive-icons
前瞻網
中國產業科技深度服務平臺
187696文章數 362542關注度
往期回顧 全部

科技要聞

特朗普怒噴馬斯克"瘋了" 特斯拉暴跌14%!

頭條要聞

三亞死亡女子搶救記錄披露 專家:銀環蛇咬傷指標明顯

頭條要聞

三亞死亡女子搶救記錄披露 專家:銀環蛇咬傷指標明顯

體育要聞

蘇超紅紅火火,國足繼續下沉

娛樂要聞

章子怡新造型驚到我!國際章突破形象

財經要聞

娃哈哈“體外”迷局待解

汽車要聞

新增兩款專屬車色 奇瑞艾瑞澤8 PRO 2.0T官圖發布

態度原創

教育
房產
親子
游戲
軍事航空

教育要聞

3小時卷走2個億,高考志愿填報服務17999元,家長:封殺他也不冤

房產要聞

與亞沙共鑒,新城藝境|三亞新地標盛大啟幕暨限量藏品全球首發

親子要聞

“無痛”分娩服務,將全國普及!

姐夫的愿望套牌沒了?爐石新版競技場緊急熱修,網友:還沒爽夠!

軍事要聞

中方對恐怖分子編入敘政府軍表關切

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 万荣县| 财经| 淮滨县| 海林市| 藁城市| 临海市| 古浪县| 麻阳| 上饶县| 汝城县| 噶尔县| 玉树县| 沽源县| 鄂托克旗| 鱼台县| 两当县| 沙田区| 和平区| 武乡县| 贺兰县| 康乐县| 资源县| 公安县| 广饶县| 吉安县| 木兰县| 观塘区| 凤凰县| 潜山县| 邯郸县| 峨边| 南木林县| 卢湾区| 温宿县| 马关县| 仁怀市| 衡阳县| 东至县| 桃园县| 鱼台县| 隆子县|