99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

多模態技術爆發元年,行業應用如何落地?

0
分享至


作者 | AICon 全球人工智能開發與應用大會

策劃 | 李忠良

編輯 | 宇琪

近年來,多模態大模型技術發展迅速,展現出強大的視覺理解能力,顯著提升了 AIGC 的可控性,各行各業正經歷從“人工密集型”到“AI 原生驅動”的顛覆性變革。那么,多模態技術中面臨哪些核心技術挑戰?在 AIGC 技術落地過程中,會產生什么新的應用場景?大模型的下一階段突破可能來自哪些方向?

近日 InfoQ《極客有約》X AICon 直播欄目特別邀請了 上海交通大學人工智能學院副教授趙波擔任主持人,和快手快意多模態模型算法負責人高歡、騰訊混元專家研究員邵帥一起,在 AICon 全球人工智能開發與應用大會 2025 上海站即將召開之際,共同探討多模態大模型如何開啟智能交互新篇章。

部分精彩觀點如下:

  • 先訓練一個大模型,再用它來蒸餾小模型或減少推理步數,比直接訓練小模型或低步數模型效果更好。

  • 現階段,比起通用模型,針對特定業務場景定制化的垂直領域模型仍是更優選擇。

  • 如果單純為了追求效果而無限制地擴大模型規模,雖然可能獲得性能提升,但投入產出比會明顯失衡。

  • 輕量級模型在處理相關性判斷和創意類任務時表現足夠出色,對于需要深度知識儲備和強推理能力的任務則需要大規模模型。

在 5 月 23-24 日將于上海舉辦的AICon全球人工智能開發與應用大會上,我們特別設置了【多模態大模型創新實踐】專題。該專題將深入解析多模態大模型的技術原理,探討其在智能客服、智能駕駛等領域的創新應用,展示多模態大模型如何實現語音、文本、圖像等協同交互。

查看大會日程解鎖更多精彩內容:

https://aicon.infoq.cn/2025/shanghai/schedule

以下內容基于直播速記整理,經 InfoQ 刪減。

完整直播回放可查看:

https://www.infoq.cn/video/mNVM5eqQsFsd0H4sZNrD

技術挑戰

趙波:前段時間 GPT-4O 文生圖功能令人印象深刻, 從 CLIP 實現跨模態“圖文對齊”,到 DALL·E 掀起文生圖革命,多模態技術正打破單一感知的邊界。快手的 AIGC 技術,讓視頻生產成本直降 50%。快手快意模型目前在多模態領域具體在探索什么方向?以及選擇探索這些”方向的原因是什么?

高歡:快手當前重點推進的 AIGC 業務"可靈",已具備基于文本或圖片生成視頻的核心能力。為支撐該業務,我們構建了深度視頻理解系統,通過多模態模型對視頻內容進行語義解析與知識關聯,確保模型建立完整的世界知識框架。這使得用戶輸入指令時,系統能智能生成符合語義的畫面呈現——這種文本到視頻(T2V)模型訓練中的多模態理解能力具有關鍵作用。

例如在數字人場景中,我們的多模態模型已有效提升主播與觀眾的交互體驗;在素材剪輯場景中,通過精準的素材定位檢索功能,顯著降低用戶創作門檻;同時在電商及廣告領域,多模態理解技術為商品展示、海報生成等環節提供核心支撐。當前技術方向聚焦于構建 caption 模型,包括 rephraser 與 prompt engineering 模塊,通過深化用戶意圖理解和視頻內容解析,持續提升視頻生成模型的語義還原度。

趙波:近期騰訊混元大模型也在多模態理解與生成方面努力,顯著提升了內容創作效率。騰訊目前在多模態領域具體在做什么方向呢?

邵帥:騰訊正基于多模態基礎模型,研發圖像、視頻、3D 內容生成系統。與單純依賴文本輸入的基礎模式不同,實際業務中更多采用圖生圖、圖生視頻等混合生成模式,并延伸至圖片 / 視頻 /3D 編輯、智能混剪等理解 - 生成一體化場景。騰訊生態的多元化內容需求(如騰訊視頻、微信生態、游戲及廣告業務)持續驅動技術創新。目前相關技術已在影視創作、社交內容生產、游戲資產生成、智能廣告投放等領域實現規模化應用。

趙波:高歡老師是否可以分享一下快手在 caption 模型這一塊運用的獨特技術?

高歡:快手的技術布局聚焦多模態內容生成領域,覆蓋文生圖、文生視頻、圖生圖、圖生視頻全鏈路生成能力。其技術核心在于預訓練階段對多模態數據的深度解析——不僅需要提取基礎語義信息,同時涉及美學要素提取。相較于傳統 caption 任務僅關注事件要素記錄,我們更強調通過美學維度的結構化解析提升生成內容質量。

在技術實現層面,我們重點構建了鏡頭語言解析能力,包括景別識別、運鏡模式分析等影視化特征建模。通過數據標注體系優化與模型架構創新在可控參數量級下實現了高精度 caption 標注。這些結構化描述數據為模型構建世界知識體系提供關鍵支撐,使其能準確解析用戶輸入的 prompt,最終實現創作意圖的精準視覺轉化。

趙波:大家的模型是開源、閉源?為什么選擇開源或閉源?如果是閉源將來是否會開源?認為未來多模態技術會是開源更強還是閉源更強?

邵帥:騰訊混元團隊認為開源與閉源并非對立的技術路線,而是交替引領行業發展的雙軌模式——開源生態通過社區智慧加速技術迭代,閉源體系則更聚焦商業場景的深度優化。

開源模型能有效吸納開發者社區的創新成果。例如我們開源的圖像 / 視頻生成模型,已吸引大量開發者在底層架構上構建 LoRA 微調模塊、ControlNet 控制流等工作流,這些衍生創新通過技術反哺持續增強原始模型能力;中長尾業務場景存在碎片化需求(如區域化營銷素材生成、小眾內容創作工具),開源模型為中小團隊提供了低成本試錯路徑,待驗證場景可行性后再進行商業閉環構建;在設計師增效工具、廣告內容生產等核心場景,商業價值實現取決于技術效果與應用適配度,而非單純依賴模型的開源屬性。

需要強調的是,開源策略實際上拓展了技術商業化的可能性邊界:當社區開發者基于開源模型解決特定場景需求后,其驗證成功的解決方案可通過技術集成反哺企業級產品,最終實現生態價值的正向循環。這種社區創新 - 商業轉化的雙向流動機制,正是騰訊踐行技術開放戰略的核心考量。

高歡:從快手的角度來看,我們目前主要在做的事情涉及更復雜的系統,而非單一模型就能支持的。因此,我們與開源社區的互動更多以技術分享為主。在過去一年中,我們開源了可圖,為社區提供了相應的技術輸出。此外,在可靈的開發過程中,我們也整理了一些效果較好的技術方案,并將其開源,同時發表了相關論文。

關于開源與閉源的選擇,我們認為兩者各有優勢。但目前,我們的核心目標是為客戶提供更完善的服務,因此整個系統仍以閉源為主。現階段,我們更專注于優化系統架構,因此尚未計劃將核心業務開源。

趙波:我們作為高校實驗室當然是擁抱開源的,從模型、代碼到數據都是完全開源的。

趙波:多模態理解和生成的區別?以及結合點?有沒有什么融合趨勢?

邵帥:我認為一個非常重要的結合場景是:如何利用理解模型來提升生成模型的性能。從技術實現上,可以將其分為訓練前、訓練中、訓練后三個階段。

訓練前,理解模型至少可以發揮兩個作用:數據清洗和數據標注。我們的實踐經驗表明,數據質量與生成效果呈正相關,因此我們在這一環節投入了大量優化工作。訓練過程中,強化學習是一個關鍵能力,而強化學習通常依賴獎勵模型,而獎勵模型本身就是一個理解模型。

訓練后,生成模型的應用可以進一步分為生成前和生成后兩個階段:生成前,目前常用的方法是 prompt rewriting。我們發現,許多用戶輸入的 prompt 較為簡單,通過優化用戶的原始 prompt,可以顯著提升輸出質量。生成后,我們也在探索多種優化手段,比如 test-time scaling;我們也會做 post-filtering,例如,在某些場景下,我們可能一次性生成 10 張圖,但僅返回其中 4 張質量最佳的結果給用戶。

目前,我們已經觀察到生成與理解一體化的明顯趨勢,并且這一進展可能會比預期更快。如果這類一體化模型能結合強大的語言模型,還能復用其知識和推理能力,進一步提升生成效果。

高歡:我們認為模型架構并非當前最重要的考量因素,關鍵還是在于技術路線的選擇和應用目標。例如,在 GPT-4o 的技術方向上,趙老師團隊此前發表的 EMU-3 論文已經驗證了相關技術路線的可行性。我們團隊主要從 Diffusion 模型的角度進行探索。Diffusion 模型非常依賴對用戶意圖的理解,以及多模態信息的處理能力。雖然傳統觀點認為自回歸模型更適合理解任務,Diffusion 模型更適合生成任務,但我們認為未來應該以實際應用效果為導向。

趙波:多模態技術中,處理不同模態數據(如視頻、圖像、文本)時,分別面臨的核心技術挑戰是什么?

邵帥:目前最核心的難題在于多模態對齊與融合的問題。不同模態數據在數據結構上都存在顯著差異,這種根本性的差異導致我們需要解決兩個關鍵技術難點:一方面是如何設計通用的 tokenizer 來實現跨模態的統一表征,另一方面是如何建立有效的模態對齊機制來實現異構數據間的語義關聯。

在實際應用過程中,我們還面臨著數據平衡的挑戰。當訓練數據中某一模態占據優勢時,往往會導致其他模態的性能出現退化。此外,在多任務學習場景下,當模型需要同時處理多種不同類型的任務時,經常會出現任務之間的相互干擾問題,以及計算資源如何合理分配的難題。

高歡:與靜態圖像不同,視頻是由連續幀構成的時序數據,這對當前受限于上下文窗口的自回歸大語言模型提出了更高要求。目前常見的解決方案包括幀采樣、降低分辨率增加幀數,或是采用 token merge 技術來壓縮視覺 token。但每種方法都不可避免地會損失部分信息,這種信息損耗在進行深度多模態理解時尤為關鍵。

作為短視頻平臺,我們每天都需要處理海量的新數據,這帶來了熱門概念快速更迭的問題。一個今天爆火的舞蹈可能明天就過時了,而訓練一個模型往往也需要一整天時間,這就導致模型剛訓練完就可能面臨失效的風險。為了解決這個問題,我們探索了 RAG 等技術方案,以及輕量級訓練方法來快速融入新概念。

短視頻數據還呈現出獨特的靜態特征:平臺上大量視頻包含特效、突破物理規律的創意內容,這些與真實世界的物理規律存在顯著差異。雖然傳統訓練方法難以準確理解這類內容,但它們恰恰是文本生成視頻中最具價值的部分。

這些技術挑戰最終都指向推理成本的增加。為了處理更長的視頻序列,我們需要引入更多幀和思維鏈,這直接導致推理時間延長。同時,某些場景下小模型完全無法勝任,必須使用大模型并經過專門訓練才能達到可用水平。

趙波:我們課題組目前專注于長視頻理解大模型的研究,核心要解決的問題是如何高效提取和壓縮視頻中的信息。正如高歡老師提到的,視頻數據最大的挑戰在于其冗余性——長視頻會產生海量的 token。我們近期完成的 Video-XL 和 Video-XL-Pro 兩項工作,分別從兩個維度進行了技術創新:一是充分利用大語言模型自身的 token 壓縮能力,二是從源頭壓縮視覺 tokenizer 產生的 token 數量。

趙波:多模態訓練是否缺數據?如何應對?

邵帥:我們始終面臨著數據不足、標注質量欠佳、美學標準不達標以及多樣性匱乏等挑戰。在策略上,我們采用"先多后精"的技術路線:前期收集海量數據進行預訓練模型訓練,同時建立完整的數據清洗和標注管線。

我們將數據分為銅標、銀標、金標三個等級,形成金字塔式的數據體系。對于精品數據,我們不僅要關注基礎質量,還要考量美學價值和具體任務適配性。雖然圖文匹配和文生圖數據相對容易獲取,但編輯類任務的數據卻十分稀缺。以草圖生圖任務為例,構建草圖與完整圖片的配對數據就極具挑戰性。為此,我們廣泛采用合成數據和構造方法。例如,讓人根據完整圖片繪制草圖要比反向操作容易得多。

最近我們還面臨新的挑戰:訓練數據中混入了 AI 生成內容,這些數據的鑒別難度很高,一旦混入訓練集就可能污染整個訓練流程,這比以往的數據問題更加棘手。

高歡:當前高質量數據和垂直領域數據都存在嚴重短缺。垂直數據往往依賴現有業務場景的積累,但新業務開發時又恰恰缺乏這些數據,形成了一個典型的"先有雞還是先有蛋"的困境。為此我們不得不投入大量精力來人工構造訓練數據,整個過程相當復雜耗時。

從實踐數據來看,當前 LLM 訓練規模已達數萬億 token 級別,而多模態模型即便算上主流訓練案例,整體 token 量級仍相差一個數量級。換算成樣本數量的話,差距就更為明顯。目前多模態數據不僅總量不足,還存在嚴重的分布不均衡問題。開源數據集中的樣本往往過于"精致"而缺乏多樣性,這導致很多開源模型難以直接應用于工業場景的具體任務。

趙波:在兩家的多模態模型中是否已經用了基于用戶反饋的強化學習?是否有顯著的性能提升?

邵帥:在用戶反饋方面,我們發現評價標準與用戶偏好之間存在顯著差異。對于明顯的 Badcase,比如三腿六指、動作不自然等問題,大家容易達成共識。但在美學偏好等主觀評價上,比如人物形象是否好看,往往難以形成統一標準。為此,我們開發了通用美學和人像美學的評估體系,通過建立數據標準和標注算子,在強化學習中引入這些"軟性"指標,顯著提升了生成內容的美學質量。

在廣告等業務場景中,我們嘗試直接利用 CTR、CVR 等業務指標作為優化目標。每張投放的生成圖片都能獲得真實的用戶反饋數據,這為我們提供了直接的優化信號。

高歡:從對話系統的角度來看,用戶反饋的應用存在一些特殊考量。特別是在開放域對話場景中,很多時候回答并沒有絕對的對錯之分。雖然簡單回答"不知道"在技術上是準確的,但這會直接終止對話。為了維持更自然的對話體驗,我們會分析哪些回復能促使用戶繼續交流,并以此作為正向反饋信號。這種優化既包括在線實時調整,也包含離線模型迭代。

在快手的具體業務中,強化學習的應用場景非常豐富。特別是在那些"左右都算對"但存在業務偏好的場景,RLHF 發揮著重要作用。而在 caption 生成這類任務上,我們主要采用 DPO 方法,通過 reward model 來優化模型表現。

我們發現視頻理解模型常犯兩個典型錯誤:一是事件順序錯亂,二是過度冗長的描述。針對順序問題,我們主動構造負樣本,通過交換事件順序來訓練模型;針對過度描述問題,DPO 能有效控制模型在適當時機停止生成。

趙波:在多模態領域前沿探索方面,目前有哪些研究熱點?

趙波:去年我們重點研究了視頻理解大模型,發現現有多模態模型雖然能較好處理圖像文本和短視頻(通過拆幀方式),但對于小時級長視頻的理解能力仍然有限。特別是在算力受限情況下,處理長視頻的海量 token 和復雜時序信息更具挑戰性。

近期我們轉向研究多模態大模型的空間和時間感知能力。我們開發了一個新的 Benchmark:STI-Bench,系統評估了主流開源和閉源模型在三維空間感知及時間理解方面的表現。該評測涵蓋封面場景、室內場景和室外場景三種環境,重點考察模型對物體位置、運動軌跡等定量的時空關系的理解能力。

高歡:從實際應用來看,當前多模態模型在空間方位理解普遍存在不足,這對 AIGC 應用是致命問題——當用戶要求"左手動"時若模型錯誤生成"右手動",就會直接導致客訴。

長視頻理解是我們另一個重點方向,存在兩種典型情況:一種是內容簡單的長視頻,只需簡短描述;另一種是信息密集的長視頻,需要準確捕捉復雜運動、事件序列、背景元素和美學特征, 目前還沒有模型能在不損失時空精度的情況下完全處理這種復雜信息。近期涌現的 VideoChat-R1、Kimi-VL 等工作,以及從選擇題評分擴展到 caption 生成的研究方向,都顯示出這個領域正在被賦予新的使命。

邵帥:在強化學習方面,我們重點研究如何更好地對齊人類美學偏好,優化生成內容的質量。同時,我們也在深入探索指令遵循能力的提升,包括利用自回歸模型完成各類編輯任務,實現 ID、風格、文本等多維度的可控生成,以及引入姿態、音頻等額外控制條件來驅動數字人生成等應用場景。

在視頻生成領域,我們發現當前主流模型大多只能生成 4-5 秒的短視頻片段,而實際業務往往需要 3 分鐘以上的長視頻生成能力。此外,推理速度的優化也是關鍵問題,過長的生成時間不僅影響用戶體驗,還會顯著增加推理成本。這些研究方向既涉及核心算法突破,也直接關系到技術落地的可行性。

行業落地應用

趙波:在提升多模態模型的效率(如降低計算成本、加速推理)方面,兩位認為當前最值得關注的技術路徑是什么?

高歡:由于不同業務場景的需求差異很大,快手目前還沒有一個統一的多模態模型能夠覆蓋所有應用場景。現階段我們主要采用兩種技術路線:一是直接訓練小模型,二是通過大模型蒸餾小模型,以獲得符合特定業務需求的能力。

近期我們重點關注 token 壓縮技術,包括 token merge、token fusion 等技術方向。在一些評測中我們發現,即使去除 70-80% 的 token,模型性能仍能保持穩定。在實際業務場景中也驗證了這一規律:對于那些不需要精細細節處理的任務,采用激進的 token 壓縮方案可以大幅縮短推理窗口。當推理窗口縮減至原來的 1/4 時,推理性能可獲得成倍提升。

此外,我們也借鑒了語言模型領域的成功經驗,如投機采樣等技術。通過小模型來輔助優化推理過程,可以顯著降低部署成本。

邵帥:目前我們主要關注兩個技術方向:首先是編解碼器的效率優化,通過開發更高效率的編碼器,可以在幾乎不損失模型效果的前提下實現數倍的效率提升,這本質上類似于一個無損壓縮問題。另一個重要方向是模型蒸餾技術,特別是針對 Diffusion 模型步數過長的優化。以標準 100 步的模型為例,如果能成功蒸餾到 10 步,就能獲得 10 倍的效率提升。

我們的實踐經驗表明,先訓練一個大模型,再用它來蒸餾小模型或減少推理步數,這種方案比直接訓練小模型或低步數模型效果更好,這種"先大后小"的蒸餾策略已經成為我們提升模型效率的重要手段。

趙波:面對定制化的模型需求,我們應該直接訓練垂直領域模型,還是應該訓練通用模型?實際應用中有什么優劣嗎?

高歡:現階段來看,定制化的垂直領域模型仍是更優選擇。雖然未來或許能通過一個通用模型(all in one)完成這類任務,但這與前述推理成本問題密切相關。目前,我們的業務算法團隊已能通過微調或上下文學習結合特定指令 / 小樣本等方式,高效構建精致的定制模型。

邵帥:這兩類模型將會共存并各自發揮價值,雖然從純效果指標來看,通用模型的理論上限更高,但實際業務落地時需要面對諸多現實考量。

首先在數據層面,通用模型要在特定任務達到最佳表現通常需要海量數據支撐,而實際業務中很多長尾場景恰恰缺乏足夠數據。這類場景更適合采用小樣本學習或上下文學習等技術方案。反觀中長尾業務,通用模型憑借其優異的泛化能力往往能取得不錯效果。而對于那些數據充足的頭部業務場景,針對性地進行模型精調往往能帶來顯著的效果提升。

另一個關鍵因素是推理效率。經過專門優化的垂直模型可以壓縮到極小規模,其推理速度相較通用模型甚至能有 1-2 個數量級的提升。這種性能優勢在實時性要求高的場景尤為重要。

基于這些觀察,我們通常采用"先通用后定制"的漸進策略:新業務場景可先嘗試通用模型方案,待驗證效果并積累足夠數據后,再評估是否需要轉向定制化方案。這種靈活務實的做法,既能控制初期投入成本,又能為后續優化保留空間。

趙波:我們實驗室此前在垂直領域進行過一些探索性嘗試,包括醫學 CT 影像大模型以及具身智能方向——雖然嚴格來說后者不完全屬于垂直領域范疇。我們曾嘗試將通用大模型通過微調適配到特定領域,比如醫療領域,或在將通用模型繼續訓練成視覺語言動作模型(VLA)。在這個過程中,我們觀察到一個有趣現象:模型經過垂直領域微調后,往往會喪失原有的通用對話能力。

這引出了一個關鍵的技術難題:如何在提升模型垂直領域專業能力的同時,不損害其通用能力?目前來看,這仍是一個亟待解決的重要技術挑戰。

趙波:在技術落地的業務場景中,端側算力限制是否為落地的關鍵瓶頸?如何平衡效果與速度?

高歡:從實際業務落地的角度來看,我們往往需要在模型效果和執行效率之間尋找平衡點。如果單純為了追求效果而無限制地擴大模型規模,雖然可能獲得性能提升,但投入產出比會明顯失衡,甚至出現負值。

目前這個矛盾在短期內仍將顯著影響我們的技術選型。為此我們正在推進多項優化工作:包括采用更高效的視頻編碼器、實施 token 壓縮技術,以及探索大模型的 INT8 量化方案等。在某些特定場景中,小型模型確實難以滿足需求,這就迫使我們必須在現有技術條件下尋找創新性的解決方案。

邵帥:一旦涉及 trade-off,就意味著這個問題已經不存在完美解決方案。實際決策時,我們不僅需要考慮效果、耗時和用戶體驗,還必須將訓練成本和推理成本納入考量范圍。

面對具體業務場景時,我們首先會評估是否可以采用預生成或異步處理方案。比如利用夜間潮汐資源進行離線計算,次日反饋結果;或者提前生成內容建立檢索庫。這種方式能巧妙規避多個矛盾:既可以使用大模型獲得最佳效果,又因異步處理無需擔心耗時問題,同時潮汐資源還能大幅降低成本。

但對于必須實時處理的場景,我們通常會設計折中方案。例如同時部署極速版和高質量版雙模型,為用戶提供選擇權:是立即獲取普通效果,還是等待更優結果。也可以采用混合策略,先用快速模型生成初稿,再用大模型優化最終質量。另一個思路是允許用戶離開當前頁面,待結果就緒后通過推送通知召回。

在耗時優化方面,需要區分量變與質變。大多數技術如模型蒸餾、量化只能帶來量變改進(如響應時間從 5 秒縮短到 3 秒)。但在直播等特殊場景,耗時優化必須達到質變級別——任何延遲都不可接受。這種情況下,即便犧牲部分效果也要優先保證實時性,否則整個方案就無法落地應用。這種質變優化往往能解鎖全新的業務可能性。

趙波:當模型推理速度達到實時的時候,會產生什么新的應用場景?

邵帥:傳統互聯網時代有著嚴格的速度標準——頁面加載超過 1 秒就會影響體驗,服務響應超過 3 秒就難以接受。但在當前的大模型應用中,30 秒甚至更長的等待時間變得常見,在高峰時段排隊等待 30 分鐘的情況也時有發生。有趣的是,用戶對這種延遲的容忍度明顯提高了,這主要源于大模型帶來的前所未有的能力突破。雖然用戶勉強接受了這種體驗降級,但顯然這種交互方式遠非理想狀態,這也促使行業普遍開始重視"first-token 延遲"的優化工作。

如果我們能夠將模型響應速度提升到實時或秒級,整個交互模式將發生根本性變革。以文生圖或文生視頻場景為例,當前的交互流程是:輸入提示詞→點擊生成→等待結果→評估質量→可能需要重新生成。這種模式效率低下。未來我們完全可以實現更流暢的體驗——比如在繪圖場景中實現"一筆一生成"的實時渲染,或者在對話式生成中實現語音輸入與圖像生成的同步進行,真正做到"邊說邊生成"。

這種革新將徹底消除傳統"輸入 - 等待 - 輸出"的斷點式交互,代之以無縫的實時體驗。在數字人直播、智能客服、AI 面試官等需要即時反饋的場景中,這種變革尤為重要。我相信,這種交互革命很快就會成為行業標配,而實現這一目標的關鍵就在于持續優化模型的響應速度。

高歡:從交互方式和多模態(any to any)的角度來看,如果真能實現實時推理,那么《三體》小說中描繪的許多場景都將成為現實。我們可以輕松地將腦海中的想象即時轉化為視覺可見的內容,這將極大地提升我們的預判和決策能力——AI 能實時提供各種信號和依據來輔助我們做出判斷。

觀眾:數據達到多少才有必要定制,以及定制化需要的最小數據集大小應該是什么樣?

邵帥:關鍵考量因素在于業務價值而非單純的數據量,只要某個場景具備足夠高的業務價值,就有必要考慮定制化方案。至于最低數據要求,當前已有多種輕量化定制技術,比如使用 LoRA 等方法,在圖像或視頻領域可能僅需幾十到一百張樣本就能啟動訓練——當然數據越多效果越好。

我們在實際業務中探索出一種"自增強"方法:初始階段可能僅用 10 張圖片訓練一個初始模型,雖然效果有限,但可以用它批量生成新樣本。假設生成 1000 張圖中僅有 10% 可用,我們就能篩選出 100 張質量合格的圖片加入訓練集。通過多次這樣的迭代循環,最終可以獲得數量充足且質量達標的定制數據集。

趙波:模型技術路線方面,做更大、和做更輕量化的模型分別有什么不同?有哪些對應的落地場景?

高歡:模型規模與能力確實存在直接關聯——更大的模型通常表現更優,而輕量級模型則更適合實時業務需求。以 caption 為例,若追求極致精準度,大規模模型無疑是更好的選擇;但在需要全量處理的海量數據場景下,輕量化模型才是更實際的選擇。

在實際應用中,我們通常會采用分級處理策略:對于包含復雜事件或多重要素的困難樣本,調用大模型處理;而對于相對簡單的常規視頻,則使用輕量模型完成。這種差異化方案能夠充分發揮不同規模模型的優勢。

趙波:是否有某些特定的場景說它一定大模型更適合一些,然后或者輕量型模型更適合一些?

高歡:在短視頻理解任務中,我們將其劃分為幾個主要類別:創意類、事實類、相關性判別類等。根據我們的實踐經驗,輕量級模型在處理相關性判斷和創意類任務時表現足夠出色,經過適當訓練即可滿足需求。然而,對于需要深度知識儲備和強推理能力的任務——如問答類或判別類場景——大規模模型展現出明顯優勢。特別是在內容審核這類高風險領域,采用大模型往往至關重要。

邵帥:在模型選型策略上,我們通常會從兩個關鍵維度進行考量:首先是業務發展階段。對于尚處探索階段的新業務,由于技術成熟度不足,我們更傾向于采用性能最優的大模型進行可行性驗證。只有當模型能力確實滿足場景需求后,才會著手進行模型壓縮和成本優化,推動方案進入穩定交付階段。

其次是用戶需求性質。我們將需求劃分為"靈感激發"和"生產輸出"兩類:在靈感場景中,用戶往往需要快速生成大量參考樣本(如尋找創作靈感或具象化模糊概念),這時輕量快速的模型更為合適;而在確定性生產場景中(如最終成品輸出),質量優先于速度,即便需要更長的等待時間或隔日交付,用戶也愿意為更優質的結果買單。

觀眾:現在模型訓練過程中是不是已經遇到了很多的 AIGC 圖片,這些 AIGC 圖片是不是已經產生了一些副作用?我們應如何應對?

高歡:需要明確的是,AIGC 生成內容并非沒有價值——它們特別適合用于補充特定概念或罕見元素組合的數據缺口。實際操作中,我們通過嚴格的數據預處理流程來確保內容質量:對于達到 100% 擬真度的 AIGC 內容,完全可以視同真實素材使用;而對于存在瑕疵的生成內容,通過識別篩選后,可以調整其在訓練集中的配比。

邵帥:在 AIGC 內容應用上,我們采取風格區分的策略。對于寫實類風格(如照片級真實感),需要特別警惕生成內容中的 artifact 問題——包括過度磨皮、紋理缺失、摩爾紋等典型的人工痕跡,這類瑕疵會嚴重影響模型的訓練效果。但在非真實感渲染(NPR)領域,如卡通、動漫、游戲等風格化場景,AIGC 內容經過人工美學把關后,能有效補充傳統手繪難以覆蓋的新概念和新風格。

趙波:在 AIGC 技術落地過程中,騰訊混元大模型在哪些關鍵業務場景實現了顯著的效率提升?

邵帥:騰訊混元已在游戲生產環節實現了顯著的效率優化,在 2D 概念階段,該技術已應用于角色、皮膚、特效及場景的高效生產。同時,3D 技術也在部分游戲場景中落地,目前主要用于道具和簡單場景的建模。在創新玩法方面,我們重點關注互動影游這一游戲與影視結合的新形式。傳統互動影游需要為每個敘事分支拍攝大量素材,特別是大 IP 改編作品時,召回明星補拍的成本極高。而通過 AIGC 技術,可以實現人物對話和場景分支的動態生成,這大大降低了制作難度。

在泛營銷場景中,該技術被用于廣告素材的智能化生成,包括圖片和高轉化率的視頻內容制作。特別是針對廣告視頻的關鍵前三秒,傳統方式需要投入高昂成本制作夸張畫面來吸引觀眾,而現在通過 AIGC 技術可以快速生成創新內容,同時有效避免重復或觸發消重系統的問題。

趙波:快手在哪些業務場景有明顯的效率提升?生產力提升?

高歡:T2V 訓練的收斂速度顯著加快,這主要得益于數據質量的提升。高質量數據讓模型能夠更好地區分容易混淆的概念,有效降低了錯誤理解的干擾。類似的現象在語言模型訓練中也很明顯,隨著數據質量的提高,模型的收斂速度和在各類榜單指標上的表現都有顯著提升。

未來趨勢

趙波:多模態大模型的下一階段突破可能來自哪些方向?技術、數據、應用落地分別將會有什么樣的突破?

邵帥:數據層面即將迎來重要突破:通過利用更多模態的數據,即使某些模態存在缺失,也能訓練出具有更強指令遵循和泛化能力的模型。此外,當前的數據清洗流程雖然提升了數據平均質量,但也損失了大量潛在信息。未來我們需要探索如何增強模型的抗噪能力,從低質量數據中提取更多信息,或通過修復技術提升數據質量。

第二,個性化將成為關鍵發展方向。每個用戶都有獨特的興趣偏好和需求表達方式,可能是通過文本,也可能是通過交互反饋。如何為不同用戶或不同場景提供差異化能力,實現真正的"千人千面",將是重要的發展方向。

第三,應用層面將迎來顯著增長。目前已有相對成熟穩定的技術方案可供實際使用,不再局限于研究探索階段。同時,技術應用的耗時和成本都大幅降低。用戶認知也發生了重要轉變:相比一兩年前人們更多是抱著嘗鮮心態體驗新技術,現在用戶對模型的能力邊界已有清晰認知,越來越多的人開始思考如何利用這些模型解決具體問題,因此 2025 年必將成為 AI 應用大規模落地的一年。

高歡:就像語言模型從最初的百花齊放發展到后來的大一統,從單純的語言理解演進到 RAG 和智能體等更復雜的應用,多模態技術也將完整地經歷這個過程。未來很可能會出現一個真正實現"any to any"轉換的 all in one 統一模型,這已經成為行業共同努力的方向。

展望未來,像 VLA(視覺語言動作)這樣的具身智能應用將會更加豐富。從技術發展節奏來看,2023 年第一季度 GPT-3.5 的出現推動了語言模型的快速發展,2024 年則是文本到視頻(T2V)技術突飛猛進的一年。而今年 OpenAI 推出的圖片編輯工具,已經展現出向"any to any"模型發展的趨勢。因此,我們有理由期待 2025 年可能成為"any to any"多模態技術爆發的關鍵年份。

趙波:我們近期主要關注的方向是大模型的空間感知能力。當前多模態模型主要聚焦于平面 2D 視覺和語義理解,而我們正在推動其向三維空間感知方向發展,讓模型能夠更深入地理解和感知物理世界。在多模態生成模型方面,我們正在進行視頻生成技術的創新探索,核心突破點在于賦予視頻生成模型記憶能力——當模型再次進入同一場景時,能夠保持生成場景中物體的連續性。這項技術突破將有效解決現有視頻生成中的一致性問題,為內容創作帶來新的可能性。

趙波:DeepSeek R1 模型很火,多模態模型中 Reasoning 的重要性如何?這其中的 Reasoning 是語言層面的更重要?還是視覺層面的更重要?以及會產生哪些重要應用?

邵帥:我有一個不太成熟的觀點:Diffusion 模型的推理過程與 COT 思維鏈推理具有高度相似性,兩者都是通過逐步生成的方式,從初始相對粗糙的結果出發,經過層層迭代和優化,最終獲得更優質的結果。

基于這個觀察,我認為類似 COT 的推理過程不僅適用于純語言模型,在多模態模型或大一統模型中也同樣可行。事實上,如果采用自回歸式的建模方法,我們就能充分利用現有語言模型和多模態模型的知識儲備與推理能力。目前我們已經在圖像和視頻生成的前置環節進行實踐探索。例如,在生成過程中引入類似語言模型的 planning 機制——先進行布局 layout 或草圖生成,再進入具體的生成階段,這種方法能夠有效提升生成內容的邏輯性和連貫性。

AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智能數據基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!

今日薦文

你也「在看」嗎?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中方給特朗普定了性,不會給他邀請函,并用半個月讓美國“出局”

中方給特朗普定了性,不會給他邀請函,并用半個月讓美國“出局”

說天說地說實事
2025-05-22 02:55:54
朱媛媛生病最后畫面曝光:坐病床上雙手合十,臉上長滿斑笑容憔悴

朱媛媛生病最后畫面曝光:坐病床上雙手合十,臉上長滿斑笑容憔悴

古希臘掌管月桂的神
2025-05-21 20:16:41
特朗普與南非總統,在白宮激烈爭執

特朗普與南非總統,在白宮激烈爭執

新京報政事兒
2025-05-22 07:38:15
日本再次獻祭?日債崩潰,美債最終由日本買單?廣場協議2.0來了

日本再次獻祭?日債崩潰,美債最終由日本買單?廣場協議2.0來了

掌青說歷史
2025-05-21 16:23:03
辛柏青同意曬朱媛媛生病照,公布妻子臨終狀態,實在太用心良苦!

辛柏青同意曬朱媛媛生病照,公布妻子臨終狀態,實在太用心良苦!

古希臘掌管月桂的神
2025-05-21 23:12:50
南京大學校慶日“校貓”被鋼珠打碎頭骨?學校保衛處:看了一夜監控,暫未鎖定嫌疑人

南京大學校慶日“校貓”被鋼珠打碎頭骨?學校保衛處:看了一夜監控,暫未鎖定嫌疑人

上游新聞
2025-05-21 17:55:22
NBA官宣:亞歷山大首次獲常規賽MVP 比肩杜蘭特威少隊史第3人

NBA官宣:亞歷山大首次獲常規賽MVP 比肩杜蘭特威少隊史第3人

醉臥浮生
2025-05-22 07:00:29
男子面試了一家公司,看到工位天塌了!網友: 牛馬槽子具象化了

男子面試了一家公司,看到工位天塌了!網友: 牛馬槽子具象化了

有趣的火烈鳥
2025-05-21 14:35:18
國際刑事法院尷尬了:中方帶領60國成立新組織,一國迅速宣布退群

國際刑事法院尷尬了:中方帶領60國成立新組織,一國迅速宣布退群

說天說地說實事
2025-05-21 21:05:58
特斯拉車主紛紛安裝DIY拉繩 避免事故時被全電動門圍困

特斯拉車主紛紛安裝DIY拉繩 避免事故時被全電動門圍困

cnBeta.COM
2025-05-21 19:29:16
福特之后,通用汽車也將停止從美國向中國出口汽車

福特之后,通用汽車也將停止從美國向中國出口汽車

環球網資訊
2025-05-21 11:56:03
突發!陳奕迅ins賬號刪掉有關其復活的帖子,引發網友熱議和不安

突發!陳奕迅ins賬號刪掉有關其復活的帖子,引發網友熱議和不安

火山詩話
2025-05-22 06:13:56
中方另起爐灶,拉60國成立國際組織,不到24小時,匈牙利宣布退群

中方另起爐灶,拉60國成立國際組織,不到24小時,匈牙利宣布退群

武事匯
2025-05-21 17:32:12
廣西被查貪官家中發現很多金磚?官方辟謠

廣西被查貪官家中發現很多金磚?官方辟謠

上觀新聞
2025-05-22 07:00:04
曼聯至暗時刻!英超第16+賽季恥辱四大皆空,近10年首次無緣歐戰

曼聯至暗時刻!英超第16+賽季恥辱四大皆空,近10年首次無緣歐戰

我愛英超
2025-05-22 05:33:44
世乒賽驚現冷門:世界冠軍遭逆轉,林詩棟逆襲雨果!

世乒賽驚現冷門:世界冠軍遭逆轉,林詩棟逆襲雨果!

世間一分鐘
2025-05-21 23:03:17
新華社消息|中方敦促美國停止將溯源問題政治化

新華社消息|中方敦促美國停止將溯源問題政治化

新華社
2025-05-21 10:05:21
美債雷聲滾滾,道指跌近2%!小鵬汽車大漲13%,文遠知行漲超20%!美元跳水,黃金漲超1%

美債雷聲滾滾,道指跌近2%!小鵬汽車大漲13%,文遠知行漲超20%!美元跳水,黃金漲超1%

每日經濟新聞
2025-05-22 07:07:05
四川一地發布艾滋病篩查通知!當地網友直言后怕,發展到哪一步了

四川一地發布艾滋病篩查通知!當地網友直言后怕,發展到哪一步了

火山詩話
2025-05-21 08:31:20
黃楊鈿甜的耳環值多少錢已經不重要了,她弟弟的事情才更嚴重

黃楊鈿甜的耳環值多少錢已經不重要了,她弟弟的事情才更嚴重

山客雜談
2025-05-20 21:30:30
2025-05-22 08:59:00
AI前線 incentive-icons
AI前線
面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
856文章數 80關注度
往期回顧 全部

科技要聞

蘋果設計靈魂投奔OpenAI 十年淘汰iPhone?

頭條要聞

牛彈琴:特朗普在白宮當眾羞辱南非總統 馬斯克也在場

頭條要聞

牛彈琴:特朗普在白宮當眾羞辱南非總統 馬斯克也在場

體育要聞

32歲孫興慜哭成淚人:熱刺10年首冠 亞洲第5人

娛樂要聞

中國國家話劇院發訃告:沉痛悼念朱媛媛

財經要聞

中國,拋售美債!

汽車要聞

價格下調 2025聰明款ID.4 X限時13.99萬起

態度原創

藝術
教育
時尚
本地
旅游

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

找雙坐標循環規律,求點的坐標!

今夏超流行這6種顏色,每一種都是顯白高手

本地新聞

云游中國 |重慶人手一只熊貓?四世同堂等你打卡

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 拜城县| 长沙县| 读书| 山东省| 五指山市| 新营市| 海宁市| 崇仁县| 昌江| 建德市| 金乡县| 塔河县| 阳谷县| 万山特区| 五寨县| 阿拉善右旗| 琼中| 泸定县| 南郑县| 嘉荫县| 金山区| 清原| 泰来县| 朝阳区| 鄂温| 龙山县| 海盐县| 阜城县| 平安县| 宜州市| 洛阳市| 忻州市| 裕民县| 奉节县| 漳州市| 五寨县| 宜城市| 突泉县| 格尔木市| 福鼎市| 崇州市|