99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

CVPR 2025 多模態大一統:斯坦福 x 復旦符號主義建模生成式任務

0
分享至



共同第一作者包括:陳家棋,斯坦福大學訪問學者,復旦大學碩士,研究方向為 LLM Agent和大一統模型;朱小燁,華南理工大學本科,研究方向為 LLM Agent、LLM 和強化學習;王越,康奈爾大學本科,研究方向為 LLM Agent、多模態語言模型。指導老師:Julian McAuley(UCSD)、Li-jia Li (IEEE Fellow, LiveX AI)。

在人工智能內容創作蓬勃發展的今天,跨模態生成技術正在重塑藝術創作和視覺表達的邊界。人們對需求也日趨復雜和多樣,譬如將靜態照片轉化為動態視頻并疊加環境音效,打造沉浸式的多感官體驗。然而,現有生成系統大多受限于訓練數據的覆蓋范圍,或是因復雜的多模型協調而效率低下,難以滿足這些日益增長的創意需求。



問題背景



圖 1用于 Any-to-Any 生成任務的一種符號化描述方法。

「將叢林的狂野生長與古老廢墟的神秘感融合成一個全新的場景,一定會令人驚嘆,」你的藝術家朋友沉思道。「如果還能把這張照片轉換成視頻,再疊加上鳥鳴聲和潺潺流水聲——那將營造出一種夢幻般的感官體驗。」這些日益復雜、跨模態的創作需求指向了一個根本性挑戰:如何設計一個統一模型,能夠根據自然語言指令,無縫處理任意輸入與輸出模態組合的生成任務?這樣的任務就是該研究關注的「Any-to-Any」生成任務,如圖 2 所示。



圖 2 Any-to-Any 生成任務

當前 Any-to-Any 生成任務的方法主要分為隱式神經建模和智能體方法。隱式神經建模需要大量數據訓練,雖然能處理常見任務,但對新場景適應能力差且生成過程不可控;智能體方法雖然功能靈活但結構復雜,運行不穩定且效率較低。此外,如果人類設計師用 PS 合成圖像時,需要先背誦所有濾鏡組合公式才能操作,還有創意可言嗎?當前許多方法陷入了這種「知識依賴陷阱」——而真正的 Any-to-Any 生成,應該像兒童搭積木:不需要理解木塊分子結構,只需知道它們如何拼接。

于是,研究團隊設想構建一個框架:聚焦于統一的任務表示和語言模型友好的接口,從而實現直接的任務指定。使系統能夠真正理解并執行用戶以自然語言描述的任意生成需求,同時保持執行過程的可控性和可干預性。這一設想從根本上改變了傳統生成模型的實現范式,為構建真正意義上的 Any-to-Any 生成系統提供了新的技術路線。

基于符號化表征的生成任務描述框架

框架設計的核心思路在于對生成任務本質的解構:任何復雜的多模態生成過程,本質上都可以拆解為「做什么」(函數)、「怎么做」(參數)和「執行順序」(拓撲)三個要素。基于這樣的見解,研究提出了 -Language,這是一種正式表示方法,系統地捕捉生成任務的這三個基本組成部分。此外,研究還介紹了一種無需訓練的推理引擎,它利用預訓練的語言模型作為基礎,從輸入指令和指定的關鍵函數中得出符號表示。







圖 3 語法風格比較。

  • 基于預訓練語言模型的符號化流程推斷為使方法靈活而穩健地適應生成任務的多樣性和復雜性,該研究將高層次的任務描述轉化為可執行的符號化流程。如圖 4 所示,提出利用語言模型 (LM) 作為推理引擎,從輸入指令和指定的關鍵函數中得出符號表示。



圖 4 利用語言模型 (LM) 生成符號化表示。

通過三階段處理實現這一目標:組件推斷階段由語言模型解析任務描述,識別所需的函數 (F) 和參數 (Φ);拓撲構建階段基于輸入輸出關系,建立函數間的數據流連接 (T);迭代優化階段通過錯誤反饋循環 (R) 持續修正流程,直至滿足所有約束條件 (C)。圖 5 完整展示了從自然語言描述到可執行工作流程的轉換過程,從而實現了跨模態和跨任務類型的任意轉換。



圖 5 推理和執行的演示。

實驗結果

在實驗中,該研究構建了一個包含 120 個真實世界生成案例的數據集,涵蓋 12 個任務類別,并通過用戶研究和可執行性評估驗證了方法的有效性。

  • 跨模態生成質量評估(用戶研究)

針對不同模態轉換任務進行了系統的用戶評估,以驗證該方法在真實場景下的生成質量。實驗結果顯示,在文本到圖像任務中,該方法對 Show-o 的勝率達 94%;在圖像轉視頻任務中,對商業系統 Gen-3 的勝率達 67%;文本到音頻任務中,對齊度和質量勝率分別達 100% 和 98%。



  • 復雜工作流執行測試(ComfyBench 基準)

為評估方法處理復雜任務的能力,采用包含多步驟工作流的 ComfyBench 進行測試。實驗結果顯示,總體成功率 43%,顯著優于次優方法(32.5%),在復雜任務(如包含 11 個組件的「模型合并」)上表現突出。



  • 消融實驗

消融實驗證實,兩階段推理架構(組件推斷 + 拓撲構建)是系統性能的核心,移除該設計將導致任務完成率下降 35%。



  • 對比實驗:符號化 v.s. 代理化方法

選取了當前最先進的代理框架 GenAgent 作為基線,在相同任務集上進行對比測試。實驗數據顯示,在編譯階段,該方法達到 98% 的通過率,相比代理方法的 84% 顯著提升 ($p \< 0.001$);執行成功率方面,該方法 87% 的表現遠超代理方法的 63%。



  • 表示方法本質研究

針對「神經表示 v.s. 符號表示」這一核心問題,研究設計了控制變量實驗:在相同計算資源下,符號表示的內存占用僅為神經表示的 1/5。任務修改效率測試顯示,修改符號化流程平均耗時 23 秒,而神經方法需要重新訓練(平均 4.2 小時);但在端到端推理速度上,神經方法快 1.8 倍,這揭示了符號方法在實時性上的 trade-off。



  • 顯式流程編輯與錯誤分析

通過對 120 個失敗案例的歸因分析發現,28% 的錯誤源于參數范圍越界,主要體現在跨模態任務中的單位轉換問題;22% 屬于模態不匹配錯誤,多發生在未明確指定輸入輸出類型的場景中;15% 由于函數缺失導致,這反映了現有函數庫仍需擴展。





總結

該研究提出的符號化生成任務描述語言及配套推理引擎,為多模態任務提供了一種無需專門訓練的全新高效解決方案。通過利用預訓練大語言模型將自然語言指令直接轉化為符號化工作流,該方法成功實現了 12 類跨模態生成任務的靈活合成。實驗證明,該框架不僅在生成內容質量上媲美現有的先進統一模型,更在效率、可編輯性和可中斷性等方面展現出顯著優勢。符號化任務表示方法或許能為提升生成式 AI 能力提供一條經濟高效且可擴展的技術路徑。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
以色列首都CBD被炸!世界最大鉆石交易所遇襲伊朗似乎專挑大的炸

以色列首都CBD被炸!世界最大鉆石交易所遇襲伊朗似乎專挑大的炸

火星方陣
2025-06-21 09:01:53
南京藍天救援隊創始人孫建偉因病去世,年僅38歲,曾參與上百起救援

南京藍天救援隊創始人孫建偉因病去世,年僅38歲,曾參與上百起救援

極目新聞
2025-06-20 12:23:38
對中國沒認同感!美境內38萬苗族人,是背叛與鮮血釀出的“惡果”

對中國沒認同感!美境內38萬苗族人,是背叛與鮮血釀出的“惡果”

轉身微笑梅
2025-06-21 16:08:39
老到無人識!投資失敗成窮光蛋,梁雁翎用半生經歷證明了世事無常

老到無人識!投資失敗成窮光蛋,梁雁翎用半生經歷證明了世事無常

七公子娛樂
2025-06-20 11:00:06
李雪琴事件升級!舉報人再曬證據實錘,被曝學歷造假只是冰山一角

李雪琴事件升級!舉報人再曬證據實錘,被曝學歷造假只是冰山一角

趣文說娛
2025-06-21 14:20:38
阿斯:皇馬缺少中場組織者的問題十分明顯,但俱樂部不知該引進誰

阿斯:皇馬缺少中場組織者的問題十分明顯,但俱樂部不知該引進誰

雷速體育
2025-06-21 11:19:36
常州隊五連敗后球迷不離不棄,賽后喊話:打回來吧!

常州隊五連敗后球迷不離不棄,賽后喊話:打回來吧!

直播吧
2025-06-21 21:44:16
鐵路局董事長、總經理雙雙調整!

鐵路局董事長、總經理雙雙調整!

高鐵見聞
2025-06-21 22:45:14
發現男朋友那里“太大”,是正常的嗎?(女生慎入)

發現男朋友那里“太大”,是正常的嗎?(女生慎入)

愛護120
2025-06-21 16:36:36
汪峰示好寧靜,森林北顏面盡失,現已刪除與汪峰的官宣視頻

汪峰示好寧靜,森林北顏面盡失,現已刪除與汪峰的官宣視頻

萱小蕾o
2025-06-21 00:40:48
公務員注意!下班后這8類行為,監委盯上你了!

公務員注意!下班后這8類行為,監委盯上你了!

牛鍋巴小釩
2025-06-21 07:18:15
于根偉談足協杯出局:這不應該是天津隊的表現,很遺憾很抱歉

于根偉談足協杯出局:這不應該是天津隊的表現,很遺憾很抱歉

懂球帝
2025-06-21 22:32:13
極為奢華!1年電費40萬,網紅炫富被封禁!家中掛蘭博基尼,裝修花掉8000萬

極為奢華!1年電費40萬,網紅炫富被封禁!家中掛蘭博基尼,裝修花掉8000萬

21世紀經濟報道
2025-06-21 12:49:55
一覺醒來,復讀生的天塌了!2025年考再差,都不要復讀,真的嗎?

一覺醒來,復讀生的天塌了!2025年考再差,都不要復讀,真的嗎?

菊學姐
2025-06-21 09:00:10
為何天安門升旗只升28.3米,這是作為中國人你必須知道的事

為何天安門升旗只升28.3米,這是作為中國人你必須知道的事

神奇故事
2025-06-09 23:53:51
李娜好姐妹退役:2025年將是最后賽季

李娜好姐妹退役:2025年將是最后賽季

網球之家
2025-06-20 22:05:06
48小時內最大規模襲擊!特朗普耐心已耗盡,美批準對伊朗打擊計劃

48小時內最大規模襲擊!特朗普耐心已耗盡,美批準對伊朗打擊計劃

掌青說歷史
2025-06-20 11:57:47
特斯拉重大宣布!大行警告!

特斯拉重大宣布!大行警告!

數據寶
2025-06-21 17:32:46
一位40年前的北大數學本科生,聽完王虹教授講座后回家更吃不下飯

一位40年前的北大數學本科生,聽完王虹教授講座后回家更吃不下飯

馬蹄燙嘴說美食
2025-06-21 04:27:46
蘇超場外觀賽區座無虛席,常州球迷雨中撐傘觀賽:希望能進一球

蘇超場外觀賽區座無虛席,常州球迷雨中撐傘觀賽:希望能進一球

極目新聞
2025-06-21 20:16:36
2025-06-22 00:03:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10687文章數 142343關注度
往期回顧 全部

科技要聞

Siri有救了?蘋果被曝正討論史上最大收購

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

體育要聞

王欣瑜:資格賽差點要退賽 夢幻般的一周

娛樂要聞

離婚7年,楊冪逆襲碾壓劉愷威

財經要聞

租金大撤退!房東正在批量跑路!

汽車要聞

扔掉"舊地圖”一汽-大眾大眾品牌要找"新大陸"

態度原創

游戲
教育
家居
公開課
軍事航空

韓國虛幻5重磅動作新作來了!上架多平臺 2026發售

教育要聞

2025北京高招變數大!這些志愿填報的坑,千萬別踩!

家居要聞

山水之間 墨染風雨云間

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗展示破壞力最強導彈

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 临颍县| 雅江县| 靖江市| 通化县| 文水县| 伊吾县| 七台河市| 金秀| 丰城市| 固始县| 建水县| 大埔区| 甘谷县| 焉耆| 泽州县| 临沭县| 揭西县| 惠州市| 绍兴市| 余干县| 德惠市| 漾濞| 密山市| 仙游县| 临澧县| 孟连| 芦山县| 云南省| 彝良县| 南华县| 井冈山市| 四子王旗| 广水市| 明溪县| 尼勒克县| 洱源县| 澳门| 延长县| 边坝县| 阳江市| 江源县|