自回歸(AR)范式憑借將語言轉化為離散 token 的核心技術,在大語言模型領域大獲成功 —— 從 GPT-3 到 GPT-4o,「next-token prediction」以簡單粗暴的因果建模橫掃語言領域。但當我們將目光轉向視覺生成,卻發現這條黃金定律似乎失效了……
現有方案硬生生將圖像網格化為空間 token,強行塞入自回歸架構。這像極了 NLP 早期用 CNN 建模語言的彎路 —— 當視覺表達被空間局部性束縛,因果鏈被切割得支離破碎,如何能真正擁抱 AR 的本質?
華為盤古多模態生成團隊破局思路:讓圖像學會「說 AR 的語言」。團隊指出:視覺要想復刻 LLM 的成功,必須徹底重構 token 化范式!基于昇騰 AI 基礎軟硬件的 Selftok 技術,通過反向擴散過程將自回歸先驗融入視覺 token,讓像素流轉化為嚴格遵循因果律的離散序列。
- 項目主頁:https://Selftok-team.github.io/report/
- ArXiv 鏈接:https://arxiv.org/abs/2505.07538
- Github鏈接: https://github.com/selftok-team/SelftokTokenizer
Selftok 的突破在于:
- 反向擴散鍛造因果 token—— 通過擴散過程的時序分解,讓視覺表達徹底 AR 化
- 強化學習友好型 token—— 首個嚴格滿足貝爾曼方程 (Bellman Equation) 的視覺離散表征
- 純 AR 大一統架構 —— 無需復雜模塊堆疊,優雅地實現 LLM 和 diffusion 的融合,單憑 next-token prediction 統一跨模態生成
實驗結果實現:
- 視覺重建新突破:Imagenet 上重建指標達到離散 token SoTA
- 跨模態生成新高度:無需圖文對齊數據!僅憑視覺 token 策略梯度,GenEval 生成質量超越 GPT-4o
- 親和昇騰計算架構:昇騰原生算子融合 + MindSpeed 框架,實現端到端原生開發
值得一提的是,該系列工作的開篇論文《Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens》也入選了 CVPR 2025 最佳論文候選(Best Paper Candidate, 14/13008,0.1%)
介紹
當前行業共識認為大語言模型(LLMs)正面臨語言數據瓶頸,而圖像、視頻等非語言數據仍存在巨大開發潛力。技術圈普遍認為,構建統一的多模態架構將是釋放 AI 更強涌現能力的關鍵。要將視覺等非語言模態整合進類似 LLMs 的離散自回歸模型(discrete AR,dAR),核心挑戰在于將連續視覺信號轉化為離散 Token。華為盤古多模態生成團隊首創不依賴空間先驗的視覺 Token 方案,通過與語言模態聯合訓練構建視覺 - 語言模型(VLM),在圖像生成、圖像編輯等任務中展現出卓越能力。其強化學習優化后的生成性能已超越 AR 范式現有模型,開創了多模態自回歸訓練的新范式。
為何選擇離散化視覺 token?當前主流方案采用語言 dAR 與圖像連續自回歸模型(continuous AR, cAR)的混合架構,認為連續表征能最小化圖像壓縮損失。但大量研究表明:離散表征同樣可保持高精度,而連續表征存在三重致命缺陷:其一,預測穩定性差,cAR 采用均方誤差(MSE)訓練的向量回歸器較 dAR 的交叉熵(XE)分類器更易出錯,這迫使多數 cAR 放棄因果預測范式,轉向雙向建模,從根本上違背 decoder-only 架構的自回歸設計哲學;其二,強化學習復雜度激增,連續狀態 - 動作空間使馬爾可夫決策過程從有限轉為無限,策略優化難度呈指數級上升;其三,解耦能力受限,連續表征在學習過程中會帶來模式坍縮 (視覺幻覺),離散可以實現因子更好的解耦。
圖 1
為什么選擇摒棄空間先驗?早期 CV 研究將空間特征 Token 化視為自回歸建模標配,但華為 AIGC Selftok 團隊指出:空間 Token 的因果依賴本質與 AR 范式存在根本沖突。如下圖所示,碰撞效應導致虛假依賴,編碼任一空間 Token 時引入與其他所有 Token 的貝葉斯偽相關,破壞 AR 所需的因果圖結構;從而導致強化學習失序,非 AR 依賴使 Token 預測影響歷史狀態,無法滿足貝爾曼方程,導致策略優化陷入局部最優困境。實驗證明,非空間 Token 的 RL 效果上限顯著低于 AR Token。
基于此,Selftok 團隊提出 Self-consistency Tokenizer:通過擴散模型反向過程的 AR 特性編碼圖像生成軌跡,每個 Token 對應擴散步驟的時間戳(如圖 3)。
圖 3
該方案實現三大突破:
1)AR 原生架構(自回歸之本):徹底摒棄空間先驗,保持重建精度同時提升圖文模態兼容性,為 dAR-VLM 預訓練與 RL 微調奠定基礎;
2)擴散范式統一(擴散之法):直接貫通擴散模型與自回歸架構,無需額外模塊即可完成跨模態統一。自回歸等價于遞歸,可像歸并排序算法(下左圖)一樣分而治之。同理,將 x_0→x_1(下右圖)的路徑分解成兩部分,x_0→x_t 由擴散模型采樣得到,x_t→x_1 學習 token;
圖 3.1
3)推理性能躍升(推理之用):Selftok-Token 完美適配策略優化,使 dAR-VLM 獲得類 LLM 的 RL 訓練能力。實驗證明,無監督的 Selftok-Zero 在 GenEval 和 DPG-Bench 榜單分別以 92% 和 85.57 分超越基于 Spatial token 的 AR 范式模型,驗證了 Selftok token 與 AR 范式的組合威力。
方法簡述
Tokenizer:Selftok tokenizer 主要由三部分構成:encoder,quantizer 與 decoder。整體的結構如圖 4 所示:
圖 4
Selftok 編碼器采用雙流架構:圖像分支繼承 SD3 的 VAE 隱空間編碼,文本分支創新性替換為可學習連續向量組以捕捉擴散特征,通過動態掩碼機制提升計算效率。核心量化器通過 EMA 更新的 codebook 和獨創的 "code 偏移監測 - 重激活" 機制,解決傳統訓練不均衡問題,實現擴散過程與自回歸建模的統一。解碼器基于 SD3 權重改進,文本分支采用 codebook embedding 替代傳統輸入,并通過時序感知 token 分配策略(隨 timestep 縮減 token 數量)強化自回歸特性。為了進一步提升推理效率,渲染器通過引入 "畫布"token 消除 timestep 依賴,在昇騰 910B2 上實現單卡推理速度從 8.2 秒壓縮至 0.31 秒,同時完全保留重建質量。生成路徑離散化技術將連續擴散轉化為 token 驅動確定性映射,奠定視覺自回歸建模新范式。
圖 6
Selftok 團隊通過可視化對比揭示了 token 表征的本質差異:
1)漸進重建(左→右):通過逐步掩碼輸入 token 序列測試重建能力。
VQGAN、FlowMo、VAR 因 token 與圖像塊強綁定,在短序列輸入時呈現塊狀偽影;而 Selftok 即使保留極少量 token 仍保持全局語義連貫。
2)Token 插值(左→右):通過逐步替換左右圖像 token 實現插值。
傳統方法因空間局部性產生斷裂形變,Selftok 則實現平滑語義過渡,驗證了自回歸建模的理論優勢。
Pretrain and SFT:在預訓練階段,模型架構基于 LLaMA-3-8B 進行擴展,在原有語言詞表的基礎上新增了 32,768 個圖像 token 的詞表。正如前文所述,Selftok dAR-VLM 可以完全復用現有的 LLM 訓練范式與訓練框架。具體實現上,該模型基于昇騰 MindSpeed 框架和昇騰 910B NPU 進行訓練優化,整個流程被設計為兩個關鍵階段:
1.多模態對齊:這個階段引入四種數據輸入格式(如圖 8 所示)來幫助模型實現模態的對齊,分別為 text-to-image, image-to-text, image-only 與 text-only,使得模型從 LLM 轉變為 VLM。
圖 8
2.多任務對齊:這個階段收集了高質量的圖像與文本數據對模型在三類任務(如圖 8 所示)上進行監督微調(sft):text-to-image, image-editing 與 image-understanding,進一步提升模型的能力上限并擴展模型的能力邊界。此外針對 AR token 的特性,Selftok 團隊也設計了新的推理策略,會根據當前圖像 token 的熵來確定是否進行 logit adjustment。新的推理策略也幫助模型進一步提升了圖像生成的效果。
公式 1
RL:Selftok 團隊首先證明了 AR tokens 能夠推導出貝爾曼方程,進而證明采用策略優化的 RL 算法具有最優解。在此理論基礎上,選擇使用 GRPO 算法對模型進行優化。不同于數學問題或代碼生成這類能夠獲得精確 reward 的任務,文生圖任務難以精確的評估生成效果與指令遵循能力。為了解決這個問題,Selftok 團隊設計了兩類獎勵函數:基于程序與基于 VQA 任務。基于程序的獎勵函數能夠有效的評估生成圖像中的物體屬性、空間關系、數量等是否與 prompt 相符合,團隊使用目標檢測模型來檢測上述內容,并提高目標檢測的閾值,在提升圖文一致性的同時顯著的提升了圖像內容的合理性與美感;基于 VQA 任務的獎勵函數面向更加通用的場景,首先 prompt 會被分解為多個問題,隨后使用 Internvl 與 GPT-4o 來回答這些問題,并計算出最終的 reward。
實驗結果顯示基于程序的獎勵函數能夠更加有效的提升模型的表現,在 GenEval Bench 上 Selftok-Zero 顯著的優于包括 GPT-4o 在內的其他所有模型。
結果
Tokenizer 結果:Selftok tokenizer 在 ImageNet 上的多個重建指標都達到了 sota,相比于其他的 tokenizer,Selftok tokenizer 對細節的重建效果更好,也更加貼近原始圖片,量化結果如表 1 所示。
表 1
文生圖結果:華為盤古多模態生成團隊在 GenEval 與 DPG 兩個 benchmark 上評測文生圖的的表現。其中在 GenEval Benchmark 上,基于 Selftok-sft 模型 RL 后的 sefltok-zero 大幅領先包括 GPT-4o 在內的所有模型,達到 92 的分數。相比與 sft 模型,經過 RL 后的模型在多個子任務上都達到 SOTA,且大幅領先其他模型。如表 2 所示:
表 2
在 DPG Benchmark 上,Selftok-zero 僅次于 HiDream-I1,并在多個子項上達到 sota。相比于 Selftok-sft,Selftok-zero 的表現全面提升,進一步證明了 Selftok token 在 RL 算法上的有效性。結果如表 3 所示:
表 3
可視化結果如圖 9 所示:
圖 9
圖像編輯結果:Selftok 團隊還在 PIE-Bench 上檢測了模型的圖像編輯能力,結果顯示 Selftok 模型的編輯效果在編輯模型中也處于領先地位,量化指標如表 4 所示,編輯過程可視化結果如圖 10。
表 4
圖 10
在多輪編輯任務中,Selftok 展示了精確的理解能力與非編輯區域的保持能力,編輯指令的遵循能力能夠與 GPT-4o,Gemini-2.0 等匹配,如圖 11 所示:
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.