網易首頁 > 網易號 > 正文申請入駐

逐個token太慢！大模型原生并行出token，CMU、英偉達Multiverse

2025-06-17 17:22:06　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：陳陳、澤南

原生并行生成不僅僅是加速，它是我們對 LLM 推理思考方式的根本轉變。

眾所周知，大語言模型的參數量越來越大，算力需求也越來越可怕，然而因為「祖宗之法」，推理只能一個一個 token 按順序來。

對此，卡耐基梅隆大學（CMU）Infini-Al-Lab 的研究人員拿出了「多元宇宙」Multiverse，這是一個全新的生成式建模框架，支持原生的并行生成。

參與這項研究的機器學習大佬，CMU 助理教授陳天奇表示，這是一個有前途的大方向。

該研究的一作 Xinyu Yang 表示，Multiverse 的原生并行生成不僅僅是加速——它是我們對 LLM 推理思考方式的根本轉變。更讓人興奮的是，除了優化現有模型之外，他們發現還可以借助系統級洞察來發現更好的模型架構。

當前主流的大語言模型（如 GPT 系列等）大多采用自回歸（Autoregressive）生成方式。這種方式通過逐個生成下一個 token，依賴于之前生成的所有內容，從而保證生成的連貫性和邏輯性。然而，這種順序生成的方式存在明顯的局限性，比如無法利用現代硬件（如 GPU）的并行計算能力，導致生成速度較慢。

與自回歸生成不同，并行生成可以同時處理多個子任務，顯著提高生成效率和速度。例如，擴散模型（Diffusion Models）和一致性模型（Consistency Models）等非自回歸架構能夠并行生成多個詞，從而大幅減少生成時間。

然而，現有的并行生成模型（如擴散模型）通常采用暴力并行化方法，忽略了生成過程中的邏輯依賴關系，導致生成結果可能缺乏連貫性或邏輯性。部分原因在于缺乏現實訓練數據來指導何時及如何進行并行生成。

這就引出了一個核心問題：如何設計能同時滿足 1）自適應任務拆分合并、2）無損保留內部狀態、3）普適適配多種并行模式的 LLM 建模框架？

由于自回歸大語言模型（AR-LLMs）現在占據主導地位，并且 AR-LLMs 在順序生成過程中經常表現出隱含的并行性。

因此，來自 CMU、英偉達的研究者們通過揭示這些模型序列化輸出中蘊含的豐富內在并行性來展開研究。

論文地址：https://arxiv.org/pdf/2506.09991v2
項目地址：https://github.com/Multiverse4FM/Multiverse
項目主頁：https://multiverse4fm.github.io/
論文標題： Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation

本文提出了 Multiverse，這是一個能夠實現原生并行生成的新型生成模型。

隨后，本文通過數據、算法和系統的協同設計構建了一個現實世界的 Multiverse 推理模型，從而能夠快速且無縫地從前沿的 AR-LLMs 進行轉換。

預算控制實驗表明，Multiverse-32B 在使用相同上下文長度的情況下，平均性能比 AR-LLMs 高出 1.87%，展現出更優越的擴展性。這種擴展性進一步帶來了實際的效率提升，在不同 batch size 下實現了高達兩倍的速度提升。

此外，作者已經開源了整個 Multiverse 生態系統，包括數據、模型權重、引擎、支持工具，以及完整的訓練細節與評估方案。

長 CoT 生成：邏輯上是順序的還是并行的？

本文首先基于 s1K-1.1 數據集，對 Deepseek R1 和 Gemini 2.0 Flash Thinking 等自回歸大語言模型（AR-LLM）的長 CoT 展開分析。

結果發現可并行分支的存在。

這些分支揭示了 AR-LLM 內在的并行特性。如圖 2 所示，它們被劃分為集體型與選擇型兩類，能以連續或遞歸結構靈活呈現。

更進一步的，表 1 統計數據顯示：在 AR-LLM 生成的長 CoT 軌跡中，并行分支普遍存在。

Multiverse 框架

根據上述發現，本文提出了 Multiverse，這是一個基于 MapReduce 范式構建的新型生成建模框架，它自適應地并行化并無損合并其生成以超越 AR 模型。

如圖 4 所示，該框架采用 MapReduce 結構，內部包含三個階段：

Multiverse 內部集成了 MapReduce 范式，通過三個階段自動完成生成：

（i）Map 階段，用于自適應的任務分解；

（ii）Process 階段，用于并行的子任務執行；

（iii）Reduce 階段，用于無損的結果合成。

為實現對生成流的自動化控制，Multiverse 進一步采用了一套結構化專用控制標簽來明確定義每個 MapReduce 模塊。如圖 5 所示。

構建一個真實世界 Multiverse 模型

為了將 Multiverse 部署到實際場景中，該工作提供了一套完整的套件，其中包括 Multiverse Curator（數據生成器）、Multiverse Attention（核心算法）和 Multiverse Engine（優化系統）。該套件能夠實現從領先的 AR 模型到 Multiverse 模型的平滑快速遷移。

數據。本文開發了 Multiverse Curator，這是一個自動化的 LLM 輔助流程，它通過五個步驟將順序推理鏈轉換為并行結構。

算法設計。本文設計了 Multiverse Attention，以實現并行生成，同時保持訓練效率。這是通過修改注意力掩碼和位置嵌入來實現的，從而在注意力計算中嚴格區分獨立的推理分支，這些分支可以并行訓練，類似于因果注意力機制。

系統實現。本文實現了 Multiverse Engine，它配備了一個專門的解釋器來支持 MapReduce 的執行。通過解釋 Multiverse 模型生成的控制標簽， Multiverse Engine 可以在順序生成和并行生成之間動態切換，且不會產生任何開銷，從而實現靈活的工作流程。

實驗

真實世界推理性能

如表 2 所示，本文報告了 Multiverse-32B 模型在 32K 上下文長度下的復雜推理任務表現。在經過微調后，該模型在各項基準測試中相較 Qwen2.5-32B-Instruct 模型分別提升了 38%、35%、11% 和 14%。值得注意的是，與 Autoregressive-32B 的對比實驗表明，Multiverse-32B 達到甚至超越了自回歸模型的性能水平。

本文還評估了 Multiverse-32B-Zero 結果，這是一個未使用并行思考指令提示的變體。比較這兩個變體，可以發現截然不同的性能模式：Multiverse-32B 在 AIME 任務上實現了更高的并行性，從而略微提升了性能；而 Multiverse-32B-Zero 在需要較短生成序列的任務上表現更佳。

擴展性能

為了凸顯并行生成的優勢，本文在 GPQA-Diamond 和 MATH500 上進行了預算控制實驗。如圖 7 所示，雖然更長的上下文提升了兩個模型的性能，但 Multiverse-32B 在相同的上下文長度內生成了更多 Token。這種并行擴展使 GPQA-Diamond 的性能提升了 2.23%（并行數量 = 1.17），MATH500 的性能提升了 1.51%（并行數量 = 1.15）。

效率分析

圖 8a 結果表明，Multiverse 通過提升并行度顯著增強了生成效率。

圖 8b 結果表明，隨著 batch size 從 1 增加到 128，生成過程依然受限于內存帶寬。因此，Multiverse 的加速比隨著并行度的提升呈線性增長，在多種配置下都展現出出色的可擴展性。

更多細節請查看論文原文。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.