這項由卡內基梅隆大學楊新宇、安宇偉、劉紅毅等研究團隊與英偉達合作完成的重要研究發表于2025年6月11日,論文編號為arXiv:2506.09991v1。有興趣深入了解的讀者可以通過論文鏈接https://github.com/Multiverse4FM/Multiverse訪問完整資源。這項研究首次實現了讓大語言模型能夠像人類大腦一樣進行"多線程思考",徹底改變了傳統AI只能"一字一句"順序思考的局限。
想象一下,當你面對一道復雜的數學題時,你的大腦可能會同時考慮多種解題方法:一邊用代數方法求解,一邊用幾何方法驗證,最后再把不同思路的結果整合起來。這種"分身術"般的思維方式正是人類智能的精髓所在。然而,傳統的AI大語言模型就像一個只會按部就班的學生,必須一個字一個字地按順序生成回答,完全無法進行這種并行思考。
研究團隊發現了一個令人驚訝的現象:盡管現有的AI模型在訓練時只學會了順序思考,但它們生成的長篇推理過程中居然隱藏著大量可以并行處理的思維片段。就好比一個習慣了按順序說話的人,其實心里早就有了可以同時思考的能力,只是缺乏合適的表達方式。通過分析超過98%的AI推理樣本,研究人員發現這些看似順序的思考過程實際上包含了豐富的并行結構,就像一條看似筆直的河流實際上由多條支流匯聚而成。
基于這個發現,研究團隊開發了名為"Multiverse"的全新AI架構。如果把傳統AI比作一個只有一根手指的打字員,那么Multiverse就像是擁有十根手指的熟練打字員,能夠同時處理多個思維線程。這個系統巧妙地借鑒了計算機科學中著名的MapReduce范式,將復雜問題的解決過程分為三個階段:首先是"分工階段",系統自動判斷哪些思維步驟可以并行處理;然后是"并行處理階段",多個思維線程同時工作,就像多個廚師同時準備不同的菜品;最后是"整合階段",將各個線程的結果無損地合并成最終答案。
研究團隊面臨的第一個挑戰是數據問題。現有的AI訓練數據都是順序形式的,就像所有的菜譜都只教你一步一步做菜,從來沒有教過你如何同時準備多道菜。為了解決這個問題,他們開發了一套名為"Multiverse策展人"的自動化工具,能夠將傳統的順序推理過程轉換為并行結構。這個過程就像一個智能編輯,能夠識別出一篇長文章中哪些段落可以重新組織成并行展開的結構,然后自動重寫成新的格式。整個轉換過程包括五個精心設計的步驟:首先解析原始推理鏈的結構,然后識別可以并行化的節點,接著重新格式化為并行結構,再填充原始內容,最后添加分工和整合階段。通過這種方法,研究團隊從現有數據中創建了包含1000個高質量樣本的"Multiverse-1K"數據集。
第二個挑戰是算法設計。傳統的注意力機制就像一個近視眼的人,只能看到前面的內容,無法處理并行結構。研究團隊設計了"Multiverse注意力"機制,通過巧妙修改注意力掩碼和位置編碼,讓模型既能處理并行推理,又保持訓練效率。這種設計的妙處在于它與傳統注意力機制保持高度兼容,就像給現有的汽車引擎加裝了渦輪增壓器,大幅提升性能的同時保持了原有的穩定性。每個并行路徑在同一處理塊內都從相同位置開始獨立執行,而在整合階段,所有路徑會匯聚到相同位置,該位置設定為所有路徑達到的最大位置,以避免負相對距離,確保系統的一致性。
第三個挑戰是系統實現。傳統的AI推理引擎就像單車道的公路,只能讓車輛依次通過,無法支持多車道并行通行。研究團隊開發了"Multiverse引擎",基于SGLang框架構建了專門的解釋器來支持MapReduce執行。當模型生成特定的控制標簽時,引擎能夠動態在順序和并行生成之間切換,就像智能交通管制系統能夠根據實時情況調整車道配置。這包括從順序到并行的轉換——將子任務映射到獨立分支進行并行執行并共享前綴,以及從并行到順序的轉換——將所有分支的鍵值狀態重新合并為單一序列。
研究團隊在三個小時內使用僅1000個樣本對32B參數的Qwen-2.5模型進行微調,創造出了Multiverse-32B模型。這就像在短短幾個小時內就教會了一個學生全新的思維方式,效率之高令人驚嘆。實驗結果表明,這個模型在復雜推理任務上的表現顯著提升,在AIME24和AIME25數學競賽中分別取得了54%和46%的成績,比基礎模型提高了23.6%。更重要的是,Multiverse-32B成為了唯一一個在相同規模下能夠與頂級順序生成模型相媲美的開源非自回歸模型。
為了驗證并行生成的實際效益,研究團隊進行了預算控制實驗,在相同的上下文長度約束下(相當于相同的生成時間)比較不同模型的表現。結果顯示,Multiverse-32B通過在相同時間內生成更多有效內容,平均性能提升了1.87%。這種效率提升來源于其并行生成能力,在不同批次大小下都能實現最高2倍的實際加速。就像一個能夠同時思考多個問題的人,在相同時間內能夠得出更全面、更準確的答案。
在效率分析中,研究團隊深入研究了并行度與延遲之間的關系。通過在不同生成長度(8K、16K、32K)和批次大小(1到128)下的測試,他們發現隨著并行度的提高,每個令牌的生成延遲顯著降低。實驗數據表明,當并行度從1.0提升到1.3時,大多數情況下能夠獲得平均18.5%的加速。在更高并行度的例子中,系統甚至能夠實現2.1倍的加速。更令人印象深刻的是,這種加速效果在不同批次大小下都保持穩定,說明Multiverse的并行生成機制在內存限制的情況下仍然能夠線性擴展。
研究團隊還提供了兩種訓練數據的具體例子來展示系統的工作原理。在集體分支的例子中,系統需要計算四個點之間的距離。傳統方法需要依次計算每個點到其他點的距離,而Multiverse能夠同時計算所有點的距離,每個并行路徑負責一個點的計算任務。在選擇性分支的例子中,系統探索不同的數學證明方法,每個并行路徑嘗試一種證明策略,最后綜合最有效的證明路徑。這種設計使得AI能夠像人類數學家一樣,同時嘗試多種解題思路,然后選擇最優方案。
從技術架構的角度來看,Multiverse系統采用了精心設計的控制標簽來管理執行流程。整個MapReduce塊以標簽開始,然后進入分工階段,使用標簽定義總體目標,通過多個嵌套的標簽分解子任務。在處理階段,每個子任務獨立地在塊中并行執行。一旦所有路徑完成,標簽觸發整合階段,將獨立路徑的結果合成為最終連貫輸出。這種結構化設計確保了系統能夠自動控制何時開始并行處理,何時結束并整合結果。
實驗結果不僅證明了Multiverse在性能上的優勢,更重要的是展示了其在不同類型推理任務中的普適性。在AIME24數學競賽中,Multiverse-32B達到了53.8%的正確率,在AIME25中達到了45.8%的正確率,這些成績都顯著超過了基礎模型。在MATH500數據集上的91.8%正確率和GPQA Diamond數據集上的60.7%正確率也都表明,這種并行推理能力在各種復雜推理場景中都能發揮作用。更有趣的是,研究團隊還測試了不使用"并行思考"提示的Multiverse-32B-zero變體,發現模型仍然能夠自動產生一定程度的并行性,說明這種能力已經內化到了模型的推理過程中。
研究團隊還進行了大量的消融實驗來驗證設計選擇的合理性。他們發現,在較長的生成序列中,模型表現出較少的并行性,這主要歸因于Multiverse-1K數據集中超過16K tokens的訓練數據稀缺。這個發現為未來的改進指明了方向:通過增加更長序列的并行訓練數據,可以進一步提升模型在復雜長篇推理中的并行能力。同時,他們也驗證了數據處理流程的有效性,通過與基于相同順序數據訓練的s1.1-32B模型比較,確認了數據轉換過程成功保持了原始數據的質量。
這項研究的理論基礎同樣令人印象深刻。研究團隊在一個合成的NP困難SAT問題上證明了Multiverse是唯一能夠在無限資源情況下實現線性時間復雜度的框架。這個理論結果表明,并行推理不僅僅是一個工程優化,而是在某些問題類別上具有根本性的計算優勢。傳統的順序推理方法在這類問題上必然面臨指數級的時間復雜度,而Multiverse的遞歸MapReduce結構能夠實現最優的時間復雜度。
在實際應用的角度,Multiverse的影響遠不止于提升計算效率。它為AI系統處理復雜現實問題提供了新的可能性。想象一個AI醫生在診斷疾病時,能夠同時考慮多種可能的病因,并行分析不同的檢查結果,然后綜合所有信息給出診斷建議。或者一個AI律師能夠同時從多個法律角度分析案件,并行搜索相關判例,最后整合成完整的法律意見。這種并行推理能力使得AI能夠更好地模擬人類專家的思維過程,在面對復雜決策時展現出更高的智能水平。
研究團隊還特別關注了Multiverse的開源生態建設。他們不僅開源了完整的模型權重和訓練代碼,還提供了詳細的數據處理流程、完整的評估框架,以及所有的數據策展提示詞。這種全方位的開源策略確保了研究社區能夠快速復現和改進這項工作。特別值得一提的是,他們提供的五階段數據轉換提示詞協議可以應用于任何順序推理數據,為其他研究者構建自己的并行推理數據集提供了完整的工具鏈。
從更廣闊的視角來看,Multiverse代表了AI發展的一個重要轉折點。傳統的自回歸語言模型雖然在許多任務上表現出色,但其順序生成的本質限制了它們在復雜推理任務上的表現。Multiverse通過引入原生并行生成能力,為構建更強大的AI推理系統開辟了新的道路。這種方法不僅提升了計算效率,更重要的是讓AI能夠像人類一樣進行多維度思考,這對于實現真正的人工通用智能具有重要意義。
實驗結果還揭示了一些有趣的現象。研究團隊發現,即使在沒有明確并行指令的情況下,經過Multiverse訓練的模型也會自動展現出一定程度的并行性。這說明并行推理能力已經深度集成到了模型的內在表示中,而不僅僅是表面的行為模式。這種內在的并行能力可能會隨著訓練數據的增加和模型規模的擴大而進一步增強,為未來的發展留下了廣闊的空間。
在技術實現的細節方面,Multiverse引擎的設計體現了工程實踐的巧思。通過利用SGLang框架的連續批處理和基數注意力特性,系統能夠動態調整批處理調度和靈活復用KV緩存,這兩個特性在MapReduce的分工和整合階段頻繁發生。引擎的解釋器能夠實時解析模型生成的控制標簽,自動管理從順序到并行再到順序的復雜狀態轉換。這種設計使得Multiverse不僅在理論上優雅,在實際部署中也具有很強的實用性。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.