去年我們?cè)鴪?bào)道了 Prime Intellect 團(tuán)隊(duì)發(fā)布的全球首個(gè)去中心化訓(xùn)練的 10B 級(jí)別模型 INTELLECT-1,它首次驗(yàn)證了跨越廣闊地域、利用分布式 GPU 資源訓(xùn)練大規(guī)模語言模型的可能性。時(shí)隔一年,INTELLECT-2 也終于來了,這是一款參數(shù)規(guī)模達(dá)到 320 億的更為強(qiáng)大的推理模型,其核心亮點(diǎn)在于,它是全球首個(gè)通過完全異步的強(qiáng)化學(xué)習(xí)(RL,Reinforcement Learning)范式,在一個(gè)由全球貢獻(xiàn)者組成的動(dòng)態(tài)、異構(gòu)且無需許可的計(jì)算網(wǎng)絡(luò)中成功訓(xùn)練出來的模型,讓去中心化的 AI 訓(xùn)練又達(dá)到了新的高度。
專為全球分布式、異步強(qiáng)化學(xué)習(xí)設(shè)計(jì)的技術(shù)棧
去年發(fā)布的 INTELLECT-1 使用橫跨三大洲的 112 塊 GPU,基于 DeepMind 提出的 DiLoCo(Distributed Low-Communication, 分布式低通信)框架的復(fù)現(xiàn)與擴(kuò)展 OpenDiLoCo 進(jìn)行訓(xùn)練,成功驗(yàn)證了在廣域網(wǎng)絡(luò)下進(jìn)行大規(guī)模分布式訓(xùn)練的可行性。而 INTELLECT-2 則進(jìn)一步將目光投向了強(qiáng)化學(xué)習(xí),同時(shí)模型參數(shù)規(guī)模也從 10B 躍升至 320B。
實(shí)際上,強(qiáng)化學(xué)習(xí)固有的特性使其天然就適合異步和去中心化設(shè)置。其在本質(zhì)上更具異步性——政策更新可以在舊版本上生成的數(shù)據(jù)上進(jìn)行訓(xùn)練,且不需要像監(jiān)督學(xué)習(xí)那樣頻繁的參數(shù)同步。特別是在近期興起的“測(cè)試時(shí)計(jì)算”(test-time compute scaling)范式中,模型在推理過程中生成長(zhǎng)序列進(jìn)行推理,這些計(jì)算密集型操作可以在分散節(jié)點(diǎn)上高效執(zhí)行,隨后只需要將結(jié)果(而非大量中間狀態(tài))傳回進(jìn)行驗(yàn)證和訓(xùn)練。正是這種特性使得強(qiáng)化學(xué)習(xí)成為連接全球分布式計(jì)算資源的理想方法。
INTELLECT-2 專為全球分布式、異步強(qiáng)化學(xué)習(xí)設(shè)計(jì)了一套完整技術(shù)棧,團(tuán)隊(duì)從零開始構(gòu)建了多個(gè)關(guān)鍵組件,以應(yīng)對(duì)在異構(gòu)、不可靠網(wǎng)絡(luò)環(huán)境下進(jìn)行大規(guī)模 RL 訓(xùn)練的挑戰(zhàn)。
(來源:Prime Intellect)
其核心框架PRIME-RL地將強(qiáng)化學(xué)習(xí)中的推理生成、模型訓(xùn)練和策略權(quán)重廣播三個(gè)環(huán)節(jié)進(jìn)行解耦,使得訓(xùn)練能在異構(gòu)且地理位置分散的節(jié)點(diǎn)上完全異步地進(jìn)行。
在訓(xùn)練端,PRIME-RL 采用 PyTorch FSDP2 技術(shù)對(duì)模型相關(guān)狀態(tài)進(jìn)行分片,降低單節(jié)點(diǎn)顯存需求,并異步處理推理節(jié)點(diǎn)生成的 rollout 數(shù)據(jù),有效應(yīng)對(duì)策略滯后問題。推理端則利用 vLLM 框架進(jìn)行 rollout 生成,并通過優(yōu)化手段(如增量哈希激活值、CPU 與 GPU 并行處理)將驗(yàn)證證明的生成開銷降至極低,同時(shí)通過“步驟計(jì)數(shù)器”機(jī)制確保與訓(xùn)練進(jìn)度的同步。
為了在去中心化環(huán)境中高效、可靠地分發(fā)最新的策略模型權(quán)重,團(tuán)隊(duì)構(gòu)建了構(gòu)建了 Shardcast——一個(gè)通過基于 HTTP 的樹狀拓?fù)渚W(wǎng)絡(luò)分發(fā)大文件的庫。
它構(gòu)建了一個(gè)類似 CDN 的中繼服務(wù)器網(wǎng)絡(luò),將訓(xùn)練主服務(wù)器產(chǎn)生的檢查點(diǎn)分片并以流水線方式流式傳輸,允許推理節(jié)點(diǎn)在完整檢查點(diǎn)可用前即開始下載,顯著減少等待延遲。SHARDCAST 通過 IP 速率限制、動(dòng)態(tài)防火墻規(guī)則、基于預(yù)期的概率性服務(wù)器采樣(實(shí)現(xiàn)負(fù)載均衡與最大化吞吐量)以及 SHA-256 校驗(yàn)和比對(duì)等多重機(jī)制,確保了權(quán)重廣播的安全、高效與完整性。
圖丨Shardcast 概述(來源:Prime Intellect)
由于推理節(jié)點(diǎn)是無需許可且不可信的,驗(yàn)證其計(jì)算真實(shí)性至關(guān)重要。為此,Prime Intellect 設(shè)計(jì)了TOPLOC(局部敏感哈希的無信任可驗(yàn)證推理方案)和Prime Intellect 協(xié)議
TOPLOC 允許受信任的驗(yàn)證者節(jié)點(diǎn)高效審計(jì)推理節(jié)點(diǎn)生成的加密承諾,確保其計(jì)算的正確性,并通過采樣檢查(如終止檢查、令牌采樣檢查)和健全性檢查(如固定數(shù)據(jù)采樣、值范圍檢查)進(jìn)一步保障數(shù)據(jù)質(zhì)量。
Prime Intellect 協(xié)議則扮演了整個(gè)去中心化網(wǎng)絡(luò)的“大腦”,通過 Rust 實(shí)現(xiàn)的去中心化賬本、工作者軟件、發(fā)現(xiàn)服務(wù)和協(xié)調(diào)器,實(shí)現(xiàn)了對(duì)節(jié)點(diǎn)的自動(dòng)注冊(cè)、硬件檢查、心跳監(jiān)控、任務(wù)調(diào)度與分發(fā)(采用拉取模式)、以及貢獻(xiàn)記錄等功能,構(gòu)建了一個(gè)類似于去中心化 SLURM 的系統(tǒng),有效協(xié)調(diào)全球計(jì)算資源。
受益于 Qwen 和 DeepSeek 的模型訓(xùn)練
INTELLECT-2 的訓(xùn)練基于 QwQ-32B 模型,并很大程度上遵循了 DeepSeek-R1 的 GRPO(Group Relative Policy Optimization)訓(xùn)練方法,但進(jìn)行了多項(xiàng)關(guān)鍵修改。
訓(xùn)練始于一個(gè)包含 28.5 萬個(gè)可驗(yàn)證數(shù)學(xué)與編碼任務(wù)的數(shù)據(jù)集(來自 NuminaMath-1.5、Deepscaler 和 SYNTHETIC-1)。它采用雙重目標(biāo):二元任務(wù)獎(jiǎng)勵(lì)(正確為 1,錯(cuò)誤為 0)和長(zhǎng)度獎(jiǎng)勵(lì),后者使用戶能夠在推理時(shí)控制“思考令牌”的數(shù)量。這種設(shè)計(jì)允許模型學(xué)習(xí)在解決數(shù)學(xué)和編碼問題的同時(shí),根據(jù)用戶指定的思考長(zhǎng)度控制其推理過程,提供了靈活性和可控性。
為了適應(yīng)去中心化環(huán)境并提高效率,訓(xùn)練采用了多步異步強(qiáng)化學(xué)習(xí)。實(shí)驗(yàn)表明,即使存在多達(dá)四步的異步延遲,模型性能也能與同步基線持平,證明了在輕微離策略數(shù)據(jù)上訓(xùn)練的有效性。數(shù)據(jù)過濾在其中發(fā)揮了重要作用,團(tuán)隊(duì)結(jié)合了離線過濾(預(yù)先篩選掉對(duì)基模型而言過易或過難的問題)和在線過濾(確保訓(xùn)練批次中包含足夠數(shù)量的具有非零優(yōu)勢(shì)值的樣本),這不僅提升了學(xué)習(xí)效率,也間接增加了對(duì)去中心化推理節(jié)點(diǎn)的需求。
(來源:Prime Intellect)
為了應(yīng)對(duì)訓(xùn)練過程中(尤其是訓(xùn)練大型模型時(shí))常見的損失尖峰和梯度爆炸等不穩(wěn)定性問題,團(tuán)隊(duì)引入了雙邊令牌概率比率裁剪(Two-Sided GRPO Clipping)機(jī)制,為負(fù)優(yōu)勢(shì)情況下的概率比率添加上界,顯著緩解了傳統(tǒng) PPO 類算法中可能出現(xiàn)的巨大損失值和梯度更新問題。
團(tuán)隊(duì)還觀察到,隨著訓(xùn)練進(jìn)行,即使在沒有立即尖峰的情況下,梯度范數(shù)也會(huì)逐漸但持續(xù)增加。這種現(xiàn)象似乎與模型大小相關(guān),在更大的架構(gòu)中更為明顯。他們發(fā)現(xiàn),采用激進(jìn)的梯度裁剪(閾值低至 0.05-0.1)能有效緩解穩(wěn)定性問題,而不顯著阻礙收斂,在穩(wěn)定性和訓(xùn)練效率之間取得了平衡。
(來源:Prime Intellect)
那么這種訓(xùn)練的效率究竟如何呢?團(tuán)隊(duì)采用兩種設(shè)置進(jìn)行了實(shí)驗(yàn):
- TARGET-SHORT:使用較短目標(biāo)長(zhǎng)度(1000、2000、3000、4000)訓(xùn)練高效推理模型
- TARGET-LONG:使用較長(zhǎng)目標(biāo)長(zhǎng)度(2000、4000、6000、8000、10000)的主要運(yùn)行
在計(jì)算利用率方面,SHARDCAST 向所有節(jié)點(diǎn)廣播權(quán)重(62GB)平均耗時(shí) 14 分鐘,對(duì)應(yīng)約 590Mb/s 的帶寬吞吐量。連接性好的節(jié)點(diǎn)能更早收到檢查點(diǎn)并開始生成數(shù)據(jù)。
在 TARGET-SHORT 設(shè)置中,首個(gè)數(shù)據(jù)文件在廣播完成約 10 分鐘后提交,由于 TOPLOC 的高效驗(yàn)證(通常 1 分鐘內(nèi)完成),約 22 分鐘后即可收集到足夠用于一個(gè)批次的已驗(yàn)證樣本。
TARGET-LONG 場(chǎng)景則需約 29 分鐘。兩個(gè)實(shí)驗(yàn)中,訓(xùn)練與推理的 FLOPs 比率平均為 4.5 倍,即去中心化推理節(jié)點(diǎn)消耗的計(jì)算量遠(yuǎn)大于訓(xùn)練節(jié)點(diǎn)。這種異步設(shè)置有效實(shí)現(xiàn)了計(jì)算與通信(廣播、推理生成、驗(yàn)證)的重疊,最大限度減少了訓(xùn)練 GPU 的空閑時(shí)間。
從獎(jiǎng)勵(lì)軌跡來看,兩個(gè)實(shí)驗(yàn)均顯示模型在解決數(shù)學(xué)和編碼問題的能力上(任務(wù)獎(jiǎng)勵(lì))取得了顯著提升。長(zhǎng)度懲罰也有所減少,但收斂速度慢于預(yù)期,表明模型在實(shí)驗(yàn)時(shí)間內(nèi)未能完全精確地學(xué)會(huì)遵循思考預(yù)算。
在多個(gè)標(biāo)準(zhǔn)推理基準(zhǔn)測(cè)試中,INTELLECT-2 相較于其基模型 QwQ-32B,在數(shù)學(xué)和編碼能力上有所提升,但在更通用的指令遵循任務(wù)上略有下降,這可能是因?yàn)槠溆?xùn)練數(shù)據(jù)僅專注于數(shù)學(xué)和編碼,而非更通用的指令遵循任務(wù)。
圖丨基準(zhǔn)測(cè)試結(jié)果(來源:Prime Intellect)
為 AI 的民主化和開源發(fā)展開辟新道路
不過,相比起模型的能力提升,INTELLECT-2 更重要的意義在于進(jìn)一步拓展了分布式訓(xùn)練的邊界,證明了在全球范圍內(nèi),通過無需許可的貢獻(xiàn)者網(wǎng)絡(luò)進(jìn)行復(fù)雜的強(qiáng)化學(xué)習(xí)以及更大規(guī)模的模型是完全可行的。這為 AI 的民主化和開源發(fā)展開辟了新的道路。
這一探索方向也獲得了資本市場(chǎng)的積極響應(yīng)。繼 2024 年早些時(shí)候由 Distributed Global 和 CoinFund 共同領(lǐng)投的 550 萬美元種子輪融資后,最近他們又成功完成了由 Founders Fund 和 Menlo Ventures 領(lǐng)投,并有 Andrej Karpathy、Clem Delangue 和 Emad Mostaque 等 AI 領(lǐng)域先驅(qū)人物參投的 1,500 萬美元融資,使其總?cè)谫Y額超過 2,000 萬美元。
未來,Prime Intellect 團(tuán)隊(duì)計(jì)劃在現(xiàn)有基礎(chǔ)上持續(xù)深耕。他們將致力于提高推理與訓(xùn)練的計(jì)算比率,進(jìn)一步發(fā)揮去中心化推理的優(yōu)勢(shì);探索為推理模型引入工具調(diào)用能力,以增強(qiáng)其實(shí)際應(yīng)用價(jià)值;并積極推動(dòng)眾包 RL 任務(wù)和環(huán)境的建設(shè),構(gòu)建更加豐富和多樣化的訓(xùn)練生態(tài)。
同時(shí),模型合并技術(shù)與 DiLoCo 框架在強(qiáng)化學(xué)習(xí)場(chǎng)景下的應(yīng)用潛力也將是他們未來研究的重點(diǎn)方向,這有望將去中心化訓(xùn)練的規(guī)模和效率再提升一個(gè)數(shù)量級(jí)。
參考資料:
1.https://www.primeintellect.ai/blog/intellect-2#intellect-2-model-and-training-details
2.http://primeintellect.ai/intellect-2?_gl=1*1r01y4g*_gcl_au*MTgxMDE2Njk5NS4xNzQ0NzY0NDUy
運(yùn)營(yíng)/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.