機(jī)器之心報(bào)道
機(jī)器之心編輯部
人人都繞不開(kāi)的推薦系統(tǒng),如今正被注入新的 AI 動(dòng)能。
隨著 AI 領(lǐng)域掀起一場(chǎng)由大型語(yǔ)言模型(LLM)引領(lǐng)的生成式革命,它們憑借著強(qiáng)大的端到端學(xué)習(xí)能力、海量數(shù)據(jù)理解能力以及前所未有的內(nèi)容生成潛力,開(kāi)始重塑各領(lǐng)域的傳統(tǒng)技術(shù)棧。
作為互聯(lián)網(wǎng)流量的核心引擎,推薦系統(tǒng)面臨著級(jí)聯(lián)架構(gòu)導(dǎo)致的算力碎片化、優(yōu)化目標(biāo)割裂等問(wèn)題,并逐漸制約其創(chuàng)新發(fā)展。實(shí)現(xiàn)從碎片化拼裝到一體化整合的范式躍遷,是推薦系統(tǒng)重?zé)ㄉ鷻C(jī)的必由之路,而利用 LLM 技術(shù)重構(gòu)架構(gòu)以實(shí)現(xiàn)效果提升、成本降低成為關(guān)鍵。
近日,快手技術(shù)團(tuán)隊(duì)交出了他們的答卷,最新提出的「OneRec」首次以端到端生成式架構(gòu)重構(gòu)推薦系統(tǒng)全鏈路。在效果與成本這場(chǎng)看似零和的博弈中,OneRec 讓「既要又要」成為可能
- 從效果來(lái)看:將推薦模型的有效計(jì)算量提升了10 倍,更讓長(zhǎng)期「水土不服」的強(qiáng)化學(xué)習(xí)技術(shù)在推薦場(chǎng)景煥發(fā)新生;
- 從成本來(lái)看:通過(guò)架構(gòu)級(jí)創(chuàng)新將訓(xùn)練 / 推理 MFU (模型算力利用率) 提升至 23.7%/28.8%,通信與存儲(chǔ)開(kāi)銷(xiāo)銳減使得運(yùn)營(yíng)成本(OPEX)僅為傳統(tǒng)方案的 10.6%。
目前,該系統(tǒng)已在快手 App / 快手極速版雙端服務(wù)所有用戶,承接約 25% 的QPS(每秒請(qǐng)求數(shù)量),帶動(dòng) App 停留時(shí)長(zhǎng)提升 0.54%/1.24%,關(guān)鍵指標(biāo) 7 日用戶生命周期(LT7)顯著增長(zhǎng),為推薦系統(tǒng)從傳統(tǒng) Pipeline 邁向端到端生成式架構(gòu)提供了首個(gè)工業(yè)級(jí)可行方案。
下圖(左)展示了快手 / 快手極速版中 OneRec 與級(jí)聯(lián)推薦架構(gòu)的 Online 性能比較,圖(中)展示了 OneRec 與 Linear、DLRM、SIM 的 FLOPs 比較,圖(右)展示了 OneRec 與級(jí)聯(lián)推薦架構(gòu)的 OPEX 對(duì)比,以及和鏈路中計(jì)算復(fù)雜度最高的精排模型 SIM 的 MFU 對(duì)比
推薦效果與算力效率雙雙提升的背后,是 OneRec 在架構(gòu)設(shè)計(jì)和訓(xùn)練框架層面的一系列創(chuàng)新性突破。
完整技術(shù)報(bào)告鏈接:https://arxiv.org/abs/2506.13695
突破傳統(tǒng)級(jí)聯(lián)架構(gòu)的桎梏
推薦算法從早期的因子分解機(jī)到如今的深度神經(jīng)網(wǎng)絡(luò),雖歷經(jīng)多次革新,卻始終未能擺脫多階段級(jí)聯(lián)架構(gòu)的束縛 —— 這種碎片化的設(shè)計(jì)正面臨以下三大關(guān)鍵瓶頸:
首先,算力效率低下成為致命傷。以快手為例的分析顯示,即使是推薦系統(tǒng)中計(jì)算復(fù)雜度最高的精排模型 (SIM),在旗艦版 GPU 上訓(xùn)練 / 推理的 MFU (Model FLOPs Utilization) 也只有 4.6%/11.2%,遠(yuǎn)低于大語(yǔ)言模型在 H100 上 40%-50% 的水平;
其次,目標(biāo)函數(shù)沖突愈演愈烈,平臺(tái)需要同時(shí)優(yōu)化用戶、創(chuàng)作者和生態(tài)系統(tǒng)的數(shù)百個(gè)目標(biāo),這些目標(biāo)在不同階段相互掣肘,導(dǎo)致系統(tǒng)一致性和效率持續(xù)惡化;
更嚴(yán)峻的是,技術(shù)代差正在拉大,現(xiàn)有架構(gòu)難以吸納 Scaling Law、強(qiáng)化學(xué)習(xí)等 AI 領(lǐng)域的最新突破,并且難以充分利用最新計(jì)算硬件的能力,使得推薦系統(tǒng)與主流 AI 技術(shù)的發(fā)展?jié)u行漸遠(yuǎn)。
面對(duì)這些挑戰(zhàn),快手技術(shù)團(tuán)隊(duì)提出端到端生成式推薦系統(tǒng) OneRec,其核心在于利用 Encoder 壓縮用戶全生命周期行為序列實(shí)現(xiàn)興趣建模,同時(shí)基于 MoE 架構(gòu)的 Decoder 實(shí)現(xiàn)超大規(guī)模參數(shù)擴(kuò)展,確保短視頻推薦的端到端精準(zhǔn)生成;配合定制化強(qiáng)化學(xué)習(xí)框架和極致的訓(xùn)練/推理優(yōu)化,使模型實(shí)現(xiàn)效果和效率的雙贏。
下圖為 OneRec 系統(tǒng)概覽。
可喜的是,這個(gè)新系統(tǒng)在以下幾個(gè)方面的效果顯著:
- 可以用遠(yuǎn)低于線上系統(tǒng)的成本,采用更大的模型,取得更好的推薦效果;
- 在一定范圍內(nèi),找到了推薦場(chǎng)景的 Scaling Law;
- 過(guò)去很難影響和優(yōu)化推薦結(jié)果的 RL 技術(shù)在這個(gè)架構(gòu)上體現(xiàn)出了非常高的潛力;
- 目前該系統(tǒng)從訓(xùn)練到 serving 架構(gòu)以及 MFU 水平都和 LLM 社區(qū)接近,LLM 社區(qū)的很多技術(shù)可以很好地在這個(gè)系統(tǒng)上落地。
OneRec 基礎(chǔ)模型剖析
OneRec 采用 Encoder-Decoder 架構(gòu),將推薦問(wèn)題轉(zhuǎn)化為序列生成任務(wù),在訓(xùn)練過(guò)程中使用 NTP (Next Token Prediction) 損失函數(shù)優(yōu)化。下圖展示了 Encoder-Decoder 架構(gòu)的完整組件。
語(yǔ)義分詞器
面對(duì)快手平臺(tái)上億級(jí)別的視頻內(nèi)容,如何讓模型「理解」每個(gè)視頻成為關(guān)鍵挑戰(zhàn)。OneRec 首創(chuàng)了協(xié)同感知的多模態(tài)分詞方案:
- 多模態(tài)融合:同時(shí)處理視頻的標(biāo)題、標(biāo)簽、語(yǔ)音轉(zhuǎn)文字、圖像識(shí)別等多維信息。
- 協(xié)同信號(hào)集成:不僅關(guān)注內(nèi)容特征,更融入用戶行為信息建模。
- 分層語(yǔ)義編碼:采用 RQ-Kmeans 技術(shù),將每個(gè)視頻轉(zhuǎn)化為 3 層粗到細(xì)的語(yǔ)義 ID。
Encoder-Decoder 架構(gòu)
在訓(xùn)練階段,OneRec 通過(guò) Encoder-Decoder 架構(gòu)執(zhí)行下一個(gè) token 預(yù)測(cè),進(jìn)而實(shí)現(xiàn)對(duì)目標(biāo)物品的預(yù)測(cè)。該架構(gòu)在編解碼階段起到的作用分別如下:
- 多尺度用戶建模:編碼階段同時(shí)考慮用戶靜態(tài)特征、短期行為序列、有效觀看序列和終身行為序列。
- 專家混合解碼器:解碼階段采用逐點(diǎn)生成策略,通過(guò) Mixture of Experts(MoE)架構(gòu)提升模型容量和效率。
推薦系統(tǒng)中的 Scaling Law
參數(shù)規(guī)模實(shí)驗(yàn)是 OneRec 研究中的另一亮點(diǎn),它試圖回答一個(gè)根本性的問(wèn)題:推薦系統(tǒng)是否同樣遵循大語(yǔ)言模型領(lǐng)域已被證實(shí)的 Scaling Law
實(shí)驗(yàn)結(jié)果清晰地表明,隨著模型參數(shù)量從 0.015B 到 2.633B 的遞增,訓(xùn)練損失呈現(xiàn)出明顯的下降趨勢(shì),詳見(jiàn)下圖損失變化曲線。
此外,技術(shù)報(bào)告中還介紹了包含Feature Scaling、Codebook Scaling 和 Infer Scaling等,極大地利用算力來(lái)提升推薦的精度。
強(qiáng)化學(xué)習(xí)(RL)偏好對(duì)齊
預(yù)訓(xùn)練模型雖然可以通過(guò)下一個(gè) token 預(yù)測(cè)來(lái)擬合曝光物品的空間分布,但這些曝光物品來(lái)源于過(guò)去的傳統(tǒng)推薦系統(tǒng),這導(dǎo)致模型無(wú)法突破傳統(tǒng)推薦系統(tǒng)的性能天花板。
為了解決這一挑戰(zhàn),OneRec 引入了基于獎(jiǎng)勵(lì)機(jī)制的偏好對(duì)齊方法,利用強(qiáng)化學(xué)習(xí)增強(qiáng)模型效果。通過(guò)獎(jiǎng)勵(lì)反饋機(jī)制,模型得以感知更為細(xì)粒度的用戶偏好信息。為此,OneRec 構(gòu)建了一套綜合性的獎(jiǎng)勵(lì)系統(tǒng):
- 偏好獎(jiǎng)勵(lì)(Preference Reward):用于對(duì)齊用戶偏好。
- 格式獎(jiǎng)勵(lì)(Format Reward):確保生成的 token 均為有效格式。
- 工業(yè)場(chǎng)景獎(jiǎng)勵(lì)(Industrial Reward):滿足各類業(yè)務(wù)場(chǎng)景的需求。
下圖為獎(jiǎng)勵(lì)系統(tǒng)總體框架。
什么樣的視頻應(yīng)該被獎(jiǎng)勵(lì)呢?OneRec 提出采用偏好獎(jiǎng)勵(lì)模型,能基于用戶特征,輸出對(duì)不同目標(biāo)預(yù)測(cè)值進(jìn)行「個(gè)性化融合」后的偏好分?jǐn)?shù)。用該分?jǐn)?shù)「P-Score」作為強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì),并通過(guò) GRPO 的改進(jìn)版 ECPO(Early-Clipped GRPO)進(jìn)行優(yōu)化。
如下圖所示,相較于 GRPO,ECPO 對(duì)負(fù)優(yōu)勢(shì)(A<0)樣本進(jìn)行更嚴(yán)格的策略梯度截?cái)啵A魳颖镜耐瑫r(shí)防止梯度爆炸使訓(xùn)練更加穩(wěn)定。
OneRec 在快手 / 快手極速版場(chǎng)景中進(jìn)行了強(qiáng)化學(xué)習(xí)的消融實(shí)驗(yàn),線上結(jié)果顯示在不損失視頻曝光量的情況下顯著提升 App 使用時(shí)長(zhǎng)。下表展示了 OneRec 使用「P-Score」 獎(jiǎng)勵(lì)相較于不使用情況下的各指標(biāo)效果提升。
性能優(yōu)化
MFU(模型浮點(diǎn)運(yùn)算利用率)作為衡量算力效率的核心指標(biāo),傳統(tǒng)推薦排序模型卻長(zhǎng)期深陷「個(gè)位數(shù)魔咒」,主要有以下兩方面的原因:
- 一是業(yè)務(wù)迭代積累的歷史包袱,如快手精排模型算子數(shù)量高達(dá) 15000+ 個(gè),復(fù)雜結(jié)構(gòu)導(dǎo)致無(wú)法像 LLM 那樣進(jìn)行深度優(yōu)化;
- 二是成本與延遲約束下的規(guī)模瓶頸,致使單個(gè)算子計(jì)算密度低下,顯存帶寬成為性能天花板,GPU 算力利用率長(zhǎng)期低于 10%。
而 OneRec 的生成式架構(gòu)帶來(lái)破局性變革:通過(guò)采用類 LLM 的 Encoder-Decoder 架構(gòu)精簡(jiǎn)組件,將關(guān)鍵算子數(shù)量壓縮 92% 至 1,200 個(gè),配合更大模型規(guī)模提升計(jì)算密度;更通過(guò)重構(gòu)推薦鏈路釋放延遲壓力,使訓(xùn)練 / 推理 MFU 分別飆升至 23.7% 和 28.6%,較傳統(tǒng)方案實(shí)現(xiàn) 3-5 倍提升,首次讓推薦系統(tǒng)達(dá)到與主流 AI 模型比肩的算力效能水平。
此外,快手技術(shù)團(tuán)隊(duì)還針對(duì) OneRec 特性在訓(xùn)練和推理框架層面進(jìn)行了深度定制優(yōu)化。
訓(xùn)練優(yōu)化
在訓(xùn)練階段,OneRec 通過(guò)以下幾項(xiàng)核心優(yōu)化實(shí)現(xiàn)了加速:
- 計(jì)算壓縮:針對(duì)同一請(qǐng)求下的多條曝光樣本(如一次下發(fā) 6 個(gè)視頻,平均 5 條曝光),這些樣本共享用戶和 context 特征。快手按請(qǐng)求 ID 分組,避免在 context 序列上重復(fù)執(zhí)行 ffn 計(jì)算。同時(shí),利用變長(zhǎng) flash attention,有效避免重復(fù)的 kv 訪存操作,進(jìn)一步提升 attention 的計(jì)算密度。
- Embedding 加速優(yōu)化:針對(duì)單樣本需訓(xùn)練 1000 萬(wàn)以上 Embedding 參數(shù)的挑戰(zhàn),快手技術(shù)團(tuán)隊(duì)自研了 SKAI 系統(tǒng),實(shí)現(xiàn)了 Embedding 訓(xùn)練全流程在 GPU 上完成,避免 GPU/CPU 同步中斷;通過(guò)統(tǒng)一 GPU 內(nèi)存管理(UGMMU)大幅減少 kernel 數(shù)量;采用時(shí)間加權(quán) LFU 智能緩存算法充分利用數(shù)據(jù)的時(shí)間局部性,并通過(guò) Embedding 預(yù)取流水線將參數(shù)傳輸與模型計(jì)算重疊,有效隱藏傳輸延遲,整體大幅提升了 Embedding 訓(xùn)練效率。
另外還有高效并行訓(xùn)練、混合精度與編譯優(yōu)化等關(guān)鍵優(yōu)化技術(shù)
推理優(yōu)化
在推理階段,OneRec 采用大 beam size(通常為 512)來(lái)提升生成式推薦的多樣性和覆蓋率。面對(duì)如此大規(guī)模的并行生成需求,快手技術(shù)團(tuán)隊(duì)從計(jì)算復(fù)用、算子優(yōu)化、系統(tǒng)調(diào)度等多個(gè)維度進(jìn)行了深度優(yōu)化:
- 計(jì)算復(fù)用優(yōu)化: OneRec 針對(duì)大規(guī)模并行生成需求,通過(guò)多種計(jì)算復(fù)用手段大幅提升效率:首先,同一用戶請(qǐng)求下 encoder 側(cè)特征在所有 beam 上完全一致,因此 encoder 只需前向計(jì)算一次,避免了重復(fù)計(jì)算;其次,decoder 生成過(guò)程中 cross attention 的 key/value 在所有 beam 間共享,顯著降低顯存占用和算力消耗;同時(shí),decoder 內(nèi)部采用 KV cache 機(jī)制,緩存歷史步驟的 key/value,進(jìn)一步減少重復(fù)計(jì)算。
- 算子級(jí)優(yōu)化: OneRec 推理階段全面采用 Float16 混合精度計(jì)算,顯著提升了計(jì)算速度并降低了顯存占用。同時(shí),針對(duì) MoE、Attention、BeamSearch 等核心算子,進(jìn)行了深度 kernel 融合和手工優(yōu)化,有效減少了 GPU kernel 啟動(dòng)和內(nèi)存訪問(wèn)次數(shù),全面提升了算子計(jì)算效率和整體吞吐能力。
另外還有系統(tǒng)調(diào)度優(yōu)化等專屬優(yōu)化
通過(guò)以上系統(tǒng)性的優(yōu)化策略,OneRec 在訓(xùn)練和推理的 MFU 分別達(dá)到了 23.7% 和 28.8%,相比傳統(tǒng)推薦模型的 4.6% 和 11.2% 有了大幅改善。運(yùn)營(yíng)成本降低至傳統(tǒng)方案的 10.6%,實(shí)現(xiàn)了接近 90% 的成本節(jié)約。
Online 實(shí)驗(yàn)效果
OneRec 在快手主站 / 極速雙端 App 的短視頻推薦主場(chǎng)景上均進(jìn)行了嚴(yán)格實(shí)驗(yàn)。
通過(guò)為期一周 5% 流量的 AB 測(cè)試,純生成式模型(OneRec)僅憑 RL 對(duì)齊用戶偏好即達(dá)到原有復(fù)雜推薦系統(tǒng)同等效果,而疊加獎(jiǎng)勵(lì)模型選擇策略(OneRec with RM Selection)后更實(shí)現(xiàn)停留時(shí)長(zhǎng)提升 0.54%/1.24%、7 日用戶生命周期(LT7)增長(zhǎng) 0.05%/0.08% 的顯著突破 —— 須知在快手體系中,0.1% 停留時(shí)長(zhǎng)或 0.01% LT7 提升即具統(tǒng)計(jì)顯著性
更值得關(guān)注的是,模型在點(diǎn)贊、關(guān)注、評(píng)論等所有交互指標(biāo)上均取得正向收益(如下表所示),證明其能規(guī)避多任務(wù)系統(tǒng)的「蹺蹺板效應(yīng)」實(shí)現(xiàn)全局最優(yōu)。該系統(tǒng)目前已經(jīng)在短視頻推薦主場(chǎng)景推全到所有用戶,承擔(dān)約 25% 的請(qǐng)求(QPS)。
除了短視頻推薦的消費(fèi)場(chǎng)景之外,OneRec 在快手本地生活服務(wù)場(chǎng)景同樣表現(xiàn)驚艷:AB 對(duì)比實(shí)驗(yàn)表明該方案推動(dòng)GMV 暴漲 21.01%、訂單量提升 17.89%、購(gòu)買(mǎi)用戶數(shù)增長(zhǎng) 18.58%,其中新客獲取效率更實(shí)現(xiàn) 23.02% 的顯著提升。
目前,該業(yè)務(wù)線已實(shí)現(xiàn)100% 流量全量切換。值得注意的是,全量上線后的指標(biāo)增長(zhǎng)幅度較實(shí)驗(yàn)階段進(jìn)一步擴(kuò)大,充分驗(yàn)證了 OneRec 在不同業(yè)務(wù)場(chǎng)景的泛化能力。
結(jié)語(yǔ)
生成式 AI 方興未艾,正在對(duì)各個(gè)領(lǐng)域產(chǎn)生根本性的技術(shù)變革與降本增效。隨著快手 OneRec 新范式的到來(lái),推薦系統(tǒng)將加速迎來(lái)「端到端生成式覺(jué)醒」時(shí)刻。
OneRec 不僅論證了推薦系統(tǒng)與 LLM 技術(shù)棧深度融合的必要性,更重構(gòu)了互聯(lián)網(wǎng)核心基礎(chǔ)設(shè)施的技術(shù) DNA。一方面,通過(guò)創(chuàng)新的端到端生成式架構(gòu)重構(gòu)推薦系統(tǒng)的技術(shù)范式;另一方面,經(jīng)過(guò)極致的工程優(yōu)化,在效果與效率雙重維度上實(shí)現(xiàn)全面超越。
當(dāng)然,新系統(tǒng)還有很多地方需要進(jìn)一步完善。快手技術(shù)團(tuán)隊(duì)指出了三個(gè)待突破的方向:
- 推理能力:Infer 階段 step 的 Scaling up 能力尚不明顯,這預(yù)示著 OneRec 還不具備很強(qiáng)的推理能力;
- 多模態(tài)橋接:構(gòu)建用戶行為模態(tài)與 LLM/VLM 的原生融合架構(gòu),借鑒 VLM 中的跨模態(tài)對(duì)齊技術(shù),實(shí)現(xiàn)用戶行為序列、視頻內(nèi)容與語(yǔ)義空間的統(tǒng)一學(xué)習(xí),成為一個(gè)原生全模態(tài)的模型;
- 完備的 Reward System:目前的設(shè)計(jì)還比較初級(jí)。在 OneRec 端到端的架構(gòu)下,Reward System 既能影響在線結(jié)果也能影響離線訓(xùn)練,快手期望利用該能力引導(dǎo)模型更好地理解用戶偏好和業(yè)務(wù)需求,提供更優(yōu)的推薦體驗(yàn)。
可以預(yù)見(jiàn),未來(lái)補(bǔ)上更多 AI 能力的 OneRec 無(wú)疑會(huì)更強(qiáng)大,從而在包括快手在內(nèi)更廣泛的推薦應(yīng)用場(chǎng)景中釋放出更大的價(jià)值。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.