網易首頁 > 網易號 > 正文申請入駐

推薦大模型來了？OneRec論文：端到端訓練如何同時吃掉效果與成本

2025-06-19 17:49:43　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

機器之心編輯部

人人都繞不開的推薦系統，如今正被注入新的 AI 動能。

隨著 AI 領域掀起一場由大型語言模型（LLM）引領的生成式革命，它們憑借著強大的端到端學習能力、海量數據理解能力以及前所未有的內容生成潛力，開始重塑各領域的傳統技術棧。

作為互聯網流量的核心引擎，推薦系統面臨著級聯架構導致的算力碎片化、優化目標割裂等問題，并逐漸制約其創新發展。實現從碎片化拼裝到一體化整合的范式躍遷，是推薦系統重煥生機的必由之路，而利用 LLM 技術重構架構以實現效果提升、成本降低成為關鍵。

近日，快手技術團隊交出了他們的答卷，最新提出的「OneRec」首次以端到端生成式架構重構推薦系統全鏈路。在效果與成本這場看似零和的博弈中，OneRec 讓「既要又要」成為可能

從效果來看：將推薦模型的有效計算量提升了10 倍，更讓長期「水土不服」的強化學習技術在推薦場景煥發新生；
從成本來看：通過架構級創新將訓練 / 推理 MFU (模型算力利用率) 提升至 23.7%/28.8%，通信與存儲開銷銳減使得運營成本（OPEX）僅為傳統方案的 10.6%。

目前，該系統已在快手 App / 快手極速版雙端服務所有用戶，承接約 25% 的QPS（每秒請求數量），帶動 App 停留時長提升 0.54%/1.24%，關鍵指標 7 日用戶生命周期（LT7）顯著增長，為推薦系統從傳統 Pipeline 邁向端到端生成式架構提供了首個工業級可行方案。

下圖（左）展示了快手 / 快手極速版中 OneRec 與級聯推薦架構的 Online 性能比較，圖（中）展示了 OneRec 與 Linear、DLRM、SIM 的 FLOPs 比較，圖（右）展示了 OneRec 與級聯推薦架構的 OPEX 對比，以及和鏈路中計算復雜度最高的精排模型 SIM 的 MFU 對比

推薦效果與算力效率雙雙提升的背后，是 OneRec 在架構設計和訓練框架層面的一系列創新性突破。

完整技術報告鏈接：https://arxiv.org/abs/2506.13695

突破傳統級聯架構的桎梏

推薦算法從早期的因子分解機到如今的深度神經網絡，雖歷經多次革新，卻始終未能擺脫多階段級聯架構的束縛 —— 這種碎片化的設計正面臨以下三大關鍵瓶頸：

首先，算力效率低下成為致命傷。以快手為例的分析顯示，即使是推薦系統中計算復雜度最高的精排模型 (SIM)，在旗艦版 GPU 上訓練 / 推理的 MFU (Model FLOPs Utilization) 也只有 4.6%/11.2%，遠低于大語言模型在 H100 上 40%-50% 的水平；

其次，目標函數沖突愈演愈烈，平臺需要同時優化用戶、創作者和生態系統的數百個目標，這些目標在不同階段相互掣肘，導致系統一致性和效率持續惡化；

更嚴峻的是，技術代差正在拉大，現有架構難以吸納 Scaling Law、強化學習等 AI 領域的最新突破，并且難以充分利用最新計算硬件的能力，使得推薦系統與主流 AI 技術的發展漸行漸遠。

面對這些挑戰，快手技術團隊提出端到端生成式推薦系統 OneRec，其核心在于利用 Encoder 壓縮用戶全生命周期行為序列實現興趣建模，同時基于 MoE 架構的 Decoder 實現超大規模參數擴展，確保短視頻推薦的端到端精準生成；配合定制化強化學習框架和極致的訓練/推理優化，使模型實現效果和效率的雙贏。

下圖為 OneRec 系統概覽。

可喜的是，這個新系統在以下幾個方面的效果顯著：

可以用遠低于線上系統的成本，采用更大的模型，取得更好的推薦效果；
在一定范圍內，找到了推薦場景的 Scaling Law；
過去很難影響和優化推薦結果的 RL 技術在這個架構上體現出了非常高的潛力；
目前該系統從訓練到 serving 架構以及 MFU 水平都和 LLM 社區接近，LLM 社區的很多技術可以很好地在這個系統上落地。

OneRec 基礎模型剖析

OneRec 采用 Encoder-Decoder 架構，將推薦問題轉化為序列生成任務，在訓練過程中使用 NTP (Next Token Prediction) 損失函數優化。下圖展示了 Encoder-Decoder 架構的完整組件。

語義分詞器

面對快手平臺上億級別的視頻內容，如何讓模型「理解」每個視頻成為關鍵挑戰。OneRec 首創了協同感知的多模態分詞方案：

多模態融合：同時處理視頻的標題、標簽、語音轉文字、圖像識別等多維信息。
協同信號集成：不僅關注內容特征，更融入用戶行為信息建模。
分層語義編碼：采用 RQ-Kmeans 技術，將每個視頻轉化為 3 層粗到細的語義 ID。

Encoder-Decoder 架構

在訓練階段，OneRec 通過 Encoder-Decoder 架構執行下一個 token 預測，進而實現對目標物品的預測。該架構在編解碼階段起到的作用分別如下：

多尺度用戶建模：編碼階段同時考慮用戶靜態特征、短期行為序列、有效觀看序列和終身行為序列。
專家混合解碼器：解碼階段采用逐點生成策略，通過 Mixture of Experts（MoE）架構提升模型容量和效率。

推薦系統中的 Scaling Law

參數規模實驗是 OneRec 研究中的另一亮點，它試圖回答一個根本性的問題：推薦系統是否同樣遵循大語言模型領域已被證實的 Scaling Law

實驗結果清晰地表明，隨著模型參數量從 0.015B 到 2.633B 的遞增，訓練損失呈現出明顯的下降趨勢，詳見下圖損失變化曲線。

此外，技術報告中還介紹了包含Feature Scaling、Codebook Scaling 和 Infer Scaling等，極大地利用算力來提升推薦的精度。

強化學習（RL）偏好對齊

預訓練模型雖然可以通過下一個 token 預測來擬合曝光物品的空間分布，但這些曝光物品來源于過去的傳統推薦系統，這導致模型無法突破傳統推薦系統的性能天花板。

為了解決這一挑戰，OneRec 引入了基于獎勵機制的偏好對齊方法，利用強化學習增強模型效果。通過獎勵反饋機制，模型得以感知更為細粒度的用戶偏好信息。為此，OneRec 構建了一套綜合性的獎勵系統：

偏好獎勵（Preference Reward）：用于對齊用戶偏好。
格式獎勵（Format Reward）：確保生成的 token 均為有效格式。
工業場景獎勵（Industrial Reward）：滿足各類業務場景的需求。

下圖為獎勵系統總體框架。

什么樣的視頻應該被獎勵呢？OneRec 提出采用偏好獎勵模型，能基于用戶特征，輸出對不同目標預測值進行「個性化融合」后的偏好分數。用該分數「P-Score」作為強化學習的獎勵，并通過 GRPO 的改進版 ECPO（Early-Clipped GRPO）進行優化。

如下圖所示，相較于 GRPO，ECPO 對負優勢（A<0）樣本進行更嚴格的策略梯度截斷，保留樣本的同時防止梯度爆炸使訓練更加穩定。

OneRec 在快手 / 快手極速版場景中進行了強化學習的消融實驗，線上結果顯示在不損失視頻曝光量的情況下顯著提升 App 使用時長。下表展示了 OneRec 使用「P-Score」獎勵相較于不使用情況下的各指標效果提升。

性能優化

MFU（模型浮點運算利用率）作為衡量算力效率的核心指標，傳統推薦排序模型卻長期深陷「個位數魔咒」，主要有以下兩方面的原因：

一是業務迭代積累的歷史包袱，如快手精排模型算子數量高達 15000+ 個，復雜結構導致無法像 LLM 那樣進行深度優化；
二是成本與延遲約束下的規模瓶頸，致使單個算子計算密度低下，顯存帶寬成為性能天花板，GPU 算力利用率長期低于 10%。

而 OneRec 的生成式架構帶來破局性變革：通過采用類 LLM 的 Encoder-Decoder 架構精簡組件，將關鍵算子數量壓縮 92% 至 1,200 個，配合更大模型規模提升計算密度；更通過重構推薦鏈路釋放延遲壓力，使訓練 / 推理 MFU 分別飆升至 23.7% 和 28.6%，較傳統方案實現 3-5 倍提升，首次讓推薦系統達到與主流 AI 模型比肩的算力效能水平。

此外，快手技術團隊還針對 OneRec 特性在訓練和推理框架層面進行了深度定制優化。

訓練優化

在訓練階段，OneRec 通過以下幾項核心優化實現了加速：

計算壓縮：針對同一請求下的多條曝光樣本（如一次下發 6 個視頻，平均 5 條曝光），這些樣本共享用戶和 context 特征。快手按請求 ID 分組，避免在 context 序列上重復執行 ffn 計算。同時，利用變長 flash attention，有效避免重復的 kv 訪存操作，進一步提升 attention 的計算密度。
Embedding 加速優化：針對單樣本需訓練 1000 萬以上 Embedding 參數的挑戰，快手技術團隊自研了 SKAI 系統，實現了 Embedding 訓練全流程在 GPU 上完成，避免 GPU/CPU 同步中斷；通過統一 GPU 內存管理（UGMMU）大幅減少 kernel 數量；采用時間加權 LFU 智能緩存算法充分利用數據的時間局部性，并通過 Embedding 預取流水線將參數傳輸與模型計算重疊，有效隱藏傳輸延遲，整體大幅提升了 Embedding 訓練效率。

另外還有高效并行訓練、混合精度與編譯優化等關鍵優化技術

推理優化

在推理階段，OneRec 采用大 beam size（通常為 512）來提升生成式推薦的多樣性和覆蓋率。面對如此大規模的并行生成需求，快手技術團隊從計算復用、算子優化、系統調度等多個維度進行了深度優化：

計算復用優化: OneRec 針對大規模并行生成需求，通過多種計算復用手段大幅提升效率：首先，同一用戶請求下 encoder 側特征在所有 beam 上完全一致，因此 encoder 只需前向計算一次，避免了重復計算；其次，decoder 生成過程中 cross attention 的 key/value 在所有 beam 間共享，顯著降低顯存占用和算力消耗；同時，decoder 內部采用 KV cache 機制，緩存歷史步驟的 key/value，進一步減少重復計算。
算子級優化: OneRec 推理階段全面采用 Float16 混合精度計算，顯著提升了計算速度并降低了顯存占用。同時，針對 MoE、Attention、BeamSearch 等核心算子，進行了深度 kernel 融合和手工優化，有效減少了 GPU kernel 啟動和內存訪問次數，全面提升了算子計算效率和整體吞吐能力。

另外還有系統調度優化等專屬優化

通過以上系統性的優化策略，OneRec 在訓練和推理的 MFU 分別達到了 23.7% 和 28.8%，相比傳統推薦模型的 4.6% 和 11.2% 有了大幅改善。運營成本降低至傳統方案的 10.6%，實現了接近 90% 的成本節約。

Online 實驗效果

OneRec 在快手主站 / 極速雙端 App 的短視頻推薦主場景上均進行了嚴格實驗。

通過為期一周 5% 流量的 AB 測試，純生成式模型（OneRec）僅憑 RL 對齊用戶偏好即達到原有復雜推薦系統同等效果，而疊加獎勵模型選擇策略（OneRec with RM Selection）后更實現停留時長提升 0.54%/1.24%、7 日用戶生命周期（LT7）增長 0.05%/0.08% 的顯著突破 —— 須知在快手體系中，0.1% 停留時長或 0.01% LT7 提升即具統計顯著性

更值得關注的是，模型在點贊、關注、評論等所有交互指標上均取得正向收益（如下表所示），證明其能規避多任務系統的「蹺蹺板效應」實現全局最優。該系統目前已經在短視頻推薦主場景推全到所有用戶，承擔約 25% 的請求（QPS）。

除了短視頻推薦的消費場景之外，OneRec 在快手本地生活服務場景同樣表現驚艷：AB 對比實驗表明該方案推動GMV 暴漲 21.01%、訂單量提升 17.89%、購買用戶數增長 18.58%，其中新客獲取效率更實現 23.02% 的顯著提升。

目前，該業務線已實現100% 流量全量切換。值得注意的是，全量上線后的指標增長幅度較實驗階段進一步擴大，充分驗證了 OneRec 在不同業務場景的泛化能力。

結語

生成式 AI 方興未艾，正在對各個領域產生根本性的技術變革與降本增效。隨著快手 OneRec 新范式的到來，推薦系統將加速迎來「端到端生成式覺醒」時刻。

OneRec 不僅論證了推薦系統與 LLM 技術棧深度融合的必要性，更重構了互聯網核心基礎設施的技術 DNA。一方面，通過創新的端到端生成式架構重構推薦系統的技術范式；另一方面，經過極致的工程優化，在效果與效率雙重維度上實現全面超越。

當然，新系統還有很多地方需要進一步完善。快手技術團隊指出了三個待突破的方向：

推理能力：Infer 階段 step 的 Scaling up 能力尚不明顯，這預示著 OneRec 還不具備很強的推理能力；
多模態橋接：構建用戶行為模態與 LLM/VLM 的原生融合架構，借鑒 VLM 中的跨模態對齊技術，實現用戶行為序列、視頻內容與語義空間的統一學習，成為一個原生全模態的模型；
完備的 Reward System：目前的設計還比較初級。在 OneRec 端到端的架構下，Reward System 既能影響在線結果也能影響離線訓練，快手期望利用該能力引導模型更好地理解用戶偏好和業務需求，提供更優的推薦體驗。

可以預見，未來補上更多 AI 能力的 OneRec 無疑會更強大，從而在包括快手在內更廣泛的推薦應用場景中釋放出更大的價值。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.