機器之心報道
機器之心編輯部
人人都繞不開的推薦系統,如今正被注入新的 AI 動能。
隨著 AI 領域掀起一場由大型語言模型(LLM)引領的生成式革命,它們憑借著強大的端到端學習能力、海量數據理解能力以及前所未有的內容生成潛力,開始重塑各領域的傳統技術棧。
作為互聯網流量的核心引擎,推薦系統面臨著級聯架構導致的算力碎片化、優化目標割裂等問題,并逐漸制約其創新發展。實現從碎片化拼裝到一體化整合的范式躍遷,是推薦系統重煥生機的必由之路,而利用 LLM 技術重構架構以實現效果提升、成本降低成為關鍵。
近日,快手技術團隊交出了他們的答卷,最新提出的「OneRec」首次以端到端生成式架構重構推薦系統全鏈路。在效果與成本這場看似零和的博弈中,OneRec 讓「既要又要」成為可能
- 從效果來看:將推薦模型的有效計算量提升了10 倍,更讓長期「水土不服」的強化學習技術在推薦場景煥發新生;
- 從成本來看:通過架構級創新將訓練 / 推理 MFU (模型算力利用率) 提升至 23.7%/28.8%,通信與存儲開銷銳減使得運營成本(OPEX)僅為傳統方案的 10.6%。
目前,該系統已在快手 App / 快手極速版雙端服務所有用戶,承接約 25% 的QPS(每秒請求數量),帶動 App 停留時長提升 0.54%/1.24%,關鍵指標 7 日用戶生命周期(LT7)顯著增長,為推薦系統從傳統 Pipeline 邁向端到端生成式架構提供了首個工業級可行方案。
下圖(左)展示了快手 / 快手極速版中 OneRec 與級聯推薦架構的 Online 性能比較,圖(中)展示了 OneRec 與 Linear、DLRM、SIM 的 FLOPs 比較,圖(右)展示了 OneRec 與級聯推薦架構的 OPEX 對比,以及和鏈路中計算復雜度最高的精排模型 SIM 的 MFU 對比
推薦效果與算力效率雙雙提升的背后,是 OneRec 在架構設計和訓練框架層面的一系列創新性突破。
完整技術報告鏈接:https://arxiv.org/abs/2506.13695
突破傳統級聯架構的桎梏
推薦算法從早期的因子分解機到如今的深度神經網絡,雖歷經多次革新,卻始終未能擺脫多階段級聯架構的束縛 —— 這種碎片化的設計正面臨以下三大關鍵瓶頸:
首先,算力效率低下成為致命傷。以快手為例的分析顯示,即使是推薦系統中計算復雜度最高的精排模型 (SIM),在旗艦版 GPU 上訓練 / 推理的 MFU (Model FLOPs Utilization) 也只有 4.6%/11.2%,遠低于大語言模型在 H100 上 40%-50% 的水平;
其次,目標函數沖突愈演愈烈,平臺需要同時優化用戶、創作者和生態系統的數百個目標,這些目標在不同階段相互掣肘,導致系統一致性和效率持續惡化;
更嚴峻的是,技術代差正在拉大,現有架構難以吸納 Scaling Law、強化學習等 AI 領域的最新突破,并且難以充分利用最新計算硬件的能力,使得推薦系統與主流 AI 技術的發展漸行漸遠。
面對這些挑戰,快手技術團隊提出端到端生成式推薦系統 OneRec,其核心在于利用 Encoder 壓縮用戶全生命周期行為序列實現興趣建模,同時基于 MoE 架構的 Decoder 實現超大規模參數擴展,確保短視頻推薦的端到端精準生成;配合定制化強化學習框架和極致的訓練/推理優化,使模型實現效果和效率的雙贏。
下圖為 OneRec 系統概覽。
可喜的是,這個新系統在以下幾個方面的效果顯著:
- 可以用遠低于線上系統的成本,采用更大的模型,取得更好的推薦效果;
- 在一定范圍內,找到了推薦場景的 Scaling Law;
- 過去很難影響和優化推薦結果的 RL 技術在這個架構上體現出了非常高的潛力;
- 目前該系統從訓練到 serving 架構以及 MFU 水平都和 LLM 社區接近,LLM 社區的很多技術可以很好地在這個系統上落地。
OneRec 基礎模型剖析
OneRec 采用 Encoder-Decoder 架構,將推薦問題轉化為序列生成任務,在訓練過程中使用 NTP (Next Token Prediction) 損失函數優化。下圖展示了 Encoder-Decoder 架構的完整組件。
語義分詞器
面對快手平臺上億級別的視頻內容,如何讓模型「理解」每個視頻成為關鍵挑戰。OneRec 首創了協同感知的多模態分詞方案:
- 多模態融合:同時處理視頻的標題、標簽、語音轉文字、圖像識別等多維信息。
- 協同信號集成:不僅關注內容特征,更融入用戶行為信息建模。
- 分層語義編碼:采用 RQ-Kmeans 技術,將每個視頻轉化為 3 層粗到細的語義 ID。
Encoder-Decoder 架構
在訓練階段,OneRec 通過 Encoder-Decoder 架構執行下一個 token 預測,進而實現對目標物品的預測。該架構在編解碼階段起到的作用分別如下:
- 多尺度用戶建模:編碼階段同時考慮用戶靜態特征、短期行為序列、有效觀看序列和終身行為序列。
- 專家混合解碼器:解碼階段采用逐點生成策略,通過 Mixture of Experts(MoE)架構提升模型容量和效率。
推薦系統中的 Scaling Law
參數規模實驗是 OneRec 研究中的另一亮點,它試圖回答一個根本性的問題:推薦系統是否同樣遵循大語言模型領域已被證實的 Scaling Law
實驗結果清晰地表明,隨著模型參數量從 0.015B 到 2.633B 的遞增,訓練損失呈現出明顯的下降趨勢,詳見下圖損失變化曲線。
此外,技術報告中還介紹了包含Feature Scaling、Codebook Scaling 和 Infer Scaling等,極大地利用算力來提升推薦的精度。
強化學習(RL)偏好對齊
預訓練模型雖然可以通過下一個 token 預測來擬合曝光物品的空間分布,但這些曝光物品來源于過去的傳統推薦系統,這導致模型無法突破傳統推薦系統的性能天花板。
為了解決這一挑戰,OneRec 引入了基于獎勵機制的偏好對齊方法,利用強化學習增強模型效果。通過獎勵反饋機制,模型得以感知更為細粒度的用戶偏好信息。為此,OneRec 構建了一套綜合性的獎勵系統:
- 偏好獎勵(Preference Reward):用于對齊用戶偏好。
- 格式獎勵(Format Reward):確保生成的 token 均為有效格式。
- 工業場景獎勵(Industrial Reward):滿足各類業務場景的需求。
下圖為獎勵系統總體框架。
什么樣的視頻應該被獎勵呢?OneRec 提出采用偏好獎勵模型,能基于用戶特征,輸出對不同目標預測值進行「個性化融合」后的偏好分數。用該分數「P-Score」作為強化學習的獎勵,并通過 GRPO 的改進版 ECPO(Early-Clipped GRPO)進行優化。
如下圖所示,相較于 GRPO,ECPO 對負優勢(A<0)樣本進行更嚴格的策略梯度截斷,保留樣本的同時防止梯度爆炸使訓練更加穩定。
OneRec 在快手 / 快手極速版場景中進行了強化學習的消融實驗,線上結果顯示在不損失視頻曝光量的情況下顯著提升 App 使用時長。下表展示了 OneRec 使用「P-Score」 獎勵相較于不使用情況下的各指標效果提升。
性能優化
MFU(模型浮點運算利用率)作為衡量算力效率的核心指標,傳統推薦排序模型卻長期深陷「個位數魔咒」,主要有以下兩方面的原因:
- 一是業務迭代積累的歷史包袱,如快手精排模型算子數量高達 15000+ 個,復雜結構導致無法像 LLM 那樣進行深度優化;
- 二是成本與延遲約束下的規模瓶頸,致使單個算子計算密度低下,顯存帶寬成為性能天花板,GPU 算力利用率長期低于 10%。
而 OneRec 的生成式架構帶來破局性變革:通過采用類 LLM 的 Encoder-Decoder 架構精簡組件,將關鍵算子數量壓縮 92% 至 1,200 個,配合更大模型規模提升計算密度;更通過重構推薦鏈路釋放延遲壓力,使訓練 / 推理 MFU 分別飆升至 23.7% 和 28.6%,較傳統方案實現 3-5 倍提升,首次讓推薦系統達到與主流 AI 模型比肩的算力效能水平。
此外,快手技術團隊還針對 OneRec 特性在訓練和推理框架層面進行了深度定制優化。
訓練優化
在訓練階段,OneRec 通過以下幾項核心優化實現了加速:
- 計算壓縮:針對同一請求下的多條曝光樣本(如一次下發 6 個視頻,平均 5 條曝光),這些樣本共享用戶和 context 特征。快手按請求 ID 分組,避免在 context 序列上重復執行 ffn 計算。同時,利用變長 flash attention,有效避免重復的 kv 訪存操作,進一步提升 attention 的計算密度。
- Embedding 加速優化:針對單樣本需訓練 1000 萬以上 Embedding 參數的挑戰,快手技術團隊自研了 SKAI 系統,實現了 Embedding 訓練全流程在 GPU 上完成,避免 GPU/CPU 同步中斷;通過統一 GPU 內存管理(UGMMU)大幅減少 kernel 數量;采用時間加權 LFU 智能緩存算法充分利用數據的時間局部性,并通過 Embedding 預取流水線將參數傳輸與模型計算重疊,有效隱藏傳輸延遲,整體大幅提升了 Embedding 訓練效率。
另外還有高效并行訓練、混合精度與編譯優化等關鍵優化技術
推理優化
在推理階段,OneRec 采用大 beam size(通常為 512)來提升生成式推薦的多樣性和覆蓋率。面對如此大規模的并行生成需求,快手技術團隊從計算復用、算子優化、系統調度等多個維度進行了深度優化:
- 計算復用優化: OneRec 針對大規模并行生成需求,通過多種計算復用手段大幅提升效率:首先,同一用戶請求下 encoder 側特征在所有 beam 上完全一致,因此 encoder 只需前向計算一次,避免了重復計算;其次,decoder 生成過程中 cross attention 的 key/value 在所有 beam 間共享,顯著降低顯存占用和算力消耗;同時,decoder 內部采用 KV cache 機制,緩存歷史步驟的 key/value,進一步減少重復計算。
- 算子級優化: OneRec 推理階段全面采用 Float16 混合精度計算,顯著提升了計算速度并降低了顯存占用。同時,針對 MoE、Attention、BeamSearch 等核心算子,進行了深度 kernel 融合和手工優化,有效減少了 GPU kernel 啟動和內存訪問次數,全面提升了算子計算效率和整體吞吐能力。
另外還有系統調度優化等專屬優化
通過以上系統性的優化策略,OneRec 在訓練和推理的 MFU 分別達到了 23.7% 和 28.8%,相比傳統推薦模型的 4.6% 和 11.2% 有了大幅改善。運營成本降低至傳統方案的 10.6%,實現了接近 90% 的成本節約。
Online 實驗效果
OneRec 在快手主站 / 極速雙端 App 的短視頻推薦主場景上均進行了嚴格實驗。
通過為期一周 5% 流量的 AB 測試,純生成式模型(OneRec)僅憑 RL 對齊用戶偏好即達到原有復雜推薦系統同等效果,而疊加獎勵模型選擇策略(OneRec with RM Selection)后更實現停留時長提升 0.54%/1.24%、7 日用戶生命周期(LT7)增長 0.05%/0.08% 的顯著突破 —— 須知在快手體系中,0.1% 停留時長或 0.01% LT7 提升即具統計顯著性
更值得關注的是,模型在點贊、關注、評論等所有交互指標上均取得正向收益(如下表所示),證明其能規避多任務系統的「蹺蹺板效應」實現全局最優。該系統目前已經在短視頻推薦主場景推全到所有用戶,承擔約 25% 的請求(QPS)。
除了短視頻推薦的消費場景之外,OneRec 在快手本地生活服務場景同樣表現驚艷:AB 對比實驗表明該方案推動GMV 暴漲 21.01%、訂單量提升 17.89%、購買用戶數增長 18.58%,其中新客獲取效率更實現 23.02% 的顯著提升。
目前,該業務線已實現100% 流量全量切換。值得注意的是,全量上線后的指標增長幅度較實驗階段進一步擴大,充分驗證了 OneRec 在不同業務場景的泛化能力。
結語
生成式 AI 方興未艾,正在對各個領域產生根本性的技術變革與降本增效。隨著快手 OneRec 新范式的到來,推薦系統將加速迎來「端到端生成式覺醒」時刻。
OneRec 不僅論證了推薦系統與 LLM 技術棧深度融合的必要性,更重構了互聯網核心基礎設施的技術 DNA。一方面,通過創新的端到端生成式架構重構推薦系統的技術范式;另一方面,經過極致的工程優化,在效果與效率雙重維度上實現全面超越。
當然,新系統還有很多地方需要進一步完善。快手技術團隊指出了三個待突破的方向:
- 推理能力:Infer 階段 step 的 Scaling up 能力尚不明顯,這預示著 OneRec 還不具備很強的推理能力;
- 多模態橋接:構建用戶行為模態與 LLM/VLM 的原生融合架構,借鑒 VLM 中的跨模態對齊技術,實現用戶行為序列、視頻內容與語義空間的統一學習,成為一個原生全模態的模型;
- 完備的 Reward System:目前的設計還比較初級。在 OneRec 端到端的架構下,Reward System 既能影響在線結果也能影響離線訓練,快手期望利用該能力引導模型更好地理解用戶偏好和業務需求,提供更優的推薦體驗。
可以預見,未來補上更多 AI 能力的 OneRec 無疑會更強大,從而在包括快手在內更廣泛的推薦應用場景中釋放出更大的價值。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.