允中 發自 凹非寺
量子位 | 公眾號 QbitAI
在推薦、廣告場景,如何利用好大模型的能力?這是個很有挑戰的命題。
背后主要有兩個核心難點:
1)LLM雖然具備豐富的世界知識和推理能力,但缺乏電商領域的專業知識,在直接應用中往往表現欠佳。
2)LLM的交互方式多為文本,而直接將用戶歷史行為以文本格式描述會導致輸入信息冗長、信息密度低等問題,對建模和推理都造成了困擾。
為了解決以上問題,阿里媽媽提出了一種世界知識大模型URM,通過知識注入和信息對齊,讓LLM成為兼顧世界知識和電商知識的專家。相比于傳統的推薦模型,URM通過對用戶興趣的全面理解,可實現基于推理認知能力的用戶興趣推薦。
為了在低時延、高QPS要求的實際系統中上線應用,阿里媽媽技術團隊設計了一套面向用戶行為動態捕捉的異步推理鏈路。
目前,URM已經在阿里媽媽展示廣告場景上線,在商家的投放效果和消費者的購物體驗等指標上均帶來了顯著提升。
以下面這個例子為例,一個對嵌入式家電、收納用品有過歷史行為的用戶,系統推測用戶在關注裝修且處于硬裝的早期階段,且根據點擊商品推斷用戶比較注重生活品質,因此推薦了一些全屋定制類產品以及高品質的家電。
在傳統推薦任務之外,通過特定的文字引導,URM可結合用戶的歷史興趣產出更適合當前情境的結果。通過用戶行為我們推測用戶是一位男童的母親,并且關注過兒童的新年衣服和女士牛仔褲。
當引導詞增加新年時,推薦結果以兒童新年服裝為主,而傳統任務下系統會傾向于推薦用戶近期瀏覽較多的女式牛仔褲。
本屆互聯網技術領域國際頂級學術會議-國際萬維網大會(International World Wide Web Conference,簡稱WWW)于4月28日在悉尼召開。
會議期間,淘天集團的阿里媽媽共同主持一個計算廣告算法技術相關的Tutorial(講座),內容為介紹計算廣告領域的技術發展脈絡,以及阿里媽媽在該領域的最新技術突破——
阿里媽媽LMA2廣告大模型系列中的URM(Universal Recommendation Model)世界知識大模型,首次重磅亮相。
世界知識大模型URM
個性化推薦在人們的日常生活中出現頻率越來越高。為了滿足用戶的多樣化需求,推薦系統中的任務定義也更加多元化,如多場景推薦、多目標推薦、發現性推薦等等。
參考LLM在自然語言處理領域的巨大成功,阿里媽媽技術團隊希望基于LLM構建電商領域的世界知識大模型,使得它能同時具備LLM的世界知識和電商領域的專業知識,且能夠輕松應對上述全部任務。
基于此,阿里媽媽技術團隊提出了世界知識大模型Universal Recommendation Model(以下稱URM),以預訓練的LLM為基座,將多任務設計融入Prompt設計中,通過ID表征的知識注入和電商領域的任務對齊,實現對用戶歷史興趣的理解和推理并最終推薦出符合用戶興趣的結果。
以下將從任務定義、整體架構、離線實驗三方面詳細展開。
任務定義
參考LLM的訓練范式,在URM中,阿里媽媽技術團隊利用文本來定義不同的推薦任務。
考慮到推薦場景用戶行為的重要性和豐富性,為了充分刻畫用戶的歷史行為,避免商品標題的冗長和低密度,URM將商品ID作為一種特殊的token注入文本描述,實現用戶行為序列的高效表達。
考慮到工業場景落地的效率,URM直接生成商品ID,同時在輸出結果中保留了文本,在對齊電商任務的同時保留LLM本身的知識。
多任務會通過輸入中的任務描述體現,部分示例參考下表。
整體架構
為了保留LLM的預訓練知識,阿里媽媽技術團隊保留多層Transformer結構不變,對輸入層和輸出層的結構進行修改,如下圖所示。
輸入端,輸入序列由用戶行為中的商品ID、任務提示中的文本token以及[UM]、[LM]等特定查詢符組成。商品ID通過分布式商品Embedding模塊映射為商品Embedding,其他文本映射為Token Embedding,商品 Embedding或Token Embedding與Postion Embedding相加后輸入到 LLM的主干網絡(對于使用RoPE的模型而言則不存在顯式的Position Embedding)。
輸出端,為了避免產出推薦結果和推理文本相互干擾,阿里媽媽技術團隊在輸入中增加了[UM]和[LM] 2種特殊字符來表示當前應該輸出用戶表征還是開始生成文本。與[UM]符號對應的輸出通過用戶建模頭hUM映射到用戶表示空間,用于候選商品的生成;與[LM]符號及其后續符號對應的輸出通過語言模型頭hLM映射到文本空間,用于文本token的生成。
△URM整體架構
URM架構區別于傳統LLM主要有2個模塊,1是商品多模態融合的表征方式,2是兼顧效果和效率的Sequence-In-Set-Out生成方式。
以下會分別介紹這兩部分。最后介紹URM的訓練方式。
商品多模態融合表征。
在傳統推薦模型中,ID表征是面向特定任務的數據分布學習的,代表了商品間的相似關系,壓縮了電商領域的協同信息。而LLM中通常采用文本、圖像等語義表征,描述內容信息間的相似性。
為了提升LLM對電商信號的理解,同時保留LLM的知識,表征層設計了 ID表征和語義表征的融合模塊來表達商品,并通過可學習MLP層實現ID 表征和文本、圖像等語義表征的對齊。
同時,這套融合表征的設計具備較強的可擴展性,如語義ID等token均可作為新增模態引入,來不斷強化商品的表達能力。
△商品融合表征,輸入ID/Text/Image表征固定,MLP層可學習
Seqence-In-Set-Out生成方式
推薦的目標是從一個千萬級別的候選庫中找到曝光/點擊概率最大的K個商品,它和語言模型LM從十萬規模的詞表空間中生成語言概率最大的 Token,是類似的問題。
因此若不考慮計算成本,可以通過下述方式獲得結果:
其中U是大語言模型生成的用戶表征,對應LM中的隱藏層特征,W是所有商品的融合表征,對應LLM中的最后一層的參數。考慮到工業界的落地可行性,阿里媽媽技術團隊使用生成的用戶表征和候選商品表征的內積作為分數并采樣分數TopK的商品作為最終生成的結果。
在這種內積計算的范式下,模型的表達能力相對受限,對用戶和商品的建模能力較差且推薦集合的多樣性也會較差,難以發揮大語言模型的優勢。函數逼近理論的一個結論是,特征的多個內積的線性組合可以逼近任意復雜的函數。因此通過增加[UM]token的數量使URM在一次前向過程中并行生成多個用戶表征U=(U1,……,UH),最終用戶和商品之間的打分為
這種Set-Out的多輸出方式不僅能夠保持僅需一次前向計算的相同推理效率,而且隨token數上漲召回指標顯著提升,同時解決了單一用戶表征興趣覆蓋度有限的問題。
△不同[UM] Token輸出的可視化
訓練方式
整體訓練損失包括商品推薦任務損失和文本生成任務損失。
輸出序列表示為
目標文本表示為
目標商品表示為
商品推薦任務通過噪聲對比估計(NCE)損失來優化:
其中用戶建模頭hUM輸出的用戶表征:
在每個批次中,負樣本N是從商品候選中基于其出現頻率采樣得到的。
文本生成任務可以通過目標文本序列的負對數似然來優化:
其中P= softmax(hLM(ψ(?))是由語言模型頭hLM輸出的概率。
最終的訓練目標是:
其中η是權衡超參數。考慮到URM對LLM的輸入和輸出層進行了顯著修改,阿里媽媽技術團隊采用完整參數的有監督微調(SFT),僅凍結商品的原始表征。
離線實驗
URM使用多任務融合數據集訓練,并在生產數據集上取得了平均11.0%的Recall提升,在6個子任務(共9個任務)中都超越了線上使用 Target-Attention結構的傳統推薦模型。
△URM在多任務上的表現 vs 傳統模型
進一步的消融實驗,驗證了表征融合模塊的有效性,也驗證了隨UM token數量上漲召回Recall呈顯著上漲。Figure6驗證了URM仍具有良好的文本理解能力和泛化能力,對已知的query文本和未知的query都有良好的推薦表現。
△商品多模態表征融合模塊消融實驗
△UM頭輸出數量對效果的影響
高QPS低時延約束下的落地方案
考慮到LLM的推理時延較長,無法滿足在線請求的時延約束,阿里媽媽技術團隊建設了一套異步推理的大模型召回鏈路。
如下圖所示,在用戶有淘系行為時異步觸發URM推理,并將結果做持久化存儲,供在線召回階段讀取使用。
在模型推理服務上,由于URM在商品多模態融合表征模塊和User表征檢索方式的改造,需要在LLM推理中增加HashTable支持,并支持推理表征的向量檢索。
為了進一步提升資源利用率,阿里媽媽技術團隊實現了多instance在同一容器的部署,將URM推理的并發qps提升200%。
結語
本文主要介紹了阿里媽媽LMA 2廣告大模型系列中的世界知識大模型URM在建模和落地方面的思考和進展。通過結合大模型的通用知識和電商領域的專家知識,URM能夠更加精準地預測用戶的潛在興趣和購物需求,為商家和消費者提供更優質的服務。
更多URM的細節歡迎關注后續“阿里媽媽技術”的公眾號文章或參考論文。
論文鏈接:
https://arxiv.org/pdf/2502.03041
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.