99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

生成式 AI 引爆廣告效率革命,揭秘京東大模型應(yīng)用架構(gòu)的實(shí)踐之道

0
分享至


演講嘉賓|張澤華

編輯 |李忠良

策劃 |AICon 全球人工智能開(kāi)發(fā)與應(yīng)用大會(huì)

在京東廣告的大模型應(yīng)用架構(gòu)中,召回環(huán)節(jié)至關(guān)重要。傳統(tǒng)召回方式在規(guī)則靈活性和用戶(hù)需求捕捉上存在局限,而大模型帶來(lái)了新的契機(jī),但也面臨訓(xùn)練成本和隱私保護(hù)的挑戰(zhàn)。京東廣告的生成式召回體系包括:基于世界知識(shí)和電商平臺(tái)的數(shù)據(jù)體系、多模態(tài)商品內(nèi)容理解與用戶(hù)意圖識(shí)別,以及高效的生成式模型訓(xùn)練和推理架構(gòu)。在實(shí)踐中,通過(guò)商品內(nèi)容語(yǔ)義量化、生成式商品解碼召回和模型推理性能優(yōu)化,顯著提升了召回效率。

在 InfoQ 舉辦的 AICon 全球人工智能開(kāi)發(fā)與應(yīng)用大會(huì)上京東算法總監(jiān)張澤華做了專(zhuān)題演講“京東廣告大模型應(yīng)用架構(gòu)實(shí)踐”,演講將分享京東廣告在大模型應(yīng)用實(shí)踐中的解決思路與經(jīng)驗(yàn)教訓(xùn),期待為廣告技術(shù)從業(yè)者帶來(lái)啟發(fā)。

內(nèi)容亮點(diǎn)


  • 了解具備普適性的生成式推薦算法大規(guī)模應(yīng)用方法,并借鑒推理優(yōu)化和業(yè)務(wù)優(yōu)化的示范性實(shí)踐,提升自身推薦系統(tǒng)的效果和效率

以下是演講實(shí)錄(經(jīng) InfoQ 進(jìn)行不改變?cè)獾木庉嬚恚?/strong>

大模型時(shí)代廣告領(lǐng)域發(fā)展的契機(jī)和挑戰(zhàn)

京東在過(guò)去一段時(shí)間里,在大模型浪潮下進(jìn)行了諸多探索和實(shí)踐,涉及算法和工程方面。

回顧過(guò)去一年半行業(yè)趨勢(shì),國(guó)內(nèi)大部分廣告平臺(tái)都大力投入到基于大語(yǔ)言模型或生成式技術(shù)相關(guān)的產(chǎn)品及技術(shù)升級(jí),涵蓋 B 端和 C 端產(chǎn)品。大模型落地實(shí)踐剛開(kāi)始時(shí)較為分散,但逐漸出現(xiàn)收斂趨勢(shì),主要體現(xiàn)在訓(xùn)練和推理方面。同時(shí),工業(yè)級(jí)別應(yīng)用層面的范式也在逐步收斂。

在電商領(lǐng)域存在一些痛點(diǎn),如知識(shí)融合問(wèn)題,傳統(tǒng)推薦系統(tǒng)難以有效容納場(chǎng)景化知識(shí),需外掛大量詞表信息及業(yè)務(wù)自反饋信息。而大語(yǔ)言模型時(shí)代到來(lái)后,對(duì)電商用戶(hù)和商品的理解能力可在大模型加持下得到提升。此外,基于大語(yǔ)言模型或生成式技術(shù)的 scaling law(擴(kuò)展定律)讓廣告算法系統(tǒng)煥發(fā)生機(jī)。

產(chǎn)業(yè)界使用大語(yǔ)言模型主要有三大目標(biāo):一是大幅提升人貨匹配效率,尤其在搜索、推薦等核心鏈路模型中,通過(guò)提升人貨匹配效率帶動(dòng) CTR(點(diǎn)擊通過(guò)率)、CVR(轉(zhuǎn)化率)、GMV(商品交易總額)及廣告收入等核心業(yè)務(wù)指標(biāo)上漲;二是借助其知識(shí)理解和融合能力;三是滿(mǎn)足多模態(tài)信息接納需求,發(fā)揮大語(yǔ)言模型在文字、視頻、語(yǔ)音、圖片等多種模態(tài)下的理解能力。

京東希望找到一種在應(yīng)用級(jí)別、一定時(shí)間內(nèi)具有 scaling law 趨勢(shì)的算法演進(jìn)路線,且該路線能適用于較多場(chǎng)景,同時(shí)以低成本獲取高性能

生成式算法體系

在典型的廣告算法體系中,生成式技術(shù)主要作用于以下場(chǎng)景。從經(jīng)典廣告系統(tǒng)的鏈路來(lái)看,從生成式的角度可以劃分為三個(gè)階段:第一個(gè)階段是召回和粗排階段,這本質(zhì)上是一個(gè)信息檢索類(lèi)問(wèn)題。其核心是如何“無(wú)中生有”,從海量信息中找出對(duì)用戶(hù)可能有用或感興趣的信息,形成一個(gè)龐大的候選集合。第二階段是精排階段。CTR(點(diǎn)擊通過(guò)率)和 CVR(轉(zhuǎn)化率)是典型的精排問(wèn)題。精排模型打出的分?jǐn)?shù)常用于排序,本質(zhì)上是在進(jìn)行信息過(guò)濾,篩選出更符合用戶(hù)需求的內(nèi)容。第三階段是信息補(bǔ)足階段。對(duì)于已經(jīng)排在較前位置的商品或信息流廣告,進(jìn)一步引入多模態(tài)理解能力,包括創(chuàng)意和排序機(jī)制的優(yōu)化,即重排。重排可以視為在上下文場(chǎng)景下的二次排序,進(jìn)一步提升廣告效果。


在討論生成式技術(shù)或大語(yǔ)言模型時(shí),離不開(kāi)其對(duì)應(yīng)的數(shù)據(jù)體系。數(shù)據(jù)體系需要解決兩個(gè)核心問(wèn)題:一是用戶(hù)行為如何在生成式技術(shù)浪潮中進(jìn)行二次定義;二是在電商廣告場(chǎng)景下,如何將知識(shí)融入生成式 AI 模型或算法中。

對(duì)于用戶(hù)行為,傳統(tǒng)上是通過(guò)人、貨、場(chǎng)三個(gè)維度進(jìn)行定義。在生成式場(chǎng)景下,除了這三個(gè)維度,還會(huì)包含用戶(hù)畫(huà)像類(lèi)信息。對(duì)于電商知識(shí)類(lèi)信息,除了商品、貨品等結(jié)構(gòu)化信息,還存在大量未被很好結(jié)構(gòu)化的信息,例如用戶(hù)隨手拍的評(píng)論圖片,其語(yǔ)義化信息尚未被充分利用。

在電商廣告場(chǎng)景下,經(jīng)過(guò)比較和分析,認(rèn)為 Semantic ID(語(yǔ)義 ID)是當(dāng)前場(chǎng)景下更適用的表征解決方案。在數(shù)據(jù)表征的基礎(chǔ)上,算法建設(shè)涉及幾個(gè)關(guān)鍵步驟。首先是商品的量化表示,通過(guò) Semantic ID 的方式進(jìn)行表征。其次是讓大語(yǔ)言模型或生成式算法對(duì)這些表征后的信息具備理解能力和推理能力。

關(guān)于編碼和表征,引用了一篇經(jīng)典文章的觀點(diǎn),探討了 Sid 是如何通過(guò)類(lèi)似殘差信息的表達(dá)方式進(jìn)行表征的,這與 Google 的相關(guān)研究相對(duì)應(yīng)。即通過(guò)某種編碼的 code book 方式來(lái)表達(dá)信息。在將信息注入大語(yǔ)言模型(無(wú)論是開(kāi)源獲取的還是從零開(kāi)始訓(xùn)練的)時(shí),面臨兩個(gè)關(guān)鍵問(wèn)題:一是這些數(shù)據(jù)如何訓(xùn)練;二是如何讓訓(xùn)練的數(shù)據(jù)有效表征其含義,即 DPO。

生成式算法工程實(shí)踐

我們來(lái)看一下在具體實(shí)踐中遇到的算法和工程上的挑戰(zhàn)。

首先,我們今天主要討論的環(huán)節(jié)是召回,但實(shí)際上我們的的工作已經(jīng)覆蓋了排序、創(chuàng)意甚至重排階段。在將生成式 AI 或大語(yǔ)言模型應(yīng)用于推薦系統(tǒng)時(shí),我們遇到了兩個(gè)極具挑戰(zhàn)性的問(wèn)題。第一個(gè)挑戰(zhàn)是工業(yè)場(chǎng)景下的規(guī)模問(wèn)題。隨著業(yè)務(wù)的發(fā)展,模型的規(guī)模越來(lái)越大。在廣告系統(tǒng)中,延遲是一個(gè)關(guān)鍵問(wèn)題。如果推理延遲超過(guò) 100 毫秒,結(jié)果將不會(huì)被采納,被認(rèn)為是毫無(wú)意義的。為了實(shí)現(xiàn)高性能和低延遲的推理,我們需要付出巨大的計(jì)算成本,而我們希望這種成本越低越好。目前,許多大語(yǔ)言模型的工作是基于開(kāi)源模型進(jìn)行 SFT(監(jiān)督微調(diào))或 PT(預(yù)訓(xùn)練)后直接使用。然而,隨著我們對(duì)業(yè)務(wù)的深入理解和算法應(yīng)用的靈活性提升,我們發(fā)現(xiàn)僅僅借用他人的模型結(jié)構(gòu)已經(jīng)無(wú)法滿(mǎn)足我們的需求。我們需要對(duì)模型結(jié)構(gòu)進(jìn)行改造,并且發(fā)現(xiàn)單純的生成式模型無(wú)法很好地解決判別型問(wèn)題。這意味著未來(lái)的應(yīng)用場(chǎng)景需要生成式和判別式模型進(jìn)行聯(lián)合學(xué)習(xí)和推理。

第二個(gè)挑戰(zhàn)是低延遲和高吞吐的要求。我們給出一個(gè)典型的參考數(shù)據(jù):百萬(wàn) token 的推理成本必須低于 1 元人民幣。如果高于這個(gè)成本,在大多數(shù)工業(yè)場(chǎng)景下,成本將變得不可控,模型很可能只能停留在實(shí)驗(yàn)階段,無(wú)法大規(guī)模落地。這兩個(gè)挑戰(zhàn)共同導(dǎo)致了一個(gè)問(wèn)題:我們需要進(jìn)行極致的性能優(yōu)化,才能讓這樣的模型或算法真正在線應(yīng)用。

在進(jìn)行大規(guī)模工業(yè)化性能優(yōu)化時(shí),我們發(fā)現(xiàn)算力或推理優(yōu)化主要由三個(gè)方面決定:首先是裸算力,其次是存儲(chǔ)性能或存儲(chǔ)吞吐量,第三是訓(xùn)練和推理過(guò)程中的 IO 問(wèn)題。這三者存在木桶短板效應(yīng),即任何一個(gè)環(huán)節(jié)的短板都將決定我們?cè)趹?yīng)用中的性能上限。

針對(duì)低延遲和高吞吐的極致性能優(yōu)化,我們的優(yōu)化思路分為三個(gè)層面:首先是在單節(jié)點(diǎn)優(yōu)化上,我們希望實(shí)現(xiàn)極致的性能釋放;其次,當(dāng)任務(wù)變?yōu)榉植际綍r(shí),我們希望實(shí)現(xiàn)軟硬協(xié)同的分布式高性能推理;最后,在整個(gè)全鏈路上,我們希望尋找其他可以?xún)?yōu)化的資源或耗時(shí)空間,例如層次化推理和同層次化算力的優(yōu)化。

在優(yōu)化手段方面,業(yè)內(nèi)已經(jīng)有許多相關(guān)工作,包括基于算子和圖的優(yōu)化、深度學(xué)習(xí)編譯器的優(yōu)化,以及推理模式的優(yōu)化,如各種緩存模式(KV Cache、Layer Cache 等)和推理范式的優(yōu)化(例如 PD 分離)。總結(jié)來(lái)說(shuō),單節(jié)點(diǎn)上的推理算力釋放主要分為兩部分:一是單純的推理優(yōu)化,二是從服務(wù)層級(jí)進(jìn)行優(yōu)化。在單節(jié)點(diǎn)推理優(yōu)化方面,主要涉及量化、Tensor 并行和各種 Attention 技術(shù);在服務(wù)層級(jí)優(yōu)化方面,主要關(guān)注調(diào)度層面,如連續(xù)批處理(continuous batch)和負(fù)載均衡。


單節(jié)點(diǎn)算力釋放

為了降低單節(jié)點(diǎn)推理的無(wú)用功計(jì)算,我們通常會(huì)采用一些優(yōu)化方式,例如多查詢(xún)(Multi-Query)注意力機(jī)制等。這些方法在業(yè)內(nèi)已經(jīng)被廣泛應(yīng)用,例如基于英偉達(dá) GPU 的解決方案,雖然在一定程度上有效,但仍然無(wú)法完全解決工業(yè)場(chǎng)景下的問(wèn)題。


在優(yōu)化手段方面,量化技術(shù)是一個(gè)重要的方向。從半精度到 FP8,甚至更低比特的量化技術(shù),雖然在推理性能上追求極致,但在實(shí)際應(yīng)用場(chǎng)景中,如廣告推薦或搜索,過(guò)低的精度可能導(dǎo)致無(wú)法達(dá)到預(yù)期效果。Tensor 并行則是一種計(jì)算層面的資源分配優(yōu)化,通過(guò)將任務(wù)拆分,降低單卡負(fù)載,從而降低延遲并充分利用性能。


在注意力機(jī)制的優(yōu)化方面,F(xiàn)lash Attention 和 Page Attention 等技術(shù)已經(jīng)被廣泛應(yīng)用于開(kāi)源模型中。通過(guò)采用這些優(yōu)化手段,例如 batching 和注意力技術(shù),可以顯著提升推理效率。公開(kāi)資料顯示,平均推理延遲可以降低到原來(lái)的 1/5 左右,吞吐量提升的同時(shí),成本可以降低約一半。

特別地,我們推薦一種 batching 策略—— Dynamic Latency Batching Switch。傳統(tǒng)的 Continuous Batching 雖然可以填充推理過(guò)程中的空閑時(shí)間,但在低延遲場(chǎng)景下,簡(jiǎn)單地將任務(wù)插入到空閑位置可能會(huì)導(dǎo)致累積延遲超標(biāo)。動(dòng)態(tài)延遲 batching 的核心思想是,在保證每個(gè)推理請(qǐng)求不超過(guò)最大延遲的前提下,通過(guò)智能調(diào)度,將任務(wù)分配到更合適的批次中。例如,當(dāng)發(fā)現(xiàn)某條推理鏈路如果繼續(xù)插入任務(wù)會(huì)導(dǎo)致延遲超標(biāo)時(shí),系統(tǒng)會(huì)將其切換到更早結(jié)束的批次,從而確保下一個(gè)任務(wù)可以更早進(jìn)入推理狀態(tài)。


分布式算力釋放

在分布式場(chǎng)景下,軟硬協(xié)同的優(yōu)化思路雖然簡(jiǎn)單,但在工業(yè)場(chǎng)景下的大規(guī)模實(shí)現(xiàn)具有挑戰(zhàn)性。由于請(qǐng)求的長(zhǎng)度(request length)不同,不同集群和節(jié)點(diǎn)的處理能力也各異。因此,我們傾向于將計(jì)算量大的任務(wù)分配到計(jì)算能力更強(qiáng)的節(jié)點(diǎn)上。然而,難點(diǎn)在于負(fù)載均衡。并非所有廣告或推薦請(qǐng)求的價(jià)值都相同,如果某次請(qǐng)求對(duì)系統(tǒng)的價(jià)值更高,我們會(huì)優(yōu)先處理。因此,在負(fù)載均衡策略上,我們會(huì)進(jìn)行基于請(qǐng)求價(jià)值的粗粒度預(yù)估,將高價(jià)值請(qǐng)求分配到專(zhuān)用計(jì)算節(jié)點(diǎn)上優(yōu)先處理,而低優(yōu)先級(jí)的請(qǐng)求可能會(huì)被拋棄或采用傳統(tǒng)算法和模型處理。


在調(diào)度層面之外,我們還嘗試了以下三項(xiàng)已被驗(yàn)證有價(jià)值的工作:

  • 生成式推理集群:在集群層面,我們進(jìn)行了以下優(yōu)化:

    • 大模型的集群化推理;

    • 小批量(small batch)適配能力;

    • PD分離,prefill(預(yù)填充)和 decode(解碼)這是業(yè)內(nèi)常見(jiàn)的優(yōu)化手段。

  • KV Cache 池化:許多企業(yè)希望減少計(jì)算資源的浪費(fèi),同時(shí)保證計(jì)算精度和效果。KV Cache 池化是應(yīng)對(duì)集群化推理的有效解決方案,能夠避免從零開(kāi)始推理每條請(qǐng)求,從而提高效率。

  • 判別式場(chǎng)景的集群化處理:在廣告場(chǎng)景中,無(wú)論是搜索還是推薦,結(jié)果的相關(guān)性是一個(gè)關(guān)鍵問(wèn)題。對(duì)于判別式任務(wù),我們?cè)O(shè)置了單獨(dú)的集群進(jìn)行路由化處理。

為了實(shí)現(xiàn)集群化模型的分布式并行推理,我們采用了以下方法:

  • 模型拆圖:將模型中的多個(gè) block(既有 CPU 計(jì)算密集型部分,也有 GPU 計(jì)算密集型部分)根據(jù)計(jì)算負(fù)荷和價(jià)值進(jìn)行拆分。拆圖后,將不同部分分別進(jìn)行服務(wù)化部署。通過(guò)這種方式,可以?xún)?yōu)化集群的計(jì)算資源利用率。拆圖前,由于模型塊的差異,集群的資源利用率存在較大差異;拆圖并并行計(jì)算后,利用率趨于平衡,避免了某些資源過(guò)度使用或浪費(fèi)。

  • 多級(jí)緩存:針對(duì) IO 瓶頸問(wèn)題,我們利用 CPU 管理的 RAM 和 GPU 的 HBM(高帶寬存儲(chǔ)器)構(gòu)建了多級(jí)緩存。這種多級(jí)緩存減少了多機(jī)之間的通信,使系統(tǒng)能夠更快地獲取預(yù)計(jì)算結(jié)果,從而實(shí)現(xiàn)更低的延遲和更高的吞吐量。


在訓(xùn)練過(guò)程中,我們發(fā)現(xiàn)了一些有效的解決方案。對(duì)于更復(fù)雜的生成式 AI 訓(xùn)練(超出簡(jiǎn)單的大語(yǔ)言模型范疇),全參數(shù) GPU 同步訓(xùn)練在特定應(yīng)用場(chǎng)景下能夠顯著提升訓(xùn)練速度。

在分布式推理的調(diào)度器設(shè)計(jì)中,我們面臨的業(yè)務(wù)應(yīng)用場(chǎng)景不僅包括生成式算法模型,還涉及語(yǔ)義理解層面的相關(guān)性以及典型的排序任務(wù)(如 CTR、CVR 等)。這些任務(wù)通過(guò)不同層級(jí)的調(diào)度器進(jìn)行請(qǐng)求劃分和調(diào)度。


全鏈路算力釋放

為了維持低延遲和低資源消耗的推理,我們希望從其他環(huán)節(jié)“偷”一些資源或耗時(shí)空間。具體方法如下。

  • 端計(jì)算與預(yù)計(jì)算:我們將相當(dāng)一部分計(jì)算下沉到用戶(hù)手機(jī)端(設(shè)備端),采用端計(jì)算模式進(jìn)行大量預(yù)計(jì)算工作。在用戶(hù)發(fā)起請(qǐng)求的瞬間,我們利用召回到排序之間的這段時(shí)間進(jìn)行前置計(jì)算,這部分耗時(shí)空間約為 30~100 毫秒,具體取決于不同業(yè)務(wù)場(chǎng)景。

  • 近線計(jì)算:對(duì)于一些信息,我們只需要在一定時(shí)間內(nèi)保證其最新即可,因此可以通過(guò)近線計(jì)算的方式提前算好,然后在線上進(jìn)行查詢(xún)或直接使用。

  • 離線計(jì)算:對(duì)于計(jì)算極其復(fù)雜且在較長(zhǎng)時(shí)間內(nèi)不會(huì)變化的任務(wù),我們采用離線計(jì)算的方式。


通過(guò)以上層次化的劃分,結(jié)合軟硬件的定制化優(yōu)化,我們將原本 100 毫秒的計(jì)算延遲拆分為多個(gè)幾十毫秒的小塊,這些小塊已經(jīng)完成了預(yù)計(jì)算。因此,真正留給實(shí)時(shí)推理和計(jì)算的任務(wù)變得相對(duì)簡(jiǎn)單,從而能夠在百毫秒以?xún)?nèi)完成在線生成式 AI 的推理。進(jìn)一步地,我們是否可以更徹底地“偷”資源呢?答案是可以。在每個(gè)環(huán)節(jié)(如檢索、排序等)中,我們都可以利用層次化的算力設(shè)計(jì)和動(dòng)態(tài)協(xié)調(diào)機(jī)制,實(shí)現(xiàn)更加負(fù)載均衡的算力配置。


在整個(gè)算法和全鏈路設(shè)計(jì)中,貫穿了兩條核心思想:

  • 重新定義算力邊界:我們將單環(huán)節(jié)的推理任務(wù)拆分到多個(gè)環(huán)節(jié),重新定義了算力的邊界以及模型需要計(jì)算的內(nèi)容。

  • 多層次任務(wù)定義與優(yōu)化:我們將復(fù)雜的計(jì)算任務(wù)定義到多個(gè)層次上,通過(guò)硬件升級(jí)、調(diào)度層面升級(jí)以及流程層面升級(jí),帶來(lái)實(shí)際算力的提升。這樣既能夠保持全鏈路推理在百毫秒以?xún)?nèi),又能夠支撐一定程度的 Scaling Law,以應(yīng)對(duì)不斷增長(zhǎng)的計(jì)算需求。


算法建模靈活度問(wèn)題

在算法研發(fā)過(guò)程中,算法工程師們擁有大量富有創(chuàng)意的想法。根據(jù)不完全統(tǒng)計(jì),一個(gè)典型的業(yè)務(wù)算法工程師在一個(gè)季度內(nèi)至少希望進(jìn)行兩次上線評(píng)審,背后可能涉及近 10 次想法的嘗試。如果一個(gè)公司或團(tuán)隊(duì)有幾十甚至上百名算法工程師,算法的靈活性問(wèn)題就顯得尤為突出。在這種情況下,如何在有限的耗時(shí)空間和硬件資源下,支撐靈活的算法定制,成為了一個(gè)亟待解決的棘手問(wèn)題。具體而言,如何讓生成式模型和判別式模型進(jìn)行聯(lián)合建模、訓(xùn)練和推理,是我們當(dāng)前面臨的一大挑戰(zhàn)。我們主要的解決方案是基于 Python 和 TensorFlow 進(jìn)行構(gòu)圖,以實(shí)現(xiàn)聯(lián)合訓(xùn)練和推理。


在召回層面,雖然可以通過(guò)生成式技術(shù)(例如 Semantic ID)對(duì)商品進(jìn)行表征,根據(jù)用戶(hù)的歷史行為(如瀏覽、點(diǎn)擊等)預(yù)測(cè)其未來(lái)可能感興趣的商品,但這只是最基礎(chǔ)的檢索問(wèn)題。檢索結(jié)果還需要進(jìn)行相關(guān)性判斷,并進(jìn)入粗排環(huán)節(jié)進(jìn)行打分和排序。在這個(gè)過(guò)程中,如果發(fā)現(xiàn)相關(guān)性已經(jīng)失衡,那么可能根本不需要進(jìn)行粗排打分,甚至某些類(lèi)目下的商品或推薦項(xiàng)也無(wú)需生成。這種將生成式和判別式算法鏈路耦合后的結(jié)構(gòu)剪枝,即推理過(guò)程中的剪枝,已被實(shí)驗(yàn)驗(yàn)證可以顯著提升召回率和準(zhǔn)確率,甚至達(dá)到兩位數(shù)的提升。這種效果非常明顯且令人震驚。

為了實(shí)現(xiàn)召回和粗排一體化(召排一體),業(yè)界最典型的做法是先召回一個(gè)大集合,再進(jìn)行過(guò)濾和粗排,形成三個(gè)環(huán)節(jié)。但如果將這三個(gè)環(huán)節(jié)合并為一個(gè),即召回加粗排一體,會(huì)面臨哪些問(wèn)題呢?

以典型的稀疏模型(如粗排或精排的 CTR 模型)為例,其稠密部分的計(jì)算量相對(duì)較小(約 0.5T Flops),但 embedding table 占比巨大。而典型的生成式模型,其 Dense 部分非常龐大,對(duì)算力要求極高,但 embedding 等外掛信息相對(duì)較少。如果希望將這兩種模型進(jìn)行耦合或聯(lián)合建模,數(shù)據(jù)是否充足是一個(gè)關(guān)鍵問(wèn)題。下圖引用了一張開(kāi)源公開(kāi)文章中的截圖,顯示高質(zhì)量語(yǔ)料數(shù)據(jù)被認(rèn)為已接近耗盡,預(yù)計(jì)耗盡的時(shí)間點(diǎn)在 2028 年左右。然而,在我們的業(yè)務(wù)場(chǎng)景中,用于訓(xùn)練最典型的稀疏模型的數(shù)據(jù)仍然非常充足。如果僅關(guān)注生成式模型,數(shù)據(jù)耗盡的風(fēng)險(xiǎn)確實(shí)存在。但如果考慮生成式與判別式模型的聯(lián)合建模,數(shù)據(jù)空間仍然較為充裕。無(wú)論是生成式模型還是判別式模型,其參數(shù)增長(zhǎng)的勢(shì)頭并未減緩,反而仍在加速增長(zhǎng)。


如果簡(jiǎn)單地將兩者耦合進(jìn)行推理,會(huì)立即遇到一個(gè)明顯的問(wèn)題——“撞墻”。目前主流的大語(yǔ)言模型,無(wú)論是在 Google 的 TPU、英偉達(dá)的 GPU 還是 AMD 的 MI 推理芯片上運(yùn)行,其推理的 token 吞吐量似乎都集中在較低水平,主要受限于 HBM(高帶寬存儲(chǔ)器)的瓶頸。隨著參數(shù)增長(zhǎng)、數(shù)據(jù)量和模型結(jié)構(gòu)的擴(kuò)大,推理環(huán)節(jié)已經(jīng)成為制約因素。在這種情況下,單純依靠硬件提升已無(wú)法滿(mǎn)足聯(lián)合訓(xùn)練和推理的需求。

我們提出采用分而治之的分層思想來(lái)解決這個(gè)問(wèn)題。業(yè)界常用的硬件解決方案及其對(duì)應(yīng)的技術(shù)棧為我們提供了分層的空間。我們的分層邏輯包括定制化和優(yōu)化兩個(gè)層面,最上面是業(yè)務(wù)層面。通過(guò)通信、建模和數(shù)據(jù)的三層解耦,我們可以找到三者之間的有機(jī)平衡關(guān)系。這意味著通過(guò)利用局部計(jì)算特性,HBM 的通信問(wèn)題得到了一定程度的緩解。


生成式 & 判別式聯(lián)合推理能力

在生成式和判別式聯(lián)合推理能力方面,我們以基于 TensorFlow 的 CTR(點(diǎn)擊通過(guò)率)和 CVR(轉(zhuǎn)化率)排序模型(即典型的稀疏模型)為例,同時(shí)結(jié)合像 LLaMA 等典型的大語(yǔ)言模型。我們的目標(biāo)是將這兩者耦合在一起,這種耦合并非簡(jiǎn)單的分步推理(即上一步推理完成后再進(jìn)行下一步),而是通過(guò)直接共享 hidden state(隱藏狀態(tài))來(lái)驅(qū)動(dòng)整個(gè)圖的共享,從而實(shí)現(xiàn)整個(gè)推理過(guò)程的封裝。


在推理過(guò)程中,我們同時(shí)采用多引擎進(jìn)行推理:一方面通過(guò) TensorFlow 的 Graph engine 進(jìn)行觸發(fā)和驅(qū)動(dòng),另一方面驅(qū)動(dòng) TensorRT engine 推理引擎 。最終,我們實(shí)現(xiàn)了生成式和判別式模型的有機(jī)結(jié)合,并且避免了“撞 HBM 的墻”,能夠在業(yè)務(wù)場(chǎng)景中真正實(shí)現(xiàn)推理。

總結(jié)我們所做的工作:

  • 我們基于 TensorFlow 和 Python 重寫(xiě)了生成式的推理流程和建模能力。

  • 我們采用基于 TensorFlow 的圖調(diào)度框架和自定義 TensorFlow 算子,實(shí)現(xiàn)了生成式的推理,并將其耦合到傳統(tǒng)的稀疏模型上。

  • 在這個(gè)過(guò)程中,我們大量復(fù)用了 TensorFlow 以及業(yè)務(wù)歷史上積累的成百上千個(gè)業(yè)務(wù)算子。

  • 離線建模和在線推理不再是從離線找到一個(gè)開(kāi)源模型進(jìn)行 SFT,然后直接將 SFT 的結(jié)果用于在線模型,而是離線建模的模型結(jié)構(gòu)與在線推理的模型結(jié)構(gòu)完全一致,實(shí)現(xiàn)了高度的一致性。


總結(jié)與展望

盡管我們?cè)谏墒郊夹g(shù)的探索過(guò)程中遇到了一些痛點(diǎn)和挑戰(zhàn),但我們?nèi)匀徽J(rèn)為生成式技術(shù)在傳統(tǒng)算法領(lǐng)域具有巨大的發(fā)展空間。以下是我們對(duì)未來(lái)工作的展望和規(guī)劃。

  • 生成式技術(shù)的廣泛應(yīng)用與收益

    • 全流程覆蓋與顯著收益:雖然我們今天主要介紹了召回和粗排環(huán)節(jié),但實(shí)際上我們已經(jīng)將召回、粗排、精排、創(chuàng)意出價(jià)以及機(jī)制策略重排等環(huán)節(jié)幾乎完全用生成式技術(shù)重寫(xiě)。這些環(huán)節(jié)的收益空間均達(dá)到了兩位數(shù)以上,顯示出生成式技術(shù)在提升業(yè)務(wù)效率和效果方面的巨大潛力。

  • 電商場(chǎng)景下的模型優(yōu)化

    • 開(kāi)源模型的局限性與改進(jìn):在典型的電商場(chǎng)景中,直接使用開(kāi)源的大語(yǔ)言模型雖然有一定的效果,但并不足以滿(mǎn)足業(yè)務(wù)需求。我們希望通過(guò)深度改造這些模型,進(jìn)一步提升其在業(yè)務(wù)上的表現(xiàn),實(shí)現(xiàn)雙位數(shù)的性能提升。這表明在特定領(lǐng)域內(nèi)對(duì)模型進(jìn)行定制化優(yōu)化是實(shí)現(xiàn)業(yè)務(wù)增長(zhǎng)的關(guān)鍵。

  • 算法與工程的協(xié)同設(shè)計(jì)

    • Co-Design 的重要性:算法和工程的 Co-Design 是推動(dòng)大語(yǔ)言模型或生成式技術(shù)在實(shí)際場(chǎng)景中落地的關(guān)鍵。通過(guò)算法和工程的緊密結(jié)合,我們可以更好地優(yōu)化模型的性能,使其更適合實(shí)際業(yè)務(wù)需求,從而加速技術(shù)的落地和應(yīng)用。


未來(lái)發(fā)展方向

  • 領(lǐng)域特性數(shù)據(jù)與基座模型:電商場(chǎng)景中的數(shù)據(jù)具有獨(dú)特的領(lǐng)域特性,與公域數(shù)據(jù)有所不同。我們期待在未來(lái)一段時(shí)間內(nèi)能夠出現(xiàn)更強(qiáng)大的電商領(lǐng)域理解基座模型,以更好地支持生成式技術(shù)在電商場(chǎng)景中的應(yīng)用。

  • 生成式與判別式模型的深度融合:我們希望進(jìn)一步完善生成式與判別式模型的聯(lián)合建模和推理,使其更加全面和強(qiáng)大,甚至能夠?qū)崿F(xiàn)“all in one”的解決方案。這將有助于提升模型的整體性能和效率,更好地滿(mǎn)足業(yè)務(wù)需求。

嘉賓介紹

張澤華,現(xiàn)任京東集團(tuán)算法總監(jiān)、京東零售算法通道委員,IEEE 國(guó)際標(biāo)準(zhǔn)工作組副主席,并于中國(guó)計(jì)算機(jī)學(xué)會(huì)擔(dān)任標(biāo)準(zhǔn)工委執(zhí)行委員、大數(shù)據(jù)專(zhuān)委委員。專(zhuān)注廣告算法領(lǐng)域在零售業(yè)務(wù)的研發(fā)實(shí)踐,推動(dòng)廣告核心場(chǎng)景算法效率增長(zhǎng),帶領(lǐng)團(tuán)隊(duì)自研大規(guī)模分布式生成式廣告算法推理能力,取得數(shù)倍推理加速效果。迄今申請(qǐng)發(fā)明專(zhuān)利 7 項(xiàng),并先后在國(guó)際頂級(jí)學(xué)術(shù)期刊會(huì)議 CIKM、NIPS、AAAI 等發(fā)表論文 7 篇。牽頭國(guó)內(nèi)行業(yè)標(biāo)準(zhǔn)制定 2 項(xiàng),參編 14 余項(xiàng)。

AICon 2025 強(qiáng)勢(shì)來(lái)襲,5 月上海站、6 月北京站,雙城聯(lián)動(dòng),全覽 AI 技術(shù)前沿和行業(yè)落地。大會(huì)聚焦技術(shù)與應(yīng)用深度融合,匯聚 AI Agent、多模態(tài)、場(chǎng)景應(yīng)用、大模型架構(gòu)創(chuàng)新、智能數(shù)據(jù)基建、AI 產(chǎn)品設(shè)計(jì)和出海策略等話(huà)題。即刻掃碼購(gòu)票,一同探索 AI 應(yīng)用邊界!

今日薦文

你也「在看」嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
1975年女子花10萬(wàn)買(mǎi)上海浦東一塊地皮,20年后的地皮價(jià)格讓她傻眼

1975年女子花10萬(wàn)買(mǎi)上海浦東一塊地皮,20年后的地皮價(jià)格讓她傻眼

牛魔王與芭蕉扇
2025-05-21 15:16:17
媒體人:沒(méi)想到國(guó)安讓張玉寧長(zhǎng)期替補(bǔ),接下來(lái)考驗(yàn)俱樂(lè)部協(xié)調(diào)能力

媒體人:沒(méi)想到國(guó)安讓張玉寧長(zhǎng)期替補(bǔ),接下來(lái)考驗(yàn)俱樂(lè)部協(xié)調(diào)能力

直播吧
2025-05-21 22:47:08
四川警界一哥任上被查,曾獲“罕見(jiàn)”提拔,主導(dǎo)調(diào)查溫州動(dòng)車(chē)事故

四川警界一哥任上被查,曾獲“罕見(jiàn)”提拔,主導(dǎo)調(diào)查溫州動(dòng)車(chē)事故

法度law
2025-05-21 18:34:26
賓館前臺(tái)如何看待深夜開(kāi)房男女的?網(wǎng)友:見(jiàn)怪不怪,千奇百怪!

賓館前臺(tái)如何看待深夜開(kāi)房男女的?網(wǎng)友:見(jiàn)怪不怪,千奇百怪!

特約前排觀眾
2025-05-22 00:10:04
有錢(qián)人最喜歡買(mǎi)的樓層,“十戶(hù)九富”,這不是胡說(shuō),而是事實(shí)

有錢(qián)人最喜歡買(mǎi)的樓層,“十戶(hù)九富”,這不是胡說(shuō),而是事實(shí)

小談食刻美食
2025-05-21 15:57:30
演員朱媛媛遺體已火化,生前一直覺(jué)得能恢復(fù),李乃文深夜發(fā)文悼念

演員朱媛媛遺體已火化,生前一直覺(jué)得能恢復(fù),李乃文深夜發(fā)文悼念

八斗小先生
2025-05-22 08:25:20
真假啊!他倆是“假”結(jié)婚?

真假啊!他倆是“假”結(jié)婚?

于小戈
2025-05-20 19:38:31
微軟工程師揭秘:Windows其實(shí)并不知道你的CPU有多快

微軟工程師揭秘:Windows其實(shí)并不知道你的CPU有多快

快科技
2025-05-21 18:41:08
個(gè)稅為何成為前四月增長(zhǎng)最快的稅種,有沒(méi)有人工智能也沒(méi)說(shuō)的原因

個(gè)稅為何成為前四月增長(zhǎng)最快的稅種,有沒(méi)有人工智能也沒(méi)說(shuō)的原因

苕國(guó)土魚(yú)
2025-05-21 18:43:23
又是100%關(guān)稅,中方未發(fā)請(qǐng)柬,特朗普又翻臉了,隨即展開(kāi)“報(bào)復(fù)”

又是100%關(guān)稅,中方未發(fā)請(qǐng)柬,特朗普又翻臉了,隨即展開(kāi)“報(bào)復(fù)”

科技講者66
2025-05-21 22:34:58
真人實(shí)測(cè)100公里!挑出最彈的3雙優(yōu)質(zhì)跑鞋,第3款性?xún)r(jià)比封神

真人實(shí)測(cè)100公里!挑出最彈的3雙優(yōu)質(zhì)跑鞋,第3款性?xún)r(jià)比封神

白宸侃片
2025-05-21 01:15:34
普京果然高明:特朗普緊逼,俄突然表示“從未向中國(guó)隱瞞任何事”

普京果然高明:特朗普緊逼,俄突然表示“從未向中國(guó)隱瞞任何事”

阿紿聊社會(huì)
2025-05-21 10:04:51
98年北京女子花1萬(wàn)塊入股中國(guó)移動(dòng),12年后,分紅把她嚇了一跳

98年北京女子花1萬(wàn)塊入股中國(guó)移動(dòng),12年后,分紅把她嚇了一跳

白云故事
2025-05-12 20:10:08
“火箭軍女神”李莉:因多次預(yù)判美軍陰謀,被美國(guó)列入制裁黑名單

“火箭軍女神”李莉:因多次預(yù)判美軍陰謀,被美國(guó)列入制裁黑名單

跳跳歷史
2025-05-14 10:24:39
請(qǐng)神容易送神難!土媒曝穆里尼奧將提前離隊(duì),不滿(mǎn)1000萬(wàn)歐違約金

請(qǐng)神容易送神難!土媒曝穆里尼奧將提前離隊(duì),不滿(mǎn)1000萬(wàn)歐違約金

夏侯看英超
2025-05-21 18:17:21
羅文利,升副部

羅文利,升副部

新京報(bào)政事兒
2025-05-21 19:24:51
張永寧:完全擁護(hù)、堅(jiān)決服從省委決定

張永寧:完全擁護(hù)、堅(jiān)決服從省委決定

新京報(bào)政事兒
2025-05-21 13:26:16
笑噴!廣廈奪冠慶典王博沖球迷高喊:你們的來(lái)指導(dǎo)把總冠軍帶回來(lái)了

笑噴!廣廈奪冠慶典王博沖球迷高喊:你們的來(lái)指導(dǎo)把總冠軍帶回來(lái)了

818體育
2025-05-21 22:53:46
成都市委召開(kāi)警示教育會(huì) 曹立軍主持并講話(huà)

成都市委召開(kāi)警示教育會(huì) 曹立軍主持并講話(huà)

成都簡(jiǎn)陽(yáng)發(fā)布
2025-05-21 22:14:15
上海、深圳又在出現(xiàn)3大怪現(xiàn)象,開(kāi)始逐步蔓延,值得每個(gè)人深思

上海、深圳又在出現(xiàn)3大怪現(xiàn)象,開(kāi)始逐步蔓延,值得每個(gè)人深思

巢客HOME
2025-05-21 05:05:03
2025-05-22 08:56:49
AI前線 incentive-icons
AI前線
面向AI愛(ài)好者、開(kāi)發(fā)者和科學(xué)家,提供AI領(lǐng)域技術(shù)資訊。
856文章數(shù) 80關(guān)注度
往期回顧 全部

科技要聞

蘋(píng)果設(shè)計(jì)靈魂投奔OpenAI 十年淘汰iPhone?

頭條要聞

牛彈琴:特朗普在白宮當(dāng)眾羞辱南非總統(tǒng) 馬斯克也在場(chǎng)

頭條要聞

牛彈琴:特朗普在白宮當(dāng)眾羞辱南非總統(tǒng) 馬斯克也在場(chǎng)

體育要聞

32歲孫興慜哭成淚人:熱刺10年首冠 亞洲第5人

娛樂(lè)要聞

中國(guó)國(guó)家話(huà)劇院發(fā)訃告:沉痛悼念朱媛媛

財(cái)經(jīng)要聞

中國(guó),拋售美債!

汽車(chē)要聞

價(jià)格下調(diào) 2025聰明款I(lǐng)D.4 X限時(shí)13.99萬(wàn)起

態(tài)度原創(chuàng)

數(shù)碼
健康
藝術(shù)
親子
時(shí)尚

數(shù)碼要聞

Marshall發(fā)布首款回音壁產(chǎn)品Heston 120:售7999元

唇皰疹和口腔潰瘍是"同伙"嗎?

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

親子要聞

小肚子大不是脂肪的鍋!是核心兜不住內(nèi)臟了,產(chǎn)后和久坐人群必練

今夏超流行這6種顏色,每一種都是顯白高手

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 昔阳县| 东海县| 错那县| 那曲县| 佛坪县| 麻栗坡县| 惠安县| 根河市| 宜都市| 汶上县| 原阳县| 南华县| 彭水| 辰溪县| 广河县| 灵台县| 台东市| 星座| 白水县| 彭州市| 美姑县| 天水市| 麦盖提县| 昂仁县| 彭州市| 长海县| 杭锦旗| 乐业县| 洪湖市| 田阳县| 青阳县| 马鞍山市| 桦甸市| 慈利县| 阳西县| 白玉县| 明溪县| 贵溪市| 五华县| 抚州市| 城市|