99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

下一代Transformer架構的預測是什么?

0
分享至

即便面臨眾多挑戰者,Transformer的強勢仍然遠遠沒有結束。但即便如此,Transformer本身的結構也一直在演進,從absolute embedding到RoPE,從dense到MoE,從CoT到think模型…那么,你對下一代的Transformer的猜想是什么?五年后的Transformer還會是現在的模樣嗎?

作者:THU Markov(清華大學 電子科學與技術博士)

數據、算法和算力。咋就沒人談談算力呢!!!

繼續走Transformer這條科技線 -> 需要低成本可擴展的算力 -> 并行序列解碼是必然的選擇

Speculative Decoding 的序列并行度通常有8-16,最好工作能實現4倍以上的解碼速率。但這還是太保守了,革命不徹底就是徹底不革命,只有全序列并行才能徹底繞過decoding 階段的存儲墻。Diffusion LLM是一個值得關注的方向。

首先框住研究對象,我定義的transformer:基于attention機制的自回歸編解碼器架構

它分為prefill和decoding兩個階段,我司的結論是各類應用,>90%的runtime都花在decoding上,而且decoding的性能完全是 bandwidth bound。計算單元閑置率極高,這意味著擴展性能=擴展帶寬

而帶寬擴展的成本高到嚇人。4xGB200 (cost > 200萬rmb)能提供768GB的存儲+32TB/s 帶寬,最多實現~50 Tokens/s 的 DS-R1 decoding 速度。服務器端還可以通過batching多個用戶,排隊,限制token usage來攤薄成本。邊緣端/客戶端芯片的賽道已經宣判游戲結束,花200w RMB搭建個人聊天機器人,從商業還是學術上都不是那么好推廣的。(默哀1秒鐘我在學校做的相關研究)

當前 transformer 架構算力方面的最大挑戰:自回歸解碼缺乏數據復用

怎么理解“數據復用”?最廣義的概念就是一個數據會參與到多少計算。

數據復用越大,意味著少量的帶寬就可以支持較多的計算單元。計算機分級存儲結構中,每層存儲介質都有各自的數據復用,暫時不展開。

以單張圖片輸入的 CNN 為例,卷積 kernel 會滑動過整個 feature map:

  • kernel weight 的復用次數就是 feature map 的像素數量 (PxQ)

  • feature map 的復用次數就是 kernel size (HxW) x kernel number (K)

  • 兩者的典型值都在數千次及以上。

為什么要追求高數據復用呢?因為擴展帶寬的成本要比擴展計算單元的高的多。GPU (GB200)算力約 40PFLOPS (NVFP4),MAC 單元并行度~10M。

那需要多大的帶寬呢?公式如下:

Required Bandwidth = Compute / data_reuse

雙通道 DDR5 帶寬~100GB/s, 反推得出數據復用>20w 次才能支持 GB200 的算力。

很顯然這種場景是不太常見的。所以現代 GPU 通常采用昂貴的 HBM,例如 GB200 的 HBM3E 的帶寬約 8TB/s, 數據復用只需要達到 2500 次即可,這種場景就太多了。

但 HBM 代價是什么呢,HBM 成本+封裝成本+互聯成本遠遠超過了 GPU die 的流片成本,純屬倒反天罡了。

也就是說只要搞定 HBM 供應,人人都和 NVIDIA 同一起跑線?

參考 AMD Mi300x 系列,冷不丁就做出來了,指標還超了同期 H100。NV 帝國的根基開始動搖。。。。(當然還有 CUDA 天塹需要翻越)

回到 Transformer decoding,每個 user decoding 階段只有一維的 hidden 在 block 間正向傳播,在每個 block 中主要做 GEMV 計算(包括 attn 和 FC):

  • model weight 的復用次數就是 Batch size(B)

  • hidden 的復用次數就是 kernel number (K)

  • Q 和 Attn weight 的復用次數是 sequence length (L)

  • KV$ 的復用次數是 GQA_ratio

  • 對個人產品而言 B 通常=1,服務器通常可以做到 64~256

  • GQA_ratio 通常在 4~16 之間

model weight 和 KV$ 的復用通常<100,因此 LLM decoding 的性能已經完全 bound 在 loading weight 或者 KV$ 上,compute unit 始終處在休眠或者圍觀看戲狀態。

總結來說,低數據復用是 decoding cost 高企的罪魁禍首。

題外話1:考慮到H100的算力太強,而decoding階段算力又都在休假,那是不是把計算單元砍一刀,成本更低還不會影響運算時間?沒錯,H20就是這種產品。那是不是不用nv的GPU做運算也行?沒錯,M3 ultra (512GB capacity+800GB/s bandwidth)就是,不講性價比的Mac反而成為了最具性價比的AI開發工作站。

題外話2:能做batching已經是萬幸,個人產品上batch size=1,用戶端DDR帶寬又小,decode真是又慢又貴,只剩一個privacy可以聊以慰藉了。

有了芯片成本以及數據復用的基礎知識,這個時候反思一個問題:為什么CNN處理圖片可以實現成千上萬的數據復用,到了LLM就不行了呢?本質區別是CNN是對數萬個像素并行計算,而transformer只能對單個token運算。

那假設有一個transformer能并行decoding多個token,是不是就能把數據復用拉上來?是的,你已經理解了研究并行解碼的動機。

那有沒有辦法并行解碼呢?目前最流行的speculative decoding就是了,先用低成本模型打一個草稿,target model只要并行驗證草稿+拒絕采樣即可。這種方法的采樣分布和原模型是一致的,從而不會降低回復的質量。LLM也可以直接decode多個token,包括Deepseek的MTP就是。但是為什么主流的模型都只訓練next-token predictor呢?希望LLM大佬賜教。

端午安康 粽情飄香


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
梁朝偉和湯唯在《色戒》里“假戲真做”?網友爆出截圖:一目了然

梁朝偉和湯唯在《色戒》里“假戲真做”?網友爆出截圖:一目了然

姜糖先生
2025-06-08 19:31:00
“高鐵站臺乘客不要打傘!”成都東站工作人員反復提醒,專業人士解析緣由

“高鐵站臺乘客不要打傘!”成都東站工作人員反復提醒,專業人士解析緣由

極目新聞
2025-07-03 23:31:00
《紐約時報》丨托馬斯·弗里德曼:特朗普“大美麗法案”將如何讓中國再次偉大

《紐約時報》丨托馬斯·弗里德曼:特朗普“大美麗法案”將如何讓中國再次偉大

邸報
2025-07-04 09:14:28
39歲博士失業送外賣?馬化騰:什么都沒錯,唯一的錯是我們老了!

39歲博士失業送外賣?馬化騰:什么都沒錯,唯一的錯是我們老了!

風起講堂
2025-06-22 08:33:55
令人心碎...利物浦官網目前只留若塔、希爾斯堡慘案和海瑟爾慘案

令人心碎...利物浦官網目前只留若塔、希爾斯堡慘案和海瑟爾慘案

懂球帝
2025-07-03 18:20:16
朝鮮女博士來上海后整整15年未出門,民警破門后,當場愣住

朝鮮女博士來上海后整整15年未出門,民警破門后,當場愣住

獅拓一葉知秋
2025-05-08 20:43:57
別再不舍得開空調!Nature和子刊:溫度調低,不僅能抑制多種癌癥生長,還能燃脂減肥,改善代謝和心血管健康

別再不舍得開空調!Nature和子刊:溫度調低,不僅能抑制多種癌癥生長,還能燃脂減肥,改善代謝和心血管健康

梅斯醫學
2025-07-02 08:49:47
張紀中家保姆闖禍了,燙傷9個月孩子故意隱瞞,夫妻倆非常生氣

張紀中家保姆闖禍了,燙傷9個月孩子故意隱瞞,夫妻倆非常生氣

TVB的四小花
2025-07-04 02:22:57
比亞迪被打倒,將是中國汽車最大悲哀!王傳福三次哽咽

比亞迪被打倒,將是中國汽車最大悲哀!王傳福三次哽咽

芭比衣櫥
2025-06-15 14:07:14
小米倍思綠聯集體淪陷!國產充電寶墜入至暗時刻

小米倍思綠聯集體淪陷!國產充電寶墜入至暗時刻

藍字計劃
2025-07-01 17:20:49
洛陽一景區有游客被洪水沖走失聯3天,家屬急尋稱孩子哭著找爸爸,應急局:正搜救核實

洛陽一景區有游客被洪水沖走失聯3天,家屬急尋稱孩子哭著找爸爸,應急局:正搜救核實

極目新聞
2025-07-03 21:11:47
32歲主播童錦程被3億違約金鎖死,被問是否跳槽:我拿頭解約啊

32歲主播童錦程被3億違約金鎖死,被問是否跳槽:我拿頭解約啊

書咚咚
2025-07-03 19:44:27
江西兩個5A景區宣布:免票!

江西兩個5A景區宣布:免票!

洪觀新聞
2025-07-03 11:32:14
陶琳:特斯拉音響系統采用全自研設計 還有神秘黑科技

陶琳:特斯拉音響系統采用全自研設計 還有神秘黑科技

手機中國
2025-07-03 16:24:11
“美國解除對華C919發動機出口禁令”

“美國解除對華C919發動機出口禁令”

觀察者網
2025-07-04 08:17:07
名記:獨行俠僅在詹姆斯被買斷的情況下才會對他感興趣

名記:獨行俠僅在詹姆斯被買斷的情況下才會對他感興趣

直播吧
2025-07-04 00:55:13
女籃李夢最好的3個朋友:先后表態力挺,三巨頭就差王思雨了

女籃李夢最好的3個朋友:先后表態力挺,三巨頭就差王思雨了

二月侃事
2025-07-03 17:27:29
李澤鉅突遭港府“精準除名”!李嘉誠家族痛失最后政壇門票?

李澤鉅突遭港府“精準除名”!李嘉誠家族痛失最后政壇門票?

古事尋蹤記
2025-07-04 08:14:15
美媒:NBA聯盟已移除波波維奇本賽季缺席的77場比賽戰績

美媒:NBA聯盟已移除波波維奇本賽季缺席的77場比賽戰績

雷速體育
2025-07-03 14:38:12
僅播6集就口碑大爆,評分高達9.2,這才是國產黑馬劇該有的樣子

僅播6集就口碑大爆,評分高達9.2,這才是國產黑馬劇該有的樣子

夢涵說體育
2025-07-03 08:53:57
2025-07-04 10:07:00
人工智能研究 incentive-icons
人工智能研究
分享深度學習、CV、NLP
275文章數 130關注度
往期回顧 全部

科技要聞

英偉達再創新高,市值已逼近4萬億美元

頭條要聞

烏方"紅軍村"被俄軍集11萬兵力猛攻 俄方戰報泄露天機

頭條要聞

烏方"紅軍村"被俄軍集11萬兵力猛攻 俄方戰報泄露天機

體育要聞

你永不獨行!球迷前往安菲爾德悼念若塔

娛樂要聞

森林北又有緋聞傳出?汪峰毫不在意?

財經要聞

闖禍電芯商部分產線停產!羅馬仕通知停工

汽車要聞

6.5秒破百 長安第三代UNI-V有更強2.0T

態度原創

手機
教育
旅游
公開課
軍事航空

手機要聞

蘋果 iPhone 16 的降價推廣為中國市場帶來了罕見的增長

教育要聞

考大學選城市:京滬寧漢蓉,杭深蘇穗鎬,這10個城市為什么香?

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄海軍副司令在庫爾斯克州遇襲身亡

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 乐业县| 海原县| 中卫市| 扶风县| 龙游县| 彭水| 胶州市| 南充市| 尉犁县| 晋州市| 镇江市| 垦利县| 木兰县| 海安县| 福州市| 淮北市| 苍南县| 平和县| 清河县| 沙雅县| 栾川县| 乳山市| 重庆市| 涿鹿县| 定兴县| 合作市| 叙永县| 尤溪县| 海宁市| 疏附县| 祁阳县| 池州市| 昌图县| 吴堡县| 怀集县| 南康市| 兴海县| 鲁山县| 杂多县| 富锦市| 望城县|