DeepSeek發(fā)布了最新的研究成果——原生稀疏注意力(Native Sparse Attention, NSA)直擊當(dāng)下推理模型的痛點(diǎn):高數(shù)據(jù)成本及復(fù)雜架構(gòu)復(fù)雜!值得一提的是,幻方科技、DeepSeek 創(chuàng)始人梁文鋒作為co-authors也親自下場參與了。
傳統(tǒng) Attention 機(jī)制的計(jì)算復(fù)雜度隨著序列長度的增加而呈平方級增長,這成為了制約 LLM 發(fā)展的關(guān)鍵瓶頸。NSA 的核心亮點(diǎn)可以簡單概括為:極致的降本增效,友好的硬件設(shè)計(jì),挑戰(zhàn)預(yù)訓(xùn)練Scaling Law規(guī)則,可以稱得上是LLM 領(lǐng)域又一里程碑式進(jìn)展!
NSA對應(yīng)的KV-Cache是否也是稀疏的?
NSA的三個(gè)Attention各自目的是什么?是如何實(shí)現(xiàn)的?
NSA是否能減少超大的矩陣計(jì)算的空間復(fù)雜度問題NSA的training/forward/prefill/decoding各階段的時(shí)空/計(jì)算復(fù)雜度是怎么樣的?
NSA 的內(nèi)核是如何減少對SRAM的訪存的。
我整理了DeepSeek的資源大全,涉及到DeepSeek 的官方鏈接、開源項(xiàng)目、專業(yè)的技術(shù)分析文章,以及不斷更新的行業(yè)資訊,你想知道的關(guān)于 DeepSeek 的一切,都可以在這里找到。掃碼免費(fèi)領(lǐng)取??(下滑還有更多福利)
為了幫大家解決包括但不限于以上疑問,研夢非凡3月7日晚(周五)邀請了手握10余篇頂會(huì)的楊導(dǎo)師給大家詳細(xì)介紹NSA的設(shè)計(jì)原理、實(shí)驗(yàn)設(shè)置以及實(shí)驗(yàn)結(jié)果,希望能為大家DeepSeek在相關(guān)領(lǐng)域的技術(shù)發(fā)展帶來一些啟發(fā)。
掃碼預(yù)約直播課
直播課內(nèi)容概覽
1. Native Sparse Attention的核心根據(jù)
2. 相關(guān)工作
a. 固定的稀疏模式
b. 動(dòng)態(tài)Token剪枝
c. Query意識的選擇
3. 重新思考稀疏注意力模塊
a. 高效推理的錯(cuò)覺
b. 可訓(xùn)練稀疏度
c. 原生的稀疏性
4. 算法框架
a. 背景
b. 整體結(jié)構(gòu)設(shè)計(jì)
c. 算法設(shè)計(jì)
d. Token的壓縮與選擇
e. Kernel的設(shè)計(jì)
5. 實(shí)驗(yàn)要點(diǎn)
a. 實(shí)驗(yàn)配置
b. 主實(shí)驗(yàn)分析
c. 消融實(shí)驗(yàn)分析
d. 討論
6. 總結(jié)與展望
a. 更加高效的長文本加速方法
b. 分層次的Token壓縮
導(dǎo)師介紹
楊導(dǎo)師
【簡介】畢業(yè)于知名計(jì)算機(jī)名校。博士期間研究方向聚焦為計(jì)算機(jī)視覺,自然語言處理,高效的深度學(xué)習(xí)訓(xùn)練和推理方法,大語言模型輕量化與高效微調(diào)技術(shù)。
曾在多家公司擔(dān)任算法研究員,并進(jìn)行計(jì)算機(jī)視覺,高效模型壓縮算法,多模態(tài)大語言模型的研究,包括模型量化,剪枝,蒸餾,編譯以及高效稀疏化訓(xùn)練與推理。
【科研成果】在國際頂級會(huì)議CVPR,ICCV, EMNLP等發(fā)表13篇論文,并擔(dān)任CVPR,ICCV,ECCV,ICML,ICLR, NeurIPS等重要會(huì)議和期刊的審稿人。
多項(xiàng)發(fā)明專利,指導(dǎo)學(xué)生有耐心,教學(xué)嚴(yán)謹(jǐn),思維邏輯縝密,已經(jīng)指導(dǎo)數(shù)十篇論文。對于成果好的學(xué)生,幫助學(xué)生寫推薦信和指導(dǎo)申請碩/博申請。
研夢非凡可指導(dǎo)的研究方向
主流方向科研論文常用方法
掃碼預(yù)約直播課領(lǐng)資料+福利
夢非凡科研論文指導(dǎo)方案
idea并不是直接拍腦門拍出來的,是一遍一遍實(shí)驗(yàn)、跑代碼、改模型、思路修正的過程中產(chǎn)生的。研夢非凡1V1定制化論文指導(dǎo),和研夢導(dǎo)師一起找idea,研夢導(dǎo)師指導(dǎo)實(shí)驗(yàn),共同解決數(shù)據(jù)問題。授之以漁——搭建論文寫作框架,增刪改查,針對性實(shí)驗(yàn)指導(dǎo)!哪里薄弱補(bǔ)哪里!
全程1v1論文輔導(dǎo)掃碼咨詢助教
研夢非凡導(dǎo)師團(tuán)隊(duì)
研夢非凡的導(dǎo)師來自海外QStop50、國內(nèi)華五、C9、985高校的教授/博士導(dǎo)師/博士后,世界500強(qiáng)公司算法工程師,以及國內(nèi)外知名人工智能實(shí)驗(yàn)室研究員。
這是一支實(shí)力強(qiáng)大的高學(xué)歷導(dǎo)師團(tuán)隊(duì),在計(jì)算機(jī)科學(xué)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等領(lǐng)域,積累了豐富的科研經(jīng)歷,研究成果也發(fā)表在國際各大頂級會(huì)議和期刊上,在指導(dǎo)學(xué)員的過程中,全程秉持初心,堅(jiān)持手把手個(gè)性化帶教。包括但不限于以下導(dǎo)師~~
<<< 左右滑動(dòng)見更多 >>>
掃碼預(yù)約研夢非凡1v1導(dǎo)師meeting
研夢非凡隸屬于蘇州研途教育,深耕考研輔導(dǎo)行業(yè)13年,累計(jì)服務(wù)1w+付費(fèi)學(xué)員(60%高校學(xué)生/教師,40%職場精英);科研為本,質(zhì)量為先!我們有:500+ 國內(nèi)外頂尖高校博士/教授,互聯(lián)網(wǎng)大廠/獨(dú)角獸公司的高級算法科學(xué)家組成的教師團(tuán)隊(duì);深度定制的科研服務(wù),根據(jù)每位學(xué)員的實(shí)際情況,提供個(gè)性化的科研輔導(dǎo)方案,確保交付結(jié)果;一站式、全方位科研支持,從選題到方案設(shè)計(jì),從實(shí)驗(yàn)實(shí)施到論文撰寫、成果發(fā)表,4V1全流程保姆式服務(wù)!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.