99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

DeepSeek研究員1200行代碼復刻vLLM,H800硬件實測性能反超原版

0
分享至

西風 發自 凹非寺
量子位 | 公眾號 QbitAI

僅用不到1200行代碼,實現最小化且完全可讀的vLLM

DeepSeek研究員俞星凱搞了個開源項目引得大伙拍手叫絕。



項目名為Nano-vLLM(納米級-vLLM),有三大特點:

  • 快速離線推理:推理速度可與vLLM相媲美
  • 可讀性強的代碼庫:基于不到1200行Python代碼實現,簡潔干凈
  • 優化套件:包含前綴緩存、Torch compilation 、CUDA graph等

下面是vLLM與Nano-vLLM在不同硬件和模型配置下的基準測試情況。

在RTX 4070硬件、Qwen3-0.6B模型環境中,設置了256個序列的總請求數,輸入和輸出長度均在100-1024個 token間隨機采樣。

測試結果be like:



vLLM略微領先。

二者輸出token量相同,vLLM耗時98.95秒、吞吐量為1353.86 tokens/s,Nano-vLLM耗時101.90秒、吞吐量1314.65tokens/s。

接著在H800硬件、Qwen3-8B模型環境中,總請求數為1024個序列,輸入輸出長度同樣隨機采樣。



此時Nano-vLLM甚至反超原框架。

二者輸出token量依舊相同,vLLM耗時98.67秒、吞吐量5916.89 tokens/s ,Nano-vLLM耗時86.73秒、吞吐量 6731.42 tokens/s。

這一成果來自于DeepSeek研究員俞星凱。



他2021年獲得南京大學計算機科學與技術系學士學位,同年又被南京大學免試錄取為碩士研究生,在校他同時也是由周志華教授領導的LAMDA團隊的成員。



vLLM是什么?

vLLM是一款專為LLM推理與部署優化的高性能框架,最初由加州大學伯克利分校的Sky Computing Lab開發,現已發展成為一個匯聚學界與業界貢獻的社區驅動項目。



該項目在GitHub目前已累計49.5k+Star。



其核心技術靈感源自操作系統虛擬內存分頁機制。此前LLM服務系統因采用連續內存存儲KV緩存,導致內部/外部碎片化嚴重,且無法有效共享內存,極大限制了批處理規模。

針對這一問題,團隊提出PagedAttention算法,允許將連續的鍵(key)值(value)對存儲在非連續內存空間中,通過將KV緩存劃分為固定大小的塊(Block),利用塊表動態映射邏輯塊與物理塊地址。



在注意力計算過程中,PagedAttention內核會分別識別和獲取不同的KV塊。

下面是一個示例,鍵和值向量分布在三個塊中,且這三個塊在物理內存中并不連續。



基于PagedAttention算法,團隊構建了vLLM服務系統,其架構下圖所示:



vLLM采用集中式調度器來協調分布式GPU工作節點的執行。

借助PagedAttention,KV緩存管理器以分頁方式有效管理KV緩存。具體而言,KV緩存管理器通過集中式調度器發送的指令來管理GPU工作節點上的物理KV緩存內存。

vLLM實現了KV緩存內存近乎零浪費,請求內及請求間KV緩存的靈活共享進一步降低內存使用。

評估顯示,與FasterTransformer和Orca等此前最先進系統相比,vLLM在相同延遲水平下將流行LLM的吞吐量提升2-4倍,且在更長序列、更大模型和更復雜解碼算法場景中改進更為顯著。

總結來說,vLLM靈活且易于使用,具備以下特點

與流行的Hugging Face模型無縫集成,包括類Transformer模型、混合專家模型、嵌入模型、多模態模型;支持通過各種解碼算法實現高吞吐量服務,包括并行采樣、波束搜索等;支持張量并行和pipeline并行,以實現分布式推理;支持流式輸出;兼容OpenAI的API服務器;支持NVIDIA GPU、AMD CPU和GPU、Intel CPU和GPU、PowerPC CPU、TPU以及AWS Neuron;支持前綴緩存;支持多LoRA。

值得一提的是,在實現層面,vLLM前端基于FastAPI,后端是基于GPU的推理引擎。vLLM引擎由8500行Python代碼和2000行C++/CUDA代碼構成

而這次DeepSeek研究員僅用不到1200行代碼就實現了輕量級vLLM,性能和原版相媲美。


[1]https://github.com/GeeeekExplorer/nano-vllm/tree/main
[2]]https://www.lamda.nju.edu.cn/yuxk/
[3]https://arxiv.org/pdf/2309.06180
[4]https://github.com/vllm-project/vllm

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
公務員這8類私下行為將被監委盯上,新條例落地,下班也別亂來!

公務員這8類私下行為將被監委盯上,新條例落地,下班也別亂來!

愛下廚的阿椅
2025-06-13 13:18:26
不到48小時,伊朗迎首個強援,巴鐵防長堅定發聲,以色列或遭群毆

不到48小時,伊朗迎首個強援,巴鐵防長堅定發聲,以色列或遭群毆

書中自有顏如玉
2025-06-15 01:06:27
多名院士呼吁停止食用,比肥肉還傷血管,轉告父母,趁早撤下餐桌

多名院士呼吁停止食用,比肥肉還傷血管,轉告父母,趁早撤下餐桌

溫讀史
2025-06-14 11:49:31
去了趟烏克蘭,才明白為啥中國男人都想“抄底”,娶烏克蘭媳婦!

去了趟烏克蘭,才明白為啥中國男人都想“抄底”,娶烏克蘭媳婦!

天下霸奇
2025-06-11 09:59:55
商業運營時速瞄準400公里 全球最快高鐵在湖北試跑半個月

商業運營時速瞄準400公里 全球最快高鐵在湖北試跑半個月

極目新聞
2025-06-13 08:18:55
社評:拆掉華為基站讓巴拿馬更安全了嗎

社評:拆掉華為基站讓巴拿馬更安全了嗎

環球網資訊
2025-06-14 00:16:25
嚴屹寬開車300公里回家,幫老婆拖地擦廁所,40歲杜若溪想要二胎

嚴屹寬開車300公里回家,幫老婆拖地擦廁所,40歲杜若溪想要二胎

界史
2025-06-13 09:22:56
劉震云:當別人無法控制你得時候,他們就會開始討厭你

劉震云:當別人無法控制你得時候,他們就會開始討厭你

清風拂心
2025-06-12 16:30:03
購買700架第五代隱形戰斗機 儲備數百萬枚大口徑炮彈:全面備戰!

購買700架第五代隱形戰斗機 儲備數百萬枚大口徑炮彈:全面備戰!

聚峰軍評
2025-06-10 10:17:44
僅6分鐘19個導彈連全軍覆沒,82架戰機被擊落,以色列如何做到的

僅6分鐘19個導彈連全軍覆沒,82架戰機被擊落,以色列如何做到的

歷史求知所
2025-04-20 18:40:05
馬思純變化好大 之前給人胖墩墩印象的馬思純,臉型好像都小了一圈

馬思純變化好大 之前給人胖墩墩印象的馬思純,臉型好像都小了一圈

老吳教育課堂
2025-06-15 01:04:44
蘇州大學四年換了三個校長

蘇州大學四年換了三個校長

王吉尼
2025-06-14 22:22:51
法足協主席:齊達內愿意執教法國令我欣慰,接替日期還未確定

法足協主席:齊達內愿意執教法國令我欣慰,接替日期還未確定

懂球帝
2025-06-14 11:01:14
“家境不好,剛上大一的弟弟要買1萬多的手機”:巨嬰有多可怕?

“家境不好,剛上大一的弟弟要買1萬多的手機”:巨嬰有多可怕?

精讀君
2025-03-14 11:38:57
一句話生成任務專屬LoRA!Transformer作者創業公司顛覆LLM微調

一句話生成任務專屬LoRA!Transformer作者創業公司顛覆LLM微調

量子位
2025-06-13 17:23:47
35歲出軌男人的心里話:和小三上過床以后,再抱老婆睡覺是什么感覺

35歲出軌男人的心里話:和小三上過床以后,再抱老婆睡覺是什么感覺

第四思維
2025-05-09 18:05:14
種牙背后五大雷區!三甲醫生含淚忠告:這些人的牙床正在悄悄崩塌

種牙背后五大雷區!三甲醫生含淚忠告:這些人的牙床正在悄悄崩塌

戰術小豬
2025-06-14 17:22:26
78歲大媽3分鐘簽完安樂死文件,醫生突然遞來手機:"您該先聽這個"

78歲大媽3分鐘簽完安樂死文件,醫生突然遞來手機:"您該先聽這個"

雨仔講故事
2025-06-13 18:47:33
網曝深圳某三甲醫院,病房發霉了!患者的健康誰來守護

網曝深圳某三甲醫院,病房發霉了!患者的健康誰來守護

說點真嘞叭
2025-06-15 04:44:07
不聽勸,鄰居硬把主衛改成衣帽間,入住一年后,她哭著拆掉了

不聽勸,鄰居硬把主衛改成衣帽間,入住一年后,她哭著拆掉了

時尚舒適家
2025-06-10 08:35:27
2025-06-15 08:15:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10666文章數 176167關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

伊朗數小時內或再襲擊 以色列進入"前所未有緊急狀態"

頭條要聞

伊朗數小時內或再襲擊 以色列進入"前所未有緊急狀態"

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

房產
藝術
家居
教育
公開課

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

森林幾何 極簡灰調原木風

教育要聞

分數之外,孝道滿分:一場高考后的溫情禮贊

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 灵璧县| 永清县| 武夷山市| 达日县| 巴楚县| 苗栗县| 静乐县| 成安县| 恭城| 始兴县| 从化市| 广宁县| 福贡县| 镇康县| 绵阳市| 永城市| 上饶县| 福建省| 滦平县| 阜新| 石屏县| 醴陵市| 黄浦区| 阿拉善左旗| 台中县| 沈丘县| 珲春市| 晋城| 呼图壁县| 佛坪县| 平顶山市| 金秀| 富阳市| 库车县| 界首市| 吴堡县| 河曲县| 合肥市| 千阳县| 珲春市| 江门市|