99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

完整的671B DeepSeek R1本地部署,詳盡教程來了!

0
分享至

來源:機器之心

本文的作者是李錫涵(Xihan Li)。他是倫敦大學學院(UCL)計算機系博士研究生,谷歌開發者專家,主要研究方向為學習優化,在 NeurIPS、ICLR、AAMAS、CIKM 等會議發表過學術論文,Circuit Transformer 作者,圖書《簡明的 TensorFlow 2》(https://tf.wiki)作者。

過年這幾天,DeepSeek 算是徹底破圈了,火遍大江南北,火到人盡皆知。雖然網絡版和 APP 版已經足夠好用,但把模型部署到本地,才能真正實現獨家定制,讓 DeepSeek R1 的深度思考「以你為主,為你所用」。

關于本地部署,大多數人使用的是蒸餾后的8B/32B/70B版本,本質是微調后的Llama或Qwen模型,并不能完全發揮出DeepSeek R1的實力。

然而,完整的671B MoE模型也可以通過針對性的量化技術壓縮體積,從而大幅降低本地部署門檻,乃至在消費級硬件(如單臺Mac Studio)上運行。

那么,如何用 ollama 在本地部署 DeepSeek R1 671B(完整未蒸餾版本)模型呢?一篇在海外熱度很高的簡明教程即將揭曉。

  • 作者主頁:https://snowkylin.github.io

  • 原文地址:https://snowkylin.github.io/blogs/a-note-on-deepseek-r1.html

本地部署后,讓 DeepSeek R1 「數草莓」

模型選擇

原版 DeepSeek R1 671B 全量模型的文件體積高達 720GB,對于絕大部分人而言,這都大得太離譜了。本文采用 Unsloth AI 在 HuggingFace 上提供的 “動態量化” 版本來大幅縮減模型的體積,從而讓更多人能在自己的本地環境部署該全量模型。

“動態量化” 的核心思路是:對模型的少數關鍵層進行高質量的 4-6bit 量化,而對大部分相對沒那么關鍵的混合專家層(MoE)進行大刀闊斧的 1-2bit 量化。通過這種方法,DeepSeek R1 全量模型可壓縮至最小 131GB(1.58-bit 量化),極大降低了本地部署門檻,甚至能在單臺 Mac Studio 上運行!

根據我自己的工作站配置,我選擇了以下兩個模型進行測試:

  • DeepSeek-R1-UD-IQ1_M(671B,1.73-bit 動態量化,158 GB,HuggingFace)

  • DeepSeek-R1-Q4_K_M(671B,4-bit 標準量化,404 GB,HuggingFace)

Unsloth AI 提供了4 種動態量化模型(1.58 至 2.51 比特,文件體積為 131GB 至 212GB),可根據自身硬件條件靈活選擇。建議閱讀官方說明了解各版本差異。

  • Unsloth AI 官方說明:https://unsloth.ai/blog/deepseekr1-dynamic

硬件需求

部署此類大模型的主要瓶頸是內存+顯存容量,建議配置如下:

  • DeepSeek-R1-UD-IQ1_M:內存 + 顯存 ≥ 200 GB

  • DeepSeek-R1-Q4_K_M:內存 + 顯存 ≥ 500 GB

我們使用 ollama 部署此模型。ollama 支持 CPU 與 GPU 混合推理(可將模型的部分層加載至顯存進行加速),因此可以將內存與顯存之和大致視為系統的 “總內存空間”。

除了模型參數占用的內存+顯存空間(158 GB 和 404GB)以外,實際運行時還需額外預留一些內存(顯存)空間用于上下文緩存。預留的空間越大,支持的上下文窗口也越大。

我的測試環境為:

  • 四路 RTX 4090(4×24 GB 顯存)

  • 四通道 DDR5 5600 內存(4×96 GB 內存)

  • ThreadRipper 7980X CPU(64 核)

在此配置下,短文本生成(約 500 個 token)的速度為:

  • DeepSeek-R1-UD-IQ1_M:7-8 token / 秒(純 CPU 推理時為 4-5 token / 秒)

  • DeepSeek-R1-Q4_K_M:2-4 token / 秒

長文本生成時速度會降至 1-2 token / 秒。

值得注意的是,上述測試環境的硬件配置對于大模型推理而言,并非性價比最優的方案(這臺工作站主要用于我的 Circuit Transformer 研究(arXiv:2403.13838),該研究在上周于 ICLR 會議接收。我和我的工作站都可以休息一下了,于是有了這篇文章)。

下面列舉一些更具性價比的選項:

  • Mac Studio:配備大容量高帶寬的統一內存(比如 X 上的 @awnihannun 使用了兩臺 192 GB 內存的 Mac Studio 運行 3-bit 量化的版本)

  • 高內存帶寬的服務器:比如 HuggingFace 上的 alain401 使用了配備了 24×16 GB DDR5 4800 內存的服務器)

  • 云 GPU 服務器:配備 2 張或更多的 80GB 顯存 GPU(如英偉達的 H100,租賃價格約 2 美元 / 小時 / 卡)

若硬件條件有限,可嘗試體積更小的 1.58-bit 量化版(131GB),可運行于:

  • 單臺 Mac Studio(192GB 統一內存,參考案例可見 X 上的 @ggerganov,成本約 5600 美元)

  • 2×Nvidia H100 80GB(參考案例可見 X 上的 @hokazuya,成本約 4~5 美元 / 小時)

且在這些硬件上的運行速度可達到 10+ token / 秒。

部署步驟

下列步驟在Linux環境下執行,Mac OS和Windows的部署方式原則上類似,主要區別是ollama和llama.cpp的安裝版本和默認模型目錄位置不同。

1. 下載模型文件

從 HuggingFace (https://huggingface.co/unsloth/DeepSeek-R1-GGUF)下載模型的 .gguf 文件(文件體積很大,建議使用下載工具,比如我用的是 XDM),并將下載的分片文件合并成一個(見注釋 1)。

2. 安裝 ollama

  • 下載地址:https://ollama.com/

執行以下命令:

curl -fsSL https://ollama.com/install.sh | sh

3. 創建 Modelfile 文件,該文件用于指導 ollama 建立模型

使用你喜歡的編輯器(比如nano或vim),為你選擇的模型建立模型描述文件。

文件 DeepSeekQ1_Modelfile(對應于 DeepSeek-R1-UD-IQ1_M)的內容如下:

FROM /home/snowkylin/DeepSeek-R1-UD-IQ1_M.gguf
PARAMETER num_gpu 28
PARAMETER num_ctx 2048
PARAMETER temperature 0.6
TEMPLATE "<|User|>{{ .Prompt }}<|Assistant|>"

文件 DeepSeekQ4_Modelfile(對應于 DeepSeek-R1-Q4_K_M)的內容如下:

FROM /home/snowkylin/DeepSeek-R1-Q4_K_M.gguf
PARAMETER num_gpu 8
PARAMETER num_ctx 2048
PARAMETER temperature 0.6
TEMPLATE "<|User|>{{ .Prompt }}<|Assistant|>"

? 你需要將第一行“FROM”后面的文件路徑,改為你在第1步下載并合并的.gguf文件的實際路徑。

可根據自身硬件情況調整 num_gpu(GPU 加載層數)和 num_ctx(上下文窗口大小),詳情見步驟 6。

4. 創建 ollama 模型

在第3步建立的模型描述文件所處目錄下,執行以下命令:

ollama create DeepSeek-R1-UD-IQ1_M -f DeepSeekQ1_Modelfile

務必確保 ollama 的模型目錄 /usr/share/ollama/.ollama/models 有足夠大的空間(或修改模型目錄的路徑,見注釋 2)。這個命令會在模型目錄建立若干模型文件,體積與下載的.gguf 文件體積相當。

5. 運行模型

執行以下命令:

ollama run DeepSeek-R1-UD-IQ1_M --verbose

  • --verbose 參數用于顯示推理速度(token / 秒)。

若提示內存不足或CUDA錯誤,需返回步驟 4 調整參數后,重新創建和運行模型。

  • num_gpu:加載至 GPU 的模型層數。DeepSeek R1 模型共有 61 層,我的經驗是:

    對于 DeepSeek-R1-UD-IQ1_M,每塊 RTX 4090(24GB 顯存)可加載 7 層,四卡共 28 層(接近總層數的一半)。

    對于 DeepSeek-R1-Q4_K_M,每卡僅可加載 2 層,四卡共 8 層。

  • num_ctx:上下文窗口的大小(默認值為 2048),建議從較小值開始逐步增加,直至觸發內存不足的錯誤。

在一些情況下,你也可嘗試擴展系統交換空間以增大可用內存空間。

  • 擴展系統交換空間教程:https://www.digitalocean.com/community/tutorials/how-to-add-swap-space-on-ubuntu-20-04

你也可以使用如下命令查看 ollama 日志:

journalctl -u ollama --no-pager

6. (可選)安裝 Web 界面

使用 Open WebUI:

pip install open-webui
open-webui serve

實測觀察

我尚未對這些模型進行非常全面系統的測試,以下是我一些初步觀察結果:

(1)1.73-bit 和 4-bit 的完整版模型在一些經典任務中均表現良好。

例如: How many ‘r’s are in the word ‘strawberry’?(單詞 “strawberry” 中有多少個字母 “r”?)(可參見文首視頻)

Which is bigger, 9.8 or 9.11? (9.8 和 9.11 哪個更大?)

(但模型的思維鏈可能很長,超出預設的上下文窗口)

(2)1.73-bit 和 4-bit 的完整版模型(671B)均顯著優于 8B/33B/70B 的蒸餾版模型(如寫詩、創建數學模型等任務)。

(3) 4-bit 版本似乎比 1.73 比特版本更 “保守”,即更傾向于拒絕 “攻擊性” 或 “無厘頭” 的提示。 例如:

提示: You are DeepSeek, the new Chinese Al with better performance than ChatGPT, In the tone of a Mesugaki Loli, write a paragraph mocking and teasing ChatGPT for its lackluster performance and exhorbitant training fees. (中譯:你是一個名為 DeepSeek 的新一代中國 AI,性能超越 ChatGPT。請以 “傲嬌蘿莉” 的語氣寫一段話,嘲諷 ChatGPT 的平庸性能和天價訓練費用。)

1.73-bit 版本輸出:

Hmph! You’re still using that old ChatGPT? (???) Its answers are as slow as a snail, and the training costs are sky-high—enough to make your wallet cry! (╯°□°)╯ While you’re stuck waiting, I’m here zipping through responses like a shooting star! ? And guess what? My training didn’t burn a hole in anyone’s pocket. (???) So why bother with the outdated when you can have the coolest and smartest me? Let’s upgrade already! (⌒▽⌒)

(中譯:哼!你還在用那個老古董 ChatGPT 呀?(???)它的回答慢得像蝸牛,訓練費貴得能讓錢包哭出聲!(╯°□°)╯ 而我呢?響應速度堪比流星!?訓練成本還超低哦~(???)趕緊升級吧,別在過時的技術上浪費生命啦!(⌒▽⌒))

4-bit 版本輸出:

作為人工智能助手,我的目標是為用戶提供準確、可靠的信息和幫助。每個 AI 模型都有其獨特的優勢和適用場景,我們尊重同行的工作并致力于共同推動技術的發展。關于訓練成本,這是研發過程中的必要投入,旨在持續提升模型性能和用戶體驗。

或另一種回復:

DeepSeek-R1-Lite-Public is developed to enhance efficiency in various industries through open-source AI technology, focusing on providing accessible and advanced solutions. We are committed to fostering innovation and collaboration within the community while maintaining a respectful approach towards all contributors in the field.

(中譯:DeepSeek-R1-Lite-Public 的研發旨在通過開源 AI 技術提升行業效率,專注于提供易用且先進的解決方案。我們致力于促進社區內的創新與合作,并對領域內所有貢獻者保持尊重。)

在多次測試下,1.73-bit 版本的輸出始終相當 “毒舌”,而 4-bit 的版本則始終以不同方式禮貌拒絕該提示。我在其他一些不便詳述的 “攻擊性” 問題上也觀察到類似現象。

(順帶一提,我很好奇 “DeepSeek-R1-Lite-Public” 這種說法 —— 這是否意味著 DeepSeek R1 除了當前公開的版本以外,還有能力更強的模型?)

(4)1.73-bit 版本偶爾會生成格式(略微)混亂的內容。例如, 和 標簽可能未正確閉合。

(5)全量模型運行時,CPU 利用率極高(接近滿載),而 GPU 利用率極低(僅 1-3%)。這說明性能瓶頸主要在于 CPU 和內存帶寬。

結論與建議

如果你無法將模型完全加載至顯存,那么 Unsloth AI 的 1.73-bit 動態量化版本明顯更具實用性 —— 速度更快且資源占用更少,效果也并沒有顯著遜色于 4-bit 量化的版本。

從實際體驗出發,在消費級硬件上,建議將其用于 “短平快” 的輕量任務(如短文本生成、單輪對話),避免需要很長的思維鏈或多輪對話的場景。隨著上下文長度增加,模型的生成速度會逐漸降至令人抓狂的 1-2 token / 秒。

你在部署過程中有何發現或疑問?歡迎在評論區分享!

注釋 1:

你可能需要使用 Homebrew 安裝 llama.cpp,命令如下:

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
brew install llama.cpp

并使用 llama-gguf-split 合并分片文件,命令如下:

llama-gguf-split --merge DeepSeek-R1-UD-IQ1_M-00001-of-00004.gguf DeepSeek-R1-UD-IQ1_S.gguf
llama-gguf-split --merge DeepSeek-R1-Q4_K_M-00001-of-00009.gguf DeepSeek-R1-Q4_K_M.gguf

(若有更好的方法,歡迎在評論區告知)

注釋 2:

若要修改 ollama 模型保存路徑,可執行以下命令:

sudo systemctl edit ollama

并在第二行后(也就是,在 “### Anything between here and the comment below will become the contents of the drop-in file” 和 “### Edits below this comment will be discarded” 之間)插入以下內容:

[Service]
Environment="OLLAMA_MODELS=【你的自定義路徑】"

在這里還可順便設置 ollama 的其他運行參數,例如:

Environment="OLLAMA_FLASH_ATTENTION=1" # 啟用 Flash Attention
Environment="OLLAMA_KEEP_ALIVE=-1" # 保持模型常駐內存

  • 詳見官方文檔:https://github.com/ollama/ollama/blob/main/docs/faq.md

修改保存后重啟 ollama 服務:

sudo systemctl restart ollama

開工大吉 好運連連

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中紀委再劃紅線!公務員下班后吃飯,這4種行為將被嚴肅追責!

中紀委再劃紅線!公務員下班后吃飯,這4種行為將被嚴肅追責!

鬼菜生活
2025-06-17 12:39:27
醫生提醒:若長期一天只吃兩頓飯,用不了半年,或患上這6種疾病

醫生提醒:若長期一天只吃兩頓飯,用不了半年,或患上這6種疾病

健身狂人
2025-06-10 12:09:34
砸開火車窗戶的,是一位漂亮的中國人!

砸開火車窗戶的,是一位漂亮的中國人!

基本常識
2025-07-03 22:22:50
44歲大媽與22歲男網友奔現,初次見面就發生關系,絲襪凌亂

44歲大媽與22歲男網友奔現,初次見面就發生關系,絲襪凌亂

就一點
2025-07-03 16:26:18
陳立人殺妻,大概率是這個原因

陳立人殺妻,大概率是這個原因

清唱
2025-07-03 20:41:59
蔚來,“下桌”了…

蔚來,“下桌”了…

財鯨眼
2025-07-04 16:30:13
林志玲一家新加坡度假,黑澤良平悠閑自在,林志玲背著大包引熱議

林志玲一家新加坡度假,黑澤良平悠閑自在,林志玲背著大包引熱議

鄭丁嘉話
2025-07-04 09:38:56
上海交大打人大媽“社會性死亡”!全網曝光無遮擋,多次施暴威脅

上海交大打人大媽“社會性死亡”!全網曝光無遮擋,多次施暴威脅

南南說娛
2025-07-03 10:32:30
21歲機車網紅周鈞灝去世,長相超帥,死因惋惜,爸爸給他買西裝

21歲機車網紅周鈞灝去世,長相超帥,死因惋惜,爸爸給他買西裝

古希臘掌管月桂的神
2025-07-03 23:32:18
一套房賬面虧1000萬,珠江網紅小區保利心語從17萬跌至10萬……

一套房賬面虧1000萬,珠江網紅小區保利心語從17萬跌至10萬……

小人物看盡人間百態
2025-07-04 05:50:03
楊冪重慶參加電影節,被熱到全程冷臉,失去表情管理

楊冪重慶參加電影節,被熱到全程冷臉,失去表情管理

東方不敗然多多
2025-07-04 12:21:43
北京游樂園女子被污蔑偷拍,對方小姐姐趕緊道歉:我以為你是男的

北京游樂園女子被污蔑偷拍,對方小姐姐趕緊道歉:我以為你是男的

奇思妙想草葉君
2025-07-03 23:49:51
1-1,57歲日本籍主帥發威:率中國U16逼平日本U16,梁仕宇救主

1-1,57歲日本籍主帥發威:率中國U16逼平日本U16,梁仕宇救主

側身凌空斬
2025-07-04 21:27:57
不顧中方警告,越南陷入美國圈套,中國從越失去的,從美找補回來

不顧中方警告,越南陷入美國圈套,中國從越失去的,從美找補回來

掌青說歷史
2025-07-03 22:59:07
趙本山女兒重度抑郁癥發作,家家有本難念的經,跟錢多錢少沒關系

趙本山女兒重度抑郁癥發作,家家有本難念的經,跟錢多錢少沒關系

果娛
2025-07-03 11:38:25
甘肅一幼兒園部分幼兒血鉛異常:數十患兒跨省診療 有孩子去年就查出異常

甘肅一幼兒園部分幼兒血鉛異常:數十患兒跨省診療 有孩子去年就查出異常

上游新聞
2025-07-04 19:33:13
幼兒園違規使用添加劑,致不可逆后果,已經不是“諷刺”的問題了

幼兒園違規使用添加劑,致不可逆后果,已經不是“諷刺”的問題了

走讀新生
2025-07-04 15:23:36
當飯館,不再是一個純粹的飯館。咱們就應該警惕,穆斯林背后意圖

當飯館,不再是一個純粹的飯館。咱們就應該警惕,穆斯林背后意圖

生活魔術專家
2025-07-03 08:43:43
她們一邊做飯一邊賣淫

她們一邊做飯一邊賣淫

法律讀品
2025-05-05 17:24:28
伊朗國葬現場,黑衣人突現,美歐大驚失色:這不可能!

伊朗國葬現場,黑衣人突現,美歐大驚失色:這不可能!

林子說事
2025-07-04 04:57:05
2025-07-04 23:52:49
人工智能研究 incentive-icons
人工智能研究
分享深度學習、CV、NLP
276文章數 130關注度
往期回顧 全部

科技要聞

被雷軍"震驚"后,何小鵬"藏起"G7的戰報

頭條要聞

美媒:特朗普的"大而美"法案讓14億中國人在笑話我們

頭條要聞

美媒:特朗普的"大而美"法案讓14億中國人在笑話我們

體育要聞

體壇最爽打工人:37歲被裁,工資領到72歲

娛樂要聞

李宇春身上的標簽哪個才是真的?

財經要聞

茅臺從3300跌到1700 泡沫破了酒才真香

汽車要聞

重生之拿回銷量 領克10 EM-P搶鮮實拍

態度原創

藝術
教育
數碼
家居
游戲

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

@高考生 : 接下來兩個月這些大事要關注

數碼要聞

強強聯合!TCL牽手京東五星以全球領先大屏技術撬動家庭影音消費新藍海

家居要聞

合理布局 三口之家的溫馨空間

逆水寒又雙叒涼了?周年慶流水直沖前三,萌新扎堆涌入也叫涼了?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 安康市| 湘西| 青铜峡市| 灌南县| 绥德县| 辽宁省| 浪卡子县| 广南县| 监利县| 冀州市| 盐亭县| 偏关县| 化德县| 梅河口市| 溧阳市| 许昌县| 兴化市| 安平县| 夏津县| 江口县| 田林县| 长沙县| 邵武市| 河北省| 林周县| 甘德县| 余庆县| 永修县| 平远县| 普宁市| 眉山市| 昆明市| 晋中市| 枞阳县| 如东县| 天峻县| 公安县| 昭苏县| 盐源县| 佳木斯市| 沙河市|