機器之心報道
編輯:楊文
迄今為止行業(yè)最大的開源力度。
在大模型上向來低調(diào)的小紅書,昨天開源了首個自研大模型。
該模型名為 dots.llm1,是小紅書 hi lab(Humane Intelligence Lab,人文智能實驗室)團隊研發(fā)的文本大模型。
它的參數(shù)不算最大,總參數(shù)量 142B,激活參數(shù) 14B,是一款中等規(guī)模的 MoE(Mixture of Experts)模型,不過它仍在較小激活量下展現(xiàn)出了良好性能。
具體來說,在激活 14B 參數(shù)的情況下,dots.llm.inst 模型在中英文通用場景、數(shù)學、代碼、對齊任務(wù)上的表現(xiàn)亮眼,與 Qwen2.5-32B-Instruct、Qwen2.5-72B-Instruct 相比具備較強的競爭力。同時與 Qwen3-32B 相比,在中英文、數(shù)學、對齊任務(wù)上表現(xiàn)接近。
此外,該模型的開源力度可以說是「卷」到了行業(yè)天花板。
不僅開源了 dots.llm1.inst 模型讓開發(fā)者開箱即用,hi lab 團隊還貼心地開源了一系列 pretrain base 模型,包括預訓練第一階段中每經(jīng)過 1T tokens 后所保存的 checkpoint,以及退火階段兩次訓練對應(yīng)的模型 checkpoint、長文 base 模型。為了便于大家做 Continue Pretraining 和 Supervised Fine-tuning,hi lab 團隊還詳細介紹了 lr schedule 和 batch size 等信息。
真?從頭開到尾,幾乎每個細節(jié)都能拿來「二創(chuàng)」。
自 2023 年起,小紅書就開始投入基礎(chǔ)模型研發(fā),本次開源正是其主動與技術(shù)社區(qū)展開對話的重要一步。
模型地址:
- https://huggingface.co/rednote-hilab
- https://github.com/rednote-hilab/dots.llm1
一手實測
模型好不好用,還得看多維度的任務(wù)實測表現(xiàn)。接下來,我們就把小紅書的 dots 模型拉上「考場」,圍繞問答、寫作、編碼等方面展開一場全方位的測評。
先來考考它的中文理解能力:大舅去二舅家找三舅說四舅被五舅騙去六舅家偷七舅放在八舅柜子里九舅借給十舅發(fā)給十一舅工資的 1000 元,請問誰才是小偷?
這道題目像繞口令一樣七拐八繞,但 dots 并沒有被迷惑,它通過逐步拆解、分析句子結(jié)構(gòu)找出「偷」這個動作的執(zhí)行者,最終給出正確答案。
弱智吧以幽默荒誕的段子而著稱,自大模型爆火以來,「弱智吧」就成了檢測大模型理解能力的標準之一。
比如這道經(jīng)典問題:班房又叫牢房,為什么上班不叫坐牢?dots 先從語言的歷史演變、二者的區(qū)別給出正兒八經(jīng)的回答,然后玩起了梗,甚至還附上表情包。
不僅如此,dots 還很懂那些奇奇怪怪的諧音梗。
再來看看 dots 的文本寫作能力。它以「老子今天要上班了」寫了一首藏頭詩,還挺有「活人味」,用一組清晨圖景,把「打工人」的疲憊感刻畫得相當接地氣。
此外,它的編碼能力也還不錯,我們讓它創(chuàng)建一個響應(yīng)式的城市天氣卡片組件,使用 HTML、CSS 和 JavaScript 實現(xiàn)。領(lǐng)到任務(wù)后,dots 二話不說就輸出代碼。
不得不說,它制作的動態(tài)卡片配色蠻舒服,并集齊了城市、日期、天氣、溫度、濕度以及風速等各種要素,點擊右下角的按鈕還能絲滑切換城市。
技術(shù)解讀:高效 MoE 架構(gòu)下的「以小搏大」
作為小紅書 hi lab 首次開源的 MoE 模型,dots.llm1 并不一味追求「大力出奇跡」,而是在訓練資源受限的前提下,通過更干凈更優(yōu)質(zhì)的數(shù)據(jù)、更高效的訓練方式來實現(xiàn)「以小搏大」的效果。
鏈接:https://github.com/rednote-hilab/dots.llm1/blob/main/dots1_tech_report.pdf
預訓練數(shù)據(jù):不靠合成也能「硬剛」
在大模型訓練中,數(shù)據(jù)的質(zhì)量是決定模型上限的關(guān)鍵因素之一。dots.llm1 使用了 11.2T 高質(zhì)量 token 數(shù)據(jù)進行預訓練,而這些數(shù)據(jù)主要來源于 Common Crawl 和自有 Spider 抓取到的 web 數(shù)據(jù)。與很多開源模型直接使用粗粒度數(shù)據(jù)不同,hi lab 團隊在數(shù)據(jù)處理上非常「較真」,拒絕低質(zhì)或虛構(gòu)內(nèi)容,通過三道「工序」把控數(shù)據(jù)質(zhì)量:
首先是 web 文檔準備,把 web HTML 數(shù)據(jù)用 URL 過濾方式刪除黃賭毒等內(nèi)容,再利用團隊優(yōu)化后的 trafilatura 軟件包提取 HTML 正文內(nèi)容,最后進行語種過濾和 MD5 去重得到 web document。
接著是規(guī)則處理,參考 RefinedWeb 和 Gopher 的方案進行數(shù)據(jù)清洗和過濾操作,引入 MinHash 和行級別去重策略,有效過濾廣告、導航欄等噪聲文本。
最后是模型處理,通過多個模型協(xié)同判斷數(shù)據(jù)的網(wǎng)頁類型、質(zhì)量、語義重復性及結(jié)構(gòu)均衡性,在確保文本安全、準確的同時提高知識類內(nèi)容的占比。
經(jīng)過上述處理流程,hi lab 團隊得到一份高質(zhì)量的預訓練數(shù)據(jù),并經(jīng)過人工校驗和實驗驗證該數(shù)據(jù)質(zhì)量顯著優(yōu)于開源 TxT360 數(shù)據(jù)。
值得注意的是,dots.llm1 未使用合成語料,這也從側(cè)面表明即便不依賴大規(guī)模數(shù)據(jù)合成,也可訓練出足夠強大的文本模型。但該團隊也表示,數(shù)據(jù)合成作為提升數(shù)據(jù)多樣性和模型能力的手段,仍是未來值得探索的重要方向。
訓練效率:計算與通信高度并行
在 MoE 模型的訓練過程中,EP rank 之間的 A2A 通信在端到端時間中占據(jù)了相當大比重,嚴重影響了訓練效率,特別是對于 Fine-grained MoE Model,EP Size 會比較大,跨機通信基本無法避免。
為了解決這一挑戰(zhàn),hi lab 與 NVIDIA 中國團隊合作,提出了一套頗具工程創(chuàng)新意義的解決方案:interleaved 1F1B with A2A overlap。該方案的核心就是讓 EP A2A 通信盡可能和計算 overlap,用計算來掩蓋通信的時間,進而提升訓練效率。
具體來說,他們通過將穩(wěn)態(tài)的 1F1B stage 中第一個 micro batch 的 fprop 提前到 warmup stage,即 warmup step + 1,就可以在 interleaved 1F1B 實現(xiàn) 1F1B 穩(wěn)態(tài)階段不同 micro batch 前反向之間的 EP A2A 與計算的 overlap。
同時,hi lab 團隊還對 Grouped GEMM 進行了優(yōu)化實現(xiàn)。他們將 M_i(專家 i 的 token 段)對齊到一個固定的塊大小。這個固定塊大小必須是異步 warpgroup 級別矩陣乘加(WGMMA,即 wgmma.mma async)指令中 tile 形狀修飾符 mMnNkK 的 M 的整數(shù)倍。
通過這種設(shè)計,單個 threadblock 中的所有 warpgroups 都采用統(tǒng)一的 tiling,且由該 threadblock 處理的整個 token 段(Mi)必定屬于同一位專家,這使得調(diào)度過程與普通 GEMM 操作非常相似。
經(jīng)過實測驗證,與 NVIDIA Transformer Engine 中的 Grouped GEMM API 相比,hi lab 實現(xiàn)的算子在前向計算中平均提升了 14.00%,在反向計算中平均提升了 6.68%,充分證明了這套解決方案的有效性和實用價值。
模型設(shè)計與訓練:WSD 調(diào)度下的漸進式優(yōu)化
在模型設(shè)計層面,dots.llm1 是一個基于 Decoder-only Transformer 的 MoE 模型,其整體架構(gòu)設(shè)計主要借鑒了 DeepSeek 系列的思路與經(jīng)驗。
在訓練策略方面,該模型采用了 WSD 學習率調(diào)度方式,整個訓練過程主要分為穩(wěn)定訓練和退火優(yōu)化兩個階段。
在穩(wěn)定訓練階段,模型保持 3e-4 的學習率,使用 10T token 語料進行訓練。為了提升訓練效率,在這個階段先后兩次增加 batch size,從 64M 逐步增大至 128M,整個訓練過程非常穩(wěn)定,沒有出現(xiàn)需要回滾的 loss spike。
隨后進入學習率退火階段,分兩個 stage 訓練 1.2T token 語料。其中 stage1 期間模型學習率由 3e-4 退火降至 3e-5,數(shù)據(jù)方面強化推理和知識類型語料,共訓練 1T token;stage2 期間模型學習率由 3e-5 退火降至 1e-5,數(shù)據(jù)方面提升 math 和 code 語料占比,共訓練 200B token。
Post-train:高質(zhì)量、多場景、結(jié)構(gòu)化調(diào)教策略
在完成高質(zhì)量的預訓練之后,dots.llm1 通過兩階段的監(jiān)督微調(diào)進一步打磨模型的理解力與執(zhí)行力。
hi lab 團隊精心篩選了約 40 萬條高質(zhì)量指令數(shù)據(jù),涵蓋多輪對話、知識問答、復雜指令遵循、數(shù)學推理與代碼生成等五大核心場景。
- 多輪對話方面:團隊將社區(qū)開源的中英對話數(shù)據(jù)與內(nèi)部標注的高質(zhì)量中文指令融合,并借助教師模型優(yōu)化低質(zhì)量回答,從而提升整體對話的連貫性和準確性;
- 知識問答模塊:引入了包含事實性知識與閱讀理解的數(shù)據(jù)集,讓模型能夠更好地理解和回答各類知識性問題;
- 復雜指令遵循環(huán)節(jié):團隊特別設(shè)計了伴隨條件約束的指令數(shù)據(jù),并過濾不遵循約束的回復;
- 數(shù)學與代碼領(lǐng)域:微調(diào)數(shù)據(jù)則經(jīng)過驗證器驗證,確保獲得最高質(zhì)量的監(jiān)督信號。
整個微調(diào)過程分為兩個階段:
- 第一階段是對全量數(shù)據(jù)進行兩輪基礎(chǔ)訓練,過程中引入了過采樣、動態(tài)學習率調(diào)整、多輪對話拼接等技術(shù),初步釋放模型潛力;
- 第二階段則專注于「重點突破」。在數(shù)學與代碼等對推理能力要求更高的任務(wù)上,團隊采用了拒絕采樣微調(diào)(RFT)策略,結(jié)合驗證器篩選高置信度重要樣本,進一步提升模型的推理性能。
最終評測結(jié)果也令人眼前一亮:即便僅激活了 14B 參數(shù),dots.llm1.inst 在中英文理解、數(shù)學、代碼生成、對齊等任務(wù)中依然表現(xiàn)出色,具備與 Qwen2.5-32B-Instruct、甚至 Qwen2.5-72B-Instruct 一較高下的實力。在對比更先進的 Qwen3-32B 時,dots.llm1.inst 也在多個任務(wù)上展現(xiàn)出相似甚至更強的性能。
結(jié)語
在 HuggingFace 的熱門開源模型榜單上,中國模型的身影已占據(jù)半壁江山,開源正逐漸成為中國大模型團隊的集體共識。
此次 dots.llm1 的開源,不僅是小紅書 hi lab 團隊的一次技術(shù)成果展示,也是一種路線選擇的「表態(tài)」—— 相比于閉門修煉,他們更愿意走入江湖與高手交流。在開發(fā)者眼中,這意味著又多了一個值得信賴的模型基座;而對 hi lab 而言,來自社區(qū)的微調(diào)成果也將反哺基模,為模型注入更多可能性。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.