網易首頁 > 網易號 > 正文申請入駐

小紅書開源1420億參數大模型，部分性能與阿里Qwen3模型相當

2025-06-10 08:59:43　來源: 鈦媒體APP

北京舉報

分享至

在 AI 領域向來低調的社交平臺小紅書，近期開源了其首個自研大模型。

6月9日消息，小紅書hi lab（Humane Intelligence Lab，人文智能實驗室）團隊近期在Github、Hugging Face等平臺發布首款開源文本大模型dots.llm1。

據悉，小紅書hi lab團隊開源了所有模型和必要的訓練信息，包括微調Instruct（dots.llm1.inst）模型、長文base（dots.llm1.base）模型、退火階段前后的多個base模型、超參數以及每1萬億個token的中間訓練checkpoint等內容。

6月9日，筆者注意到，dots.llm1兩個型號的模型于9日晚進行了update，修復了停止符號的配置，屬于模型常規的修復。

目前來看，dots.llm1大部分性能與阿里Qwen 2.5模型，部分性能與阿里Qwen 3模型相當。

具體來說，dots.llm1混合專家模型（MoE）模型擁有1420億參數，使用11.2萬億token的非合成高質量訓練數據，在推理過程中僅激活140億參數，能保持高性能的同時大幅度降低訓練和推理成本。

此次小紅書團隊開源了base模型和instruct模型，作為大語言模型的兩個階段，base模型是“基座模型”，通常只完成了預訓練（pre-train）；instruct模型是在 Base 模型基礎上，通過指令微調的模型，方便直接部署、開箱即用。

在預訓練階段，dots.llm1 一共使用了11.2萬億高質量 token數據，并經過人工校驗和實驗驗證該數據質量顯著優于開源 TxT360 數據。然后，經過兩階段SFT（監督微調，Supervised Fine-Tuning）訓練，得到dots.llm1 base 模型和 instruct 模型。

MoE 高效訓練實踐層面，團隊引入Interleaved 1F1B with AlltoAll overlap，實現通信與計算最大重疊，并且優化 Grouped GEMM。經過實測驗證，基于英偉達H800上前向和后向計算的性能比較，與NVIDIA Transformer Engine中的 Grouped GEMM API 相比，hi lab 實現的算子在前向計算中平均提升了14.00%，在反向計算中平均提升了6.68%，充分證明了這套解決方案的有效性和實用價值。

結果方面，在激活140億參數情況下，dots.llm1.inst在中英文通用場景、數學、代碼、對齊任務上的表現亮眼，對比阿里通義Qwen2.5-32B/72B-Instruct具備競爭力；同時在中英文、數學、對齊任務上，表現與阿里Qwen3-32B相當或更優。

另外，與DeepSeek相比，整體來說，dots.llm1性能高于DeepSeek開源的V2模型，但略低于V3模型的性能表現。

中文性能上，dots.llm1.inst在中文任務中展現出顯著優勢，它在CLUEWSC上取得了92.6分，在中文語義理解方面達到業界領先水平。在C-Eval上，它取得了92.2分，超越了包括DeepSeek-V3在內的所有模型。

據筆者了解，成立于2013年的小紅書，是移動互聯網創業浪潮中少數未上市企業之一。2016年初起，小紅書將人工運營內容改成了機器分發的形式。通過大數據和AI，將社區中的內容精準的匹配給對它感興趣的用戶。

隨著2022年底ChatGPT熱潮爆發，小紅書2023年起持續投入研發大模型。

近幾個月來，小紅書加快了 AI 落地步伐，推出了一款AI搜索應用“點點”，并在小紅書內置“問一問”功能等，幫助用戶在小紅書內容平臺上查找信息。

值得一提的是，6月5日，金沙江創投旗下的一份股份交易文件顯示，截至3月底的基金凈資產價值換算后，小紅書的估值從200億大幅躍升至260億美元（約合人民幣1869.26億元）。這一估值遠超過B站、知乎等上市公司的市值，但低于快手，后者最新市值約為323億美元。不僅如此，一級市場稱。小紅書老股的報價已經到了350億美元，超過2500億元。

目前，小紅書的股東包括真格基金、金沙江創投、紀源資本、淡馬錫、DST Global、阿里、騰訊等20余家知名機構。公開信息稱，2024年小紅書凈利潤超過10億美元。

隨著阿里、騰訊、字節等大廠都在發力 AI 大模型領域，小紅書似乎不甘心做內容社區和直播電商，瞄向 AI 技術發力大語言模型落地。

作為未來工作的一部分，小紅書hi lab的目標是訓練一個更強大的模型。為了在訓練和推理效率之間取得最佳平衡，其計劃集成更高效的架構設計，例如分組查詢注意力（GQA）、多頭潛在注意力（MLA）和線性注意力。此外，hi lab還計劃探索使用更稀疏的混合專家（MoE）層來提升計算效率。此外，由于數據是預訓練的基礎，hi lab將加深對最佳訓練數據的理解，并探索實現更接近人類學習效率的方法，從而最大限度地從每個訓練示例中獲取知識。

對于小紅書hi lab下一步是否會發力多模態，該團隊公開的技術文檔顯示，小紅書hi lab團隊將為社區貢獻更多更優的全模態大模型。（本文首發于鈦媒體App，作者｜林志佳，編輯｜蓋虹達）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.