在 AI 領域向來低調的社交平臺小紅書,近期開源了其首個自研大模型。
6月9日消息,小紅書hi lab(Humane Intelligence Lab,人文智能實驗室)團隊近期在Github、Hugging Face等平臺發布首款開源文本大模型dots.llm1。
據悉,小紅書hi lab團隊開源了所有模型和必要的訓練信息,包括微調Instruct(dots.llm1.inst)模型、長文base(dots.llm1.base)模型、退火階段前后的多個base模型、超參數以及每1萬億個token的中間訓練checkpoint等內容。
6月9日,筆者注意到,dots.llm1兩個型號的模型于9日晚進行了update,修復了停止符號的配置,屬于模型常規的修復。
目前來看,dots.llm1大部分性能與阿里Qwen 2.5模型,部分性能與阿里Qwen 3模型相當。
具體來說,dots.llm1混合專家模型(MoE)模型擁有1420億參數,使用11.2萬億token的非合成高質量訓練數據,在推理過程中僅激活140億參數,能保持高性能的同時大幅度降低訓練和推理成本。
此次小紅書團隊開源了base模型和instruct模型,作為大語言模型的兩個階段,base模型是“基座模型”,通常只完成了預訓練(pre-train);instruct模型是在 Base 模型基礎上,通過指令微調的模型,方便直接部署、開箱即用。
在預訓練階段,dots.llm1 一共使用了11.2萬億高質量 token數據,并經過人工校驗和實驗驗證該數據質量顯著優于開源 TxT360 數據。然后,經過兩階段SFT(監督微調,Supervised Fine-Tuning)訓練,得到dots.llm1 base 模型和 instruct 模型。
MoE 高效訓練實踐層面,團隊引入Interleaved 1F1B with AlltoAll overlap,實現通信與計算最大重疊,并且優化 Grouped GEMM。經過實測驗證,基于英偉達H800上前向和后向計算的性能比較,與NVIDIA Transformer Engine中的 Grouped GEMM API 相比,hi lab 實現的算子在前向計算中平均提升了14.00%,在反向計算中平均提升了6.68%,充分證明了這套解決方案的有效性和實用價值。
結果方面,在激活140億參數情況下,dots.llm1.inst在中英文通用場景、數學、代碼、對齊任務上的表現亮眼,對比阿里通義Qwen2.5-32B/72B-Instruct具備競爭力;同時在中英文、數學、對齊任務上,表現與阿里Qwen3-32B相當或更優。
另外,與DeepSeek相比,整體來說,dots.llm1性能高于DeepSeek開源的V2模型,但略低于V3模型的性能表現。
中文性能上,dots.llm1.inst在中文任務中展現出顯著優勢,它在CLUEWSC上取得了92.6分,在中文語義理解方面達到業界領先水平。在C-Eval上,它取得了92.2分,超越了包括DeepSeek-V3在內的所有模型。
據筆者了解,成立于2013年的小紅書,是移動互聯網創業浪潮中少數未上市企業之一。2016年初起,小紅書將人工運營內容改成了機器分發的形式。通過大數據和AI,將社區中的內容精準的匹配給對它感興趣的用戶。
隨著2022年底ChatGPT熱潮爆發,小紅書2023年起持續投入研發大模型。
近幾個月來,小紅書加快了 AI 落地步伐,推出了一款AI搜索應用“點點”,并在小紅書內置“問一問”功能等,幫助用戶在小紅書內容平臺上查找信息。
值得一提的是,6月5日,金沙江創投旗下的一份股份交易文件顯示,截至3月底的基金凈資產價值換算后,小紅書的估值從200億大幅躍升至260億美元(約合人民幣1869.26億元)。這一估值遠超過B站、知乎等上市公司的市值,但低于快手,后者最新市值約為323億美元。不僅如此,一級市場稱。小紅書老股的報價已經到了350億美元,超過2500億元。
目前,小紅書的股東包括真格基金、金沙江創投、紀源資本、淡馬錫、DST Global、阿里、騰訊等20余家知名機構。公開信息稱,2024年小紅書凈利潤超過10億美元。
隨著阿里、騰訊、字節等大廠都在發力 AI 大模型領域,小紅書似乎不甘心做內容社區和直播電商,瞄向 AI 技術發力大語言模型落地。
作為未來工作的一部分,小紅書hi lab的目標是訓練一個更強大的模型。為了在訓練和推理效率之間取得最佳平衡,其計劃集成更高效的架構設計,例如分組查詢注意力 (GQA)、多頭潛在注意力(MLA)和線性注意力。此外,hi lab還計劃探索使用更稀疏的混合專家(MoE)層來提升計算效率。此外,由于數據是預訓練的基礎,hi lab將加深對最佳訓練數據的理解,并探索實現更接近人類學習效率的方法,從而最大限度地從每個訓練示例中獲取知識。
對于小紅書hi lab下一步是否會發力多模態,該團隊公開的技術文檔顯示,小紅書hi lab團隊將為社區貢獻更多更優的全模態大模型。(本文首發于鈦媒體App,作者|林志佳,編輯|蓋虹達)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.