99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

小紅書開源1420億參數大模型,部分性能與阿里Qwen3模型相當

0
分享至


在 AI 領域向來低調的社交平臺小紅書,近期開源了其首個自研大模型。

6月9日消息,小紅書hi lab(Humane Intelligence Lab,人文智能實驗室)團隊近期在Github、Hugging Face等平臺發布首款開源文本大模型dots.llm1。

據悉,小紅書hi lab團隊開源了所有模型和必要的訓練信息,包括微調Instruct(dots.llm1.inst)模型、長文base(dots.llm1.base)模型、退火階段前后的多個base模型、超參數以及每1萬億個token的中間訓練checkpoint等內容。

6月9日,筆者注意到,dots.llm1兩個型號的模型于9日晚進行了update,修復了停止符號的配置,屬于模型常規的修復。

目前來看,dots.llm1大部分性能與阿里Qwen 2.5模型,部分性能與阿里Qwen 3模型相當。

具體來說,dots.llm1混合專家模型(MoE)模型擁有1420億參數,使用11.2萬億token的非合成高質量訓練數據,在推理過程中僅激活140億參數,能保持高性能的同時大幅度降低訓練和推理成本。

此次小紅書團隊開源了base模型和instruct模型,作為大語言模型的兩個階段,base模型是“基座模型”,通常只完成了預訓練(pre-train);instruct模型是在 Base 模型基礎上,通過指令微調的模型,方便直接部署、開箱即用。


在預訓練階段,dots.llm1 一共使用了11.2萬億高質量 token數據,并經過人工校驗和實驗驗證該數據質量顯著優于開源 TxT360 數據。然后,經過兩階段SFT(監督微調,Supervised Fine-Tuning)訓練,得到dots.llm1 base 模型和 instruct 模型。

MoE 高效訓練實踐層面,團隊引入Interleaved 1F1B with AlltoAll overlap,實現通信與計算最大重疊,并且優化 Grouped GEMM。經過實測驗證,基于英偉達H800上前向和后向計算的性能比較,與NVIDIA Transformer Engine中的 Grouped GEMM API 相比,hi lab 實現的算子在前向計算中平均提升了14.00%,在反向計算中平均提升了6.68%,充分證明了這套解決方案的有效性和實用價值。


結果方面,在激活140億參數情況下,dots.llm1.inst在中英文通用場景、數學、代碼、對齊任務上的表現亮眼,對比阿里通義Qwen2.5-32B/72B-Instruct具備競爭力;同時在中英文、數學、對齊任務上,表現與阿里Qwen3-32B相當或更優。

另外,與DeepSeek相比,整體來說,dots.llm1性能高于DeepSeek開源的V2模型,但略低于V3模型的性能表現。

中文性能上,dots.llm1.inst在中文任務中展現出顯著優勢,它在CLUEWSC上取得了92.6分,在中文語義理解方面達到業界領先水平。在C-Eval上,它取得了92.2分,超越了包括DeepSeek-V3在內的所有模型。


據筆者了解,成立于2013年的小紅書,是移動互聯網創業浪潮中少數未上市企業之一。2016年初起,小紅書將人工運營內容改成了機器分發的形式。通過大數據和AI,將社區中的內容精準的匹配給對它感興趣的用戶。

隨著2022年底ChatGPT熱潮爆發,小紅書2023年起持續投入研發大模型。

近幾個月來,小紅書加快了 AI 落地步伐,推出了一款AI搜索應用“點點”,并在小紅書內置“問一問”功能等,幫助用戶在小紅書內容平臺上查找信息。

值得一提的是,6月5日,金沙江創投旗下的一份股份交易文件顯示,截至3月底的基金凈資產價值換算后,小紅書的估值從200億大幅躍升至260億美元(約合人民幣1869.26億元)。這一估值遠超過B站、知乎等上市公司的市值,但低于快手,后者最新市值約為323億美元。不僅如此,一級市場稱。小紅書老股的報價已經到了350億美元,超過2500億元。

目前,小紅書的股東包括真格基金、金沙江創投、紀源資本、淡馬錫、DST Global、阿里、騰訊等20余家知名機構。公開信息稱,2024年小紅書凈利潤超過10億美元。

隨著阿里、騰訊、字節等大廠都在發力 AI 大模型領域,小紅書似乎不甘心做內容社區和直播電商,瞄向 AI 技術發力大語言模型落地。

作為未來工作的一部分,小紅書hi lab的目標是訓練一個更強大的模型。為了在訓練和推理效率之間取得最佳平衡,其計劃集成更高效的架構設計,例如分組查詢注意力 (GQA)、多頭潛在注意力(MLA)和線性注意力。此外,hi lab還計劃探索使用更稀疏的混合專家(MoE)層來提升計算效率。此外,由于數據是預訓練的基礎,hi lab將加深對最佳訓練數據的理解,并探索實現更接近人類學習效率的方法,從而最大限度地從每個訓練示例中獲取知識。

對于小紅書hi lab下一步是否會發力多模態,該團隊公開的技術文檔顯示,小紅書hi lab團隊將為社區貢獻更多更優的全模態大模型。(本文首發于鈦媒體App,作者|林志佳,編輯|蓋虹達)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
劉力已任重慶社會科學院黨組書記、院長

劉力已任重慶社會科學院黨組書記、院長

新京報
2025-06-10 11:47:07
馬斯克“星鏈”衛星突然大批墜落,已損失近600顆,原因是什么?

馬斯克“星鏈”衛星突然大批墜落,已損失近600顆,原因是什么?

智慧生活筆記
2025-06-10 18:38:03
重慶人自己的“蒙娜麗莎”火了!川美畢業生作品《禱》創作者回應

重慶人自己的“蒙娜麗莎”火了!川美畢業生作品《禱》創作者回應

上游新聞
2025-06-08 19:40:10
農村的豬拱不到城里的白菜!10歲女孩舉辦生日宴,和婚禮一樣隆重

農村的豬拱不到城里的白菜!10歲女孩舉辦生日宴,和婚禮一樣隆重

唐小糖說情感
2025-06-10 09:27:19
軍人連救5人后續,政府獎5萬,開10萬車回家,“白襯衫”親自接待

軍人連救5人后續,政府獎5萬,開10萬車回家,“白襯衫”親自接待

涵豆說娛
2025-06-10 15:12:03
震驚!貪污一千多萬,罰一百萬。網友疑問:自負盈虧怎么是貪污?

震驚!貪污一千多萬,罰一百萬。網友疑問:自負盈虧怎么是貪污?

行者聊官
2025-06-10 11:26:00
乒超戰報!王楚欽又剃光頭,山東魏橋4場轟12-0,林詩棟再度立功

乒超戰報!王楚欽又剃光頭,山東魏橋4場轟12-0,林詩棟再度立功

知軒體育
2025-06-10 23:33:02
三亞事件后遺癥來了!網傳蘇州一些醫院,連蜜蜂蟄都不敢接了…

三亞事件后遺癥來了!網傳蘇州一些醫院,連蜜蜂蟄都不敢接了…

火山詩話
2025-06-09 06:13:49
如果東野圭吾這樣的頂級推理作家殺人,警察多久才能查出來?

如果東野圭吾這樣的頂級推理作家殺人,警察多久才能查出來?

娛樂圈人物大賞
2025-06-10 00:20:05
45年林總帶五人去東北上任,唯獨一人建國后沒有軍銜,卻一生圓滿

45年林總帶五人去東北上任,唯獨一人建國后沒有軍銜,卻一生圓滿

紅色風云
2025-06-10 09:26:29
章瑩穎遇害8年后:男友完成她未完成的心愿,消失在大眾視野

章瑩穎遇害8年后:男友完成她未完成的心愿,消失在大眾視野

二月侃事
2025-06-10 09:41:08
新戀情?巴特勒親密合影曝光,女方身材傲人,未來兩年賺1.1億

新戀情?巴特勒親密合影曝光,女方身材傲人,未來兩年賺1.1億

吐不滿的痰娛
2025-06-09 21:33:50
好像有點懂藍盈瑩了,曹駿哪里都好,唯一致命缺點就是太矮了

好像有點懂藍盈瑩了,曹駿哪里都好,唯一致命缺點就是太矮了

溫讀史
2025-06-10 14:39:43
中國移動遭曝光:擅自開通收費服務,強迫用戶升級套餐

中國移動遭曝光:擅自開通收費服務,強迫用戶升級套餐

Thurman在昆明
2025-06-10 01:11:44
想要復制“蘇超”,先問問自己能否容下那些虎狼之詞

想要復制“蘇超”,先問問自己能否容下那些虎狼之詞

元芳有看法
2025-06-10 15:12:45
薇婭被曝“復出”!出鏡擔當服裝模特

薇婭被曝“復出”!出鏡擔當服裝模特

上觀新聞
2025-06-09 17:57:50
“第二代賭王”周焯華的毀滅史和被他睡過的女星們

“第二代賭王”周焯華的毀滅史和被他睡過的女星們

小椰的奶奶
2025-05-14 00:18:53
山東一陪考家長找志愿者要瓶水喝,卻遭到拒絕,網友們眾說紛紜

山東一陪考家長找志愿者要瓶水喝,卻遭到拒絕,網友們眾說紛紜

深析古今
2025-06-10 20:55:01
兩難抉擇!東莞一電子廠在越南設廠,動員員工前往,日補50-150元

兩難抉擇!東莞一電子廠在越南設廠,動員員工前往,日補50-150元

火山詩話
2025-06-10 12:20:49
馬英九:若大陸統一臺灣的手段不和平,過程不民主,臺灣人不接受

馬英九:若大陸統一臺灣的手段不和平,過程不民主,臺灣人不接受

紅色鑒史官
2025-04-11 20:15:02
2025-06-11 10:35:00
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經科技媒體
119252文章數 860575關注度
往期回顧 全部

科技要聞

比亞迪凌晨宣布!助力中小企業健康發展

頭條要聞

小區B3層火災揭秘密:對業主封閉 卻暗停數百輛外來車

頭條要聞

小區B3層火災揭秘密:對業主封閉 卻暗停數百輛外來車

體育要聞

18歲199天!王鈺棟脫衣慶祝國足處子球

娛樂要聞

唐嫣卷入熱巴換角風波 只能給熱巴加戲

財經要聞

Labubu神話下的雜音

汽車要聞

激光雷達+9氣囊 一汽豐田bZ5售12.98萬起

態度原創

游戲
本地
健康
旅游
軍事航空

《匹諾曹謊言》DLC太難讓人苦不堪言 官方將降低難度

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

減重專家破解減肥九大謠言!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

軍事要聞

加州請求阻止特朗普政府派兵被駁回

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 贵州省| 罗甸县| 元朗区| 开阳县| 京山县| 阿克| 锡林郭勒盟| 吉安市| 平乡县| 桐庐县| 台江县| 广饶县| 皮山县| 阳江市| 开江县| 松潘县| 玛沁县| 西贡区| 太原市| 清河县| 建水县| 达孜县| 大余县| 保亭| 赤水市| 将乐县| 池州市| 青田县| 北安市| 灵石县| 南安市| 乐都县| 比如县| 嵊州市| 和林格尔县| 涞源县| 西吉县| 大新县| 太湖县| 禄丰县| 伊金霍洛旗|