99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

小紅書開源首個大模型,中文評測超越DeepSeek-V3

0
分享至


智東西
作者 李水青
編輯 云鵬

智東西6月10日報道,近日,大模型開源圈迎來重磅跨界新玩家——小紅書開源了首個大模型dots.llm1。


dots.llm1是一個1420億參數的MoE(混合專家)模型,僅激活140億參數,可在中英文、數學、對齊等任務上實現與阿里Qwen3-32B接近的性能。在中文表現上,dots.llm1最終性能在C-Eval上達到92.2分,超過了包括DeepSeek-V3在內的所有模型。


小紅書開源大模型的一大特色在于數據。dots.llm1.ins在預訓練階段使用了11.2萬億的非合成數據。作為最新估值直飆2500億元的國民級社交內容平臺,小紅書試圖證明的是:通過高效的設計和高質量的數據,可以擴展大型語言模型的能力邊界。

根據小紅書hi lab團隊(Humane Intelligence Lab,人文智能實驗室)公布的技術報告,其主要貢獻總結如下:

1、增強的數據處理:團隊提出了一個可擴展且細粒度的三階段數據處理框架,旨在生成大規模、高質量和多樣化的數據,以進行預訓練。完整的過程是開源的,以此增強可復現性。

2、性能和成本效益:團隊推出了dots.llm1開源模型,在推理過程中僅激活14B參數,同時提供全面且計算高效的性能。dots.llm1使用團隊的可擴展數據處理框架生成的11.2萬億個高質量tokens進行訓練,在各種任務中展示了強大的性能,所有這些都無需依賴合成數據或模型蒸餾即可實現。

3、基礎設施:團隊引入了一種基于1F1B通道調度和高效的分組GEMM實現的創新MoE全對多通信和計算重疊配方,以提高計算效率。

4、模型動力學的開放可訪問性:通過以開源形式發布中間訓練檢查點,團隊的目標是使研究界能夠透明地了解訓練過程,從而更深入地了解大型模型的動力學,并促進LLM領域的加速創新。


Hugging Face地址:
https://huggingface.co/rednote-hilab
GitHub地址:
https://github.com/rednote-hilab/dots.llm1

一、性能打平Qwen2.5-72B,僅需激活14B參數

首先看下dots.llm1的模型效果,團隊訓練得到的dots.llm1 base模型和instruct模型,均在綜合指標上打平Qwen2.5-72B模型

根據評估結果,dots.llm1.inst在中英文通用任務、數學推理、代碼生成和對齊基準測試中表現較好,僅激活了14B參數,與Qwen2.5-32B-Instruct和Qwen2.5-72B-Struct相比效果更好。在雙語任務、數學推理和對齊能力方面,dots.llm1.inst取得了與Qwen3-32B相當或更好的性能


具體來看,在英語表現上,dots.llm1.inst在MMLU、MMLU-Redux、DROP和GPQA等問答任務中,與Qwen2.5/Qwen3系列模型相比具有競爭力。

在代碼性能上,該模型與Qwen2.5系列相比不相上下,但與Qwen3和DeepSeek-V3等更先進的模型相比仍有差距

在數學表現上,dots.llm1.inst在AIME24上獲得了33.1分,凸顯了其在復雜數學方面的高級問題解決能力;在MATH500的得分為84.8,優于Qwen2.5系列,并接近最先進的結果。

在中文表現上,dots.llm1.inst在CLUEWSC上獲得了92.6分,與行業領先的中文語義理解性能相匹配。在C-Eval上,它達到了92.2,超過了包括DeepSeek-V3在內的所有模型。

對齊性能方面,dots.llm1.inst在IFEval、AlpacaEval2和ArenaHard等基準測試中表現出有競爭力的性能。這些結果表明,該模型可以準確地解釋和執行復雜的指令,同時保持與人類意圖和價值觀的一致性。

二、采取MoE架構,11.2萬億非合成數據訓練

dots.llm1模型是一種僅限解碼器的Transformer架構,其中每一層由一個注意力層和一個前饋網絡(FFN)組成。與Llama或Qwen等密集模型不同,FFN被專家混合(MoE)替代了。這種修改允許其在保持經濟成本的同時訓練功能強大的模型。

在注意力層方面,團隊在模型中使用了一種普通的多頭注意力機制。在MoE層,團隊遵循DeepSeek、Qwen的做法,用包含共享和獨立專家的MoE層替換了FFN,他們的實施包括為所有token激活128個路由專家和2個共享專家,每個專家都使用SwiGLU激活實現為細粒度的兩層FFN。負載均衡方面,為了降低訓練和推理期間的模型容量和計算效率,團隊采用了一種與DeepSeek類似的輔助無損的方法;此外,團隊還采用序列平衡損失,以防止任何單個序列中的極端不平衡,以此使dots.llm1在整個訓練過程中保持良好的負載均衡。

預訓練數據方面,dots.llm1.ins在預訓練階段使用了11.2萬億tokens的非合成數據,主要來自通用爬蟲和自有爬蟲抓取得到的Web數據。

在數據處理上,團隊主要進行了文檔準備、基于規則的處理基于模型的處理。其中文檔準備側重于預處理和組織原始數據;基于規則的處理旨在通過自動篩選和清理數據,最大限度地減少對大量人工管理的需求;基于模型的處理進一步確保最終數據集既高質量又多樣化。

數據處理管道有兩項關鍵創新,如下所示:

1、Web雜亂清除模型:為了解決樣板內容和重復行等問題,團隊開發了一種在生產線級別運行的輕量級模型。這種方法在清潔質量和計算效率之間實現了有效的平衡,代表了開源數據集中不常見的獨特功能。

2、類別平衡:團隊訓練一個200類分類器來平衡Web數據中的比例。這使其能夠增加基于知識和事實的內容(例如百科全書條目和科普文章)的存在,同時減少虛構和高度結構化的Web內容(包括科幻小說和產品描述)的份額。

經過上述處理流程,團隊得到一份高質量的預訓練數據,并經過人工校驗和實驗驗證,證明該數據質量顯著優于開源Txt360數據。


三、模型包含62層,序列長度擴展到32k

在參數方面,dots.llm1模型使用AdamW優化器進行訓練,模型包含62層,第一層使用普通密集FFN,后續層使用MoE。

團隊在預訓練期間將最大序列長度設置為8k,并在11.2T tokens上訓練dots.llm1。在主要訓練階段之后,該過程包括兩個退火階段,總共包含1.2萬億個數據tokens。

緊接著,團隊在退火階段之后實現上下文長度擴展。在這個階段,他們在使用UtK策略對128B標記進行訓練時保持恒定的學習率,將序列長度擴展到32k。UtK不是修改數據集,而是嘗試將訓練文檔分塊成更小的片段,然后訓練模型以從隨機分塊中重建相關片段。通過學習解開這些打結的塊,該模型可以有效地處理較長的輸入序列,同時保持其在短上下文任務上的性能。

在預訓練完成后,為了全面評估dots.llm1模型,團隊將該模型在中文和英文上進行了預訓練,團隊評估了它在每種語言中跨越多個領域的一套基準測試中的性能。如下圖所示,與DeepSeek-V2相比,只有14B激活參數的dots.llm1性能更佳,后者與Qwen2.5-72B水平相當。


dots.llm1在大多數域中表現出與Qwen2.5-72B相當的性能:1、在語言理解任務上,dots.llm1在中文理解基準測試中取得了較高性能,主要得益于數據處理管道。2、在知識任務中,雖然dots.llm1在英語知識基準上的得分略低,但它在中文知識任務上的表現仍然穩健。3、在代碼和數學領域,dots.llm1在HumanEval和CMath上獲得了更高的分數。有趣的是,在數學方面,我們觀察到dots.llm1在零樣本設置下的性能比少數樣本設置要好,提高了4個百分點以上。

以下損失曲線突出了訓練過程的一致穩定性。在6萬億個訓練token中,團隊將批處理大小從6400萬個調整為9600萬個,從8.3萬億次增加到1.28億次。在整個訓練期間,沒有出現無法恢復的損失峰值事件,也不需要回滾。


在預訓練及評估后,團隊在后訓練階段對模型進行了監督微調

在數據混合方面,其基于開源數據和內部注釋數據收集了大約400k個指令調優實例,主要集中在幾個關鍵領域:多語言(主要是中文和英文)多輪對話、知識理解和問答、復雜的指令跟隨以及涉及數學和編碼的推理任務。

在微調配置方面,dots.llm1.inst的微調過程包括兩個階段。在第一階段,團隊對400k指令調優實例執行上采樣和多會話連接,然后對dots.llm1.inst進行2個epoch的微調。在第二階段,其通過拒絕采樣微調(RFT)進一步增強模型在特定領域(如數學和編碼)的能力,并結合驗證器系統來提高這些專業領域的性能。

結語:用高質量數據擴展大模型邊界

可以看到,dots.llm1定位是一種經濟高效的專家混合模型,“以小博大”。通過僅激活每個標記的參數子集,dots.llm1降低訓練成本,試圖提供了與更大的模型相當的結果。

相比于同行,小紅書認為自己的一大優勢是數據處理管道,可助其生成高質量的訓練數據。Dots.llm1證明了高效的設計和高質量的數據可以不斷擴展大型語言模型的能力邊界。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
比亞迪凌晨宣布!對供應商支付賬期統一至60天內

比亞迪凌晨宣布!對供應商支付賬期統一至60天內

新京報
2025-06-11 02:01:31
張朝陽回應錯失百萬Labubu:我后悔把胡潤轉交給我的那個Labubu又送回去了!王寧:泡泡瑪特最后一個親筆簽名

張朝陽回應錯失百萬Labubu:我后悔把胡潤轉交給我的那個Labubu又送回去了!王寧:泡泡瑪特最后一個親筆簽名

和訊網
2025-06-11 15:53:32
人間慘劇!汕頭一鋪面火災致3死,單親媽媽出門前把房間反鎖

人間慘劇!汕頭一鋪面火災致3死,單親媽媽出門前把房間反鎖

小人物看盡人間百態
2025-06-11 13:49:24
中美經貿磋商機制首次會議在英國倫敦舉行

中美經貿磋商機制首次會議在英國倫敦舉行

新華社
2025-06-11 17:06:09
中紀委劃紅線!機關事業單位職工下班后,不能去這8類場所

中紀委劃紅線!機關事業單位職工下班后,不能去這8類場所

戶外釣魚哥阿勇
2025-06-11 15:02:54
李瑋鋒談中國好球員不愿留洋:歐洲月薪6000歐,國內可能兩三百萬

李瑋鋒談中國好球員不愿留洋:歐洲月薪6000歐,國內可能兩三百萬

直播吧
2025-06-11 14:44:28
超級模特何穗大膽泳裝身材真好,個子太高

超級模特何穗大膽泳裝身材真好,個子太高

鄉野小珥
2025-06-04 03:42:44
致命打擊!澤連斯基,徹底完了?

致命打擊!澤連斯基,徹底完了?

大嘴說天下
2025-06-10 22:40:42
6月11日俄烏:美俄又站一起,烏獲得87架F-16戰機

6月11日俄烏:美俄又站一起,烏獲得87架F-16戰機

山河路口
2025-06-11 17:21:40
當今社會最可怕的現象,傻子共振已開始大規模流行

當今社會最可怕的現象,傻子共振已開始大規模流行

楓冷慕詩
2025-06-11 17:04:12
美財長突然退出談判回國,白宮收到更大噩耗:中方讓關鍵底牌失效

美財長突然退出談判回國,白宮收到更大噩耗:中方讓關鍵底牌失效

大道無形我有型
2025-06-11 13:14:25
俄總統助理:俄烏注定會成為緊密盟友!烏方:襲擊俄一核心火藥廠!談論第三輪談判仍為時過早

俄總統助理:俄烏注定會成為緊密盟友!烏方:襲擊俄一核心火藥廠!談論第三輪談判仍為時過早

每日經濟新聞
2025-06-11 16:08:21
散瓶飛天平臺報價跌破2000元,茅臺集團:推動白酒回歸“以之成禮、以之養老、以之成歡”的初心

散瓶飛天平臺報價跌破2000元,茅臺集團:推動白酒回歸“以之成禮、以之養老、以之成歡”的初心

金融界
2025-06-11 11:45:03
馬斯克:對發布的一些特朗普相關帖子“感到后悔”

馬斯克:對發布的一些特朗普相關帖子“感到后悔”

界面新聞
2025-06-11 15:11:16
意外發現前妻遺書,“寫著對不起我……”浙江男子忍無可忍:離婚7年了啊!

意外發現前妻遺書,“寫著對不起我……”浙江男子忍無可忍:離婚7年了啊!

極目新聞
2025-06-11 11:35:58
與特朗普隔空互罵后,馬斯克最新發帖:對自己發布的關于特朗普帖子感到后悔,“太過了”

與特朗普隔空互罵后,馬斯克最新發帖:對自己發布的關于特朗普帖子感到后悔,“太過了”

環球網資訊
2025-06-11 16:10:05
女子被射瞎最新進展,肇事男已經找到,家屬想出三十萬私了

女子被射瞎最新進展,肇事男已經找到,家屬想出三十萬私了

映射生活的身影
2025-06-11 17:51:27
糟糕,匯豐關閉內地通道了....

糟糕,匯豐關閉內地通道了....

思哲與創富
2025-06-11 09:33:37
李湘去泡泡瑪特公司掃貨!王詩齡抱倆“拉布布”好可愛,炫到極致

李湘去泡泡瑪特公司掃貨!王詩齡抱倆“拉布布”好可愛,炫到極致

鑫鑫說說
2025-06-11 11:28:57
疑中國大媽在暴亂中淡定撿瓶子,火爆外網:整個洛杉磯最清醒的人

疑中國大媽在暴亂中淡定撿瓶子,火爆外網:整個洛杉磯最清醒的人

娛樂看阿敞
2025-06-11 11:52:38
2025-06-11 21:39:00
智東西 incentive-icons
智東西
聚焦智能變革,服務產業升級。
9993文章數 116772關注度
往期回顧 全部

科技要聞

華為Pura80 Ultra最高定價10999元

頭條要聞

媒體:國足在亞洲不是三流 是不入流

頭條要聞

媒體:國足在亞洲不是三流 是不入流

體育要聞

一位中國老板,復興了歐洲百年俱樂部

娛樂要聞

那爾那茜定向委培違約事件 持續發酵

財經要聞

中美經貿磋商機制首次會議在英國倫敦舉行

汽車要聞

5萬級5座純電微型車 奇瑞QQ多米正式上市

態度原創

家居
房產
數碼
旅游
公開課

家居要聞

木質灰調 現代輕奢質感

房產要聞

曝光!食堂問題頻發,海口這所名校被重罰百萬!

數碼要聞

紅魔電競平板3 PRO發布:9.06英寸高刷OLED屏 國補后3499元起

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 方城县| 和平区| 枣强县| 墨玉县| 封开县| 罗定市| 山东| 登封市| 新化县| 泰州市| 杨浦区| 霞浦县| 兰溪市| 龙江县| 娱乐| 唐海县| 额尔古纳市| 讷河市| 榆林市| 巩留县| 呈贡县| 清远市| 乐安县| 宁武县| 辽阳县| 中宁县| 始兴县| 铜山县| 屏边| 扎囊县| 临朐县| 道孚县| 周宁县| 镇坪县| 德安县| 航空| 湘阴县| 苏尼特左旗| 朔州市| 柳江县| 银川市|