99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

小紅書(shū)開(kāi)源首個(gè)大模型,中文評(píng)測(cè)超越DeepSeek-V3

0
分享至


智東西
作者 李水青
編輯 云鵬

智東西6月10日?qǐng)?bào)道,近日,大模型開(kāi)源圈迎來(lái)重磅跨界新玩家——小紅書(shū)開(kāi)源了首個(gè)大模型dots.llm1。


dots.llm1是一個(gè)1420億參數(shù)的MoE(混合專(zhuān)家)模型,僅激活140億參數(shù),可在中英文、數(shù)學(xué)、對(duì)齊等任務(wù)上實(shí)現(xiàn)與阿里Qwen3-32B接近的性能。在中文表現(xiàn)上,dots.llm1最終性能在C-Eval上達(dá)到92.2分,超過(guò)了包括DeepSeek-V3在內(nèi)的所有模型。


小紅書(shū)開(kāi)源大模型的一大特色在于數(shù)據(jù)。dots.llm1.ins在預(yù)訓(xùn)練階段使用了11.2萬(wàn)億的非合成數(shù)據(jù)。作為最新估值直飆2500億元的國(guó)民級(jí)社交內(nèi)容平臺(tái),小紅書(shū)試圖證明的是:通過(guò)高效的設(shè)計(jì)和高質(zhì)量的數(shù)據(jù),可以擴(kuò)展大型語(yǔ)言模型的能力邊界。

根據(jù)小紅書(shū)hi lab團(tuán)隊(duì)(Humane Intelligence Lab,人文智能實(shí)驗(yàn)室)公布的技術(shù)報(bào)告,其主要貢獻(xiàn)總結(jié)如下:

1、增強(qiáng)的數(shù)據(jù)處理:團(tuán)隊(duì)提出了一個(gè)可擴(kuò)展且細(xì)粒度的三階段數(shù)據(jù)處理框架,旨在生成大規(guī)模、高質(zhì)量和多樣化的數(shù)據(jù),以進(jìn)行預(yù)訓(xùn)練。完整的過(guò)程是開(kāi)源的,以此增強(qiáng)可復(fù)現(xiàn)性。

2、性能和成本效益:團(tuán)隊(duì)推出了dots.llm1開(kāi)源模型,在推理過(guò)程中僅激活14B參數(shù),同時(shí)提供全面且計(jì)算高效的性能。dots.llm1使用團(tuán)隊(duì)的可擴(kuò)展數(shù)據(jù)處理框架生成的11.2萬(wàn)億個(gè)高質(zhì)量tokens進(jìn)行訓(xùn)練,在各種任務(wù)中展示了強(qiáng)大的性能,所有這些都無(wú)需依賴(lài)合成數(shù)據(jù)或模型蒸餾即可實(shí)現(xiàn)。

3、基礎(chǔ)設(shè)施:團(tuán)隊(duì)引入了一種基于1F1B通道調(diào)度和高效的分組GEMM實(shí)現(xiàn)的創(chuàng)新MoE全對(duì)多通信和計(jì)算重疊配方,以提高計(jì)算效率。

4、模型動(dòng)力學(xué)的開(kāi)放可訪問(wèn)性:通過(guò)以開(kāi)源形式發(fā)布中間訓(xùn)練檢查點(diǎn),團(tuán)隊(duì)的目標(biāo)是使研究界能夠透明地了解訓(xùn)練過(guò)程,從而更深入地了解大型模型的動(dòng)力學(xué),并促進(jìn)LLM領(lǐng)域的加速創(chuàng)新。


Hugging Face地址:
https://huggingface.co/rednote-hilab
GitHub地址:
https://github.com/rednote-hilab/dots.llm1

一、性能打平Qwen2.5-72B,僅需激活14B參數(shù)

首先看下dots.llm1的模型效果,團(tuán)隊(duì)訓(xùn)練得到的dots.llm1 base模型和instruct模型,均在綜合指標(biāo)上打平Qwen2.5-72B模型

根據(jù)評(píng)估結(jié)果,dots.llm1.inst在中英文通用任務(wù)、數(shù)學(xué)推理、代碼生成和對(duì)齊基準(zhǔn)測(cè)試中表現(xiàn)較好,僅激活了14B參數(shù),與Qwen2.5-32B-Instruct和Qwen2.5-72B-Struct相比效果更好。在雙語(yǔ)任務(wù)、數(shù)學(xué)推理和對(duì)齊能力方面,dots.llm1.inst取得了與Qwen3-32B相當(dāng)或更好的性能


具體來(lái)看,在英語(yǔ)表現(xiàn)上,dots.llm1.inst在MMLU、MMLU-Redux、DROP和GPQA等問(wèn)答任務(wù)中,與Qwen2.5/Qwen3系列模型相比具有競(jìng)爭(zhēng)力。

在代碼性能上,該模型與Qwen2.5系列相比不相上下,但與Qwen3和DeepSeek-V3等更先進(jìn)的模型相比仍有差距

在數(shù)學(xué)表現(xiàn)上,dots.llm1.inst在AIME24上獲得了33.1分,凸顯了其在復(fù)雜數(shù)學(xué)方面的高級(jí)問(wèn)題解決能力;在MATH500的得分為84.8,優(yōu)于Qwen2.5系列,并接近最先進(jìn)的結(jié)果。

在中文表現(xiàn)上,dots.llm1.inst在CLUEWSC上獲得了92.6分,與行業(yè)領(lǐng)先的中文語(yǔ)義理解性能相匹配。在C-Eval上,它達(dá)到了92.2,超過(guò)了包括DeepSeek-V3在內(nèi)的所有模型。

對(duì)齊性能方面,dots.llm1.inst在IFEval、AlpacaEval2和ArenaHard等基準(zhǔn)測(cè)試中表現(xiàn)出有競(jìng)爭(zhēng)力的性能。這些結(jié)果表明,該模型可以準(zhǔn)確地解釋和執(zhí)行復(fù)雜的指令,同時(shí)保持與人類(lèi)意圖和價(jià)值觀的一致性。

二、采取MoE架構(gòu),11.2萬(wàn)億非合成數(shù)據(jù)訓(xùn)練

dots.llm1模型是一種僅限解碼器的Transformer架構(gòu),其中每一層由一個(gè)注意力層和一個(gè)前饋網(wǎng)絡(luò)(FFN)組成。與Llama或Qwen等密集模型不同,F(xiàn)FN被專(zhuān)家混合(MoE)替代了。這種修改允許其在保持經(jīng)濟(jì)成本的同時(shí)訓(xùn)練功能強(qiáng)大的模型。

在注意力層方面,團(tuán)隊(duì)在模型中使用了一種普通的多頭注意力機(jī)制。在MoE層,團(tuán)隊(duì)遵循DeepSeek、Qwen的做法,用包含共享和獨(dú)立專(zhuān)家的MoE層替換了FFN,他們的實(shí)施包括為所有token激活128個(gè)路由專(zhuān)家和2個(gè)共享專(zhuān)家,每個(gè)專(zhuān)家都使用SwiGLU激活實(shí)現(xiàn)為細(xì)粒度的兩層FFN。負(fù)載均衡方面,為了降低訓(xùn)練和推理期間的模型容量和計(jì)算效率,團(tuán)隊(duì)采用了一種與DeepSeek類(lèi)似的輔助無(wú)損的方法;此外,團(tuán)隊(duì)還采用序列平衡損失,以防止任何單個(gè)序列中的極端不平衡,以此使dots.llm1在整個(gè)訓(xùn)練過(guò)程中保持良好的負(fù)載均衡。

預(yù)訓(xùn)練數(shù)據(jù)方面,dots.llm1.ins在預(yù)訓(xùn)練階段使用了11.2萬(wàn)億tokens的非合成數(shù)據(jù),主要來(lái)自通用爬蟲(chóng)和自有爬蟲(chóng)抓取得到的Web數(shù)據(jù)。

在數(shù)據(jù)處理上,團(tuán)隊(duì)主要進(jìn)行了文檔準(zhǔn)備、基于規(guī)則的處理基于模型的處理。其中文檔準(zhǔn)備側(cè)重于預(yù)處理和組織原始數(shù)據(jù);基于規(guī)則的處理旨在通過(guò)自動(dòng)篩選和清理數(shù)據(jù),最大限度地減少對(duì)大量人工管理的需求;基于模型的處理進(jìn)一步確保最終數(shù)據(jù)集既高質(zhì)量又多樣化。

數(shù)據(jù)處理管道有兩項(xiàng)關(guān)鍵創(chuàng)新,如下所示:

1、Web雜亂清除模型:為了解決樣板內(nèi)容和重復(fù)行等問(wèn)題,團(tuán)隊(duì)開(kāi)發(fā)了一種在生產(chǎn)線級(jí)別運(yùn)行的輕量級(jí)模型。這種方法在清潔質(zhì)量和計(jì)算效率之間實(shí)現(xiàn)了有效的平衡,代表了開(kāi)源數(shù)據(jù)集中不常見(jiàn)的獨(dú)特功能。

2、類(lèi)別平衡:團(tuán)隊(duì)訓(xùn)練一個(gè)200類(lèi)分類(lèi)器來(lái)平衡Web數(shù)據(jù)中的比例。這使其能夠增加基于知識(shí)和事實(shí)的內(nèi)容(例如百科全書(shū)條目和科普文章)的存在,同時(shí)減少虛構(gòu)和高度結(jié)構(gòu)化的Web內(nèi)容(包括科幻小說(shuō)和產(chǎn)品描述)的份額。

經(jīng)過(guò)上述處理流程,團(tuán)隊(duì)得到一份高質(zhì)量的預(yù)訓(xùn)練數(shù)據(jù),并經(jīng)過(guò)人工校驗(yàn)和實(shí)驗(yàn)驗(yàn)證,證明該數(shù)據(jù)質(zhì)量顯著優(yōu)于開(kāi)源Txt360數(shù)據(jù)。


三、模型包含62層,序列長(zhǎng)度擴(kuò)展到32k

在參數(shù)方面,dots.llm1模型使用AdamW優(yōu)化器進(jìn)行訓(xùn)練,模型包含62層,第一層使用普通密集FFN,后續(xù)層使用MoE。

團(tuán)隊(duì)在預(yù)訓(xùn)練期間將最大序列長(zhǎng)度設(shè)置為8k,并在11.2T tokens上訓(xùn)練dots.llm1。在主要訓(xùn)練階段之后,該過(guò)程包括兩個(gè)退火階段,總共包含1.2萬(wàn)億個(gè)數(shù)據(jù)tokens。

緊接著,團(tuán)隊(duì)在退火階段之后實(shí)現(xiàn)上下文長(zhǎng)度擴(kuò)展。在這個(gè)階段,他們?cè)谑褂肬tK策略對(duì)128B標(biāo)記進(jìn)行訓(xùn)練時(shí)保持恒定的學(xué)習(xí)率,將序列長(zhǎng)度擴(kuò)展到32k。UtK不是修改數(shù)據(jù)集,而是嘗試將訓(xùn)練文檔分塊成更小的片段,然后訓(xùn)練模型以從隨機(jī)分塊中重建相關(guān)片段。通過(guò)學(xué)習(xí)解開(kāi)這些打結(jié)的塊,該模型可以有效地處理較長(zhǎng)的輸入序列,同時(shí)保持其在短上下文任務(wù)上的性能。

在預(yù)訓(xùn)練完成后,為了全面評(píng)估dots.llm1模型,團(tuán)隊(duì)將該模型在中文和英文上進(jìn)行了預(yù)訓(xùn)練,團(tuán)隊(duì)評(píng)估了它在每種語(yǔ)言中跨越多個(gè)領(lǐng)域的一套基準(zhǔn)測(cè)試中的性能。如下圖所示,與DeepSeek-V2相比,只有14B激活參數(shù)的dots.llm1性能更佳,后者與Qwen2.5-72B水平相當(dāng)。


dots.llm1在大多數(shù)域中表現(xiàn)出與Qwen2.5-72B相當(dāng)?shù)男阅埽?、在語(yǔ)言理解任務(wù)上,dots.llm1在中文理解基準(zhǔn)測(cè)試中取得了較高性能,主要得益于數(shù)據(jù)處理管道。2、在知識(shí)任務(wù)中,雖然dots.llm1在英語(yǔ)知識(shí)基準(zhǔn)上的得分略低,但它在中文知識(shí)任務(wù)上的表現(xiàn)仍然穩(wěn)健。3、在代碼和數(shù)學(xué)領(lǐng)域,dots.llm1在HumanEval和CMath上獲得了更高的分?jǐn)?shù)。有趣的是,在數(shù)學(xué)方面,我們觀察到dots.llm1在零樣本設(shè)置下的性能比少數(shù)樣本設(shè)置要好,提高了4個(gè)百分點(diǎn)以上。

以下?lián)p失曲線突出了訓(xùn)練過(guò)程的一致穩(wěn)定性。在6萬(wàn)億個(gè)訓(xùn)練token中,團(tuán)隊(duì)將批處理大小從6400萬(wàn)個(gè)調(diào)整為9600萬(wàn)個(gè),從8.3萬(wàn)億次增加到1.28億次。在整個(gè)訓(xùn)練期間,沒(méi)有出現(xiàn)無(wú)法恢復(fù)的損失峰值事件,也不需要回滾。


在預(yù)訓(xùn)練及評(píng)估后,團(tuán)隊(duì)在后訓(xùn)練階段對(duì)模型進(jìn)行了監(jiān)督微調(diào)

在數(shù)據(jù)混合方面,其基于開(kāi)源數(shù)據(jù)和內(nèi)部注釋數(shù)據(jù)收集了大約400k個(gè)指令調(diào)優(yōu)實(shí)例,主要集中在幾個(gè)關(guān)鍵領(lǐng)域:多語(yǔ)言(主要是中文和英文)多輪對(duì)話、知識(shí)理解和問(wèn)答、復(fù)雜的指令跟隨以及涉及數(shù)學(xué)和編碼的推理任務(wù)。

在微調(diào)配置方面,dots.llm1.inst的微調(diào)過(guò)程包括兩個(gè)階段。在第一階段,團(tuán)隊(duì)對(duì)400k指令調(diào)優(yōu)實(shí)例執(zhí)行上采樣和多會(huì)話連接,然后對(duì)dots.llm1.inst進(jìn)行2個(gè)epoch的微調(diào)。在第二階段,其通過(guò)拒絕采樣微調(diào)(RFT)進(jìn)一步增強(qiáng)模型在特定領(lǐng)域(如數(shù)學(xué)和編碼)的能力,并結(jié)合驗(yàn)證器系統(tǒng)來(lái)提高這些專(zhuān)業(yè)領(lǐng)域的性能。

結(jié)語(yǔ):用高質(zhì)量數(shù)據(jù)擴(kuò)展大模型邊界

可以看到,dots.llm1定位是一種經(jīng)濟(jì)高效的專(zhuān)家混合模型,“以小博大”。通過(guò)僅激活每個(gè)標(biāo)記的參數(shù)子集,dots.llm1降低訓(xùn)練成本,試圖提供了與更大的模型相當(dāng)?shù)慕Y(jié)果。

相比于同行,小紅書(shū)認(rèn)為自己的一大優(yōu)勢(shì)是數(shù)據(jù)處理管道,可助其生成高質(zhì)量的訓(xùn)練數(shù)據(jù)。Dots.llm1證明了高效的設(shè)計(jì)和高質(zhì)量的數(shù)據(jù)可以不斷擴(kuò)展大型語(yǔ)言模型的能力邊界。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
以色列何去何從,歷史驚人的相似,猶太人在打中國(guó)的主意

以色列何去何從,歷史驚人的相似,猶太人在打中國(guó)的主意

回京歷史夢(mèng)
2025-05-23 16:06:37
這名攻克三維掛谷猜想的國(guó)際知名數(shù)學(xué)學(xué)者,已全職受聘南開(kāi)

這名攻克三維掛谷猜想的國(guó)際知名數(shù)學(xué)學(xué)者,已全職受聘南開(kāi)

澎湃新聞
2025-06-23 19:54:28
杭州3人持械攔人!態(tài)度囂張,當(dāng)街強(qiáng)行查手機(jī),監(jiān)控全壞惹爭(zhēng)議

杭州3人持械攔人!態(tài)度囂張,當(dāng)街強(qiáng)行查手機(jī),監(jiān)控全壞惹爭(zhēng)議

阿纂看事
2025-06-23 20:37:09
諾貝爾獎(jiǎng)?wù)J證細(xì)胞自噬!餓12小時(shí)細(xì)胞開(kāi)始自我修復(fù),能延壽30%?

諾貝爾獎(jiǎng)?wù)J證細(xì)胞自噬!餓12小時(shí)細(xì)胞開(kāi)始自我修復(fù),能延壽30%?

涵豆說(shuō)娛
2025-06-17 18:17:45
NASA衛(wèi)星照片證明美軍空襲炸偏了?

NASA衛(wèi)星照片證明美軍空襲炸偏了?

樞密院十號(hào)
2025-06-22 23:06:01
王健林透露真相?中國(guó)手握“兩套房”的家庭,注定或迎來(lái)3個(gè)結(jié)果

王健林透露真相?中國(guó)手握“兩套房”的家庭,注定或迎來(lái)3個(gè)結(jié)果

巢客HOME
2025-03-04 08:45:03
拿誰(shuí)換?美記:國(guó)王有意讓庫(kù)明加擔(dān)任首發(fā),勇士最近正在聽(tīng)取報(bào)價(jià)

拿誰(shuí)換?美記:國(guó)王有意讓庫(kù)明加擔(dān)任首發(fā),勇士最近正在聽(tīng)取報(bào)價(jià)

移動(dòng)擋拆
2025-06-23 22:59:52
最讓人唏噓的元帥,失去思維能力10多年,死后妻子透露出生前遺憾

最讓人唏噓的元帥,失去思維能力10多年,死后妻子透露出生前遺憾

南書(shū)房
2025-06-23 11:03:29
四川安岳一男子花2個(gè)月開(kāi)鑿“奧特曼石窟”?當(dāng)?shù)胤Q(chēng)將調(diào)查核實(shí)

四川安岳一男子花2個(gè)月開(kāi)鑿“奧特曼石窟”?當(dāng)?shù)胤Q(chēng)將調(diào)查核實(shí)

上游新聞
2025-06-22 16:08:05
中國(guó)籃協(xié):今年的CBA俱樂(lè)部杯賽將實(shí)現(xiàn)擴(kuò)軍

中國(guó)籃協(xié):今年的CBA俱樂(lè)部杯賽將實(shí)現(xiàn)擴(kuò)軍

雷速體育
2025-06-23 15:39:26
最新進(jìn)展,湖南遇難女司機(jī)遺體已被找到,丈夫獲救時(shí)被困在樹(shù)上

最新進(jìn)展,湖南遇難女司機(jī)遺體已被找到,丈夫獲救時(shí)被困在樹(shù)上

靜若梨花
2025-06-23 17:28:23
德國(guó)前總理默克爾說(shuō):“俄羅斯的全面入侵是對(duì)國(guó)際秩序的公然踐踏

德國(guó)前總理默克爾說(shuō):“俄羅斯的全面入侵是對(duì)國(guó)際秩序的公然踐踏

老友科普
2025-06-23 15:45:00
突發(fā)!603822,被證監(jiān)會(huì)立案!

突發(fā)!603822,被證監(jiān)會(huì)立案!

證券時(shí)報(bào)e公司
2025-06-23 19:53:17
為什么二婚的兩個(gè)人要再生一個(gè)孩子?網(wǎng)友掀桌式回答,真實(shí)又扎心

為什么二婚的兩個(gè)人要再生一個(gè)孩子?網(wǎng)友掀桌式回答,真實(shí)又扎心

特約前排觀眾
2025-06-24 00:20:05
美國(guó)轟炸伊朗核基地,中國(guó)在聯(lián)合國(guó)亮態(tài)度,話音剛落幾天白宮改口

美國(guó)轟炸伊朗核基地,中國(guó)在聯(lián)合國(guó)亮態(tài)度,話音剛落幾天白宮改口

天行艦
2025-06-24 00:05:16
瓜達(dá)爾港投資了多少,建設(shè)了多少年,建成后為什么幾乎沒(méi)有輪船停靠?

瓜達(dá)爾港投資了多少,建設(shè)了多少年,建成后為什么幾乎沒(méi)有輪船停靠?

高博新視野
2025-06-23 16:19:10
上海樂(lè)高樂(lè)園突發(fā)!4D影院頂部突然噴水,觀眾衣服褲子全部淋濕...官方致歉

上海樂(lè)高樂(lè)園突發(fā)!4D影院頂部突然噴水,觀眾衣服褲子全部淋濕...官方致歉

魯中晨報(bào)
2025-06-22 08:09:08
隨著杜蘭特的大交易,火箭俱樂(lè)部和教練組,極有可能做出3大改變

隨著杜蘭特的大交易,火箭俱樂(lè)部和教練組,極有可能做出3大改變

郝小小看體育
2025-06-23 07:26:09
魔獸:?jiǎn)痰](méi)有1.22米的垂直彈跳 如果那么厲害他應(yīng)該坐籃筐上

魔獸:?jiǎn)痰](méi)有1.22米的垂直彈跳 如果那么厲害他應(yīng)該坐籃筐上

直播吧
2025-06-23 19:32:22
因長(zhǎng)相太美曾無(wú)人敢追,父親為她終身不娶,她的魅力究竟有多大?

因長(zhǎng)相太美曾無(wú)人敢追,父親為她終身不娶,她的魅力究竟有多大?

頭號(hào)劇委會(huì)
2025-06-22 10:43:22
2025-06-24 02:00:49
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。
10056文章數(shù) 116781關(guān)注度
往期回顧 全部

科技要聞

售出千萬(wàn)臺(tái)!他卻說(shuō)"只想做下一代AI終端"

頭條要聞

玉淵譚天:美軍轟炸伊朗的武器僅美國(guó)有 但掏空了老本

頭條要聞

玉淵譚天:美軍轟炸伊朗的武器僅美國(guó)有 但掏空了老本

體育要聞

比起雷霆三少,他才是真正隊(duì)魂

娛樂(lè)要聞

魏大勛和秦嵐沒(méi)分手!

財(cái)經(jīng)要聞

以伊沖突升級(jí),對(duì)經(jīng)濟(jì)和股市影響有多大?

汽車(chē)要聞

真香價(jià)格+質(zhì)保承諾 別克E5很難讓人拒絕了

態(tài)度原創(chuàng)

時(shí)尚
房產(chǎn)
本地
教育
旅游

“章子怡挨打”背后的她更令人驚心

房產(chǎn)要聞

3天,75億!海南賣(mài)地殺瘋了!

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

教育要聞

老師解答難題時(shí),全班同學(xué)認(rèn)真聽(tīng)講,教室里充滿了求知的欲望

旅游要聞

熱聞|清明假期將至,熱門(mén)目的地有哪些?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 多伦县| 福建省| 济南市| 高邮市| 永春县| 徐水县| 特克斯县| 康保县| 尉氏县| 温泉县| 马公市| 资源县| 沈丘县| 和政县| 黄龙县| 哈密市| 永仁县| 青龙| 方山县| 新沂市| 河源市| 无为县| 牡丹江市| 融水| 白朗县| 怀化市| 铜山县| 泰和县| 华蓥市| 九江县| 绥滨县| 体育| 云浮市| 赣州市| 垫江县| 鹤山市| 沙坪坝区| 磐安县| 中卫市| 台安县| 乌拉特后旗|