99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

小紅書開源首個(gè)大模型,11萬億非合成訓(xùn)練數(shù)據(jù)

0
分享至

國內(nèi)著名社交平臺小紅書,開源了首個(gè)大模型——dots.llm1。

dots.llm1是一個(gè)1420億參數(shù)的專家混合模型(MoE),在推理過程中僅激活140億參數(shù),能保持高性能的同時(shí)大幅度降低訓(xùn)練和推理成本。

dots.llm1最大特色是使用了11.2萬億token的非合成高質(zhì)量訓(xùn)練數(shù)據(jù),這在現(xiàn)階段的開源大模型中非常罕見,看來小紅書也得益于自己龐大的語料庫出手就是闊啊。

所以,在中文測試中dots.llm1的性能非常強(qiáng),以91.3的平均分超過了DeepSeek開源的V2、V3和阿里開源的Qwen2.5 32B和72B。


開源地址:https://huggingface.co/rednote-hilab/dots.llm1.base/tree/main

dots.llm1架構(gòu)簡單介紹

dots.llm1使用了單向解碼器Transformer架構(gòu),但把前饋網(wǎng)絡(luò)替換為MoE。在傳統(tǒng)的Transformer架構(gòu)中,每一層的前饋網(wǎng)絡(luò)是密集連接的,這意味著每一層都會(huì)對輸入的所有標(biāo)記進(jìn)行計(jì)算。在處理大規(guī)模數(shù)據(jù)時(shí)會(huì)消耗巨大的算力。

而MoE將模型分為多個(gè)專家網(wǎng)絡(luò),每個(gè)專家網(wǎng)絡(luò)專注于輸入數(shù)據(jù)的不同方面。在推理過程中,并不激活所有的專家網(wǎng)絡(luò),而是根據(jù)輸入標(biāo)記的特性,動(dòng)態(tài)地選擇一小部分專家網(wǎng)絡(luò)進(jìn)行計(jì)算。這種稀疏激活的方式極大減少了算力的需求,同時(shí)保持了模型的高性能。


dots.llm1的MoE由128個(gè)路由專家和2個(gè)共享專家組成。每個(gè)專家網(wǎng)絡(luò)是一個(gè)兩層的前饋網(wǎng)絡(luò),使用了SwiGLU激活函數(shù)。SwiGLU是一種高效的激活函數(shù),它結(jié)合了門控機(jī)制和非線性激活,能夠更好地捕捉數(shù)據(jù)中的復(fù)雜關(guān)系。

在每個(gè)輸入標(biāo)記的處理過程中,dots.llm1會(huì)通過一個(gè)路由機(jī)制選擇出6個(gè)最相關(guān)的專家網(wǎng)絡(luò),加上2個(gè)共享專家,總共激活8個(gè)專家網(wǎng)絡(luò)。這種選擇機(jī)制是動(dòng)態(tài)的,會(huì)根據(jù)輸入標(biāo)記的特性來決定哪些專家網(wǎng)絡(luò)最適合處理當(dāng)前的標(biāo)記。

除了MoE模塊的設(shè)計(jì),dots.llm1在注意力層也進(jìn)行了優(yōu)化。采用了經(jīng)典的多頭注意力機(jī)制(MHA),這是一種廣泛應(yīng)用于Transformer架構(gòu)中的注意力機(jī)制。

dots.llm1在MHA的基礎(chǔ)上引入了RMSNorm歸一化操作。RMSNorm是一種改進(jìn)的歸一化方法,通過計(jì)算輸入的均方根值來進(jìn)行歸一化,從而避免了輸入值過大或過小對模型訓(xùn)練的影響。這種歸一化操作在多頭注意力機(jī)制中尤為重要,因?yàn)樽⒁饬C(jī)制的輸出是多個(gè)頭的加權(quán)和,如果沒有適當(dāng)?shù)臍w一化,很容易出現(xiàn)數(shù)值不穩(wěn)定的情況。通過引入RMSNorm,dots.llm1能夠更好地控制注意力機(jī)制的輸出,從而提高模型的穩(wěn)定性和性能。


在MoE模塊中,dots.llm1還引入了無輔助損失的負(fù)載平衡策略。負(fù)載平衡是MoE架構(gòu)中的一個(gè)關(guān)鍵問題,因?yàn)槿绻麑<揖W(wǎng)絡(luò)之間的負(fù)載不平衡,會(huì)導(dǎo)致一些專家網(wǎng)絡(luò)被過度使用,而另一些專家網(wǎng)絡(luò)則很少被激活。

這種不平衡不僅會(huì)影響模型的性能,還會(huì)降低計(jì)算效率。dots.llm1通過引入一個(gè)動(dòng)態(tài)調(diào)整的偏置項(xiàng)來解決這個(gè)問題。偏置項(xiàng)會(huì)根據(jù)每個(gè)專家網(wǎng)絡(luò)的負(fù)載情況動(dòng)態(tài)調(diào)整,從而確保所有專家網(wǎng)絡(luò)的負(fù)載相對平衡,不僅能夠有效地解決負(fù)載不平衡的問題,而且不會(huì)引入額外的損失函數(shù),從而避免了對模型性能的負(fù)面影響。

此外,dots.llm1在訓(xùn)練過程中還采用了AdamW優(yōu)化器進(jìn)一步提高模型的性能和效率。這是一種改進(jìn)的Adam優(yōu)化器,它通過引入權(quán)重衰減來防止模型過擬合,同時(shí)采用了梯度裁剪技術(shù),通過限制梯度的最大值來避免梯度爆炸的問題。

dots.llm1訓(xùn)練數(shù)據(jù)

數(shù)據(jù)處理是大模型訓(xùn)練的基石,dots.llm1一共使用了11.2萬億token非合成數(shù)據(jù),并構(gòu)建了一套三級數(shù)據(jù)處理流水線,從雜亂無章的原始網(wǎng)頁數(shù)據(jù)中篩選出高質(zhì)量的語料。

在第一階段的文檔準(zhǔn)備中,利用URL過濾技術(shù)屏蔽成人、賭博等有害域名,通過 trafilatura 庫精準(zhǔn)提取正文內(nèi)容,借助 fastText 語言檢測工具,將置信度 <0.65 的文檔果斷丟棄,并采用 MD5 去重方法去除重復(fù)數(shù)據(jù),同時(shí)將中英文數(shù)據(jù)比例精心控制在 1:1。

第二階段的規(guī)則處理同樣至關(guān)重要,通過行級去重,刪除前5行/后5行中出現(xiàn)超200次的重復(fù)行;利用啟發(fā)式過濾移除廣告、注冊提示等低質(zhì)內(nèi)容;借助MinHash - LSH 模糊去重,保留 Jaccard 相似度< 80%的文檔,這一系列操作剔除了約 30% 的低質(zhì)內(nèi)容。

第三階段的模型處理堪稱畫龍點(diǎn)睛之筆,運(yùn)用15億參數(shù)分類器精準(zhǔn)區(qū)分“文本詳情頁” 與工具 / 視頻頁面,保留高價(jià)值內(nèi)容;通過自主開發(fā)的網(wǎng)頁雜波去除模型逐行評分(0 - 1 分),過濾掉導(dǎo)航欄、邊框等無關(guān)內(nèi)容;


最后通過 200 類分類器平衡數(shù)據(jù)分布,將百科、科普等知識性內(nèi)容占比提升至 60%,大幅減少小說和產(chǎn)品描述至 15%。經(jīng)過TxT360數(shù)據(jù)集對比實(shí)驗(yàn)驗(yàn)證,該流水線處理后的網(wǎng)頁數(shù)據(jù)在 MMLU、TriviaQA 等基準(zhǔn)測試中表現(xiàn)優(yōu)于當(dāng)前 SOTA 開源數(shù)據(jù)。

值得一提的是,為了促進(jìn)學(xué)術(shù)研究,小紅書還開源了每1萬億token 的中間訓(xùn)練檢查點(diǎn),為大模型的學(xué)習(xí)動(dòng)態(tài)提供了寶貴的見解。

本文素材來源小紅書,如有侵權(quán)請聯(lián)系刪除

報(bào)告下載

大 佬觀點(diǎn)分享

關(guān)于RPA、AI、企業(yè)數(shù)字化轉(zhuǎn)型

(點(diǎn)擊文字即可閱讀)

| |

| | |


| | |

| | |

| |

行業(yè)知識交流分享,結(jié)識擴(kuò)展人脈圈層

公眾號后臺回復(fù)【RPA】或者【流程挖掘】

可受邀加入相關(guān)的交流群

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中國雷達(dá)對B21的視距僅120公里,我們將面臨前所未有的防空壓力?

中國雷達(dá)對B21的視距僅120公里,我們將面臨前所未有的防空壓力?

慎獨(dú)贏
2025-02-06 14:19:43
湖人舊將卡魯索奪第2冠:總決賽4場上雙+2場20分 湖管后悔嗎

湖人舊將卡魯索奪第2冠:總決賽4場上雙+2場20分 湖管后悔嗎

醉臥浮生
2025-06-23 10:50:16
前擊劍運(yùn)動(dòng)員秦雪,退役后當(dāng)主播,近照中,紅色穿搭實(shí)在太養(yǎng)眼了

前擊劍運(yùn)動(dòng)員秦雪,退役后當(dāng)主播,近照中,紅色穿搭實(shí)在太養(yǎng)眼了

塞外書語
2025-06-22 14:28:35
謝逸楓:顫抖吧!前5月全國賣地收入斷崖式下滑,怎么辦

謝逸楓:顫抖吧!前5月全國賣地收入斷崖式下滑,怎么辦

謝逸楓看樓市
2025-06-22 21:39:44
王石再預(yù)測中國未來房地產(chǎn)走向:若無意外,大概率又是對的!

王石再預(yù)測中國未來房地產(chǎn)走向:若無意外,大概率又是對的!

巢客HOME
2025-03-21 09:10:03
網(wǎng)友說,鄭中基前妻余思敏,給所有女人都上了一課

網(wǎng)友說,鄭中基前妻余思敏,給所有女人都上了一課

丫頭舫
2025-06-21 15:40:20
冀曉青,履新職

冀曉青,履新職

新京報(bào)
2025-06-23 09:46:57
梁洛施和男友現(xiàn)身機(jī)場!送長子李長治登機(jī),倆人感情穩(wěn)定常住北京

梁洛施和男友現(xiàn)身機(jī)場!送長子李長治登機(jī),倆人感情穩(wěn)定常住北京

麥大人
2025-06-22 14:45:10
速看!高考成績出來了,請不要打擾別人的幸福

速看!高考成績出來了,請不要打擾別人的幸福

教師吧
2025-06-23 15:12:30
要感謝歐盟嗎?各大名企嚴(yán)格執(zhí)行8小時(shí)工作法案,996福報(bào)被廢

要感謝歐盟嗎?各大名企嚴(yán)格執(zhí)行8小時(shí)工作法案,996福報(bào)被廢

大風(fēng)文字
2025-02-17 11:39:05
遠(yuǎn)在歐洲的匈牙利,渾身透著中國“味兒”,怎么回事?

遠(yuǎn)在歐洲的匈牙利,渾身透著中國“味兒”,怎么回事?

大道微言
2025-06-20 21:16:36
馬上沖擊高溫線!局地可達(dá)40℃!新臺風(fēng)剛剛生成,上海本輪最大降水在這里↗

馬上沖擊高溫線!局地可達(dá)40℃!新臺風(fēng)剛剛生成,上海本輪最大降水在這里↗

魯中晨報(bào)
2025-06-23 15:23:06
請停止為過去的地主資本家歌功頌德!這是何等荒謬,又是何等無知

請停止為過去的地主資本家歌功頌德!這是何等荒謬,又是何等無知

剛哥說法365
2025-06-21 15:33:24
美中將:為了集中反華力量,美國必須鏟除伊朗,戰(zhàn)斗烈度將創(chuàng)紀(jì)錄

美中將:為了集中反華力量,美國必須鏟除伊朗,戰(zhàn)斗烈度將創(chuàng)紀(jì)錄

議紀(jì)史
2025-06-22 14:35:07
許小年教授,為何被網(wǎng)友罵慘了?

許小年教授,為何被網(wǎng)友罵慘了?

老蔣談策劃
2025-06-23 12:12:19
污水廠遭拖欠逾億元污水處理費(fèi),起訴臨潁縣政府索賠5.7億;當(dāng)?shù)鼗貞?yīng):資金困難,擬回購該廠

污水廠遭拖欠逾億元污水處理費(fèi),起訴臨潁縣政府索賠5.7億;當(dāng)?shù)鼗貞?yīng):資金困難,擬回購該廠

大風(fēng)新聞
2025-06-23 09:51:06
從5萬到1萬考生,短短幾年暴跌80%!中國美院淪落到招不滿學(xué)生了

從5萬到1萬考生,短短幾年暴跌80%!中國美院淪落到招不滿學(xué)生了

火山詩話
2025-06-22 10:01:52
美國出手打擊伊朗,為何全球市場依然淡定?

美國出手打擊伊朗,為何全球市場依然淡定?

華爾街見聞官方
2025-06-23 16:34:03
為什么F35和F22戰(zhàn)斗機(jī)性能參數(shù)都已公開,而殲20和殲35卻要保密?

為什么F35和F22戰(zhàn)斗機(jī)性能參數(shù)都已公開,而殲20和殲35卻要保密?

阿龍聊軍事
2025-06-21 11:12:27
“夏補(bǔ)鉀,身不乏”,夏季多吃8種高鉀食物,渾身有勁,精神足

“夏補(bǔ)鉀,身不乏”,夏季多吃8種高鉀食物,渾身有勁,精神足

美食店主
2025-06-22 08:52:29
2025-06-23 17:03:00
RPA中國 incentive-icons
RPA中國
RPA行業(yè)生態(tài)平臺
2695文章數(shù) 1247關(guān)注度
往期回顧 全部

科技要聞

售出千萬臺!他卻說"只想做下一代AI終端"

頭條要聞

奔襲萬里的美B-2轟炸機(jī)內(nèi)部披露 返航通話錄音被截獲

頭條要聞

奔襲萬里的美B-2轟炸機(jī)內(nèi)部披露 返航通話錄音被截獲

體育要聞

比起雷霆三少,他才是真正隊(duì)魂

娛樂要聞

魏大勛和秦嵐沒分手!

財(cái)經(jīng)要聞

關(guān)稅重磅!美國宣布,今起加征

汽車要聞

單電機(jī)200kW 奔馳純電長軸距CLA申報(bào)信息曝光

態(tài)度原創(chuàng)

房產(chǎn)
手機(jī)
數(shù)碼
本地
公開課

房產(chǎn)要聞

3天,75億!海南賣地殺瘋了!

手機(jī)要聞

榮耀 Magic V5 真機(jī)外觀曝光,7 月 2 日發(fā)布

數(shù)碼要聞

洗碗機(jī)要成“剛需”了 618銷量暴增

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 桦川县| 桐庐县| 永德县| 阿尔山市| 房山区| 安新县| 准格尔旗| 兰坪| 武鸣县| 桃江县| 自贡市| 甘孜| 西城区| 德令哈市| 溧水县| 靖安县| 都匀市| 和静县| 新疆| 陆河县| 嘉义县| 道真| 三亚市| 乐平市| 兰考县| 于都县| 江北区| 荣成市| 高安市| 东丽区| 庆阳市| 江孜县| 琼海市| 鄂尔多斯市| 拜泉县| 开鲁县| 民丰县| 丹巴县| 南漳县| 漠河县| 宜兰市|