99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

中國聯(lián)通對DeepSeek系列思維鏈模型進行“自適應(yīng)慢思考”優(yōu)化升級

0
分享至


日前,DeepSeek團隊宣布將在“2月27日至3月3日”陸續(xù)開源5個代碼庫,這與中國聯(lián)通一直秉持的開源普惠理念不謀而合。繼中國聯(lián)通于1月開源元景“自適應(yīng)慢思考”思維鏈大模型后,又針對DeepSeek系列模型進行了“自適應(yīng)慢思考”優(yōu)化升級,現(xiàn)已開源,開源地址詳見文末。這也是目前業(yè)界首個對DeepSeek系列思維鏈模型做“自適應(yīng)慢思考”優(yōu)化升級的工作。



DeepSeek官宣開源周

“以我為主,為我所用”的開放創(chuàng)新

元景思維鏈大模型具備多學(xué)科、多場景通用推理能力,且能在確保慢思考能力不打折的情況下,做到針對不同任務(wù)和難度的自適應(yīng)慢思考,大幅降低了資源消耗,實現(xiàn)了大模型“慢思考”能力高性價比落地應(yīng)用。

元景思維鏈大模型接入DeepSeek-R1并非簡單的“拿來主義”,而是“從其善,優(yōu)其不善”,對DeepSeek-R1版本進行了調(diào)整,最大程度規(guī)避了其面對簡單問題“過度思考”的現(xiàn)象,使模型具備了“自適應(yīng)”能力。即在面向難度較高問題時使用慢思考模式生成長思維鏈,面向簡單問題時則傾向于生成簡潔的思維鏈,迅速準確的輸出相關(guān)答案。這樣避免了答案的冗余、資源的浪費以及減少用戶等待時間,提升用戶體驗。

調(diào)整步驟完整分享

難度自適應(yīng)微調(diào):為實現(xiàn)模型推理的難度自適應(yīng),中國聯(lián)通利用DeepSeek-R1滿血版模型采樣生成數(shù)據(jù),通過復(fù)雜度量化模塊構(gòu)造長度偏好數(shù)據(jù)集,對于簡單問題從采樣答案中挑選長度較短的答案,對困難問題挑選長度較長的答案,使得答案長度與當(dāng)前問題復(fù)雜度相匹配。在此基礎(chǔ)上對DeepSeek-R1進行微調(diào),使得微調(diào)后的模型具備對不同難度題目的自適應(yīng)慢思考能力。具體改造流程如下圖所示。



自適應(yīng)慢思考的DeepSeek-R1滿血版模型訓(xùn)練流程圖

二次蒸餾:針對DeepSeek-R1的系列蒸餾模型,由于其使用的蒸餾數(shù)據(jù)來自訓(xùn)練滿血版R1時使用的訓(xùn)練數(shù)據(jù),而非由性能更好的R1滿血版自身生成的數(shù)據(jù),這會導(dǎo)致得到的蒸餾模型未能充分學(xué)習(xí)R1滿血版的能力,蒸餾效果大打折扣。為解決這個問題,中國聯(lián)通使用了二次蒸餾的策略,即利用DeepSeek-R1滿血版將已積累的高質(zhì)量數(shù)據(jù)轉(zhuǎn)化為包括深度思考過程的長思維鏈格式數(shù)據(jù),在DeepSeek-R1蒸餾系列模型基礎(chǔ)上再進行一次微調(diào),使模型具備更強的推理能力。

難度自適應(yīng)強化學(xué)習(xí):在對模型進行二次蒸餾后,中國聯(lián)通進一步借鑒DeepSeek-R1的構(gòu)建思路,在GRPO算法基礎(chǔ)上提出了一種難度自適應(yīng)強化學(xué)習(xí)算法DA-GRPO(Difficulty Adaptive GRPO),對二次蒸餾模型進行難度自適應(yīng)的強化學(xué)習(xí)訓(xùn)練,進一步提升其推理效果。除了使用傳統(tǒng)的基于規(guī)則的正確性獎勵、格式獎勵、語言一致性獎勵外,DA-GRPO還基于每個問題的復(fù)雜程度和生成答案的長度對獎勵得分進行校準。具體而言,如果模型對一個簡單問題輸出較長的答案,則對獎勵分數(shù)進行相應(yīng)的懲罰。同時,若模型對困難的問題輸出較長的答案,則給予其更高的獎勵分數(shù),以鼓勵其進行更充分的思考。這樣,通過提高樣本答案獎勵得分的區(qū)分度,使模型具備根據(jù)問題難度輸出相應(yīng)長度答案的能力,在保證推理準確率的前提下顯著減少了答案冗余和資源消耗,從而實現(xiàn)對不同難度問題的自適應(yīng)慢思考。



自適應(yīng)慢思考的DeepSeek-R1蒸餾版模型訓(xùn)練流程圖

推理計算量節(jié)省約30%!實測效果對比一覽

中國聯(lián)通以DeepSeek-R1-distill-32B模型為例,對上述方法的效果進行了驗證。通過在數(shù)學(xué)任務(wù)測評集(MATH500)上對比以及具體實驗可以看到,經(jīng)過難度自適應(yīng)改造后的模型在不同難度等級問題上生成的回答長度較原版均明顯下降,并且對于最高難度(Level 5)輸出的回答長度降幅最大,體現(xiàn)了模型對不同難度等級問題具備自適應(yīng)慢思考能力。經(jīng)過測評,這種創(chuàng)新的自適應(yīng)慢思考方法,平均可節(jié)省約30%的推理計算量,冗余輸出大幅減少,用戶體驗得到有效提升。



回答長度對比:原版DeepSeek-R1-distill-32B(淺藍)vs自適應(yīng)版(深藍)



除了通過對DeepSeek-R1模型進行自適應(yīng)慢思考優(yōu)化升級外,中國聯(lián)通還在緊鑼密鼓推進對DeepSeek-R1系列模型的能力邊界量化和安全價值觀增強等相關(guān)工作的探索。未來,中國聯(lián)通將持續(xù)與以DeepSeek為代表的先進開源模型深度融合,不斷升級元景基礎(chǔ)模型能力和MaaS平臺功能,貫徹開源普惠理念,推進算力普惠、模型普惠、應(yīng)用普惠,以先進數(shù)智水平賦能社會千行百業(yè)。

目前,自適應(yīng)慢思考版的DeepSeek-R1-distill-32B已在GitHub、魔搭、始智等社區(qū)全面開源,地址如下:

GitHub:https://github.com/UnicomAI/Unichat-DeepSeek-R1-distill-32B

魔搭:https://www.modelscope.cn/UnicomAI/Unichat-DeepSeek-R1-distill-32B

始智:https://wisemodel.cn/models/UnicomLLM/Unichat-DeepSeek-R1-distill-32B

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
“宇宙第一黑社會”:“窩囊黑老大”的荒誕之罪

“宇宙第一黑社會”:“窩囊黑老大”的荒誕之罪

有戲
2025-07-01 12:18:30
“雷佳音現(xiàn)象”遭抵制!官媒發(fā)聲,言辭犀利沒有維護,張譯被牽連

“雷佳音現(xiàn)象”遭抵制!官媒發(fā)聲,言辭犀利沒有維護,張譯被牽連

鄉(xiāng)野小珥
2025-07-11 08:43:09
高考575分被逐出家門,985>我愛你|大象夜讀

高考575分被逐出家門,985>我愛你|大象夜讀

大象新聞
2025-07-09 20:15:50
就天水血鉛這事,網(wǎng)友們又發(fā)現(xiàn)了第四組內(nèi)幕

就天水血鉛這事,網(wǎng)友們又發(fā)現(xiàn)了第四組內(nèi)幕

清暉有墨
2025-07-10 15:44:18
李某青(女),已被大連警方在高速服務(wù)區(qū)抓獲!車上發(fā)現(xiàn)大量現(xiàn)金

李某青(女),已被大連警方在高速服務(wù)區(qū)抓獲!車上發(fā)現(xiàn)大量現(xiàn)金

環(huán)球網(wǎng)資訊
2025-07-11 10:55:03
養(yǎng)老金調(diào)整通知正式公布,漲2%!企退養(yǎng)老金3257元,能漲160元嗎

養(yǎng)老金調(diào)整通知正式公布,漲2%!企退養(yǎng)老金3257元,能漲160元嗎

興史興談
2025-07-10 17:39:22
“女子訴廊坊銀行下屬支行借1.12億不還”續(xù):一審重審駁回原告起訴

“女子訴廊坊銀行下屬支行借1.12億不還”續(xù):一審重審駁回原告起訴

澎湃新聞
2025-07-10 18:34:33
43歲王寶強也沒想到,15歲兒子和14歲女兒,已經(jīng)開始為他爭光了

43歲王寶強也沒想到,15歲兒子和14歲女兒,已經(jīng)開始為他爭光了

橘子大娛社
2025-06-23 20:25:03
曝中國一33歲網(wǎng)絡(luò)專家去意大利度蜜月被逮捕?美指控徐是黑客成員

曝中國一33歲網(wǎng)絡(luò)專家去意大利度蜜月被逮捕?美指控徐是黑客成員

小人物看盡人間百態(tài)
2025-07-10 19:16:35
“面臨罷免”10藍委輪番表態(tài)!國民黨拍板:刪臺電千億元撥補

“面臨罷免”10藍委輪番表態(tài)!國民黨拍板:刪臺電千億元撥補

新時光點滴
2025-07-11 12:46:48
“若實現(xiàn)將系就職以來首次”,魯比奧放風(fēng):正籌備與中方會晤

“若實現(xiàn)將系就職以來首次”,魯比奧放風(fēng):正籌備與中方會晤

環(huán)球網(wǎng)資訊
2025-07-11 08:59:39
1958年,張治中對主席說:有個人借我3000元未還,他官很大

1958年,張治中對主席說:有個人借我3000元未還,他官很大

諾言卿史錄
2025-07-07 13:48:24
蔚來,會不會打響新能源爆雷第一槍?

蔚來,會不會打響新能源爆雷第一槍?

黑噪音
2025-07-10 10:28:11
華人全家入籍后回國, 發(fā)現(xiàn)戶口被注銷! 怒告派出所, 法院判了!

華人全家入籍后回國, 發(fā)現(xiàn)戶口被注銷! 怒告派出所, 法院判了!

澳洲紅領(lǐng)巾
2025-01-08 14:19:33
隱藏在我國軍政界的四大間諜,個個位高權(quán)重,背后黑手細思極恐

隱藏在我國軍政界的四大間諜,個個位高權(quán)重,背后黑手細思極恐

鐵錘簡科
2025-07-01 23:06:06
正式接手,王曼昱教練曝光,不是馬琳,51歲名帥,首次聯(lián)手被爆冷

正式接手,王曼昱教練曝光,不是馬琳,51歲名帥,首次聯(lián)手被爆冷

東球弟
2025-07-11 11:26:01
1941年李訥貼身保姆被奸殺,保衛(wèi)部:排隊去洗澡,巧妙找出真兇

1941年李訥貼身保姆被奸殺,保衛(wèi)部:排隊去洗澡,巧妙找出真兇

紀實文錄
2025-07-03 18:00:55
稀土禁令形同虛設(shè)?外媒爆中資公司將稀土通過第三國大量轉(zhuǎn)運美國

稀土禁令形同虛設(shè)?外媒爆中資公司將稀土通過第三國大量轉(zhuǎn)運美國

花小貓的美食日常
2025-07-09 15:51:57
成本1億,三天票房僅137萬,“喜劇之王”的50億票房夢要碎了

成本1億,三天票房僅137萬,“喜劇之王”的50億票房夢要碎了

影視高原說
2025-07-10 18:34:20
李鴻忠在黑龍江開展執(zhí)法檢查

李鴻忠在黑龍江開展執(zhí)法檢查

新京報政事兒
2025-07-11 07:10:54
2025-07-11 13:40:49
暴走通信
暴走通信
看盡通信江湖
1189文章數(shù) 362關(guān)注度
往期回顧 全部

科技要聞

李斌豁出去了!5米大車預(yù)售不到20萬

頭條要聞

白家犯罪細節(jié)披露:強迫20名女子賣淫 不接客關(guān)小黑屋

頭條要聞

白家犯罪細節(jié)披露:強迫20名女子賣淫 不接客關(guān)小黑屋

體育要聞

白衣生涯最后一舞,但魔笛的故事還沒結(jié)束

娛樂要聞

楊少華靈堂細節(jié) 楊家兒子榨干老父親?

財經(jīng)要聞

"它經(jīng)濟"崛起 國產(chǎn)品牌快速追趕國際巨頭

汽車要聞

最便宜滿血版華為智駕和鴻蒙座艙 嵐圖FREE+閉眼沖

態(tài)度原創(chuàng)

藝術(shù)
時尚
手機
公開課
軍事航空

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

裙子專場|| 如果夏天只買一條裙,我毫不猶豫會選它(已下單)

手機要聞

折疊屏還在糾結(jié)性價比?華為Mate X5直降4000,全能體驗一步到位

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄羅斯對烏克蘭發(fā)動最大規(guī)模無人機襲擊

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 宽甸| 松桃| 小金县| 江孜县| 泾阳县| 宜州市| 昌乐县| 龙岩市| 綦江县| 普兰店市| 天津市| 体育| 阿鲁科尔沁旗| 黔西| 威信县| 化德县| 阿拉善右旗| 当涂县| 淮南市| 乌拉特前旗| 南城县| 宁化县| 湖北省| 金门县| 沁源县| 阜宁县| 西华县| 嫩江县| 依兰县| 沁源县| 台山市| 祁门县| 门源| 安宁市| 永新县| 昌黎县| 清水县| 烟台市| 兰州市| 余姚市| 富顺县|