99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

中國聯(lián)通對(duì)DeepSeek系列思維鏈模型進(jìn)行“自適應(yīng)慢思考”優(yōu)化升級(jí)

0
分享至


日前,DeepSeek團(tuán)隊(duì)宣布將在“2月27日至3月3日”陸續(xù)開源5個(gè)代碼庫,這與中國聯(lián)通一直秉持的開源普惠理念不謀而合。繼中國聯(lián)通于1月開源元景“自適應(yīng)慢思考”思維鏈大模型后,又針對(duì)DeepSeek系列模型進(jìn)行了“自適應(yīng)慢思考”優(yōu)化升級(jí),現(xiàn)已開源,開源地址詳見文末。這也是目前業(yè)界首個(gè)對(duì)DeepSeek系列思維鏈模型做“自適應(yīng)慢思考”優(yōu)化升級(jí)的工作。



DeepSeek官宣開源周

“以我為主,為我所用”的開放創(chuàng)新

元景思維鏈大模型具備多學(xué)科、多場景通用推理能力,且能在確保慢思考能力不打折的情況下,做到針對(duì)不同任務(wù)和難度的自適應(yīng)慢思考,大幅降低了資源消耗,實(shí)現(xiàn)了大模型“慢思考”能力高性價(jià)比落地應(yīng)用。

元景思維鏈大模型接入DeepSeek-R1并非簡單的“拿來主義”,而是“從其善,優(yōu)其不善”,對(duì)DeepSeek-R1版本進(jìn)行了調(diào)整,最大程度規(guī)避了其面對(duì)簡單問題“過度思考”的現(xiàn)象,使模型具備了“自適應(yīng)”能力。即在面向難度較高問題時(shí)使用慢思考模式生成長思維鏈,面向簡單問題時(shí)則傾向于生成簡潔的思維鏈,迅速準(zhǔn)確的輸出相關(guān)答案。這樣避免了答案的冗余、資源的浪費(fèi)以及減少用戶等待時(shí)間,提升用戶體驗(yàn)。

調(diào)整步驟完整分享

難度自適應(yīng)微調(diào):為實(shí)現(xiàn)模型推理的難度自適應(yīng),中國聯(lián)通利用DeepSeek-R1滿血版模型采樣生成數(shù)據(jù),通過復(fù)雜度量化模塊構(gòu)造長度偏好數(shù)據(jù)集,對(duì)于簡單問題從采樣答案中挑選長度較短的答案,對(duì)困難問題挑選長度較長的答案,使得答案長度與當(dāng)前問題復(fù)雜度相匹配。在此基礎(chǔ)上對(duì)DeepSeek-R1進(jìn)行微調(diào),使得微調(diào)后的模型具備對(duì)不同難度題目的自適應(yīng)慢思考能力。具體改造流程如下圖所示。



自適應(yīng)慢思考的DeepSeek-R1滿血版模型訓(xùn)練流程圖

二次蒸餾:針對(duì)DeepSeek-R1的系列蒸餾模型,由于其使用的蒸餾數(shù)據(jù)來自訓(xùn)練滿血版R1時(shí)使用的訓(xùn)練數(shù)據(jù),而非由性能更好的R1滿血版自身生成的數(shù)據(jù),這會(huì)導(dǎo)致得到的蒸餾模型未能充分學(xué)習(xí)R1滿血版的能力,蒸餾效果大打折扣。為解決這個(gè)問題,中國聯(lián)通使用了二次蒸餾的策略,即利用DeepSeek-R1滿血版將已積累的高質(zhì)量數(shù)據(jù)轉(zhuǎn)化為包括深度思考過程的長思維鏈格式數(shù)據(jù),在DeepSeek-R1蒸餾系列模型基礎(chǔ)上再進(jìn)行一次微調(diào),使模型具備更強(qiáng)的推理能力。

難度自適應(yīng)強(qiáng)化學(xué)習(xí):在對(duì)模型進(jìn)行二次蒸餾后,中國聯(lián)通進(jìn)一步借鑒DeepSeek-R1的構(gòu)建思路,在GRPO算法基礎(chǔ)上提出了一種難度自適應(yīng)強(qiáng)化學(xué)習(xí)算法DA-GRPO(Difficulty Adaptive GRPO),對(duì)二次蒸餾模型進(jìn)行難度自適應(yīng)的強(qiáng)化學(xué)習(xí)訓(xùn)練,進(jìn)一步提升其推理效果。除了使用傳統(tǒng)的基于規(guī)則的正確性獎(jiǎng)勵(lì)、格式獎(jiǎng)勵(lì)、語言一致性獎(jiǎng)勵(lì)外,DA-GRPO還基于每個(gè)問題的復(fù)雜程度和生成答案的長度對(duì)獎(jiǎng)勵(lì)得分進(jìn)行校準(zhǔn)。具體而言,如果模型對(duì)一個(gè)簡單問題輸出較長的答案,則對(duì)獎(jiǎng)勵(lì)分?jǐn)?shù)進(jìn)行相應(yīng)的懲罰。同時(shí),若模型對(duì)困難的問題輸出較長的答案,則給予其更高的獎(jiǎng)勵(lì)分?jǐn)?shù),以鼓勵(lì)其進(jìn)行更充分的思考。這樣,通過提高樣本答案獎(jiǎng)勵(lì)得分的區(qū)分度,使模型具備根據(jù)問題難度輸出相應(yīng)長度答案的能力,在保證推理準(zhǔn)確率的前提下顯著減少了答案冗余和資源消耗,從而實(shí)現(xiàn)對(duì)不同難度問題的自適應(yīng)慢思考。



自適應(yīng)慢思考的DeepSeek-R1蒸餾版模型訓(xùn)練流程圖

推理計(jì)算量節(jié)省約30%!實(shí)測效果對(duì)比一覽

中國聯(lián)通以DeepSeek-R1-distill-32B模型為例,對(duì)上述方法的效果進(jìn)行了驗(yàn)證。通過在數(shù)學(xué)任務(wù)測評(píng)集(MATH500)上對(duì)比以及具體實(shí)驗(yàn)可以看到,經(jīng)過難度自適應(yīng)改造后的模型在不同難度等級(jí)問題上生成的回答長度較原版均明顯下降,并且對(duì)于最高難度(Level 5)輸出的回答長度降幅最大,體現(xiàn)了模型對(duì)不同難度等級(jí)問題具備自適應(yīng)慢思考能力。經(jīng)過測評(píng),這種創(chuàng)新的自適應(yīng)慢思考方法,平均可節(jié)省約30%的推理計(jì)算量,冗余輸出大幅減少,用戶體驗(yàn)得到有效提升。



回答長度對(duì)比:原版DeepSeek-R1-distill-32B(淺藍(lán))vs自適應(yīng)版(深藍(lán))



除了通過對(duì)DeepSeek-R1模型進(jìn)行自適應(yīng)慢思考優(yōu)化升級(jí)外,中國聯(lián)通還在緊鑼密鼓推進(jìn)對(duì)DeepSeek-R1系列模型的能力邊界量化和安全價(jià)值觀增強(qiáng)等相關(guān)工作的探索。未來,中國聯(lián)通將持續(xù)與以DeepSeek為代表的先進(jìn)開源模型深度融合,不斷升級(jí)元景基礎(chǔ)模型能力和MaaS平臺(tái)功能,貫徹開源普惠理念,推進(jìn)算力普惠、模型普惠、應(yīng)用普惠,以先進(jìn)數(shù)智水平賦能社會(huì)千行百業(yè)。

目前,自適應(yīng)慢思考版的DeepSeek-R1-distill-32B已在GitHub、魔搭、始智等社區(qū)全面開源,地址如下:

GitHub:https://github.com/UnicomAI/Unichat-DeepSeek-R1-distill-32B

魔搭:https://www.modelscope.cn/UnicomAI/Unichat-DeepSeek-R1-distill-32B

始智:https://wisemodel.cn/models/UnicomLLM/Unichat-DeepSeek-R1-distill-32B

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
實(shí)地考察“昆侖石刻”后,有學(xué)者認(rèn)為偽造可能性極低也有人提出新問題

實(shí)地考察“昆侖石刻”后,有學(xué)者認(rèn)為偽造可能性極低也有人提出新問題

澎湃新聞
2025-07-09 13:40:30
劉建宏:蘇超就是米盧所說的快樂足球;希望蘇州隊(duì)能一直不敗

劉建宏:蘇超就是米盧所說的快樂足球;希望蘇州隊(duì)能一直不敗

懂球帝
2025-07-09 16:48:21
出乎預(yù)料!馬斯克新黨殺瘋了,支持率公布:美國歷史或迎來轉(zhuǎn)折點(diǎn)

出乎預(yù)料!馬斯克新黨殺瘋了,支持率公布:美國歷史或迎來轉(zhuǎn)折點(diǎn)

史紀(jì)文譚
2025-07-08 21:35:35
真相來了!深圳一家顏料公司發(fā)聲明稱生產(chǎn)的顏料不含鉛

真相來了!深圳一家顏料公司發(fā)聲明稱生產(chǎn)的顏料不含鉛

小人物看盡人間百態(tài)
2025-07-10 08:49:35
Shams:切特-霍姆格倫將以五年2.5億美元續(xù)約雷霆

Shams:切特-霍姆格倫將以五年2.5億美元續(xù)約雷霆

懂球帝
2025-07-09 22:19:18
今年漲價(jià)最猛的水果,快吃不起了

今年漲價(jià)最猛的水果,快吃不起了

新周刊
2025-07-09 19:08:49
上任就與中國斷交,“亡國”之際又向中國求援,我國是如何回應(yīng)的

上任就與中國斷交,“亡國”之際又向中國求援,我國是如何回應(yīng)的

顧史
2025-04-14 22:57:41
這才是100年前的清朝!德國人一路又拍又畫,看看古代人真實(shí)生活

這才是100年前的清朝!德國人一路又拍又畫,看看古代人真實(shí)生活

筆下生園
2024-01-05 17:49:07
博士畢業(yè)于北京大學(xué),師從院士,中國農(nóng)業(yè)大學(xué)教授以通訊作者身份在一區(qū)Top期刊(IF=14)上發(fā)表研究論文

博士畢業(yè)于北京大學(xué),師從院士,中國農(nóng)業(yè)大學(xué)教授以通訊作者身份在一區(qū)Top期刊(IF=14)上發(fā)表研究論文

植物研究進(jìn)展
2025-07-09 23:59:37
坐著輪椅去掙錢,楊少華走了,兒子的臉沒處擱,錯(cuò)誤做法不打自招

坐著輪椅去掙錢,楊少華走了,兒子的臉沒處擱,錯(cuò)誤做法不打自招

阿訊說天下
2025-07-10 00:59:23
明末大鼠疫中怪事頻發(fā),奪走上千萬人性命!天池山中藏著墨家秘密

明末大鼠疫中怪事頻發(fā),奪走上千萬人性命!天池山中藏著墨家秘密

西蜀煙霞客
2025-06-30 19:46:57
U16國少惜敗韓國,徐亮賽后點(diǎn)評(píng),國少即戰(zhàn)力高,但上限不高!

U16國少惜敗韓國,徐亮賽后點(diǎn)評(píng),國少即戰(zhàn)力高,但上限不高!

田先生籃球
2025-07-09 14:30:00
2025NBA杯小組賽分組:湖人獨(dú)行俠同組,火勇對(duì)決再度上演

2025NBA杯小組賽分組:湖人獨(dú)行俠同組,火勇對(duì)決再度上演

懂球帝
2025-07-10 07:31:20
川西7人墜河最新進(jìn)展!疑找到第3個(gè)女孩,現(xiàn)場細(xì)節(jié)流出,官方回應(yīng)

川西7人墜河最新進(jìn)展!疑找到第3個(gè)女孩,現(xiàn)場細(xì)節(jié)流出,官方回應(yīng)

奇思妙想草葉君
2025-07-10 03:10:48
美軍眼中真實(shí)的中國軍隊(duì)電子戰(zhàn)水平,不要吹過頭了

美軍眼中真實(shí)的中國軍隊(duì)電子戰(zhàn)水平,不要吹過頭了

Ck的蜜糖
2025-07-08 01:15:42
皮爾斯:KD明年場均23-25分 我現(xiàn)在就下注火箭將進(jìn)西部決賽

皮爾斯:KD明年場均23-25分 我現(xiàn)在就下注火箭將進(jìn)西部決賽

直播吧
2025-07-09 22:19:08
上海排隊(duì)最長的小餛飩店搬家!招牌漲價(jià)?開賣新品大餛飩和燜肉!老板講……

上海排隊(duì)最長的小餛飩店搬家!招牌漲價(jià)?開賣新品大餛飩和燜肉!老板講……

上觀新聞
2025-07-09 15:02:43
3-2逆轉(zhuǎn)!國乒新星逆境突圍,決戰(zhàn)孫穎莎,新老對(duì)話一觸即發(fā)

3-2逆轉(zhuǎn)!國乒新星逆境突圍,決戰(zhàn)孫穎莎,新老對(duì)話一觸即發(fā)

體育見習(xí)官
2025-07-10 07:37:34
定了!上海這里,最新拆遷補(bǔ)償曝光!

定了!上海這里,最新拆遷補(bǔ)償曝光!

說故事的阿襲
2025-07-10 03:40:09
中國女足半場壓哨丟球!吳海燕不慎烏龍,媒體人:技術(shù)含量低下

中國女足半場壓哨丟球!吳海燕不慎烏龍,媒體人:技術(shù)含量低下

奧拜爾
2025-07-09 20:00:00
2025-07-10 09:39:00
暴走通信
暴走通信
看盡通信江湖
1189文章數(shù) 362關(guān)注度
往期回顧 全部

科技要聞

三星推三款折疊屏機(jī) Fold 7起售價(jià)1999美元

頭條要聞

女演員在餐廳當(dāng)服務(wù)員:若找全職 月薪4000元問題不大

頭條要聞

女演員在餐廳當(dāng)服務(wù)員:若找全職 月薪4000元問題不大

體育要聞

開了16年F1,他終于第一次站上領(lǐng)獎(jiǎng)臺(tái)

娛樂要聞

周杰倫開抖音號(hào)瘋漲三百萬粉絲

財(cái)經(jīng)要聞

潮玩規(guī)模破千億的幕后故事

汽車要聞

比亞迪為智能泊車安全兜底 天神之眼全面OTA升級(jí)

態(tài)度原創(chuàng)

旅游
家居
藝術(shù)
時(shí)尚
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

家居要聞

以光為境 國寶花園別墅

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

你換什么發(fā)型都不好看的原因,可能不是臉!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 扶沟县| 松桃| 巩义市| 武汉市| 辽阳县| 平乡县| 宜丰县| 河曲县| 台安县| 泰顺县| 浙江省| 界首市| 宁都县| 固镇县| 刚察县| 龙里县| 新昌县| 永泰县| 休宁县| 南开区| 镇坪县| 邻水| 虞城县| 余江县| 英超| 改则县| 郁南县| 泰和县| 高邑县| 耒阳市| 慈溪市| 隆昌县| 漯河市| 清水河县| 威宁| 巴南区| 池州市| 定日县| 花垣县| 大连市| 商丘市|