99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

中國聯(lián)通對DeepSeek系列思維鏈模型進(jìn)行“自適應(yīng)慢思考”優(yōu)化升級

0
分享至


日前,DeepSeek團(tuán)隊宣布將在“2月27日至3月3日”陸續(xù)開源5個代碼庫,這與中國聯(lián)通一直秉持的開源普惠理念不謀而合。繼中國聯(lián)通于1月開源元景“自適應(yīng)慢思考”思維鏈大模型后,又針對DeepSeek系列模型進(jìn)行了“自適應(yīng)慢思考”優(yōu)化升級,現(xiàn)已開源,開源地址詳見文末。這也是目前業(yè)界首個對DeepSeek系列思維鏈模型做“自適應(yīng)慢思考”優(yōu)化升級的工作。



DeepSeek官宣開源周

“以我為主,為我所用”的開放創(chuàng)新

元景思維鏈大模型具備多學(xué)科、多場景通用推理能力,且能在確保慢思考能力不打折的情況下,做到針對不同任務(wù)和難度的自適應(yīng)慢思考,大幅降低了資源消耗,實現(xiàn)了大模型“慢思考”能力高性價比落地應(yīng)用。

元景思維鏈大模型接入DeepSeek-R1并非簡單的“拿來主義”,而是“從其善,優(yōu)其不善”,對DeepSeek-R1版本進(jìn)行了調(diào)整,最大程度規(guī)避了其面對簡單問題“過度思考”的現(xiàn)象,使模型具備了“自適應(yīng)”能力。即在面向難度較高問題時使用慢思考模式生成長思維鏈,面向簡單問題時則傾向于生成簡潔的思維鏈,迅速準(zhǔn)確的輸出相關(guān)答案。這樣避免了答案的冗余、資源的浪費以及減少用戶等待時間,提升用戶體驗。

調(diào)整步驟完整分享

難度自適應(yīng)微調(diào):為實現(xiàn)模型推理的難度自適應(yīng),中國聯(lián)通利用DeepSeek-R1滿血版模型采樣生成數(shù)據(jù),通過復(fù)雜度量化模塊構(gòu)造長度偏好數(shù)據(jù)集,對于簡單問題從采樣答案中挑選長度較短的答案,對困難問題挑選長度較長的答案,使得答案長度與當(dāng)前問題復(fù)雜度相匹配。在此基礎(chǔ)上對DeepSeek-R1進(jìn)行微調(diào),使得微調(diào)后的模型具備對不同難度題目的自適應(yīng)慢思考能力。具體改造流程如下圖所示。



自適應(yīng)慢思考的DeepSeek-R1滿血版模型訓(xùn)練流程圖

二次蒸餾:針對DeepSeek-R1的系列蒸餾模型,由于其使用的蒸餾數(shù)據(jù)來自訓(xùn)練滿血版R1時使用的訓(xùn)練數(shù)據(jù),而非由性能更好的R1滿血版自身生成的數(shù)據(jù),這會導(dǎo)致得到的蒸餾模型未能充分學(xué)習(xí)R1滿血版的能力,蒸餾效果大打折扣。為解決這個問題,中國聯(lián)通使用了二次蒸餾的策略,即利用DeepSeek-R1滿血版將已積累的高質(zhì)量數(shù)據(jù)轉(zhuǎn)化為包括深度思考過程的長思維鏈格式數(shù)據(jù),在DeepSeek-R1蒸餾系列模型基礎(chǔ)上再進(jìn)行一次微調(diào),使模型具備更強(qiáng)的推理能力。

難度自適應(yīng)強(qiáng)化學(xué)習(xí):在對模型進(jìn)行二次蒸餾后,中國聯(lián)通進(jìn)一步借鑒DeepSeek-R1的構(gòu)建思路,在GRPO算法基礎(chǔ)上提出了一種難度自適應(yīng)強(qiáng)化學(xué)習(xí)算法DA-GRPO(Difficulty Adaptive GRPO),對二次蒸餾模型進(jìn)行難度自適應(yīng)的強(qiáng)化學(xué)習(xí)訓(xùn)練,進(jìn)一步提升其推理效果。除了使用傳統(tǒng)的基于規(guī)則的正確性獎勵、格式獎勵、語言一致性獎勵外,DA-GRPO還基于每個問題的復(fù)雜程度和生成答案的長度對獎勵得分進(jìn)行校準(zhǔn)。具體而言,如果模型對一個簡單問題輸出較長的答案,則對獎勵分?jǐn)?shù)進(jìn)行相應(yīng)的懲罰。同時,若模型對困難的問題輸出較長的答案,則給予其更高的獎勵分?jǐn)?shù),以鼓勵其進(jìn)行更充分的思考。這樣,通過提高樣本答案獎勵得分的區(qū)分度,使模型具備根據(jù)問題難度輸出相應(yīng)長度答案的能力,在保證推理準(zhǔn)確率的前提下顯著減少了答案冗余和資源消耗,從而實現(xiàn)對不同難度問題的自適應(yīng)慢思考。



自適應(yīng)慢思考的DeepSeek-R1蒸餾版模型訓(xùn)練流程圖

推理計算量節(jié)省約30%!實測效果對比一覽

中國聯(lián)通以DeepSeek-R1-distill-32B模型為例,對上述方法的效果進(jìn)行了驗證。通過在數(shù)學(xué)任務(wù)測評集(MATH500)上對比以及具體實驗可以看到,經(jīng)過難度自適應(yīng)改造后的模型在不同難度等級問題上生成的回答長度較原版均明顯下降,并且對于最高難度(Level 5)輸出的回答長度降幅最大,體現(xiàn)了模型對不同難度等級問題具備自適應(yīng)慢思考能力。經(jīng)過測評,這種創(chuàng)新的自適應(yīng)慢思考方法,平均可節(jié)省約30%的推理計算量,冗余輸出大幅減少,用戶體驗得到有效提升。



回答長度對比:原版DeepSeek-R1-distill-32B(淺藍(lán))vs自適應(yīng)版(深藍(lán))



除了通過對DeepSeek-R1模型進(jìn)行自適應(yīng)慢思考優(yōu)化升級外,中國聯(lián)通還在緊鑼密鼓推進(jìn)對DeepSeek-R1系列模型的能力邊界量化和安全價值觀增強(qiáng)等相關(guān)工作的探索。未來,中國聯(lián)通將持續(xù)與以DeepSeek為代表的先進(jìn)開源模型深度融合,不斷升級元景基礎(chǔ)模型能力和MaaS平臺功能,貫徹開源普惠理念,推進(jìn)算力普惠、模型普惠、應(yīng)用普惠,以先進(jìn)數(shù)智水平賦能社會千行百業(yè)。

目前,自適應(yīng)慢思考版的DeepSeek-R1-distill-32B已在GitHub、魔搭、始智等社區(qū)全面開源,地址如下:

GitHub:https://github.com/UnicomAI/Unichat-DeepSeek-R1-distill-32B

魔搭:https://www.modelscope.cn/UnicomAI/Unichat-DeepSeek-R1-distill-32B

始智:https://wisemodel.cn/models/UnicomLLM/Unichat-DeepSeek-R1-distill-32B

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
廣州一二手市場,正在拋棄“貝殼”

廣州一二手市場,正在拋棄“貝殼”

易簡財經(jīng)
2025-05-23 15:17:58
這一次,趙麗穎的態(tài)度,終究沒給一聲不吭的趙德胤留一絲體面!

這一次,趙麗穎的態(tài)度,終究沒給一聲不吭的趙德胤留一絲體面!

頭號劇委會
2025-05-23 17:11:23
重慶市南川區(qū)政府原一級巡視員羅弟杰接受審查調(diào)查

重慶市南川區(qū)政府原一級巡視員羅弟杰接受審查調(diào)查

界面新聞
2025-05-23 20:02:06
馬卡:科恩特朗退役后投身漁業(yè),其已擁有4艘漁船并雇傭45人

馬卡:科恩特朗退役后投身漁業(yè),其已擁有4艘漁船并雇傭45人

懂球帝
2025-05-23 20:28:07
豬身上有個好東西,建議每周吃一次!一養(yǎng)心、二助眠、三強(qiáng)免疫!

豬身上有個好東西,建議每周吃一次!一養(yǎng)心、二助眠、三強(qiáng)免疫!

阿龍美食記
2025-05-20 14:55:28
末節(jié)被17分逆轉(zhuǎn)爆發(fā)內(nèi)訌!大當(dāng)家不滿二當(dāng)家,砍35+12背鍋太憋屈

末節(jié)被17分逆轉(zhuǎn)爆發(fā)內(nèi)訌!大當(dāng)家不滿二當(dāng)家,砍35+12背鍋太憋屈

你的籃球頻道
2025-05-23 09:22:24
奔馳司機(jī)掄桿砸車后續(xù):身份被扒,警方面前放狠話,當(dāng)事車主回應(yīng)

奔馳司機(jī)掄桿砸車后續(xù):身份被扒,警方面前放狠話,當(dāng)事車主回應(yīng)

老鵜愛說事
2025-05-23 12:16:14
如何證明一個公司已經(jīng)爛透了

如何證明一個公司已經(jīng)爛透了

末名先生
2025-05-22 18:07:20
從淘寶店到上市公司,80后莆田老板從一根數(shù)據(jù)線起家,年營收60億

從淘寶店到上市公司,80后莆田老板從一根數(shù)據(jù)線起家,年營收60億

天下網(wǎng)商
2025-05-19 13:56:08
英媒:熱刺奪冠獲1095萬英鎊獎金,澳波、球員也將獲巨額獎勵

英媒:熱刺奪冠獲1095萬英鎊獎金,澳波、球員也將獲巨額獎勵

懂球帝
2025-05-23 17:18:59
44歲親生母親奪走了18歲兒子第一次,之后保持26年亂倫關(guān)系

44歲親生母親奪走了18歲兒子第一次,之后保持26年亂倫關(guān)系

情感藝術(shù)家
2025-05-18 11:44:05
單打負(fù)于隊友梁靖崑!首次全項參加世乒賽,林詩棟三大皆空,世界第一有待磨煉

單打負(fù)于隊友梁靖崑!首次全項參加世乒賽,林詩棟三大皆空,世界第一有待磨煉

上觀新聞
2025-05-23 19:41:15
頂不住了!A股殺瘋了!

頂不住了!A股殺瘋了!

龍行天下虎
2025-05-23 21:50:15
這四種高鉀食物,多吃腿腳有勁,還能防止中風(fēng),家里有老人快收藏

這四種高鉀食物,多吃腿腳有勁,還能防止中風(fēng),家里有老人快收藏

阿龍美食記
2025-05-23 14:32:41
25名前巴西國腳聯(lián)名致信因凡蒂諾,狀告巴西足協(xié)

25名前巴西國腳聯(lián)名致信因凡蒂諾,狀告巴西足協(xié)

雷速體育
2025-05-23 13:04:19
汪小菲夫婦婚后出席活動,馬筱梅一身白裙好仙氣,稱呼也變了!

汪小菲夫婦婚后出席活動,馬筱梅一身白裙好仙氣,稱呼也變了!

古希臘掌管月桂的神
2025-05-23 13:41:36
李世民與武則天洞房當(dāng)夜,創(chuàng)下史上最高紀(jì)錄,至今也無人能打破!

李世民與武則天洞房當(dāng)夜,創(chuàng)下史上最高紀(jì)錄,至今也無人能打破!

貓眼觀史
2024-12-20 09:56:19
一日2戰(zhàn)2勝!孫穎莎晉級世乒賽女單四強(qiáng)

一日2戰(zhàn)2勝!孫穎莎晉級世乒賽女單四強(qiáng)

新快報新聞
2025-05-23 22:01:14
朝鮮驅(qū)逐艦下水翻船!西方衛(wèi)星搶拍慘狀,神仙難救!禍因是趕工?

朝鮮驅(qū)逐艦下水翻船!西方衛(wèi)星搶拍慘狀,神仙難救!禍因是趕工?

丹哥熱評
2025-05-23 22:59:25
也談人民幣國際化:外匯管制下的悖論

也談人民幣國際化:外匯管制下的悖論

戈多的嘆息
2025-05-22 15:26:14
2025-05-23 23:27:00
暴走通信
暴走通信
看盡通信江湖
1183文章數(shù) 362關(guān)注度
往期回顧 全部

科技要聞

特朗普:iPhone不在美國制造就收25%關(guān)稅

頭條要聞

反華機(jī)構(gòu)承認(rèn)了:好感度全球比拼 中國碾壓美國

頭條要聞

反華機(jī)構(gòu)承認(rèn)了:好感度全球比拼 中國碾壓美國

體育要聞

臺下掌聲一片!65歲安帥揮手告別:感謝皇馬

娛樂要聞

趙麗穎否認(rèn)戀情,與趙德胤沒在一起?

財經(jīng)要聞

特朗普威脅自6月1日起對歐盟征收50%關(guān)稅

汽車要聞

續(xù)航720km/充電10分鐘補(bǔ)能500公里 理想i8信息曝光

態(tài)度原創(chuàng)

家居
親子
旅游
時尚
本地

家居要聞

輕奢品質(zhì) 開闊的三口之家

親子要聞

老婆產(chǎn)后經(jīng)常漏尿怎么辦

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

小香風(fēng)太火了,從20歲穿到70歲都很時髦

本地新聞

巴黎沒有倍兒甜,但天津巧克力腦袋倍兒多

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 沐川县| 乐东| 育儿| 武威市| 太仓市| 铁岭市| 衡东县| 会宁县| 永丰县| 高密市| 伊吾县| 萝北县| 清苑县| 深州市| 库伦旗| 两当县| 西乌| 毕节市| 时尚| 洪江市| 离岛区| 喀喇沁旗| 新兴县| 定兴县| 闽清县| 英吉沙县| 宝山区| 抚顺市| 汝阳县| 紫金县| 石台县| 德清县| 揭西县| 大同县| 白玉县| 东丰县| 富民县| 涟水县| 鹤庆县| 新建县| 建水县|