99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

中國聯通對DeepSeek系列思維鏈模型進行“自適應慢思考”優化升級

0
分享至


日前,DeepSeek團隊宣布將在“2月27日至3月3日”陸續開源5個代碼庫,這與中國聯通一直秉持的開源普惠理念不謀而合。繼中國聯通于1月開源元景“自適應慢思考”思維鏈大模型后,又針對DeepSeek系列模型進行了“自適應慢思考”優化升級,現已開源,開源地址詳見文末。這也是目前業界首個對DeepSeek系列思維鏈模型做“自適應慢思考”優化升級的工作。



DeepSeek官宣開源周

“以我為主,為我所用”的開放創新

元景思維鏈大模型具備多學科、多場景通用推理能力,且能在確保慢思考能力不打折的情況下,做到針對不同任務和難度的自適應慢思考,大幅降低了資源消耗,實現了大模型“慢思考”能力高性價比落地應用。

元景思維鏈大模型接入DeepSeek-R1并非簡單的“拿來主義”,而是“從其善,優其不善”,對DeepSeek-R1版本進行了調整,最大程度規避了其面對簡單問題“過度思考”的現象,使模型具備了“自適應”能力。即在面向難度較高問題時使用慢思考模式生成長思維鏈,面向簡單問題時則傾向于生成簡潔的思維鏈,迅速準確的輸出相關答案。這樣避免了答案的冗余、資源的浪費以及減少用戶等待時間,提升用戶體驗。

調整步驟完整分享

難度自適應微調:為實現模型推理的難度自適應,中國聯通利用DeepSeek-R1滿血版模型采樣生成數據,通過復雜度量化模塊構造長度偏好數據集,對于簡單問題從采樣答案中挑選長度較短的答案,對困難問題挑選長度較長的答案,使得答案長度與當前問題復雜度相匹配。在此基礎上對DeepSeek-R1進行微調,使得微調后的模型具備對不同難度題目的自適應慢思考能力。具體改造流程如下圖所示。



自適應慢思考的DeepSeek-R1滿血版模型訓練流程圖

二次蒸餾:針對DeepSeek-R1的系列蒸餾模型,由于其使用的蒸餾數據來自訓練滿血版R1時使用的訓練數據,而非由性能更好的R1滿血版自身生成的數據,這會導致得到的蒸餾模型未能充分學習R1滿血版的能力,蒸餾效果大打折扣。為解決這個問題,中國聯通使用了二次蒸餾的策略,即利用DeepSeek-R1滿血版將已積累的高質量數據轉化為包括深度思考過程的長思維鏈格式數據,在DeepSeek-R1蒸餾系列模型基礎上再進行一次微調,使模型具備更強的推理能力。

難度自適應強化學習:在對模型進行二次蒸餾后,中國聯通進一步借鑒DeepSeek-R1的構建思路,在GRPO算法基礎上提出了一種難度自適應強化學習算法DA-GRPO(Difficulty Adaptive GRPO),對二次蒸餾模型進行難度自適應的強化學習訓練,進一步提升其推理效果。除了使用傳統的基于規則的正確性獎勵、格式獎勵、語言一致性獎勵外,DA-GRPO還基于每個問題的復雜程度和生成答案的長度對獎勵得分進行校準。具體而言,如果模型對一個簡單問題輸出較長的答案,則對獎勵分數進行相應的懲罰。同時,若模型對困難的問題輸出較長的答案,則給予其更高的獎勵分數,以鼓勵其進行更充分的思考。這樣,通過提高樣本答案獎勵得分的區分度,使模型具備根據問題難度輸出相應長度答案的能力,在保證推理準確率的前提下顯著減少了答案冗余和資源消耗,從而實現對不同難度問題的自適應慢思考。



自適應慢思考的DeepSeek-R1蒸餾版模型訓練流程圖

推理計算量節省約30%!實測效果對比一覽

中國聯通以DeepSeek-R1-distill-32B模型為例,對上述方法的效果進行了驗證。通過在數學任務測評集(MATH500)上對比以及具體實驗可以看到,經過難度自適應改造后的模型在不同難度等級問題上生成的回答長度較原版均明顯下降,并且對于最高難度(Level 5)輸出的回答長度降幅最大,體現了模型對不同難度等級問題具備自適應慢思考能力。經過測評,這種創新的自適應慢思考方法,平均可節省約30%的推理計算量,冗余輸出大幅減少,用戶體驗得到有效提升。



回答長度對比:原版DeepSeek-R1-distill-32B(淺藍)vs自適應版(深藍)



除了通過對DeepSeek-R1模型進行自適應慢思考優化升級外,中國聯通還在緊鑼密鼓推進對DeepSeek-R1系列模型的能力邊界量化和安全價值觀增強等相關工作的探索。未來,中國聯通將持續與以DeepSeek為代表的先進開源模型深度融合,不斷升級元景基礎模型能力和MaaS平臺功能,貫徹開源普惠理念,推進算力普惠、模型普惠、應用普惠,以先進數智水平賦能社會千行百業。

目前,自適應慢思考版的DeepSeek-R1-distill-32B已在GitHub、魔搭、始智等社區全面開源,地址如下:

GitHub:https://github.com/UnicomAI/Unichat-DeepSeek-R1-distill-32B

魔搭:https://www.modelscope.cn/UnicomAI/Unichat-DeepSeek-R1-distill-32B

始智:https://wisemodel.cn/models/UnicomLLM/Unichat-DeepSeek-R1-distill-32B

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
粉的,白的,紅的,紫的!!!

粉的,白的,紅的,紫的!!!

風子說個球
2025-05-22 12:01:06
東莞一僵尸車引發關注!有市民指出該大眾車,停在小區附近已三年

東莞一僵尸車引發關注!有市民指出該大眾車,停在小區附近已三年

火山詩話
2025-05-22 11:21:38
4-0!陳幸同連續逆轉,粉碎早田希娜自信,靜待曼昱拿捏張本美和

4-0!陳幸同連續逆轉,粉碎早田希娜自信,靜待曼昱拿捏張本美和

釘釘陌上花開
2025-05-23 19:59:46
上海又一知名“康養度假”集團爆雷

上海又一知名“康養度假”集團爆雷

深度知局
2025-05-22 17:34:12
朱媛媛的爸爸媽媽念女心切,媛媛竟與媽媽如此相像!

朱媛媛的爸爸媽媽念女心切,媛媛竟與媽媽如此相像!

悠閑歷史
2025-05-23 17:55:44
朱媛媛離世第六天!李乃文寫長文送別好友:媛媛我舍不得你惹淚目

朱媛媛離世第六天!李乃文寫長文送別好友:媛媛我舍不得你惹淚目

娛樂圈圈圓
2025-05-23 11:42:47
僅一夜,再見詹姆斯,火箭史詩級交易方案,哈登終于如愿以償

僅一夜,再見詹姆斯,火箭史詩級交易方案,哈登終于如愿以償

青山隱隱啊
2025-05-23 15:17:42
800塊工資沒給,小伙一把火燒了廠?律師這樣看

800塊工資沒給,小伙一把火燒了廠?律師這樣看

慕容律師
2025-05-23 14:33:10
卡魯索:亞歷山大拿MVP送一塊我勞力士藍水鬼 我看都沒看就說謝謝

卡魯索:亞歷山大拿MVP送一塊我勞力士藍水鬼 我看都沒看就說謝謝

818體育
2025-05-23 14:40:29
韓國總統選舉臨近,李在明領先優勢大幅減少

韓國總統選舉臨近,李在明領先優勢大幅減少

澎湃新聞
2025-05-23 21:07:08
拔出蘿卜帶出泥!230萬耳環又牽出大瓜,張頌文趙麗穎被牽連其中

拔出蘿卜帶出泥!230萬耳環又牽出大瓜,張頌文趙麗穎被牽連其中

野山歷史
2025-05-18 22:55:19
幾節幾人次?阿泰:全世界都在利用美國體育獲利 我們該限制外援

幾節幾人次?阿泰:全世界都在利用美國體育獲利 我們該限制外援

直播吧
2025-05-23 20:28:11
莫斯科72小時爆炸,普京掏窩下手太狠:兩大軍區殺入烏克蘭"天津"

莫斯科72小時爆炸,普京掏窩下手太狠:兩大軍區殺入烏克蘭"天津"

興史興談
2025-05-23 16:12:15
這個上海姑娘,可能是全網最后悔的人了,腸子都要悔青了

這個上海姑娘,可能是全網最后悔的人了,腸子都要悔青了

界史
2025-05-15 10:10:24
推動阿薩姆邦獨立,將使印度無法控制我國藏南,成功可能性有多大

推動阿薩姆邦獨立,將使印度無法控制我國藏南,成功可能性有多大

說說史事
2025-05-23 09:14:41
中央21號文件是真的

中央21號文件是真的

霹靂炮
2025-05-22 22:50:35
演員朱媛媛喪禮在福建舉行!入殮師曝她遺容慈祥,但因病消瘦太多

演員朱媛媛喪禮在福建舉行!入殮師曝她遺容慈祥,但因病消瘦太多

野山歷史
2025-05-21 16:32:02
0勝5負!16歲張本美和要找王曼昱復仇 高調宣戰:我的目標是金牌

0勝5負!16歲張本美和要找王曼昱復仇 高調宣戰:我的目標是金牌

風過鄉
2025-05-23 07:58:16
農民工討薪接連敗訴連捅四名法官法官卻集體放棄索賠幸還是不幸?

農民工討薪接連敗訴連捅四名法官法官卻集體放棄索賠幸還是不幸?

侃神評故事
2025-05-23 07:50:02
河南新密數千萬公交補貼被挪用,大量車輛因虧損停運,舉報遭威脅

河南新密數千萬公交補貼被挪用,大量車輛因虧損停運,舉報遭威脅

追月數星
2025-05-22 19:54:18
2025-05-23 23:20:49
暴走通信
暴走通信
看盡通信江湖
1183文章數 362關注度
往期回顧 全部

科技要聞

特朗普:iPhone不在美國制造就收25%關稅

頭條要聞

反華機構承認了:好感度全球比拼 中國碾壓美國

頭條要聞

反華機構承認了:好感度全球比拼 中國碾壓美國

體育要聞

臺下掌聲一片!65歲安帥揮手告別:感謝皇馬

娛樂要聞

趙麗穎否認戀情,與趙德胤沒在一起?

財經要聞

特朗普威脅自6月1日起對歐盟征收50%關稅

汽車要聞

續航720km/充電10分鐘補能500公里 理想i8信息曝光

態度原創

藝術
時尚
手機
旅游
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

小香風太火了,從20歲穿到70歲都很時髦

手機要聞

一加Ace5競速版主要規格曝光 將于5月底發布

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 古田县| 平舆县| 商河县| 遵义县| 安达市| 潼关县| 松桃| 韶关市| 抚远县| 上虞市| 黑河市| 天水市| 柳林县| 肥东县| 保定市| 松阳县| 商城县| 饶河县| 南充市| 华池县| 尉氏县| 绥芬河市| 上思县| 济宁市| 广昌县| 孟津县| 宁南县| 高州市| 田东县| 东乡县| 安远县| 濉溪县| 汉阴县| 政和县| 顺昌县| 蓝山县| 晋中市| 宁河县| 左权县| 容城县| 郸城县|