99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

中國聯(lián)通對DeepSeek系列思維鏈模型進行“自適應慢思考”優(yōu)化升級

0
分享至


日前,DeepSeek團隊宣布將在“2月27日至3月3日”陸續(xù)開源5個代碼庫,這與中國聯(lián)通一直秉持的開源普惠理念不謀而合。繼中國聯(lián)通于1月開源元景“自適應慢思考”思維鏈大模型后,又針對DeepSeek系列模型進行了“自適應慢思考”優(yōu)化升級,現(xiàn)已開源,開源地址詳見文末。這也是目前業(yè)界首個對DeepSeek系列思維鏈模型做“自適應慢思考”優(yōu)化升級的工作。



DeepSeek官宣開源周

“以我為主,為我所用”的開放創(chuàng)新

元景思維鏈大模型具備多學科、多場景通用推理能力,且能在確保慢思考能力不打折的情況下,做到針對不同任務和難度的自適應慢思考,大幅降低了資源消耗,實現(xiàn)了大模型“慢思考”能力高性價比落地應用。

元景思維鏈大模型接入DeepSeek-R1并非簡單的“拿來主義”,而是“從其善,優(yōu)其不善”,對DeepSeek-R1版本進行了調整,最大程度規(guī)避了其面對簡單問題“過度思考”的現(xiàn)象,使模型具備了“自適應”能力。即在面向難度較高問題時使用慢思考模式生成長思維鏈,面向簡單問題時則傾向于生成簡潔的思維鏈,迅速準確的輸出相關答案。這樣避免了答案的冗余、資源的浪費以及減少用戶等待時間,提升用戶體驗。

調整步驟完整分享

難度自適應微調:為實現(xiàn)模型推理的難度自適應,中國聯(lián)通利用DeepSeek-R1滿血版模型采樣生成數(shù)據(jù),通過復雜度量化模塊構造長度偏好數(shù)據(jù)集,對于簡單問題從采樣答案中挑選長度較短的答案,對困難問題挑選長度較長的答案,使得答案長度與當前問題復雜度相匹配。在此基礎上對DeepSeek-R1進行微調,使得微調后的模型具備對不同難度題目的自適應慢思考能力。具體改造流程如下圖所示。



自適應慢思考的DeepSeek-R1滿血版模型訓練流程圖

二次蒸餾:針對DeepSeek-R1的系列蒸餾模型,由于其使用的蒸餾數(shù)據(jù)來自訓練滿血版R1時使用的訓練數(shù)據(jù),而非由性能更好的R1滿血版自身生成的數(shù)據(jù),這會導致得到的蒸餾模型未能充分學習R1滿血版的能力,蒸餾效果大打折扣。為解決這個問題,中國聯(lián)通使用了二次蒸餾的策略,即利用DeepSeek-R1滿血版將已積累的高質量數(shù)據(jù)轉化為包括深度思考過程的長思維鏈格式數(shù)據(jù),在DeepSeek-R1蒸餾系列模型基礎上再進行一次微調,使模型具備更強的推理能力。

難度自適應強化學習:在對模型進行二次蒸餾后,中國聯(lián)通進一步借鑒DeepSeek-R1的構建思路,在GRPO算法基礎上提出了一種難度自適應強化學習算法DA-GRPO(Difficulty Adaptive GRPO),對二次蒸餾模型進行難度自適應的強化學習訓練,進一步提升其推理效果。除了使用傳統(tǒng)的基于規(guī)則的正確性獎勵、格式獎勵、語言一致性獎勵外,DA-GRPO還基于每個問題的復雜程度和生成答案的長度對獎勵得分進行校準。具體而言,如果模型對一個簡單問題輸出較長的答案,則對獎勵分數(shù)進行相應的懲罰。同時,若模型對困難的問題輸出較長的答案,則給予其更高的獎勵分數(shù),以鼓勵其進行更充分的思考。這樣,通過提高樣本答案獎勵得分的區(qū)分度,使模型具備根據(jù)問題難度輸出相應長度答案的能力,在保證推理準確率的前提下顯著減少了答案冗余和資源消耗,從而實現(xiàn)對不同難度問題的自適應慢思考。



自適應慢思考的DeepSeek-R1蒸餾版模型訓練流程圖

推理計算量節(jié)省約30%!實測效果對比一覽

中國聯(lián)通以DeepSeek-R1-distill-32B模型為例,對上述方法的效果進行了驗證。通過在數(shù)學任務測評集(MATH500)上對比以及具體實驗可以看到,經過難度自適應改造后的模型在不同難度等級問題上生成的回答長度較原版均明顯下降,并且對于最高難度(Level 5)輸出的回答長度降幅最大,體現(xiàn)了模型對不同難度等級問題具備自適應慢思考能力。經過測評,這種創(chuàng)新的自適應慢思考方法,平均可節(jié)省約30%的推理計算量,冗余輸出大幅減少,用戶體驗得到有效提升。



回答長度對比:原版DeepSeek-R1-distill-32B(淺藍)vs自適應版(深藍)



除了通過對DeepSeek-R1模型進行自適應慢思考優(yōu)化升級外,中國聯(lián)通還在緊鑼密鼓推進對DeepSeek-R1系列模型的能力邊界量化和安全價值觀增強等相關工作的探索。未來,中國聯(lián)通將持續(xù)與以DeepSeek為代表的先進開源模型深度融合,不斷升級元景基礎模型能力和MaaS平臺功能,貫徹開源普惠理念,推進算力普惠、模型普惠、應用普惠,以先進數(shù)智水平賦能社會千行百業(yè)。

目前,自適應慢思考版的DeepSeek-R1-distill-32B已在GitHub、魔搭、始智等社區(qū)全面開源,地址如下:

GitHub:https://github.com/UnicomAI/Unichat-DeepSeek-R1-distill-32B

魔搭:https://www.modelscope.cn/UnicomAI/Unichat-DeepSeek-R1-distill-32B

始智:https://wisemodel.cn/models/UnicomLLM/Unichat-DeepSeek-R1-distill-32B

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
家人公布楊少華真正死因:病逝,午休睡醒說有點暈,遺言才9個字

家人公布楊少華真正死因:病逝,午休睡醒說有點暈,遺言才9個字

檸檬有娛樂
2025-07-10 11:27:05
高考575被掃地出門后續(xù),品行惡劣,罵人六親不認,難怪父母心狠

高考575被掃地出門后續(xù),品行惡劣,罵人六親不認,難怪父母心狠

寒士之言本尊
2025-07-09 18:08:10
失去了土地出讓金的支持:地方財政從哪找補?

失去了土地出讓金的支持:地方財政從哪找補?

戈多的嘆息
2025-07-08 07:55:10
94歲楊少華高溫天氣被推去剪彩,下午就去世了,家屬評論區(qū)淪陷

94歲楊少華高溫天氣被推去剪彩,下午就去世了,家屬評論區(qū)淪陷

萌神木木
2025-07-09 19:09:57
隨著巴黎4-0皇馬,產生5大不可思議+2個事實,世俱杯決賽對陣誕生

隨著巴黎4-0皇馬,產生5大不可思議+2個事實,世俱杯決賽對陣誕生

侃球熊弟
2025-07-10 05:12:18
吉林大學在浙江招生“顆粒無收”,網友的隨意調侃,卻一針見血

吉林大學在浙江招生“顆粒無收”,網友的隨意調侃,卻一針見血

知曉科普
2025-07-10 11:48:39
甘肅一血鉛異常患兒赴上海就醫(yī),醫(yī)生初判:慢性中毒或超三個月,蓄積到骨骼中的鉛的半衰期約為20~30年

甘肅一血鉛異常患兒赴上海就醫(yī),醫(yī)生初判:慢性中毒或超三個月,蓄積到骨骼中的鉛的半衰期約為20~30年

三湘都市報
2025-07-09 09:19:05
定了!上海這里,最新拆遷補償曝光!

定了!上海這里,最新拆遷補償曝光!

說故事的阿襲
2025-07-10 03:40:09
楊少華靈堂照太奢華!花籃遍布大廳,10條華子做貢品,郭德綱悼念

楊少華靈堂照太奢華!花籃遍布大廳,10條華子做貢品,郭德綱悼念

裕豐娛間說
2025-07-10 07:50:27
港媒爆料趙雅芝日子挺苦的,被3個兒子長期啃老,71歲還不能老!

港媒爆料趙雅芝日子挺苦的,被3個兒子長期啃老,71歲還不能老!

木子愛娛樂大號
2025-07-05 09:37:33
36歲王大雷登熱搜 飛身撲出17歲亞馬爾勁射引驚呼 開心揮手擺pose

36歲王大雷登熱搜 飛身撲出17歲亞馬爾勁射引驚呼 開心揮手擺pose

我愛英超
2025-07-09 22:19:23
我是河南人,去嶺南吃了荔枝,不吹不黑,說幾句真話,不喜勿噴

我是河南人,去嶺南吃了荔枝,不吹不黑,說幾句真話,不喜勿噴

i書與房
2025-07-09 11:40:04
廣州市中心巨型哆啦A夢“因天氣太熱爆炸了”?最新回應

廣州市中心巨型哆啦A夢“因天氣太熱爆炸了”?最新回應

環(huán)球網資訊
2025-07-09 09:08:13
領導的離譜要求:3000預算請劉亦菲帶貨!!!

領導的離譜要求:3000預算請劉亦菲帶貨!!!

特約前排觀眾
2025-07-10 00:10:02
又一中國球員被NBA選中!他才21歲啊,未來能和楊瀚森攜手嗎?

又一中國球員被NBA選中!他才21歲啊,未來能和楊瀚森攜手嗎?

籃球專區(qū)
2025-07-09 09:18:09
昔日時光,火箭官方曬主帥烏度卡球員時期與杜蘭特對位照片

昔日時光,火箭官方曬主帥烏度卡球員時期與杜蘭特對位照片

懂球帝
2025-07-10 10:23:19
李湘沒想到,自己丑聞纏身的前夫王岳倫,竟走了另一條“上坡路”

李湘沒想到,自己丑聞纏身的前夫王岳倫,竟走了另一條“上坡路”

暮云晨記
2025-07-10 10:10:49
43歲全智賢罕見短發(fā)造型曝光:宣布創(chuàng)立個人公司,其老公崔俊赫近期投資失敗虧150億韓元

43歲全智賢罕見短發(fā)造型曝光:宣布創(chuàng)立個人公司,其老公崔俊赫近期投資失敗虧150億韓元

極目新聞
2025-07-09 10:46:22
正式宣戰(zhàn)!以色列,碰到硬茬子了!

正式宣戰(zhàn)!以色列,碰到硬茬子了!

霹靂炮
2025-07-08 23:25:12
72歲布里吉特國宴撞上卡米拉,同穿禮服裙比美,沒對比就沒傷害

72歲布里吉特國宴撞上卡米拉,同穿禮服裙比美,沒對比就沒傷害

匹夫來搞笑
2025-07-10 00:38:50
2025-07-10 13:55:00
暴走通信
暴走通信
看盡通信江湖
1189文章數(shù) 362關注度
往期回顧 全部

科技要聞

三星推三款折疊屏機 Fold 7起售價1999美元

頭條要聞

男子駕車致女友截癱后全家失聯(lián) 男方母親回應

頭條要聞

男子駕車致女友截癱后全家失聯(lián) 男方母親回應

體育要聞

北美四大職業(yè)聯(lián)盟 又多了一位中國球員

娛樂要聞

王陽慘了!孫菲菲揭其雙面人嘴臉

財經要聞

潮玩規(guī)模破千億的幕后故事

汽車要聞

豪華不靠"裝" 奧迪Q6L e-ton的電動靈魂與豪華體魄

態(tài)度原創(chuàng)

旅游
本地
房產
時尚
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

換個城市過夏天 | 楓葉之都的22℃清涼秘境

房產要聞

14%+同比漲幅!2025廣州上半年樓市答卷出爐!

你換什么發(fā)型都不好看的原因,可能不是臉!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 泰来县| 黑龙江省| 铜陵市| 会同县| 焦作市| 分宜县| 遵化市| 盐津县| 津南区| 普陀区| 台山市| 永川市| 徐闻县| 新营市| 浦县| 白沙| 宣汉县| 濮阳县| 微山县| 龙海市| 乌鲁木齐市| 沧州市| 沈阳市| 夏河县| 南雄市| 新和县| 房产| 波密县| 德昌县| 房产| 永昌县| 德阳市| 宜宾县| 方山县| 焦作市| 勐海县| 安陆市| 江北区| 买车| 虞城县| 普陀区|