99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

DeepSeek的文采如何煉成? |【經緯低調分享】

0
分享至

DeepSeek打響了小算力辦大事的第一槍。

DeepSeek空降熱搜后,將離譜且正經的推算邏輯展示出來,造出不少娛樂爆梗。同時,不少資深玩家也看到DeepSeek的可塑性,甚至對標GPT。連馬斯克都下場,給予正面評價。

很多人都很好奇,DeepSeek的華麗文風究竟是如何做到的?數據質量是 DeepSeek 成功的關鍵因素。包含鏈式思考的數據能引導模型在推理時深入反思,讓生成的回答邏輯清晰、語言優美,使其在面對不同領域和任務時,都能輕松切換風格,無論是嚴謹的技術解答,還是充滿詩意的創意寫作,都能應對自如。

那么,DeepSeek的文風有多「華麗」?其背后的具體數據和模型有哪些考究?以下,Enjoy:

本文授權轉載自公眾號“DeepTech深科技”。

作者丨多加

“他們說我是魔、是妖、是異數。可誰見過,蓮花在淤泥里,如何長出自己的形狀。”“我割開血肉,剔出龍筋,還給東海一個太平。卻還不清,這具身體的債。”“乾坤圈在手腕上,長成另一道年輪。風火輪碾過陳塘關的黃昏,碾碎每一塊試圖定義我的石碑。”這是筆者讓 DeepSeek 根據當前熱門電影《哪吒之魔童鬧海》為哪吒寫的一首詩的節選。


(來源:DeepSeek)

旅游博主“福瑞環宇”用 DeepSeek 寫了一首關于使徒保羅的詩,寫完之后這位博主感慨道:“寫出來一看簡直要去地上找下巴。它竟然能把特洛伊和特羅亞區分得那么清楚,也藝術性地寫出了特羅亞的位置、保羅在特羅亞發生的兩件重要的事,還給人呈現了一個全然擺上的保羅,最后一句‘一粒麥子埋入歐洲的春秋’更是驚艷又深沉到無以復加。”

01

通過后訓練階段兩個步驟協同實現華麗風格

事實上,DeepSeek 不僅會寫詩,其走心的回答風格已經讓不少用戶直呼“戳中心窩”。毫無疑問,DeepSeek 華麗抒情走心的文風展現了 AI 溫暖的一面。那么,是什么技術促成了這樣的風格?

上海交通大學副教授趙波表示,通過一些試用可以發現,DeepSeek 主要包含八種角色設定:電影角色、新聞主持、歷史人物、動漫游戲、文學角色、職業角色、搞笑角色和科幻角色。每種角色大類又分別包含其類型中的經典人物。DeepSeek 可以按照用戶要求,模仿特定角色的語言或行文風格與用戶交互。這一能力來源自然是訓練數據,這需要 DeepSeek 的開發者針對豐富的角色/風格/場景,收集對應的多輪對話和指令跟隨數據來訓練模型。而這些數據的來源可能是原始資料數據、人工標注數據、模型合成數據等。

美國耶魯大學助理教授楊卓然從微觀角度給出了一些解讀。他表示根據 DeepSeek?V3 技術報告,DeepSeek的華麗文風主要是通過后訓練階段的兩個步驟協同實現的。

第一個步驟是監督微調(SFT,Supervised Fine-Tuning)。在監督微調階段,模型接觸到了大量高質量的語言表達示例,尤其是針對創意寫作等非推理任務的數據。楊卓然表示,具體來說對于創意寫作任務,初始回答由 DeepSeek?V2.5 生成,隨后經過人工審核來確保內容的準確性和風格的一致性。正是在這部分數據中,模型學習到了大量語言表達優美、用詞講究的示例,這為它后續生成華麗文風奠定了基礎。

第二個步驟是強化學習(RL,Reinforcement Learning)。在強化學習階段,模型利用獎勵機制進一步優化生成結果。對于諸如創意寫作這樣的開放式任務,獎勵模型會對生成的回答進行評分,不僅要求答案準確,還鼓勵模型在措辭、句式和邏輯上表現得更加精致、富有文采。獎勵模型基于監督微調階段得到的 DeepSeek?V3 checkpoints 進行訓練,并通過高溫采樣和多步優化,使模型在生成時逐步融合精美的修辭和細膩的表達方式。

北京郵電大學副教授白婷則綜合 DeepSeek 的多款模型,從宏觀角度給出了一些解讀。她表示,DeepSeek 曾在技術報告里提到一些關鍵技術:比如 DeepSeek-V2 使用了 Multi-Head Latent Attention 和 Sparse MoE 架構,其中 Multi-Head Latent Attention 是為了提高模型效率,MoE 架構則能通過利用多專家能力來提高模型能力。DeepSeek-V3 把多專家架構加入輔助函數進行負載均衡的優化,同時也加入了強化學習進行增強。DeepSeek-R1 版本則是解決模型推理能力,它直接使用強化學習去指導思維鏈的生成,并通過知識蒸餾賦予小模型以更大的能力。

白婷指出, DeepSeek 所采用的技術并非獨創,此前學界和業界已經開始使用這些技術,甚至一些團隊的某些單項技術上做得比 DeepSeek 還要更好。“為什么 DeepSeek 能取得如此的成功和關注度?我想其中包含了許多大模型研究者都可望不可及的兩點:大量算力資源和大量高質量的訓練數據以及適宜的訓練策略。”她表示。算力無需多言,有實力的大公司在這方面基本不相上下。而華麗的文風或者說是 DeepSeek 的回復較其他模型更“像人”,則是因為受到了上述關鍵技術手段的影響,但更為關鍵核心要素則是高質量訓練數據、訓練策略和大量迭代優化的結果。

02?

數據即模型:數據質量帶動模型性能

2024 年 3 月,DeepSeek 公司的研究員陳德里曾在一場業界大會上發表過題為《和而不同:大語言模型價值觀對齊解耦化》的演講,演講中他提到:“在實際模型生產過程中,我們會進行模型的迭代式開發;即每輪的訓練結束之后,都會有一個獨立的測試團隊,對模型在上述各個維度上的安全性進行充分的測試,并給出反饋意見來指導進行下一個周期的數據迭代和模型訓練。”由此可見, DeepSeek 在模型數據方面一定有獨到之處。


(來源:https://maimai.cn/article/detail?fid=1826052238&efid=WRuDmSQ74-wciyw4PYW5Qw)

楊卓然指出,數據質量對模型訓練至關重要,不僅影響模型獲取和表達知識的能力,還決定了模型生成內容的風格和準確性。

其一,高質量數據可以提升模型表達和推理能力。優質數據包含準確、連貫且富有表現力的語言樣本。例如,包含鏈式思考(COT,Chain of Thought)數據可以引導模型在推理時進行反思,進而在生成回答時展現出清晰的邏輯和優美的語言表達。這正是模型能夠生成既準確又具有華麗文風的關鍵因素之一。

其二,高質量數據可以降低噪音和確保一致性。數據中的錯誤、噪音或不一致信息會導致模型生成內容出現語法或邏輯問題。高質量的數據則能有效減少這些問題,使模型更好地學習到語言規律,從而提高整體生成質量。

其三,高質量數據可以提升泛化能力。數據的多樣性和全面性使得模型在面對不同領域和任務時都能生成高質量的回答。豐富且準確的樣本幫助模型在多種場景下自如切換風格,無論是精煉的技術解答還是文采斐然的創意寫作,都能游刃有余。

其四,只需少量高質量數據就能顯著提高模型能力。最近一些論文比如《s1: Simple test-time scaling》和《LIMO: Less is More for Reasoning》也強調,數據質量極為關鍵。即便只有少量高質量的數據,也能顯著提升模型的能力,因為高質量數據中蘊含的信息更為準確和代表性,為模型提供了高效的學習信號。“這種‘精煉’數據不僅幫助模型在推理和生成上達到更高水準,還能更快收斂以及降低訓練成本。”楊卓然表示。

白婷也認同上述觀點。她表示:“以我們開發的百家智能體大模型(baijia.online)為例,我們在阿里 Qwen-7B 上的微調后的結果反超 DeepSeek-2.5-238B。”當通過收集大量低資源、分散的歷史語料,以此來構造訓練數據和訓練策略,此時模型基座的能力強弱就不再是取得決勝性因素的關鍵。也就是說,高質量訓練數據的使用能夠大大增強大模型在某一目標任務上的能力。事實上,DeepSeek 也有角色扮演的能力,比如它能很好地扮演李白。但是,對于低資源的人物,其效果就比較一般,所以數據質量和訓練策略是其背后的兩大原因。“比如我們開發的百家智能體大模型就采用了 RLAIF 的方式將高資源角色豐富的朝代、背景等信息遷移協同低資源人物的構造。”她說。

DeepSeek 的回復比其他模型更具某種風格,比如更加活潑、更加嚴謹等,這其實反映在工程師對于對話數據的構造和提示方式上。而對于模型生成內容質量的影響,一種是將所有數據都通過預訓練方式內化到模型內部,一種是通過檢索的方式將更加精準的知識召回。前者的泛化性很強,但是容易出現幻覺,畢竟龐大的知識會導致混亂,不能專而精深。而后者則是一種人機協同的方式,檢索的內容可以是人類構建的帶有一定可信度的網頁內容、史料等,使得大模型回復更加可信。

趙波也表示,數據質量對模型訓練起到決定性作用。可以說數據即模型,有多高質量的數據就可以得到多強大的模型。隨著訓練數據的不斷收集,大模型研究團隊對數據的關注逐漸從數據規模轉移到數據質量。大量實例證明:小規模高質量數據能夠訓練得到比大規模低質量數據更好的模型,并且訓練成本更低。趙波舉例稱,2023 年微軟的 Phi-2 模型使用“教科書質量”的訓練數據實現了小模型高性能。此外,合成數據也已成為大模型訓練數據的重要來源,通過合成可以低成本地獲得大量高質量數據。目前,主流大模型的訓練都使用了大量的合成數據。趙波和團隊也于 2023 年 7 月推出過針對多模態大模型訓練的百萬級高質量合成數據集 SVIT 等。

03

尾聲

白婷補充稱,無論是 AGI 還是 Agent, 其本質上都是模擬并超越人類這一目前最高等的智能體。從 DeepSeek 的設計上來看,不管是早期 DeepSeek-V2 版本中多專家 MoE 的群體決策,還是 DeepSeek-R1 版本中思維鏈的推理能力,知識蒸餾的學習能力的加強,都能很契合地對應到人類做出決策時的反應和采取的行為。但是,只有這些能力是遠遠不夠的,更高效強大的記憶系統、共情能力、反思進化能力、個性化能力,都是后期大模型發展、超越、服務人類時需要具備的能力。在此,也期待 DeepSeek 帶來更驚艷的表現。

參考資料:

https://mp.weixin.qq.com/s/QlJLnbPbb8weY-lqLYoOCg

https://chat.deepseek.com/sign_in

https://mp.weixin.qq.com/s/h3b8l45ZMOkMM4hxhvzUxA

https://maimai.cn/article/detail?fid=1826052238&efid=WRuDmSQ74-wciyw4PYW5Qw

排版:初嘉實


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
智能鎖正退出中國家庭?聽開鎖師傅說完,我連夜換回了鐵將軍!

智能鎖正退出中國家庭?聽開鎖師傅說完,我連夜換回了鐵將軍!

巢客HOME
2025-05-05 11:20:03
江西省2025年養老金調整即將開始,養老金2500元,能漲超4%嗎?

江西省2025年養老金調整即將開始,養老金2500元,能漲超4%嗎?

暖心人社
2025-06-20 22:03:50
崔康熙多次辭職文旅不讓?賽后球迷會長直播,泰山領導來電讓少說

崔康熙多次辭職文旅不讓?賽后球迷會長直播,泰山領導來電讓少說

糗糗球事
2025-06-21 00:06:44
薩巴倫卡:不知道怎么贏的,可能是因為我運氣好

薩巴倫卡:不知道怎么贏的,可能是因為我運氣好

懂球帝
2025-06-21 01:27:08
湖南中醫大一附院提前發中秋、國慶福利被指“早產”,院工會回應“福利物資”中標公示未滿質疑

湖南中醫大一附院提前發中秋、國慶福利被指“早產”,院工會回應“福利物資”中標公示未滿質疑

大風新聞
2025-06-20 12:37:10
上海一女子,在封閉陽臺用200個礦泉水瓶種菜,實現了蔬菜自由!

上海一女子,在封閉陽臺用200個礦泉水瓶種菜,實現了蔬菜自由!

史行途
2025-06-16 16:54:11
外媒爆料特斯拉新款Model Y或推出6座配置

外媒爆料特斯拉新款Model Y或推出6座配置

環球網資訊
2025-06-20 11:05:09
齊沃:國米已經連續比賽9個月了,目前我們能做的不多

齊沃:國米已經連續比賽9個月了,目前我們能做的不多

直播吧
2025-06-21 08:36:20
全球競爭力排名日本列第35位 4年來首次上升

全球競爭力排名日本列第35位 4年來首次上升

財聯社
2025-06-20 17:32:01
美記:我們一直聽到持續的傳聞,籃網對德明特別感興趣

美記:我們一直聽到持續的傳聞,籃網對德明特別感興趣

雷速體育
2025-06-21 08:30:45
黃巖島激烈對峙!中方海警水炮擊中菲船,菲船大叫:太危險了!

黃巖島激烈對峙!中方海警水炮擊中菲船,菲船大叫:太危險了!

大道無形我有型
2025-06-20 23:20:08
趙麗穎發朋友圈啦!穎寶和劉珂合影太酷了,紐約旅行記錄好精彩!

趙麗穎發朋友圈啦!穎寶和劉珂合影太酷了,紐約旅行記錄好精彩!

情感大頭說說
2025-06-21 03:45:27
大結局要來?多國撤僑,伊朗真正敵人出現,不是以色列也不是美國

大結局要來?多國撤僑,伊朗真正敵人出現,不是以色列也不是美國

科技講者66
2025-06-18 12:40:26
湖南地下車庫被淹:業主記錄全過程,短短20分鐘,車庫徹底被淹沒

湖南地下車庫被淹:業主記錄全過程,短短20分鐘,車庫徹底被淹沒

阿纂看事
2025-06-20 18:17:56
賣不掉房怎么辦?她選擇全網抽獎,結局讓人想哭又想笑

賣不掉房怎么辦?她選擇全網抽獎,結局讓人想哭又想笑

新歐洲
2025-06-19 19:32:19
吳謙大校警告:人民如果長期歌舞升平、娛樂至死,離危亡就不遠了

吳謙大校警告:人民如果長期歌舞升平、娛樂至死,離危亡就不遠了

boss外傳
2025-05-04 17:20:03
秦立軍,隱瞞不報房產和股票情況、跑官要官、私德不修!

秦立軍,隱瞞不報房產和股票情況、跑官要官、私德不修!

政知新媒體
2025-06-20 10:56:12
兩對情侶醉酒后,開始了一場狂歡…

兩對情侶醉酒后,開始了一場狂歡…

美少女戰士喲
2025-06-06 11:27:48
“賣的錢不夠請工人”,廣東茂名農戶因荔枝價低放棄采摘,農業農村局:極個別現象

“賣的錢不夠請工人”,廣東茂名農戶因荔枝價低放棄采摘,農業農村局:極個別現象

觀威海
2025-06-18 11:07:51
伊朗“反美立國”戰略的窮途末路

伊朗“反美立國”戰略的窮途末路

黑噪音
2025-06-18 08:02:41
2025-06-21 08:48:49
經緯創投 incentive-icons
經緯創投
經緯創投公眾平臺
2315文章數 7144關注度
往期回顧 全部

科技要聞

余承東:鴻蒙6主打"毫秒級"時延與全面AI

頭條要聞

伊朗與歐洲三國日內瓦密談3小時 伊朗外長發表聲明

頭條要聞

伊朗與歐洲三國日內瓦密談3小時 伊朗外長發表聲明

體育要聞

周通:2年前想過退役,沒想到能踢世俱杯

娛樂要聞

黃曉明落榜原因曝光!葉珂曾秀幸福

財經要聞

58同城一邊裁員一邊跨界投資

汽車要聞

五項訂車禮/四款車型 一汽奧迪A5L正式開啟預售

態度原創

游戲
旅游
健康
藝術
時尚

現在CF的火麒麟都免費送了,為什么人氣連赤獄騎士都比不上?

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

呼吸科專家破解呼吸道九大謠言!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

今年流行的“小紅裙”“小紅鞋”太美了!誰穿誰好看

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 石泉县| 北流市| 虎林市| 湖北省| 江安县| 赤峰市| 临高县| 建宁县| 漳平市| 大城县| 凤台县| 东乡县| 桐柏县| 建宁县| 宽甸| 灌南县| 孙吴县| 卢湾区| 东港市| 丹东市| 贵州省| 兴安县| 临泉县| 鄂托克前旗| 临汾市| 库尔勒市| 三门县| 开远市| 陆丰市| 兴化市| 泸西县| 东乌珠穆沁旗| 沐川县| 泰和县| 吉林市| 延长县| 罗山县| 庄河市| 咸丰县| 滦南县| 广州市|