2025年1月20日,大語言模型DeepSeek-R1橫空出世。相對其他大語言模型,它以很低的訓練成本達成極高的性能而為世人矚目。
(圖源《知識就是力量》雜志)
讓機器“說話”
自然語言處理(Natural LanguageProcessing,簡稱NLP)是通過計算機實現語言分析,研究人機交互并進行有效通信的理論與技術。它旨在使計算機能夠理解、處理和生成人類的語言,實現人機之間的有效交流。
“猜謎大師”養成記
簡單來說,你可以把訓練DeepSeek等大模型的過程看成一個“猜謎大師”的養成過程。在訓練時,它會被“投喂”海量文本,但它不記憶具體知識,而是學習詞語之間的關聯規律,比如“狗喜歡吃……”后面大概率出現的詞匯是“骨頭”或“肉”,而不是“草”。隨著訓練量增大,它可以不斷提高自己產生結果的概率和合理性,例如“地道”后面是“戰”還是“美食”,它會根據上下文語境做出判斷。
在對話階段,Transformer模型主要采取邊聽邊猜并不斷優化的模式進行。例如,當你輸入“為什么天空看起來是藍色的”時,Transformer模型會利用自注意力機制拆解關鍵詞,找到“天空”“藍色”等關鍵詞,然后根據在訓練階段掌握的規律找到“光的散射”和“大氣層”等知識片段,再逐詞生成完整的回答。在生成答案的過程中,它還可以根據反饋不斷調整和優化結果。
(圖源《知識就是力量》雜志)
更優秀的大語言模型之路
許多預訓練語言模型都是通過增大訓練參數規模來提高模型訓練的效果的,但這樣會對數據和算力有很高的要求,使得訓練和部署模型的成本巨大。
DeepSeek的突出創新點之一在于,它主要是通過優化算法來達成較好的模型訓練效果的,因此需求的訓練數據相對較少、訓練算力相對較低。在這一過程中,它使用的混合專家模型(Mixture of Experts,MoE)起到了突出作用。
為了更好地理解混合專家模型的工作機制,我們可以舉個例子:一間準備裝修的毛坯房,想要將它裝好,需要20個泥瓦工、20個木工和10個油漆工,其他大模型會在整個施工期間都“養”著這50名工人,而DeepSeek則會根據施工需要,在特定的時段“雇傭”特定的工人,所以DeepSeek的訓練成本更低。
此外,DeepSeek對圖形處理器(GPU)和芯片進行了深度優化,進一步降低了模型訓練和部署的成本。
同時,DeepSeek是開源的,它公布了自己的模型參數和訓練工具鏈,吸引廣大二次開發者對其應用和優化,迅速形成了自己的開發生態,從而進一步滿足模型在醫學、法律等特定領域的需求。
(圖源《知識就是力量》雜志)
撰文| 楊屹 律原
責任編輯 | 牛一名 岳煥琦
運營編輯 | 岳煥琦
質量審核| 業蕾
? 來源:《知識就是力量》雜志 ?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.