網易首頁 > 網易號 > 正文申請入駐

「DeepSeek接班OpenAI」，最新開源的R1推理模型，讓AI圈爆了

2025-01-22 23:10:14　來源: 前沿科技學習分享圈

北京舉報

分享至

近日，AI領域迎來了一次重大突破，DeepSeek正式推出了其最新研發的開源推理模型——DeepSeek-R1。這一模型在數學、代碼和自然語言推理等關鍵任務上的表現，已經能夠與OpenAI的o1正式版相媲美，引發了AI研究者和從業者的廣泛關注。

多階段訓練：創新的模型架構

DeepSeek-R1的訓練方式采用了多階段循環的策略，具體包括基礎訓練、強化學習（RL）、微調等多個階段。這種獨特的訓練方式使得模型在推理能力上有了顯著提升。例如，AutoAWQ的作者Casper Hansen指出，DeepSeek-R1通過這種多階段訓練，能夠在較少標注數據的情況下，極大提升模型的推理能力。

行業領先的性能表現

DeepSeek-R1的推出，標志著AI行業在推理模型領域的又一次飛躍。UC Berkeley教授Alex Dimakis甚至認為，DeepSeek已經在某些方面處于領先地位，美國公司可能需要迎頭趕上。DeepSeek-R1不僅在網頁端、App端和API端全面上線，還提供了開源的模型權重，允許用戶基于R1訓練其他模型，極大地推動了AI技術的普及和應用。

性能對比：超越行業標桿

在性能方面，DeepSeek-R1的表現令人矚目。與OpenAI的o1-1217、o1-mini以及自家的DeepSeek-V3相比，R1在多個數據集上的表現不相上下，甚至在某些任務上超越了現有模型。此外，DeepSeek-R1還蒸餾出了六個不同參數規模的小模型，包括1.5B、7B、8B、14B、32B和70B版本，這些模型同樣完全開源，旨在回饋開源社區，推動AI技術的發展。

開源與性價比：推動行業進步

DeepSeek-R1的開源策略不僅體現在模型權重的開放，還體現在其極具競爭力的API定價上。與OpenAI的API定價相比，DeepSeek-R1的API服務價格僅為每百萬輸入tokens 1元（緩存命中）/4元（緩存未命中），每百萬輸出tokens 16元，遠低于OpenAI的定價。這種高性價比的策略，無疑將吸引更多開發者和企業使用DeepSeek-R1，進一步推動AI技術的商業化應用。

技術細節：強化學習的創新應用

DeepSeek-R1的技術核心在于其對強化學習的創新應用。開發團隊摒棄了傳統的監督微調（SFT）作為冷啟動的方式，而是通過大規模強化學習直接提升模型的推理能力。這種全新的思路不僅降低了訓練成本，還提高了模型的適應性和靈活性。例如，DeepSeek-R1-Zero采用了群組相對策略優化（GRPO）來降低訓練成本，通過從群組分數中估算基線，避免了使用與策略模型同樣大小的評估模型，從而提高了訓練效率。

獎勵機制與訓練模板

在獎勵機制方面，DeepSeek-R1采用了準確度和格式兩種互補的獎勵機制。準確度獎勵用于評估回答的正確性，而格式獎勵則用于規范模型的輸出格式。這種獎勵機制的設計，使得模型能夠在推理過程中更加注重思考過程的規范性和正確性。此外，開發團隊還設計了簡單的訓練模板，引導模型先給出推理過程，再提供最終答案，這種設計不僅規范了模型的輸出結構，還避免了對內容施加過多限制，使得模型能夠在訓練過程中自然發展出高級的解題策略。

自我進化能力：訓練中的“靈光一現”

在訓練過程中，DeepSeek-R1-Zero展現出了顯著的自我進化能力。例如，在處理2024年的AIME數學奧賽試卷時，其平均pass@1分數從最初的15.6%顯著提升到了71.0%，達到了與OpenAI-o1-0912相當的水平。更令人驚訝的是，在多數投票機制中，DeepSeek-R1-Zero的成功率進一步提升到了86.7%，甚至超過了OpenAI-o1-0912的表現。這種自我進化能力的背后，是強化學習的魅力——只要提供正確的獎勵機制，模型就能自主發展出高級的解題策略。

冷啟動數據的應用

為了防止基礎模型在強化學習訓練早期出現不穩定的冷啟動階段，開發團隊針對R1構建并收集了少量的長CoT數據，以作為初始RL actor對模型進行微調。這些冷啟動數據不僅提高了模型的可讀性，還提升了模型的性能。開發團隊通過精心設計具有人類先驗知識的冷啟動數據模式，觀察到相較于DeepSeek-R1-Zero更好的性能表現。

模型的局限性與改進

盡管DeepSeek-R1在推理能力上取得了顯著的突破，但仍然存在一些局限性。例如，DeepSeek-R1-Zero的回答可讀性較差，語言混雜等問題。為了解決這些問題，開發團隊在訓練過程中引入了語言一致性獎勵，以緩解語言混合的問題。此外，開發團隊還通過拒絕采樣和監督微調，進一步提升了模型的性能。

蒸餾技術：小模型的推理能力提升

為了使更高效的小模型具備DeepSeek-R1那樣的推理能力，開發團隊直接使用DeepSeek-R1整理的80萬個樣本對Qwen和Llama等開源模型進行了微調。這種簡單的蒸餾方法顯著增強了小模型的推理能力，使得它們能夠在推理任務上表現出色。

未來展望：推動AI技術的邊界

DeepSeek-R1的推出，不僅在技術上實現了突破，更在開源和性價比上為行業樹立了新的標桿。通過開源模型權重和訓練技術，DeepSeek為全球的AI研究者和開發者提供了強大的工具和資源，推動了AI技術的邊界。未來，隨著更多開發者和企業的參與，DeepSeek-R1有望在更多領域實現應用，為AI行業的發展注入新的動力。

DeepSeek-R1的出現，不僅是AI技術的一次重大突破，更是開源精神的勝利。它不僅為AI研究者提供了新的思路和方法，也為AI技術的商業化應用提供了新的可能性。隨著DeepSeek-R1的不斷優化和改進，我們有理由相信，它將在未來的AI領域中扮演更加重要的角色。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.