網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek開(kāi)源o1擊斃OpenAI，強(qiáng)化學(xué)習(xí)驚現(xiàn)「啊哈」時(shí)刻！網(wǎng)友：AGI來(lái)了

2025-01-21 23:14:48　來(lái)源: 前沿科技學(xué)習(xí)分享圈

北京舉報(bào)

分享至

近期，DeepSeek團(tuán)隊(duì)宣布推出全新推理模型——DeepSeek-R1，這一開(kāi)源模型在性能上與OpenAI的o1模型不相上下，引發(fā)了業(yè)界的廣泛關(guān)注。DeepSeek-R1的成功在于其獨(dú)特的訓(xùn)練方式，尤其是強(qiáng)化學(xué)習(xí)技術(shù)的深度應(yīng)用，這一技術(shù)路徑被認(rèn)為可能成為未來(lái)AI發(fā)展的新方向。

DeepSeek-R1模型的性能表現(xiàn)

DeepSeek-R1在多項(xiàng)基準(zhǔn)測(cè)試中展現(xiàn)了卓越的性能。在AIME2024測(cè)試中，該模型取得了79.8%的成績(jī)，略高于OpenAI的o1-1217版本。在MATH-500測(cè)試中，DeepSeek-R1的得分高達(dá)97.3%，與o1-1217相當(dāng)，且顯著超越其他模型。此外，在編碼任務(wù)方面，DeepSeek-R1在Codeforces平臺(tái)上獲得了2029的Elo評(píng)級(jí)，超越了96.3%的人類參賽者。這些數(shù)據(jù)表明，DeepSeek-R1在數(shù)學(xué)、代碼以及自然語(yǔ)言推理等任務(wù)中具備強(qiáng)大的能力。

強(qiáng)化學(xué)習(xí)技術(shù)的關(guān)鍵作用

DeepSeek-R1的核心技術(shù)亮點(diǎn)在于其對(duì)強(qiáng)化學(xué)習(xí)的深度依賴。與傳統(tǒng)的監(jiān)督微調(diào)（SFT）不同，DeepSeek-R1-Zero模型完全通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練，未經(jīng)過(guò)任何監(jiān)督微調(diào)預(yù)處理。這一訓(xùn)練方式證明了強(qiáng)化學(xué)習(xí)在提升模型推理能力方面的巨大潛力。即使在沒(méi)有大量標(biāo)注數(shù)據(jù)的情況下，模型依然能夠通過(guò)自我優(yōu)化實(shí)現(xiàn)性能提升。DeepSeek-R1進(jìn)一步優(yōu)化了這一路徑，通過(guò)在強(qiáng)化學(xué)習(xí)之前加入多階段訓(xùn)練，并使用少量冷啟動(dòng)數(shù)據(jù)，顯著提升了模型的推理能力和輸出可讀性。

模型的開(kāi)源與社區(qū)貢獻(xiàn)

DeepSeek團(tuán)隊(duì)開(kāi)源了DeepSeek-R1-Zero和DeepSeek-R1模型，以及基于Qwen和Llama提煉的6個(gè)模型版本，參數(shù)規(guī)模從1.5B到70B不等。這種開(kāi)源策略為研究社區(qū)提供了寶貴的資源，使得更多的研究者能夠探索和驗(yàn)證強(qiáng)化學(xué)習(xí)在AI模型中的應(yīng)用。開(kāi)源模型的推出也為AI技術(shù)的普及和進(jìn)一步發(fā)展奠定了基礎(chǔ)。

模型訓(xùn)練的技術(shù)細(xì)節(jié)

在訓(xùn)練過(guò)程中，DeepSeek-R1-Zero直接在基礎(chǔ)模型上應(yīng)用強(qiáng)化學(xué)習(xí)，無(wú)需任何監(jiān)督微調(diào)數(shù)據(jù)。這一訓(xùn)練方式的成功表明，強(qiáng)化學(xué)習(xí)算法能夠有效替代傳統(tǒng)的監(jiān)督微調(diào)。然而，DeepSeek-R1-Zero在早期冷啟動(dòng)階段存在一定的不穩(wěn)定性，例如推理內(nèi)容可讀性欠佳以及語(yǔ)言混雜等問(wèn)題。為了解決這些問(wèn)題，DeepSeek-R1在訓(xùn)練中引入了少量冷啟動(dòng)數(shù)據(jù)，并在強(qiáng)化學(xué)習(xí)訓(xùn)練中加入了語(yǔ)言一致性獎(jiǎng)勵(lì)，以提高輸出內(nèi)容的可讀性。

未來(lái)發(fā)展方向

DeepSeek團(tuán)隊(duì)計(jì)劃在多個(gè)方向上繼續(xù)優(yōu)化DeepSeek-R1。首先，團(tuán)隊(duì)將致力于提升模型的通用能力，特別是在函數(shù)調(diào)用、多輪對(duì)話、復(fù)雜角色扮演和JSON輸出等任務(wù)上。其次，團(tuán)隊(duì)計(jì)劃解決模型在處理多語(yǔ)言查詢時(shí)可能出現(xiàn)的語(yǔ)言混合問(wèn)題。此外，團(tuán)隊(duì)還將優(yōu)化提示詞工程，以減少少樣本提示詞對(duì)模型性能的影響。最后，團(tuán)隊(duì)希望通過(guò)改進(jìn)軟件工程任務(wù)的訓(xùn)練方式，提高模型在相關(guān)基準(zhǔn)測(cè)試中的表現(xiàn)。

行業(yè)影響與展望

DeepSeek-R1的推出對(duì)AI行業(yè)產(chǎn)生了深遠(yuǎn)的影響。一方面，它證明了強(qiáng)化學(xué)習(xí)在提升模型推理能力方面的有效性，為未來(lái)AI模型的訓(xùn)練提供了新的思路。另一方面，開(kāi)源策略使得更多的研究者能夠參與到這一領(lǐng)域的研究中，推動(dòng)AI技術(shù)的快速發(fā)展。隨著強(qiáng)化學(xué)習(xí)技術(shù)的不斷成熟，未來(lái)可能會(huì)有更多的AI模型采用類似的訓(xùn)練路徑，從而進(jìn)一步提升AI的性能和應(yīng)用范圍。

DeepSeek-R1的成功不僅在于其卓越的性能，更在于其為AI技術(shù)的未來(lái)發(fā)展提供了新的方向。強(qiáng)化學(xué)習(xí)技術(shù)的應(yīng)用為AI模型的訓(xùn)練帶來(lái)了新的可能性，而開(kāi)源策略則為研究社區(qū)提供了寶貴的資源。隨著技術(shù)的不斷進(jìn)步，AI將在更多領(lǐng)域展現(xiàn)出強(qiáng)大的能力，為人類社會(huì)的發(fā)展帶來(lái)更多的機(jī)遇和挑戰(zhàn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.