網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

最新 AGI 暴論：強(qiáng)化學(xué)習(xí)的「GPT-3 時(shí)刻」實(shí)現(xiàn)，還需要 1 萬(wàn)年？

2025-07-14 17:11:20　來(lái)源: 雷峰網(wǎng)

北京舉報(bào)

分享至

最近，國(guó)外一家 AI 初創(chuàng)公司 Mechanize 的三位創(chuàng)始人聯(lián)合撰文，提出一個(gè)大膽的判斷：RL 或許要迎來(lái)屬于它的 “GPT-3 時(shí)刻”，但還需要擁有相當(dāng)于數(shù)千至上萬(wàn)年“模型處理任務(wù)所用時(shí)間”的訓(xùn)練。

在他們看來(lái)，當(dāng)前的 RL 模型還存在明顯短板，比如泛化能力差、難以適應(yīng)新任務(wù)等，這種局面其實(shí)很像 GPT-3 出現(xiàn)之前的語(yǔ)言模型——能解決特定問(wèn)題，但難以遷移和擴(kuò)展。

為了解決這個(gè)問(wèn)題，他們提出了一種新的訓(xùn)練范式，叫作“復(fù)制訓(xùn)練”（Replication Training）：讓模型在虛擬環(huán)境中模擬真實(shí)軟件的操作過(guò)程，比如使用瀏覽器、編寫(xiě)代碼、處理命令行任務(wù)等等。

這種訓(xùn)練方式的好處在于任務(wù)目標(biāo)清晰、評(píng)分機(jī)制明確，同時(shí)還能大規(guī)模自動(dòng)生成訓(xùn)練數(shù)據(jù)，非常適合用在 RL 模型的系統(tǒng)性訓(xùn)練中。當(dāng)然，它也不是萬(wàn)能的，比如在任務(wù)開(kāi)放性和測(cè)試設(shè)計(jì)方面還有一些挑戰(zhàn)。

但他們認(rèn)為，復(fù)制訓(xùn)練是一條能推動(dòng) RL 模型走向通用智能的重要路徑，有望帶來(lái)一次類似 GPT-3 那樣的能力躍遷。

綜上，雷峰網(wǎng) AI 科技評(píng)論對(duì)原文做了不改原意的整理與呈現(xiàn)：

當(dāng) RL 遇上 GPT-3 式規(guī)模化

GPT-3 向我們展示了一個(gè)關(guān)鍵事實(shí)：僅靠規(guī)模的提升，就能催生出強(qiáng)大、任務(wù)無(wú)關(guān)的 few-shot 能力，甚至在不少任務(wù)上超越了精心微調(diào)的模型。在此之前，想要在特定任務(wù)上取得最優(yōu)表現(xiàn)，通常需要先用大規(guī)模通用語(yǔ)料進(jìn)行預(yù)訓(xùn)練，再針對(duì)目標(biāo)任務(wù)進(jìn)行微調(diào)。

今天的強(qiáng)化學(xué)習(xí)（RL）則還停留在 GPT-3 出現(xiàn)前的階段：我們依舊先預(yù)訓(xùn)練一個(gè)大型模型，然后在某些高度特化的環(huán)境中進(jìn)行繁瑣的任務(wù)級(jí)微調(diào)。但這一策略存在根本缺陷——泛化能力極弱。一旦模型面臨的環(huán)境略有變化，性能便迅速崩潰。

我們認(rèn)為，RL 也將迎來(lái)屬于它的 “GPT-3 時(shí)刻”。這意味著，訓(xùn)練方式將從在少數(shù)環(huán)境中微調(diào)，轉(zhuǎn)向在成千上萬(wàn)種多樣化環(huán)境中進(jìn)行大規(guī)模訓(xùn)練，以培育出真正具備 few-shot 能力與任務(wù)無(wú)關(guān)泛化能力的智能體，能夠靈活應(yīng)對(duì)全新任務(wù)。

但要實(shí)現(xiàn)這一躍遷，前提是我們必須構(gòu)建出規(guī)模和多樣性遠(yuǎn)超當(dāng)前水平的訓(xùn)練環(huán)境——這是推動(dòng) RL 走向能力爆發(fā)的關(guān)鍵。

要實(shí)現(xiàn) GPT-3 級(jí)別的 RL 訓(xùn)練，需要多大的規(guī)模？

不過(guò)，目前的 RL 數(shù)據(jù)集規(guī)模仍然相當(dāng)有限。

以 DeepSeek-R1 為例，其訓(xùn)練數(shù)據(jù)大約包含 60 萬(wàn)道數(shù)學(xué)題。假設(shè)每道題人類平均需要 5 分鐘完成，總體相當(dāng)于約 6 年的持續(xù)人工勞動(dòng)。而相比之下，GPT-3 所使用的 3000 億個(gè) token 語(yǔ)料，若按人類正常寫(xiě)作速度來(lái)計(jì)算，則需要幾十萬(wàn)年才能寫(xiě)完，數(shù)量級(jí)遠(yuǎn)不在一個(gè)水平。

另一方面，如果想讓 RL 的算力投入達(dá)到當(dāng)前最前沿預(yù)訓(xùn)練模型的水平，可能需要大約 1 萬(wàn)年的人類任務(wù)時(shí)間（即模型處理所需的時(shí)間，換算成人類完成同樣任務(wù)所需的時(shí)間）。DeepSeek-R1 在 RL 階段使用了大約 6E23 FLOP，對(duì)應(yīng)約 6 年的模型處理任務(wù)時(shí)間。如果后續(xù)訓(xùn)練保持與 DeepSeek-R1 相近的訓(xùn)練周期與分組規(guī)模，那么將訓(xùn)練規(guī)模提升到 6E26 FLOP 級(jí)別，大致對(duì)應(yīng)約 6000 年的模型處理任務(wù)的時(shí)間。

當(dāng)然，隨著任務(wù)多樣性的提高，未來(lái) RL 是否會(huì)采用更大或更小的批次規(guī)模，或增加訓(xùn)練輪數(shù)，目前仍無(wú)法確定。由于缺乏相關(guān)經(jīng)驗(yàn)數(shù)據(jù)，要精確評(píng)估所需的模型任務(wù)時(shí)間仍有一定難度，但 “1 萬(wàn)年” 可能是一個(gè)合理的估算級(jí)別。

為了便于理解，我們可以將這一訓(xùn)練規(guī)模與某些大型軟件工程項(xiàng)目進(jìn)行類比：無(wú)論是 Windows Server 2008、GTA V，還是 Red Hat Linux 7.1，它們都被估算耗費(fèi)了約 1 萬(wàn)年的人類勞動(dòng)。

值得一提的是，將 RL 訓(xùn)練擴(kuò)展到這一規(guī)模，從經(jīng)濟(jì)角度來(lái)看是可行的。由于算力支出在整體訓(xùn)練成本中占據(jù)主導(dǎo)，將 RL 的訓(xùn)練預(yù)算提升至與語(yǔ)言模型預(yù)訓(xùn)練相當(dāng)?shù)乃剑型@著提升模型性能，而不會(huì)帶來(lái)成倍增長(zhǎng)的總成本。

而真正的挑戰(zhàn)在于：如何構(gòu)建足夠多樣且可自動(dòng)評(píng)估的 RL 環(huán)境。實(shí)現(xiàn)這一點(diǎn)，或許需要我們徹底重新思考 RL 環(huán)境的設(shè)計(jì)與構(gòu)建方式。

復(fù)制訓(xùn)練或是解法？

想象一下，如果每次訓(xùn)練一個(gè)語(yǔ)言模型進(jìn)行下一個(gè)詞的預(yù)測(cè)（next-token prediction），都必須手動(dòng)編寫(xiě)整套訓(xùn)練語(yǔ)料庫(kù)，那幾乎是不可能完成的任務(wù)。實(shí)際上，我們之所以能夠訓(xùn)練出強(qiáng)大的語(yǔ)言模型，正是因?yàn)榭梢灾苯永么罅楷F(xiàn)有內(nèi)容資源 —— 比如書(shū)籍、學(xué)術(shù)論文、博客文章，以及 Reddit 上的討論等，構(gòu)建出大規(guī)模、高質(zhì)量的訓(xùn)練數(shù)據(jù)。

類似地，我們認(rèn)為，強(qiáng)化學(xué)習(xí)也有望迎來(lái)自己的 GPT-3 時(shí)刻，而實(shí)現(xiàn)這一點(diǎn)的關(guān)鍵，很可能是一種被我們稱為“復(fù)制訓(xùn)練”（Replication Training）的新范式。

其核心思想是：讓 AI 模型去復(fù)現(xiàn)已有的軟件產(chǎn)品，或其中的某些具體功能。

起步階段可以從一些相對(duì)簡(jiǎn)單的命令行工具入手，比如實(shí)現(xiàn)某種哈希或加密算法的小程序——這些目標(biāo)清晰、結(jié)構(gòu)緊湊，適合訓(xùn)練初期使用。隨著模型能力的提升，復(fù)制訓(xùn)練的任務(wù)范圍也可以擴(kuò)展到更復(fù)雜的系統(tǒng)，比如網(wǎng)頁(yè)應(yīng)用、專業(yè)軟件，甚至是大型游戲。雷峰網(wǎng)

每一個(gè)復(fù)制訓(xùn)練任務(wù)，都會(huì)提供詳盡的功能規(guī)范和一個(gè)參考實(shí)現(xiàn)。AI 模型的任務(wù)，就是生成一個(gè)行為上與參考實(shí)現(xiàn)完全一致的版本。這種方式的最大優(yōu)勢(shì)在于評(píng)估非常直接且客觀：模型的輸出要么與參考結(jié)果完全一致，要么就不一致。清晰的評(píng)分標(biāo)準(zhǔn)大大簡(jiǎn)化了訓(xùn)練過(guò)程中的評(píng)估機(jī)制，也提升了訓(xùn)練效率。

盡管“復(fù)制訓(xùn)練”任務(wù)在形式上可能與日常軟件開(kāi)發(fā)有所不同，但它們瞄準(zhǔn)的，正是當(dāng)前 AI 系統(tǒng)在工程能力上仍顯薄弱的一些關(guān)鍵環(huán)節(jié)。比如，要讓模型復(fù)現(xiàn)一個(gè)復(fù)雜算法（如一個(gè)包含上萬(wàn)行代碼的加解密命令行工具，并要求嚴(yán)格遵循詳細(xì)規(guī)范），就必須具備以下核心能力：

準(zhǔn)確閱讀并深入理解復(fù)雜的技術(shù)文檔；

嚴(yán)格按照規(guī)范執(zhí)行指令，避免邏輯或?qū)崿F(xiàn)上的任何偏差；

能夠識(shí)別并修復(fù)早期出現(xiàn)的錯(cuò)誤，具備可靠的問(wèn)題恢復(fù)能力；

在長(zhǎng)時(shí)間、高復(fù)雜度任務(wù)中保持穩(wěn)定輸出，就像人類工程師連續(xù)開(kāi)發(fā)數(shù)周一樣，成果質(zhì)量直接由正確性衡量；

面對(duì)困難具備足夠韌性，不輕易滿足于“差不多就行”的半成品。

這些能力的組合，是構(gòu)建可靠、高質(zhì)量 AI 工程系統(tǒng)的基礎(chǔ)。而“復(fù)制訓(xùn)練”的獨(dú)特價(jià)值就在于：通過(guò)高強(qiáng)度還原現(xiàn)實(shí)復(fù)雜系統(tǒng)，為模型提供了系統(tǒng)性磨煉上述能力的路徑。這不僅補(bǔ)足了當(dāng)前 AI 系統(tǒng)的能力短板，也為通用型智能體的訓(xùn)練奠定了關(guān)鍵技術(shù)基石。

我們預(yù)測(cè)，“復(fù)制訓(xùn)練”將成為 AI 訓(xùn)練的下一個(gè)核心范式。

這一判斷源于當(dāng)前 AI 發(fā)展的基本趨勢(shì)：通過(guò)大量已有的人類創(chuàng)作數(shù)據(jù)，自動(dòng)構(gòu)建出豐富的新任務(wù)。就像自然語(yǔ)言資源廣泛存在于互聯(lián)網(wǎng)上一樣，軟件本身也是一種高度結(jié)構(gòu)化且數(shù)量龐大的現(xiàn)成素材。復(fù)制訓(xùn)練正是基于這一前提，提供了一種可擴(kuò)展、自動(dòng)化的方式，能夠高效生成復(fù)雜任務(wù)，推動(dòng)我們向具備端到端開(kāi)發(fā)能力的 AI 邁進(jìn)——即那些能夠獨(dú)立完成整個(gè)軟件項(xiàng)目的智能體。

當(dāng)然，這一方法也并非沒(méi)有挑戰(zhàn)。比如，如何編寫(xiě)既高效又覆蓋全面的測(cè)試，仍是一項(xiàng)不小的工程難題，往往需要大量人工投入。此外，從形式上看，復(fù)制訓(xùn)練也略顯“人工”——在日常軟件開(kāi)發(fā)中，完全照搬已有軟件的情況并不常見(jiàn)，盡管它在軟件移植、遺留系統(tǒng)重構(gòu)、“潔凈室”重寫(xiě)等場(chǎng)景中確實(shí)存在。

盡管如此，我們?nèi)哉J(rèn)為復(fù)制訓(xùn)練提供了一條清晰且具可行性的路徑，能夠?qū)?RL 訓(xùn)練環(huán)境擴(kuò)展到支持泛化能力所需的海量規(guī)模。這種范式很可能成為 RL 實(shí)現(xiàn)“GPT-3 時(shí)刻”的關(guān)鍵——幫助模型積累成千上萬(wàn)年級(jí)別的任務(wù)經(jīng)驗(yàn)，進(jìn)而具備穩(wěn)健、任務(wù)無(wú)關(guān)的泛化能力。

那么，復(fù)制訓(xùn)練是否就是實(shí)現(xiàn)“全自動(dòng)勞動(dòng)”的終極路徑？我們并不這么認(rèn)為。雖然它有望催生出能夠依據(jù)詳細(xì)設(shè)計(jì)說(shuō)明獨(dú)立完成復(fù)雜軟件項(xiàng)目的系統(tǒng)，但這類系統(tǒng)仍可能缺乏人類所具備的開(kāi)放性、靈活性，以及在跨領(lǐng)域場(chǎng)景中進(jìn)行抽象規(guī)劃和高階管理的能力。即便未來(lái) AI 成為頂級(jí)程序員，它們也未必能勝任更廣泛意義上的決策與協(xié)調(diào)任務(wù)。

不過(guò)，我們相信復(fù)制訓(xùn)練仍有可能成為通往下一個(gè)訓(xùn)練范式的關(guān)鍵“橋梁”——正如在復(fù)制訓(xùn)練之前，我們也需要經(jīng)歷預(yù)訓(xùn)練這一階段一樣。我們對(duì)這一新范式的潛力與前景，充滿期待

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.