最近,國(guó)外一家 AI 初創(chuàng)公司 Mechanize 的三位創(chuàng)始人聯(lián)合撰文,提出一個(gè)大膽的判斷:RL 或許要迎來(lái)屬于它的 “GPT-3 時(shí)刻”,但還需要擁有相當(dāng)于數(shù)千至上萬(wàn)年“模型處理任務(wù)所用時(shí)間”的訓(xùn)練。
在他們看來(lái),當(dāng)前的 RL 模型還存在明顯短板,比如泛化能力差、難以適應(yīng)新任務(wù)等,這種局面其實(shí)很像 GPT-3 出現(xiàn)之前的語(yǔ)言模型——能解決特定問(wèn)題,但難以遷移和擴(kuò)展。
為了解決這個(gè)問(wèn)題,他們提出了一種新的訓(xùn)練范式,叫作“復(fù)制訓(xùn)練”(Replication Training):讓模型在虛擬環(huán)境中模擬真實(shí)軟件的操作過(guò)程,比如使用瀏覽器、編寫(xiě)代碼、處理命令行任務(wù)等等。
這種訓(xùn)練方式的好處在于任務(wù)目標(biāo)清晰、評(píng)分機(jī)制明確,同時(shí)還能大規(guī)模自動(dòng)生成訓(xùn)練數(shù)據(jù),非常適合用在 RL 模型的系統(tǒng)性訓(xùn)練中。當(dāng)然,它也不是萬(wàn)能的,比如在任務(wù)開(kāi)放性和測(cè)試設(shè)計(jì)方面還有一些挑戰(zhàn)。
但他們認(rèn)為,復(fù)制訓(xùn)練是一條能推動(dòng) RL 模型走向通用智能的重要路徑,有望帶來(lái)一次類似 GPT-3 那樣的能力躍遷。
綜上,雷峰網(wǎng) AI 科技評(píng)論對(duì)原文做了不改原意的整理與呈現(xiàn):
當(dāng) RL 遇上 GPT-3 式規(guī)模化
GPT-3 向我們展示了一個(gè)關(guān)鍵事實(shí):僅靠規(guī)模的提升,就能催生出強(qiáng)大、任務(wù)無(wú)關(guān)的 few-shot 能力,甚至在不少任務(wù)上超越了精心微調(diào)的模型。在此之前,想要在特定任務(wù)上取得最優(yōu)表現(xiàn),通常需要先用大規(guī)模通用語(yǔ)料進(jìn)行預(yù)訓(xùn)練,再針對(duì)目標(biāo)任務(wù)進(jìn)行微調(diào)。
今天的強(qiáng)化學(xué)習(xí)(RL)則還停留在 GPT-3 出現(xiàn)前的階段:我們依舊先預(yù)訓(xùn)練一個(gè)大型模型,然后在某些高度特化的環(huán)境中進(jìn)行繁瑣的任務(wù)級(jí)微調(diào)。但這一策略存在根本缺陷——泛化能力極弱。一旦模型面臨的環(huán)境略有變化,性能便迅速崩潰。
我們認(rèn)為,RL 也將迎來(lái)屬于它的 “GPT-3 時(shí)刻”。這意味著,訓(xùn)練方式將從在少數(shù)環(huán)境中微調(diào),轉(zhuǎn)向在成千上萬(wàn)種多樣化環(huán)境中進(jìn)行大規(guī)模訓(xùn)練,以培育出真正具備 few-shot 能力與任務(wù)無(wú)關(guān)泛化能力的智能體,能夠靈活應(yīng)對(duì)全新任務(wù)。
但要實(shí)現(xiàn)這一躍遷,前提是我們必須構(gòu)建出規(guī)模和多樣性遠(yuǎn)超當(dāng)前水平的訓(xùn)練環(huán)境——這是推動(dòng) RL 走向能力爆發(fā)的關(guān)鍵。
要實(shí)現(xiàn) GPT-3 級(jí)別的 RL 訓(xùn)練,需要多大的規(guī)模?
不過(guò),目前的 RL 數(shù)據(jù)集規(guī)模仍然相當(dāng)有限。
以 DeepSeek-R1 為例,其訓(xùn)練數(shù)據(jù)大約包含 60 萬(wàn)道數(shù)學(xué)題。假設(shè)每道題人類平均需要 5 分鐘完成,總體相當(dāng)于約 6 年的持續(xù)人工勞動(dòng)。而相比之下,GPT-3 所使用的 3000 億個(gè) token 語(yǔ)料,若按人類正常寫(xiě)作速度來(lái)計(jì)算,則需要幾十萬(wàn)年才能寫(xiě)完,數(shù)量級(jí)遠(yuǎn)不在一個(gè)水平。
另一方面,如果想讓 RL 的算力投入達(dá)到當(dāng)前最前沿預(yù)訓(xùn)練模型的水平,可能需要大約 1 萬(wàn)年的人類任務(wù)時(shí)間(即模型處理所需的時(shí)間,換算成人類完成同樣任務(wù)所需的時(shí)間)。DeepSeek-R1 在 RL 階段使用了大約 6E23 FLOP,對(duì)應(yīng)約 6 年的模型處理任務(wù)時(shí)間。如果后續(xù)訓(xùn)練保持與 DeepSeek-R1 相近的訓(xùn)練周期與分組規(guī)模,那么將訓(xùn)練規(guī)模提升到 6E26 FLOP 級(jí)別,大致對(duì)應(yīng)約 6000 年的模型處理任務(wù)的時(shí)間。
當(dāng)然,隨著任務(wù)多樣性的提高,未來(lái) RL 是否會(huì)采用更大或更小的批次規(guī)模,或增加訓(xùn)練輪數(shù),目前仍無(wú)法確定。由于缺乏相關(guān)經(jīng)驗(yàn)數(shù)據(jù),要精確評(píng)估所需的模型任務(wù)時(shí)間仍有一定難度,但 “1 萬(wàn)年” 可能是一個(gè)合理的估算級(jí)別。
為了便于理解,我們可以將這一訓(xùn)練規(guī)模與某些大型軟件工程項(xiàng)目進(jìn)行類比:無(wú)論是 Windows Server 2008、GTA V,還是 Red Hat Linux 7.1,它們都被估算耗費(fèi)了約 1 萬(wàn)年的人類勞動(dòng)。
值得一提的是,將 RL 訓(xùn)練擴(kuò)展到這一規(guī)模,從經(jīng)濟(jì)角度來(lái)看是可行的。由于算力支出在整體訓(xùn)練成本中占據(jù)主導(dǎo),將 RL 的訓(xùn)練預(yù)算提升至與語(yǔ)言模型預(yù)訓(xùn)練相當(dāng)?shù)乃剑型@著提升模型性能,而不會(huì)帶來(lái)成倍增長(zhǎng)的總成本。
而真正的挑戰(zhàn)在于:如何構(gòu)建足夠多樣且可自動(dòng)評(píng)估的 RL 環(huán)境。實(shí)現(xiàn)這一點(diǎn),或許需要我們徹底重新思考 RL 環(huán)境的設(shè)計(jì)與構(gòu)建方式。
復(fù)制訓(xùn)練或是解法?
想象一下,如果每次訓(xùn)練一個(gè)語(yǔ)言模型進(jìn)行下一個(gè)詞的預(yù)測(cè)(next-token prediction),都必須手動(dòng)編寫(xiě)整套訓(xùn)練語(yǔ)料庫(kù),那幾乎是不可能完成的任務(wù)。實(shí)際上,我們之所以能夠訓(xùn)練出強(qiáng)大的語(yǔ)言模型,正是因?yàn)榭梢灾苯永么罅楷F(xiàn)有內(nèi)容資源 —— 比如書(shū)籍、學(xué)術(shù)論文、博客文章,以及 Reddit 上的討論等,構(gòu)建出大規(guī)模、高質(zhì)量的訓(xùn)練數(shù)據(jù)。
類似地,我們認(rèn)為,強(qiáng)化學(xué)習(xí)也有望迎來(lái)自己的 GPT-3 時(shí)刻,而實(shí)現(xiàn)這一點(diǎn)的關(guān)鍵,很可能是一種被我們稱為“復(fù)制訓(xùn)練”(Replication Training)的新范式。
其核心思想是:讓 AI 模型去復(fù)現(xiàn)已有的軟件產(chǎn)品,或其中的某些具體功能。
起步階段可以從一些相對(duì)簡(jiǎn)單的命令行工具入手,比如實(shí)現(xiàn)某種哈希或加密算法的小程序——這些目標(biāo)清晰、結(jié)構(gòu)緊湊,適合訓(xùn)練初期使用。隨著模型能力的提升,復(fù)制訓(xùn)練的任務(wù)范圍也可以擴(kuò)展到更復(fù)雜的系統(tǒng),比如網(wǎng)頁(yè)應(yīng)用、專業(yè)軟件,甚至是大型游戲。雷峰網(wǎng)
每一個(gè)復(fù)制訓(xùn)練任務(wù),都會(huì)提供詳盡的功能規(guī)范和一個(gè)參考實(shí)現(xiàn)。AI 模型的任務(wù),就是生成一個(gè)行為上與參考實(shí)現(xiàn)完全一致的版本。這種方式的最大優(yōu)勢(shì)在于評(píng)估非常直接且客觀:模型的輸出要么與參考結(jié)果完全一致,要么就不一致。清晰的評(píng)分標(biāo)準(zhǔn)大大簡(jiǎn)化了訓(xùn)練過(guò)程中的評(píng)估機(jī)制,也提升了訓(xùn)練效率。
盡管“復(fù)制訓(xùn)練”任務(wù)在形式上可能與日常軟件開(kāi)發(fā)有所不同,但它們瞄準(zhǔn)的,正是當(dāng)前 AI 系統(tǒng)在工程能力上仍顯薄弱的一些關(guān)鍵環(huán)節(jié)。比如,要讓模型復(fù)現(xiàn)一個(gè)復(fù)雜算法(如一個(gè)包含上萬(wàn)行代碼的加解密命令行工具,并要求嚴(yán)格遵循詳細(xì)規(guī)范),就必須具備以下核心能力:
準(zhǔn)確閱讀并深入理解復(fù)雜的技術(shù)文檔;
嚴(yán)格按照規(guī)范執(zhí)行指令,避免邏輯或?qū)崿F(xiàn)上的任何偏差;
能夠識(shí)別并修復(fù)早期出現(xiàn)的錯(cuò)誤,具備可靠的問(wèn)題恢復(fù)能力;
在長(zhǎng)時(shí)間、高復(fù)雜度任務(wù)中保持穩(wěn)定輸出,就像人類工程師連續(xù)開(kāi)發(fā)數(shù)周一樣,成果質(zhì)量直接由正確性衡量;
面對(duì)困難具備足夠韌性,不輕易滿足于“差不多就行”的半成品。
這些能力的組合,是構(gòu)建可靠、高質(zhì)量 AI 工程系統(tǒng)的基礎(chǔ)。而“復(fù)制訓(xùn)練”的獨(dú)特價(jià)值就在于:通過(guò)高強(qiáng)度還原現(xiàn)實(shí)復(fù)雜系統(tǒng),為模型提供了系統(tǒng)性磨煉上述能力的路徑。這不僅補(bǔ)足了當(dāng)前 AI 系統(tǒng)的能力短板,也為通用型智能體的訓(xùn)練奠定了關(guān)鍵技術(shù)基石。
我們預(yù)測(cè),“復(fù)制訓(xùn)練”將成為 AI 訓(xùn)練的下一個(gè)核心范式。
這一判斷源于當(dāng)前 AI 發(fā)展的基本趨勢(shì):通過(guò)大量已有的人類創(chuàng)作數(shù)據(jù),自動(dòng)構(gòu)建出豐富的新任務(wù)。就像自然語(yǔ)言資源廣泛存在于互聯(lián)網(wǎng)上一樣,軟件本身也是一種高度結(jié)構(gòu)化且數(shù)量龐大的現(xiàn)成素材。復(fù)制訓(xùn)練正是基于這一前提,提供了一種可擴(kuò)展、自動(dòng)化的方式,能夠高效生成復(fù)雜任務(wù),推動(dòng)我們向具備端到端開(kāi)發(fā)能力的 AI 邁進(jìn)——即那些能夠獨(dú)立完成整個(gè)軟件項(xiàng)目的智能體。
當(dāng)然,這一方法也并非沒(méi)有挑戰(zhàn)。比如,如何編寫(xiě)既高效又覆蓋全面的測(cè)試,仍是一項(xiàng)不小的工程難題,往往需要大量人工投入。此外,從形式上看,復(fù)制訓(xùn)練也略顯“人工”——在日常軟件開(kāi)發(fā)中,完全照搬已有軟件的情況并不常見(jiàn),盡管它在軟件移植、遺留系統(tǒng)重構(gòu)、“潔凈室”重寫(xiě)等場(chǎng)景中確實(shí)存在。
盡管如此,我們?nèi)哉J(rèn)為復(fù)制訓(xùn)練提供了一條清晰且具可行性的路徑,能夠?qū)?RL 訓(xùn)練環(huán)境擴(kuò)展到支持泛化能力所需的海量規(guī)模。這種范式很可能成為 RL 實(shí)現(xiàn)“GPT-3 時(shí)刻”的關(guān)鍵——幫助模型積累成千上萬(wàn)年級(jí)別的任務(wù)經(jīng)驗(yàn),進(jìn)而具備穩(wěn)健、任務(wù)無(wú)關(guān)的泛化能力。
那么,復(fù)制訓(xùn)練是否就是實(shí)現(xiàn)“全自動(dòng)勞動(dòng)”的終極路徑?我們并不這么認(rèn)為。雖然它有望催生出能夠依據(jù)詳細(xì)設(shè)計(jì)說(shuō)明獨(dú)立完成復(fù)雜軟件項(xiàng)目的系統(tǒng),但這類系統(tǒng)仍可能缺乏人類所具備的開(kāi)放性、靈活性,以及在跨領(lǐng)域場(chǎng)景中進(jìn)行抽象規(guī)劃和高階管理的能力。即便未來(lái) AI 成為頂級(jí)程序員,它們也未必能勝任更廣泛意義上的決策與協(xié)調(diào)任務(wù)。
不過(guò),我們相信復(fù)制訓(xùn)練仍有可能成為通往下一個(gè)訓(xùn)練范式的關(guān)鍵“橋梁”——正如在復(fù)制訓(xùn)練之前,我們也需要經(jīng)歷預(yù)訓(xùn)練這一階段一樣。我們對(duì)這一新范式的潛力與前景,充滿期待
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.