99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

最新 AGI 暴論:強(qiáng)化學(xué)習(xí)的「GPT-3 時(shí)刻」實(shí)現(xiàn),還需要 1 萬(wàn)年?

0
分享至

最近,國(guó)外一家 AI 初創(chuàng)公司 Mechanize 的三位創(chuàng)始人聯(lián)合撰文,提出一個(gè)大膽的判斷:RL 或許要迎來(lái)屬于它的 “GPT-3 時(shí)刻”,但還需要擁有相當(dāng)于數(shù)千至上萬(wàn)年“模型處理任務(wù)所用時(shí)間”的訓(xùn)練。

在他們看來(lái),當(dāng)前的 RL 模型還存在明顯短板,比如泛化能力差、難以適應(yīng)新任務(wù)等,這種局面其實(shí)很像 GPT-3 出現(xiàn)之前的語(yǔ)言模型——能解決特定問(wèn)題,但難以遷移和擴(kuò)展。

為了解決這個(gè)問(wèn)題,他們提出了一種新的訓(xùn)練范式,叫作“復(fù)制訓(xùn)練”(Replication Training):讓模型在虛擬環(huán)境中模擬真實(shí)軟件的操作過(guò)程,比如使用瀏覽器、編寫(xiě)代碼、處理命令行任務(wù)等等。

這種訓(xùn)練方式的好處在于任務(wù)目標(biāo)清晰、評(píng)分機(jī)制明確,同時(shí)還能大規(guī)模自動(dòng)生成訓(xùn)練數(shù)據(jù),非常適合用在 RL 模型的系統(tǒng)性訓(xùn)練中。當(dāng)然,它也不是萬(wàn)能的,比如在任務(wù)開(kāi)放性和測(cè)試設(shè)計(jì)方面還有一些挑戰(zhàn)。

但他們認(rèn)為,復(fù)制訓(xùn)練是一條能推動(dòng) RL 模型走向通用智能的重要路徑,有望帶來(lái)一次類似 GPT-3 那樣的能力躍遷。

綜上,雷峰網(wǎng) AI 科技評(píng)論對(duì)原文做了不改原意的整理與呈現(xiàn):

當(dāng) RL 遇上 GPT-3 式規(guī)模化

GPT-3 向我們展示了一個(gè)關(guān)鍵事實(shí):僅靠規(guī)模的提升,就能催生出強(qiáng)大、任務(wù)無(wú)關(guān)的 few-shot 能力,甚至在不少任務(wù)上超越了精心微調(diào)的模型。在此之前,想要在特定任務(wù)上取得最優(yōu)表現(xiàn),通常需要先用大規(guī)模通用語(yǔ)料進(jìn)行預(yù)訓(xùn)練,再針對(duì)目標(biāo)任務(wù)進(jìn)行微調(diào)。

今天的強(qiáng)化學(xué)習(xí)(RL)則還停留在 GPT-3 出現(xiàn)前的階段:我們依舊先預(yù)訓(xùn)練一個(gè)大型模型,然后在某些高度特化的環(huán)境中進(jìn)行繁瑣的任務(wù)級(jí)微調(diào)。但這一策略存在根本缺陷——泛化能力極弱。一旦模型面臨的環(huán)境略有變化,性能便迅速崩潰。


我們認(rèn)為,RL 也將迎來(lái)屬于它的 “GPT-3 時(shí)刻”。這意味著,訓(xùn)練方式將從在少數(shù)環(huán)境中微調(diào),轉(zhuǎn)向在成千上萬(wàn)種多樣化環(huán)境中進(jìn)行大規(guī)模訓(xùn)練,以培育出真正具備 few-shot 能力與任務(wù)無(wú)關(guān)泛化能力的智能體,能夠靈活應(yīng)對(duì)全新任務(wù)。

但要實(shí)現(xiàn)這一躍遷,前提是我們必須構(gòu)建出規(guī)模和多樣性遠(yuǎn)超當(dāng)前水平的訓(xùn)練環(huán)境——這是推動(dòng) RL 走向能力爆發(fā)的關(guān)鍵。

要實(shí)現(xiàn) GPT-3 級(jí)別的 RL 訓(xùn)練,需要多大的規(guī)模?

不過(guò),目前的 RL 數(shù)據(jù)集規(guī)模仍然相當(dāng)有限。

以 DeepSeek-R1 為例,其訓(xùn)練數(shù)據(jù)大約包含 60 萬(wàn)道數(shù)學(xué)題。假設(shè)每道題人類平均需要 5 分鐘完成,總體相當(dāng)于約 6 年的持續(xù)人工勞動(dòng)。而相比之下,GPT-3 所使用的 3000 億個(gè) token 語(yǔ)料,若按人類正常寫(xiě)作速度來(lái)計(jì)算,則需要幾十萬(wàn)年才能寫(xiě)完,數(shù)量級(jí)遠(yuǎn)不在一個(gè)水平。

另一方面,如果想讓 RL 的算力投入達(dá)到當(dāng)前最前沿預(yù)訓(xùn)練模型的水平,可能需要大約 1 萬(wàn)年的人類任務(wù)時(shí)間(即模型處理所需的時(shí)間,換算成人類完成同樣任務(wù)所需的時(shí)間)。DeepSeek-R1 在 RL 階段使用了大約 6E23 FLOP,對(duì)應(yīng)約 6 年的模型處理任務(wù)時(shí)間。如果后續(xù)訓(xùn)練保持與 DeepSeek-R1 相近的訓(xùn)練周期與分組規(guī)模,那么將訓(xùn)練規(guī)模提升到 6E26 FLOP 級(jí)別,大致對(duì)應(yīng)約 6000 年的模型處理任務(wù)的時(shí)間。

當(dāng)然,隨著任務(wù)多樣性的提高,未來(lái) RL 是否會(huì)采用更大或更小的批次規(guī)模,或增加訓(xùn)練輪數(shù),目前仍無(wú)法確定。由于缺乏相關(guān)經(jīng)驗(yàn)數(shù)據(jù),要精確評(píng)估所需的模型任務(wù)時(shí)間仍有一定難度,但 “1 萬(wàn)年” 可能是一個(gè)合理的估算級(jí)別。

為了便于理解,我們可以將這一訓(xùn)練規(guī)模與某些大型軟件工程項(xiàng)目進(jìn)行類比:無(wú)論是 Windows Server 2008、GTA V,還是 Red Hat Linux 7.1,它們都被估算耗費(fèi)了約 1 萬(wàn)年的人類勞動(dòng)。

值得一提的是,將 RL 訓(xùn)練擴(kuò)展到這一規(guī)模,從經(jīng)濟(jì)角度來(lái)看是可行的。由于算力支出在整體訓(xùn)練成本中占據(jù)主導(dǎo),將 RL 的訓(xùn)練預(yù)算提升至與語(yǔ)言模型預(yù)訓(xùn)練相當(dāng)?shù)乃剑型@著提升模型性能,而不會(huì)帶來(lái)成倍增長(zhǎng)的總成本。

而真正的挑戰(zhàn)在于:如何構(gòu)建足夠多樣且可自動(dòng)評(píng)估的 RL 環(huán)境。實(shí)現(xiàn)這一點(diǎn),或許需要我們徹底重新思考 RL 環(huán)境的設(shè)計(jì)與構(gòu)建方式。

復(fù)制訓(xùn)練或是解法?

想象一下,如果每次訓(xùn)練一個(gè)語(yǔ)言模型進(jìn)行下一個(gè)詞的預(yù)測(cè)(next-token prediction),都必須手動(dòng)編寫(xiě)整套訓(xùn)練語(yǔ)料庫(kù),那幾乎是不可能完成的任務(wù)。實(shí)際上,我們之所以能夠訓(xùn)練出強(qiáng)大的語(yǔ)言模型,正是因?yàn)榭梢灾苯永么罅楷F(xiàn)有內(nèi)容資源 —— 比如書(shū)籍、學(xué)術(shù)論文、博客文章,以及 Reddit 上的討論等,構(gòu)建出大規(guī)模、高質(zhì)量的訓(xùn)練數(shù)據(jù)。

類似地,我們認(rèn)為,強(qiáng)化學(xué)習(xí)也有望迎來(lái)自己的 GPT-3 時(shí)刻,而實(shí)現(xiàn)這一點(diǎn)的關(guān)鍵,很可能是一種被我們稱為“復(fù)制訓(xùn)練”(Replication Training)的新范式。

其核心思想是:讓 AI 模型去復(fù)現(xiàn)已有的軟件產(chǎn)品,或其中的某些具體功能。

起步階段可以從一些相對(duì)簡(jiǎn)單的命令行工具入手,比如實(shí)現(xiàn)某種哈希或加密算法的小程序——這些目標(biāo)清晰、結(jié)構(gòu)緊湊,適合訓(xùn)練初期使用。隨著模型能力的提升,復(fù)制訓(xùn)練的任務(wù)范圍也可以擴(kuò)展到更復(fù)雜的系統(tǒng),比如網(wǎng)頁(yè)應(yīng)用、專業(yè)軟件,甚至是大型游戲。雷峰網(wǎng)

每一個(gè)復(fù)制訓(xùn)練任務(wù),都會(huì)提供詳盡的功能規(guī)范和一個(gè)參考實(shí)現(xiàn)。AI 模型的任務(wù),就是生成一個(gè)行為上與參考實(shí)現(xiàn)完全一致的版本。這種方式的最大優(yōu)勢(shì)在于評(píng)估非常直接且客觀:模型的輸出要么與參考結(jié)果完全一致,要么就不一致。清晰的評(píng)分標(biāo)準(zhǔn)大大簡(jiǎn)化了訓(xùn)練過(guò)程中的評(píng)估機(jī)制,也提升了訓(xùn)練效率。

盡管“復(fù)制訓(xùn)練”任務(wù)在形式上可能與日常軟件開(kāi)發(fā)有所不同,但它們瞄準(zhǔn)的,正是當(dāng)前 AI 系統(tǒng)在工程能力上仍顯薄弱的一些關(guān)鍵環(huán)節(jié)。比如,要讓模型復(fù)現(xiàn)一個(gè)復(fù)雜算法(如一個(gè)包含上萬(wàn)行代碼的加解密命令行工具,并要求嚴(yán)格遵循詳細(xì)規(guī)范),就必須具備以下核心能力:

準(zhǔn)確閱讀并深入理解復(fù)雜的技術(shù)文檔;

嚴(yán)格按照規(guī)范執(zhí)行指令,避免邏輯或?qū)崿F(xiàn)上的任何偏差;

能夠識(shí)別并修復(fù)早期出現(xiàn)的錯(cuò)誤,具備可靠的問(wèn)題恢復(fù)能力;

在長(zhǎng)時(shí)間、高復(fù)雜度任務(wù)中保持穩(wěn)定輸出,就像人類工程師連續(xù)開(kāi)發(fā)數(shù)周一樣,成果質(zhì)量直接由正確性衡量;

面對(duì)困難具備足夠韌性,不輕易滿足于“差不多就行”的半成品。

這些能力的組合,是構(gòu)建可靠、高質(zhì)量 AI 工程系統(tǒng)的基礎(chǔ)。而“復(fù)制訓(xùn)練”的獨(dú)特價(jià)值就在于:通過(guò)高強(qiáng)度還原現(xiàn)實(shí)復(fù)雜系統(tǒng),為模型提供了系統(tǒng)性磨煉上述能力的路徑。這不僅補(bǔ)足了當(dāng)前 AI 系統(tǒng)的能力短板,也為通用型智能體的訓(xùn)練奠定了關(guān)鍵技術(shù)基石。

我們預(yù)測(cè),“復(fù)制訓(xùn)練”將成為 AI 訓(xùn)練的下一個(gè)核心范式。

這一判斷源于當(dāng)前 AI 發(fā)展的基本趨勢(shì):通過(guò)大量已有的人類創(chuàng)作數(shù)據(jù),自動(dòng)構(gòu)建出豐富的新任務(wù)。就像自然語(yǔ)言資源廣泛存在于互聯(lián)網(wǎng)上一樣,軟件本身也是一種高度結(jié)構(gòu)化且數(shù)量龐大的現(xiàn)成素材。復(fù)制訓(xùn)練正是基于這一前提,提供了一種可擴(kuò)展、自動(dòng)化的方式,能夠高效生成復(fù)雜任務(wù),推動(dòng)我們向具備端到端開(kāi)發(fā)能力的 AI 邁進(jìn)——即那些能夠獨(dú)立完成整個(gè)軟件項(xiàng)目的智能體。

當(dāng)然,這一方法也并非沒(méi)有挑戰(zhàn)。比如,如何編寫(xiě)既高效又覆蓋全面的測(cè)試,仍是一項(xiàng)不小的工程難題,往往需要大量人工投入。此外,從形式上看,復(fù)制訓(xùn)練也略顯“人工”——在日常軟件開(kāi)發(fā)中,完全照搬已有軟件的情況并不常見(jiàn),盡管它在軟件移植、遺留系統(tǒng)重構(gòu)、“潔凈室”重寫(xiě)等場(chǎng)景中確實(shí)存在。

盡管如此,我們?nèi)哉J(rèn)為復(fù)制訓(xùn)練提供了一條清晰且具可行性的路徑,能夠?qū)?RL 訓(xùn)練環(huán)境擴(kuò)展到支持泛化能力所需的海量規(guī)模。這種范式很可能成為 RL 實(shí)現(xiàn)“GPT-3 時(shí)刻”的關(guān)鍵——幫助模型積累成千上萬(wàn)年級(jí)別的任務(wù)經(jīng)驗(yàn),進(jìn)而具備穩(wěn)健、任務(wù)無(wú)關(guān)的泛化能力。

那么,復(fù)制訓(xùn)練是否就是實(shí)現(xiàn)“全自動(dòng)勞動(dòng)”的終極路徑?我們并不這么認(rèn)為。雖然它有望催生出能夠依據(jù)詳細(xì)設(shè)計(jì)說(shuō)明獨(dú)立完成復(fù)雜軟件項(xiàng)目的系統(tǒng),但這類系統(tǒng)仍可能缺乏人類所具備的開(kāi)放性、靈活性,以及在跨領(lǐng)域場(chǎng)景中進(jìn)行抽象規(guī)劃和高階管理的能力。即便未來(lái) AI 成為頂級(jí)程序員,它們也未必能勝任更廣泛意義上的決策與協(xié)調(diào)任務(wù)。

不過(guò),我們相信復(fù)制訓(xùn)練仍有可能成為通往下一個(gè)訓(xùn)練范式的關(guān)鍵“橋梁”——正如在復(fù)制訓(xùn)練之前,我們也需要經(jīng)歷預(yù)訓(xùn)練這一階段一樣。我們對(duì)這一新范式的潛力與前景,充滿期待

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中美德盾構(gòu)機(jī)差距多大:日本每小時(shí)3.6米,德國(guó)6米,中國(guó)是多少?

中美德盾構(gòu)機(jī)差距多大:日本每小時(shí)3.6米,德國(guó)6米,中國(guó)是多少?

陣匠
2025-04-24 05:44:14
不明數(shù)量美戰(zhàn)機(jī)赴韓,俄方承諾保朝,中方:若半島生戰(zhàn)將別無(wú)選擇

不明數(shù)量美戰(zhàn)機(jī)赴韓,俄方承諾保朝,中方:若半島生戰(zhàn)將別無(wú)選擇

近史博覽
2025-07-15 16:27:53
曝杜建英與前夫有一兒子,婚內(nèi)出軌宗慶后,知三當(dāng)三,擠走原配

曝杜建英與前夫有一兒子,婚內(nèi)出軌宗慶后,知三當(dāng)三,擠走原配

180視角
2025-07-14 18:31:00
美論壇:如果美國(guó)向中國(guó)發(fā)射200枚核彈,中國(guó)有能力進(jìn)行反擊嗎?

美論壇:如果美國(guó)向中國(guó)發(fā)射200枚核彈,中國(guó)有能力進(jìn)行反擊嗎?

青煙小先生
2025-07-14 19:17:53
古怪的一野:打到最后彭總都怕鎮(zhèn)不住,十萬(wàn)大軍幾乎成了“川軍”

古怪的一野:打到最后彭總都怕鎮(zhèn)不住,十萬(wàn)大軍幾乎成了“川軍”

史料布籍
2025-07-14 11:24:22
TOP15位身高170以上的女神,演技、身材、顏值綜合榜

TOP15位身高170以上的女神,演技、身材、顏值綜合榜

吃瓜黨二號(hào)頭目
2025-06-15 10:02:35
46歲章子怡官宣喜訊!離婚不到2年,已是汪峰“高攀不起”的存在

46歲章子怡官宣喜訊!離婚不到2年,已是汪峰“高攀不起”的存在

冷紫葉
2025-07-15 22:27:30
俄方準(zhǔn)備發(fā)起總攻?大量炮彈就位,美國(guó)官員稱:中印好日子到頭了

俄方準(zhǔn)備發(fā)起總攻?大量炮彈就位,美國(guó)官員稱:中印好日子到頭了

林子說(shuō)事
2025-07-15 07:20:18
毀了王治郅,逼姚明退役,他憑一己之力讓中國(guó)籃球倒退了二十年!

毀了王治郅,逼姚明退役,他憑一己之力讓中國(guó)籃球倒退了二十年!

啟娛說(shuō)
2025-07-07 16:54:03
太子一出來(lái),長(zhǎng)公主還能活么?

太子一出來(lái),長(zhǎng)公主還能活么?

記憶承載
2025-07-14 21:44:02
03年,江西一維修廠燉狗肉,看門狗搶吃一口,結(jié)果拯救全廠人生命

03年,江西一維修廠燉狗肉,看門狗搶吃一口,結(jié)果拯救全廠人生命

坦然風(fēng)云
2025-07-06 21:53:40
30國(guó)將派兵基輔,局勢(shì)變成3對(duì)30,普京終于想通了,派人來(lái)京交底

30國(guó)將派兵基輔,局勢(shì)變成3對(duì)30,普京終于想通了,派人來(lái)京交底

青途歷史
2025-07-15 14:41:35
富時(shí)中國(guó)A50指數(shù)期貨盤中跌超1%

富時(shí)中國(guó)A50指數(shù)期貨盤中跌超1%

每日經(jīng)濟(jì)新聞
2025-07-15 11:33:08
看了日本第一季度1054萬(wàn)外國(guó)游客,再看我國(guó)接待量,令人倒吸涼氣

看了日本第一季度1054萬(wàn)外國(guó)游客,再看我國(guó)接待量,令人倒吸涼氣

面包夾知識(shí)
2025-06-08 21:22:05
一個(gè)被窩睡不出兩種人!演唱會(huì)擺爛的鄭伊健,和蒙嘉慧是一類人

一個(gè)被窩睡不出兩種人!演唱會(huì)擺爛的鄭伊健,和蒙嘉慧是一類人

白面書(shū)誏
2025-07-12 14:56:18
三名“私生子”已申請(qǐng)鑒定,宗馥莉一句話表明態(tài)度,恐怕是一場(chǎng)空

三名“私生子”已申請(qǐng)鑒定,宗馥莉一句話表明態(tài)度,恐怕是一場(chǎng)空

泠泠說(shuō)史
2025-07-15 17:24:08
港媒爆料趙雅芝日子挺苦的,被3個(gè)兒子長(zhǎng)期啃老,71歲還不能老!

港媒爆料趙雅芝日子挺苦的,被3個(gè)兒子長(zhǎng)期啃老,71歲還不能老!

木子愛(ài)娛樂(lè)大號(hào)
2025-07-05 09:37:33
霍思燕現(xiàn)身廊坊,45歲臉上一點(diǎn)醫(yī)美痕跡都沒(méi)有,靈氣感女人味十足

霍思燕現(xiàn)身廊坊,45歲臉上一點(diǎn)醫(yī)美痕跡都沒(méi)有,靈氣感女人味十足

鑫鑫說(shuō)說(shuō)
2025-07-15 13:26:51
宗馥莉私生子DNA鑒定結(jié)果出爐,勝算高

宗馥莉私生子DNA鑒定結(jié)果出爐,勝算高

李摻窮游天下
2025-07-15 19:53:28
乾隆去酒樓吃飯,問(wèn)掌柜:朕要付錢嗎?掌柜只用8個(gè)字救下全酒樓

乾隆去酒樓吃飯,問(wèn)掌柜:朕要付錢嗎?掌柜只用8個(gè)字救下全酒樓

磊子講史
2025-07-12 14:24:49
2025-07-16 00:04:50
雷峰網(wǎng) incentive-icons
雷峰網(wǎng)
關(guān)注智能與未來(lái)!
66823文章數(shù) 655730關(guān)注度
往期回顧 全部

科技要聞

英偉達(dá)H20解禁,黃仁勛嚇壞平替?

頭條要聞

36歲男子因糖尿病引發(fā)心衰去世 23歲妻子:我不會(huì)改嫁

頭條要聞

36歲男子因糖尿病引發(fā)心衰去世 23歲妻子:我不會(huì)改嫁

體育要聞

在中國(guó)效力10年,45歲的傳奇外援退役了

娛樂(lè)要聞

董璇自曝再婚了!二婚老公被扒是張維伊?

財(cái)經(jīng)要聞

國(guó)貨美妝能否脫下“平替”外衣

汽車要聞

六座布局/深淺配色 仰望U8L內(nèi)飾亮相

態(tài)度原創(chuàng)

本地
旅游
數(shù)碼
藝術(shù)
公開(kāi)課

本地新聞

褲子那里鼓鼓的,當(dāng)代都市麗人都被女裝做局了

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

數(shù)碼要聞

榮耀 Earbuds A Pro 耳機(jī)發(fā)布:49dB 主動(dòng)降噪,售價(jià) 149 元

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 南和县| 高阳县| 新干县| 清水河县| 澳门| 松桃| 宽城| 洪湖市| 海口市| 麻城市| 昌吉市| 侯马市| 竹山县| 卢氏县| 桂阳县| 泌阳县| 大英县| 台山市| 台州市| 博乐市| 新晃| 山东| 甘肃省| 洛扎县| 林周县| 易门县| 张北县| 鸡东县| 乌拉特前旗| 孝感市| 南京市| 高清| 和政县| 当阳市| 天峨县| 买车| 惠来县| 耒阳市| 安图县| 买车| 庆城县|