鏈接:https://ysymyth.github.io/The-Second-Half
來自:「深度學(xué)習(xí)自然語言處理」公眾號(hào)潤(rùn)色
摘要:我們正處于人工智能的中場(chǎng)。
數(shù)十年來,人工智能主要致力于開發(fā)新的訓(xùn)練方法和模型。這一策略成效顯著:從國(guó)際象棋和圍棋擊敗世界冠軍,到在 SAT 和律師資格考試中超越大多數(shù)人類,再到在國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽(IMO)和國(guó)際信息學(xué)奧林匹克競(jìng)賽(IOI)中獲得金牌。在這些載入史冊(cè)的里程碑背后——深藍(lán)(DeepBlue)、阿爾法狗(AlphaGo)、GPT-4 以及一系列以“o”開頭的模型——是人工智能方法的根本性創(chuàng)新:搜索、深度強(qiáng)化學(xué)習(xí)(RL)、擴(kuò)展和推理。隨著時(shí)間的推移,事情不斷變得更好。
那么,現(xiàn)在有什么突然不同了呢?
用三個(gè)詞來說:強(qiáng)化學(xué)習(xí)(RL)終于奏效了。更準(zhǔn)確地說:強(qiáng)化學(xué)習(xí)終于實(shí)現(xiàn)了泛化。經(jīng)過幾次重大轉(zhuǎn)折和一系列里程碑式的成就,我們找到了一個(gè)可行的方案,利用語言和推理來解決廣泛的強(qiáng)化學(xué)習(xí)任務(wù)。即使在一年前,如果你告訴大多數(shù)人工智能研究人員,一個(gè)單一的方案能夠應(yīng)對(duì)軟件工程、創(chuàng)意寫作、IMO 級(jí)別的數(shù)學(xué)、鼠標(biāo)和鍵盤操作以及長(zhǎng)篇問答——他們會(huì)嘲笑你的幻想。這些任務(wù)每一個(gè)都極其困難,許多研究人員在他們的整個(gè)博士學(xué)習(xí)期間都專注于其中的一個(gè)狹窄領(lǐng)域。
然而,這一切都發(fā)生了。
那么,接下來會(huì)發(fā)生什么呢?人工智能的下半場(chǎng)——從現(xiàn)在開始——將把重點(diǎn)從解決問題轉(zhuǎn)移到定義問題。在這個(gè)新時(shí)代,評(píng)估將比訓(xùn)練更重要。我們不再僅僅問:“我們能否訓(xùn)練一個(gè)模型來解決 X 問題?”而是問:“我們應(yīng)該訓(xùn)練人工智能去做什么,以及我們?nèi)绾魏饬空嬲倪M(jìn)步?”要在下半場(chǎng)取得成功,我們需要及時(shí)轉(zhuǎn)變思維方式和技能組合,這些可能更接近產(chǎn)品經(jīng)理的思維方式。
上半場(chǎng)
要理解上半場(chǎng),看看它的贏家。你認(rèn)為到目前為止最有影響力的 AI 論文是哪些?
我嘗試了斯坦福大學(xué) 224N 課程的測(cè)驗(yàn),答案并不令人驚訝:Transformer、AlexNet、GPT-3 等等。這些論文有什么共同點(diǎn)?它們提出了一些訓(xùn)練更好模型的基本突破。但同樣,它們通過在一些基準(zhǔn)測(cè)試上展示一些(顯著的)改進(jìn)來發(fā)表論文。
然而,有一個(gè)潛在的共同點(diǎn):這些“贏家”都是訓(xùn)練方法或模型,而不是基準(zhǔn)測(cè)試或任務(wù)。即使是可以說是最具影響力的基準(zhǔn)測(cè)試——ImageNet,其引用次數(shù)也不及 AlexNet 的三分之一。在其他地方,方法與基準(zhǔn)測(cè)試的對(duì)比甚至更加懸殊——例如,Transformer 的主要基準(zhǔn)測(cè)試是 WMT’14,其研討會(huì)報(bào)告的引用次數(shù)約為 1300 次,而 Transformer 的引用次數(shù)超過了 16 萬次。
這說明了上半場(chǎng)的游戲:專注于構(gòu)建新的模型和方法,而評(píng)估和基準(zhǔn)測(cè)試是次要的(盡管為了使論文體系運(yùn)轉(zhuǎn)起來是必要的)。
為什么呢?一個(gè)很大的原因是,在人工智能的上半場(chǎng),方法比任務(wù)更難、更令人興奮。從頭開始創(chuàng)建一個(gè)新的算法或模型架構(gòu)——想想像反向傳播算法、卷積網(wǎng)絡(luò)(AlexNet)或 GPT-3 中使用的 Transformer 這樣的突破——需要非凡的洞察力和工程能力。相比之下,為人工智能定義任務(wù)往往感覺更簡(jiǎn)單:我們只是把人類已經(jīng)做的事情(比如翻譯、圖像識(shí)別或國(guó)際象棋)變成基準(zhǔn)測(cè)試。沒有太多洞察力甚至工程能力。
方法也往往比單獨(dú)的任務(wù)更通用、更廣泛適用,因此它們特別有價(jià)值。例如,Transformer 架構(gòu)最終推動(dòng)了計(jì)算機(jī)視覺(CV)、自然語言處理(NLP)、強(qiáng)化學(xué)習(xí)(RL)以及許多其他領(lǐng)域的進(jìn)步——遠(yuǎn)遠(yuǎn)超出了它最初證明自己的單一數(shù)據(jù)集(WMT’14 翻譯)。一種偉大的新方法可以在許多不同的基準(zhǔn)測(cè)試中不斷改進(jìn),因?yàn)樗?jiǎn)單且通用,因此其影響往往超越了單一任務(wù)。
這種游戲已經(jīng)持續(xù)了幾十年,并激發(fā)了改變世界的想法和突破,這些突破通過各個(gè)領(lǐng)域不斷上升的基準(zhǔn)測(cè)試表現(xiàn)體現(xiàn)出來。那么,為什么游戲會(huì)改變呢?因?yàn)檫@些想法和突破的積累在解決任務(wù)方面創(chuàng)造了一個(gè)有效的方案。
方案
方案是什么?它的成分,毫不奇怪,包括大規(guī)模語言預(yù)訓(xùn)練、規(guī)模(數(shù)據(jù)和計(jì)算)以及推理和行動(dòng)的理念。這些聽起來可能像是你在舊金山每天都能聽到的流行語,但為什么稱它們?yōu)榉桨改兀?/p>
我們可以通過強(qiáng)化學(xué)習(xí)(RL)的視角來理解這一點(diǎn),強(qiáng)化學(xué)習(xí)通常被認(rèn)為是人工智能的“終局”——畢竟,從理論上講,強(qiáng)化學(xué)習(xí)保證能在游戲中獲勝,而且實(shí)際上很難想象沒有強(qiáng)化學(xué)習(xí)的超人類系統(tǒng)(例如阿爾法狗)。
在強(qiáng)化學(xué)習(xí)中,有三個(gè)關(guān)鍵組成部分:算法、環(huán)境和先驗(yàn)知識(shí)。長(zhǎng)期以來,強(qiáng)化學(xué)習(xí)研究人員主要關(guān)注算法(例如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO……)——即智能體學(xué)習(xí)的智力核心——而將環(huán)境和先驗(yàn)知識(shí)視為固定或最小化的。例如,Sutton 和 Barto 的經(jīng)典教科書幾乎只關(guān)注算法,而幾乎不涉及環(huán)境或先驗(yàn)知識(shí)。
然而,在深度強(qiáng)化學(xué)習(xí)時(shí)代,很明顯環(huán)境在實(shí)證上很重要:算法的性能往往高度依賴于其開發(fā)和測(cè)試的環(huán)境。如果你忽略環(huán)境,你可能會(huì)構(gòu)建一個(gè)只在玩具環(huán)境中表現(xiàn)出色的“最優(yōu)”算法。那么,為什么我們不首先確定我們真正想要解決的環(huán)境,然后找到最適合它的算法呢?
這正是 OpenAI 最初的計(jì)劃。它構(gòu)建了 gym,一個(gè)用于各種游戲的標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)環(huán)境,然后是 World of Bits 和 Universe 項(xiàng)目,試圖將互聯(lián)網(wǎng)或計(jì)算機(jī)變成一個(gè)游戲。一個(gè)不錯(cuò)的計(jì)劃,不是嗎?一旦我們將所有數(shù)字世界變成一個(gè)環(huán)境,用聰明的強(qiáng)化學(xué)習(xí)算法解決它,我們就擁有了數(shù)字通用人工智能(AGI)。
一個(gè)不錯(cuò)的計(jì)劃,但并沒有完全奏效。OpenAI 在這條道路上取得了巨大進(jìn)展,使用強(qiáng)化學(xué)習(xí)解決了 Dota、機(jī)械手等問題。但它從未接近解決計(jì)算機(jī)使用或網(wǎng)絡(luò)導(dǎo)航的問題,而且一個(gè)領(lǐng)域中的強(qiáng)化學(xué)習(xí)智能體也無法轉(zhuǎn)移到另一個(gè)領(lǐng)域。缺少了什么。
直到 GPT-2 或 GPT-3 出現(xiàn)后,才發(fā)現(xiàn)缺失的部分是先驗(yàn)知識(shí)。你需要強(qiáng)大的語言預(yù)訓(xùn)練,將一般常識(shí)和語言知識(shí)提煉到模型中,然后可以對(duì)其進(jìn)行微調(diào),使其成為網(wǎng)絡(luò)(WebGPT)或聊天(ChatGPT)智能體(并改變世界)。事實(shí)證明,強(qiáng)化學(xué)習(xí)中最重要的部分可能甚至不是強(qiáng)化學(xué)習(xí)算法或環(huán)境,而是先驗(yàn)知識(shí),而這些先驗(yàn)知識(shí)可以通過與強(qiáng)化學(xué)習(xí)完全無關(guān)的方式獲得。
語言預(yù)訓(xùn)練為聊天創(chuàng)造了良好的先驗(yàn)知識(shí),但并不是同樣適用于控制計(jì)算機(jī)或玩電子游戲。為什么呢?這些領(lǐng)域與互聯(lián)網(wǎng)文本的分布相差較遠(yuǎn),而簡(jiǎn)單地在這些領(lǐng)域進(jìn)行監(jiān)督微調(diào)(SFT)/強(qiáng)化學(xué)習(xí)泛化效果很差。我在 2019 年注意到了這個(gè)問題,當(dāng)時(shí) GPT-2 剛剛問世,我在其基礎(chǔ)上進(jìn)行了 SFT/RL,以解決基于文本的游戲——CALM 是世界上第一個(gè)通過預(yù)訓(xùn)練語言模型構(gòu)建的智能體。但這個(gè)智能體需要進(jìn)行數(shù)百萬次強(qiáng)化學(xué)習(xí)步驟才能在一款游戲中不斷改進(jìn),而且無法轉(zhuǎn)移到新游戲中。盡管這正是強(qiáng)化學(xué)習(xí)的特性,對(duì)于強(qiáng)化學(xué)習(xí)研究人員來說并不奇怪,但我發(fā)現(xiàn)這很奇怪,因?yàn)槲覀內(nèi)祟惪梢暂p松地玩一款新游戲,并且在零樣本的情況下表現(xiàn)得更好。然后我迎來了人生中第一次頓悟時(shí)刻——我們之所以能夠泛化,是因?yàn)槲覀兛梢赃x擇做的不僅僅是“走到柜子 2”、“用鑰匙 1 打開箱子 3”或“用劍殺死地牢怪物”,我們還可以選擇思考諸如“地牢很危險(xiǎn),我需要武器來戰(zhàn)斗。沒有可見的武器,也許我需要在鎖著的箱子或柜子里找到一個(gè)。箱子 3 在柜子 2 里,我先去那里把它打開”之類的事情。
思考,或者說推理,是一種奇怪的行動(dòng)——它并不直接影響外部世界,然而推理的空間是開放的、組合上是無限的——你可以思考一個(gè)單詞、一個(gè)句子、一段完整的文章,或者 10000 個(gè)隨機(jī)的英文單詞,但你周圍的世界并不會(huì)立即改變。在經(jīng)典的強(qiáng)化學(xué)習(xí)理論中,這是一個(gè)糟糕的交易,使得決策變得不可能。想象一下,你需要在兩個(gè)盒子中選擇一個(gè),其中一個(gè)盒子里有 100 萬美元,另一個(gè)是空的。你期望獲得 50 萬美元。現(xiàn)在想象我在其中增加了無數(shù)個(gè)空盒子。你期望獲得的金額就變成了零。但是,通過在任何強(qiáng)化學(xué)習(xí)環(huán)境的動(dòng)作空間中加入推理,我們利用語言預(yù)訓(xùn)練的先驗(yàn)知識(shí)來實(shí)現(xiàn)泛化,并且我們可以在不同的決策中使用靈活的測(cè)試時(shí)計(jì)算。這是一件非常神奇的事情,我為沒有在這里完全講清楚而道歉,我可能需要再寫一篇博客文章專門來解釋它。你可以閱讀 ReAct 以了解智能體推理的原始故事,并閱讀我當(dāng)時(shí)的想法。目前,我的直觀解釋是:即使你增加了無數(shù)個(gè)空盒子,你在生活中見過各種游戲中的這些盒子,選擇這些盒子為你在任何給定游戲中選擇裝有錢的盒子做好了準(zhǔn)備。我的抽象解釋是:語言通過智能體中的推理實(shí)現(xiàn)泛化。
一旦我們有了正確的強(qiáng)化學(xué)習(xí)先驗(yàn)知識(shí)(語言預(yù)訓(xùn)練)和強(qiáng)化學(xué)習(xí)環(huán)境(將語言推理作為動(dòng)作),事實(shí)證明強(qiáng)化學(xué)習(xí)算法可能就是最不重要的部分了。因此我們有了 o 系列、R1、深度研究、計(jì)算機(jī)使用智能體,還有更多即將出現(xiàn)的東西。真是一個(gè)諷刺的轉(zhuǎn)折!長(zhǎng)期以來,強(qiáng)化學(xué)習(xí)研究人員一直非常關(guān)注算法,而幾乎沒有人關(guān)注環(huán)境,更不用說先驗(yàn)知識(shí)了——所有強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)本質(zhì)上都是從零開始的。但我們花了數(shù)十年的時(shí)間走彎路,才意識(shí)到也許我們的優(yōu)先級(jí)完全搞反了。
但正如史蒂夫·喬布斯所說:你不能向前連接這些點(diǎn);你只能向后連接它們。
下半場(chǎng)
這個(gè)方案完全改變了游戲。回顧上半場(chǎng)的游戲:
我們開發(fā)新的訓(xùn)練方法或模型,以在基準(zhǔn)測(cè)試中不斷改進(jìn)。
我們創(chuàng)建更難的基準(zhǔn)測(cè)試,并繼續(xù)這個(gè)循環(huán)。
這個(gè)游戲正在被破壞,因?yàn)椋?/p>
方案本質(zhì)上標(biāo)準(zhǔn)化并工業(yè)化了基準(zhǔn)測(cè)試的不斷改進(jìn),而無需太多新的想法。隨著方案的擴(kuò)展和泛化良好,你針對(duì)特定任務(wù)的新方法可能只能使其提高 5%,而下一個(gè) o 系列模型可能會(huì)在沒有明確針對(duì)它的情況下使其提高 30%。
即使我們創(chuàng)建了更難的基準(zhǔn)測(cè)試,很快(并且越來越快)它們也會(huì)被方案解決。我的同事 Jason Wei 制作了一張精美的圖表很好地可視化了這一趨勢(shì):

那么,在下半場(chǎng)還剩下什么呢?如果不再需要新方法,而更難的基準(zhǔn)測(cè)試也會(huì)越來越快地被解決,我們應(yīng)該做什么呢?
我認(rèn)為我們應(yīng)該從根本上重新思考評(píng)估。這意味著不僅僅是創(chuàng)建新的、更難的基準(zhǔn)測(cè)試,而是從根本上質(zhì)疑現(xiàn)有的評(píng)估設(shè)置并創(chuàng)建新的設(shè)置,以便我們被迫發(fā)明超越現(xiàn)有方案的新方法。這很難,因?yàn)槿祟愑袘T性,很少質(zhì)疑基本假設(shè)——你只是把它們當(dāng)作理所當(dāng)然,而沒有意識(shí)到它們是假設(shè),而不是定律。
為了說明慣性,假設(shè)你發(fā)明了歷史上最成功的評(píng)估之一,基于人類考試。在 2021 年,這是一個(gè)非常大膽的想法,但 3 年后它已經(jīng)飽和了。你會(huì)怎么做?最有可能的是創(chuàng)建一個(gè)更難的考試。或者假設(shè)你解決了簡(jiǎn)單的編程任務(wù)。你會(huì)怎么做?最有可能的是找到更難的編程任務(wù)來解決,直到你達(dá)到了國(guó)際信息學(xué)奧林匹克競(jìng)賽(IOI)金牌水平。
慣性是自然的,但問題是:人工智能已經(jīng)在國(guó)際象棋和圍棋中擊敗了世界冠軍,在 SAT 和律師資格考試中超越了大多數(shù)人類,并在國(guó)際信息學(xué)奧林匹克競(jìng)賽(IOI)和國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽(IMO)中達(dá)到了金牌水平。但世界并沒有發(fā)生太大變化,至少從經(jīng)濟(jì)和國(guó)內(nèi)生產(chǎn)總值(GDP)的角度來看。
我稱這為效用問題,并認(rèn)為這是人工智能最重要的問題。
也許我們會(huì)很快解決效用問題,也許不會(huì)。不管怎樣,這個(gè)問題的根源可能出人意料地簡(jiǎn)單:我們的評(píng)估設(shè)置在許多基本方面與現(xiàn)實(shí)世界的設(shè)置不同。舉兩個(gè)例子:
評(píng)估“應(yīng)該”自動(dòng)運(yùn)行 ,因此通常智能體接收任務(wù)輸入,自主執(zhí)行操作,然后接收任務(wù)獎(jiǎng)勵(lì)。但在現(xiàn)實(shí)中,智能體在整個(gè)任務(wù)過程中需要與人類互動(dòng)——你不會(huì)給客戶服務(wù)發(fā)送一條超長(zhǎng)的信息,等待 10 分鐘,然后期望一個(gè)詳細(xì)的回復(fù)來解決所有問題。通過質(zhì)疑這種設(shè)置,新的基準(zhǔn)測(cè)試被發(fā)明出來,要么將真實(shí)人類(例如 Chatbot Arena)納入其中,要么將用戶模擬(例如 tau-bench)納入其中。
評(píng)估“應(yīng)該”獨(dú)立同分布(i.i.d.)運(yùn)行 。如果你有一個(gè)包含 500 個(gè)任務(wù)的測(cè)試集,你獨(dú)立運(yùn)行每個(gè)任務(wù),平均任務(wù)指標(biāo),然后得到一個(gè)總體指標(biāo)。但在現(xiàn)實(shí)中,你是按順序解決任務(wù),而不是并行解決。谷歌軟件工程師(SWE)在越來越熟悉代碼庫的過程中,會(huì)越來越擅長(zhǎng)解決谷歌內(nèi)部的代碼問題,但軟件工程師智能體在同一個(gè)代碼庫中解決許多問題時(shí)卻無法獲得這種熟悉感。我們顯然需要長(zhǎng)期記憶方法(而且確實(shí)有),但學(xué)術(shù)界沒有合適的基準(zhǔn)測(cè)試來證明這種需求,甚至沒有勇氣質(zhì)疑機(jī)器學(xué)習(xí)的基礎(chǔ)假設(shè)——獨(dú)立同分布。
這些假設(shè)“一直”就是這樣,而在人工智能的上半場(chǎng),在這些假設(shè)下開發(fā)基準(zhǔn)測(cè)試是沒問題的,因?yàn)?strong>當(dāng)智能水平較低時(shí),提高智能通常會(huì)提高效用。但現(xiàn)在,通用方案在這些假設(shè)下保證有效。因此,下半場(chǎng)的新游戲方式是:
我們開發(fā)針對(duì)現(xiàn)實(shí)世界效用的新評(píng)估設(shè)置或任務(wù)。
我們用方案解決它們,或者用新組件增強(qiáng)方案。繼續(xù)這個(gè)循環(huán)。
這個(gè)游戲很難,因?yàn)樗皇煜ぁ5钊伺d奮。雖然上半場(chǎng)的參與者在解決視頻游戲和考試,但下半場(chǎng)的參與者可以通過構(gòu)建有用的產(chǎn)品來建立價(jià)值數(shù)十億甚至數(shù)千億美元的公司。雖然上半場(chǎng)充滿了漸進(jìn)式的方法和模型,但下半場(chǎng)在一定程度上過濾了它們。通用方案會(huì)輕易擊敗你的漸進(jìn)式方法,除非你創(chuàng)造出打破方案的新假設(shè)。然后你就可以進(jìn)行真正具有變革性的研究。
歡迎來到下半場(chǎng)!
致謝
這篇博客文章是基于我在斯坦福大學(xué) 224N 課程和哥倫比亞大學(xué)的演講撰寫的。我使用 OpenAI 深度研究來閱讀我的幻燈片并起草初稿。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.