99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenAI科學(xué)家姚順雨:o3發(fā)布、RL迎來(lái)新范式,AI正式進(jìn)入下半場(chǎng)

0
分享至

本篇來(lái)自 OpenAI Agent Reseacher 姚順雨( Shunyu Yao)的最新博客內(nèi)容,探討 AI 發(fā)展的 「 下半場(chǎng)」。

在 OpenAI o1 模型發(fā)布前,我們猜想 LLM 迎來(lái) RL 新范式,AGI 路線也隨之進(jìn)入下半場(chǎng)。如果說(shuō) LLM 的 pre-training 是對(duì)已有知識(shí)進(jìn)行壓縮學(xué)習(xí),RL 則更需要和環(huán)境交互產(chǎn)生新知識(shí)。相比 pre-training,RL 的算法和環(huán)境搭建更復(fù)雜,頭部 Labs 對(duì) RL 的探索也尚未收斂。我們?cè)撊绾嗡伎?RL 的意義,如何更好理解 AI 的下半場(chǎng)? Shunyu 的這篇文章帶來(lái)了很多啟發(fā)。他認(rèn)為,在 AI 訓(xùn)練中,定義問題將比解決問題更重要,evaluation 將比 training 更重要,enviornment 和 priors 的重要性被低估了。

有評(píng)論稱這篇文章是 「Bitter Lesson」級(jí)別的存在,或許是因?yàn)楹?「Bitter Lesson」類似,這篇文章也試圖從 high level 指出 AI 研究中一種思維范式的徹底改變。「Bitter Lesson 」啟發(fā)了大家從「人類指導(dǎo) AI」轉(zhuǎn)向算力和數(shù)據(jù)的 scaling,而 The Second Half 告訴大家在 RL 全面到來(lái)時(shí),我們應(yīng)該徹底重新思考問題定義和真實(shí)用例的 evaluation。

姚順雨本科畢業(yè)于清華姚班,是姚班聯(lián)席會(huì)主席,2024 年從 Princeton 博士畢業(yè)后加入 OpenAI 擔(dān)任 Research Scientist,參與了 OpenAI 的 Computer-Using Agent,Deep Research 等多個(gè)產(chǎn)品項(xiàng)目。他是 Agent 領(lǐng)域的最前沿探索者,這個(gè)領(lǐng)域不少最重要的 framework 和 benchmark 都來(lái)自他 Phd 期間的工作:ReAct、Tree of Thought、SWE_Bench。

這篇博客主要內(nèi)容來(lái)自姚順雨在 CS 224N 和 Columbia 大學(xué)所做的演講。

Founder Park 正在搭建開發(fā)者社群,邀請(qǐng)積極嘗試、測(cè)試新模型、新技術(shù)的開發(fā)者、創(chuàng)業(yè)者們加入,請(qǐng)掃碼詳細(xì)填寫你的產(chǎn)品/項(xiàng)目信息,通過(guò)審核后工作人員會(huì)拉你入群~

進(jìn)群之后,你有機(jī)會(huì)得到:

  • 高濃度的主流模型(如 DeepSeek 等)開發(fā)交流;

  • 資源對(duì)接,與 API、云廠商、模型廠商直接交流反饋的機(jī)會(huì);

  • 好用、有趣的產(chǎn)品/案例,F(xiàn)ounder Park 會(huì)主動(dòng)做宣傳。

01我們正處于 AI 的半場(chǎng)時(shí)刻數(shù)十年來(lái),AI 的核心一直在于開發(fā)新訓(xùn)練方法和模型。這種路徑確實(shí)有效:打敗國(guó)際象棋和圍棋世界冠軍、在 SAT 和律師資格考試上超過(guò)大部分人、贏得 IMO(國(guó)際數(shù)學(xué)奧林匹克)和 IOI (國(guó)際信息學(xué)奧林匹克)金牌,這些寫進(jìn) AI 歷史書里的里程碑——DeepBlue,AlphaGo,GPT-4 和 o 系列,都來(lái)自底層訓(xùn)練方法的創(chuàng)新,search,deep RL,scaling,reasoning。一切都在隨著時(shí)間持續(xù)進(jìn)步。那么現(xiàn)在到底有什么變了?簡(jiǎn)單來(lái)說(shuō),強(qiáng)化學(xué)習(xí)(reinforcement learning, RL)終于有效了。更確切地說(shuō),RL 終于有了泛化能力。經(jīng)過(guò)幾次彎路,也跨過(guò)了一系列重要里程碑后,我們終于找到了正確的配方(recipe),能通過(guò)語(yǔ)言模態(tài)和推理能力來(lái)解決廣泛的強(qiáng)化學(xué)習(xí)任務(wù)。即便在一年前,如果你告訴大多數(shù) AI 研究者,有一種 recipe 能同時(shí)應(yīng)對(duì)軟件工程、創(chuàng)意寫作、IMO 級(jí)別的數(shù)學(xué)問題、鼠標(biāo)鍵盤操作以及長(zhǎng)篇問答——他們只會(huì)嘲笑你在幻想。這些任務(wù)每一項(xiàng)都極其艱難,許多研究者整個(gè)博士期間只專注于其中一個(gè)細(xì)分領(lǐng)域。

但今天這件事的確發(fā)生了。

接下來(lái)會(huì)發(fā)生什么?

AI 的下半場(chǎng)——從現(xiàn)在開始——會(huì)從解決問題轉(zhuǎn)向定義問題。在這個(gè)新階段,Evaluation(模型評(píng)估) 會(huì)比 Training (模型訓(xùn)練)更重要。我們不再只是問,“我們能不能訓(xùn)練模型來(lái)解決 X ?” 而是開始問:“我們究竟應(yīng)該訓(xùn)練模型來(lái)做什么,如何衡量真正的進(jìn)展?”要想贏得 AI 的下半場(chǎng),我們必須及時(shí)轉(zhuǎn)變心態(tài)和技能,也許要更像產(chǎn)品經(jīng)理。

02

什么是 AI 上半場(chǎng)

要理解 AI 上半場(chǎng)的意義,可以看看這個(gè)階段的 winners。

先來(lái)想一個(gè)問題,你認(rèn)為迄今最具影響力的 AI 論文有哪些?我在 Stanford CS 224N 的課堂現(xiàn)場(chǎng)提出了這個(gè)問題,大家的答案并不意外:Transformer、AlexNet、GPT-3 等。這些論文的共同點(diǎn)在于它們提出了訓(xùn)練更強(qiáng)模型的一些基礎(chǔ)性突破,但同時(shí)也在一些 benchmark 上展示了顯著的性能提升,從而得以發(fā)表。

注:CS 224N 是 Stanford 深度學(xué)習(xí)與 NLP 主題的公開課,是過(guò)去十年 AI 領(lǐng)域的很多學(xué)生和學(xué)者入門 NLP 最好的課程之一。由 Chris Manning 教授主講。

Chris Manning 是 Stanford 語(yǔ)言學(xué)和計(jì)算機(jī)科學(xué)系首任 Thomas M. Siebel 機(jī)器學(xué)習(xí)教授、人工智能實(shí)驗(yàn)室(SAIL)主任和以人為本人工智能研究所(HAI)聯(lián)合創(chuàng)始人,他還是 ACM、AAAI 和 ACL 的 Fellow,并曾于 2015 年擔(dān)任 ACL 主席,是自然語(yǔ)言處理和機(jī)器學(xué)習(xí)領(lǐng)域的先鋒人物。

這些經(jīng)典論文還有一個(gè)潛在共性:它們幾乎都是訓(xùn)練方法或模型,而不是 benchmark 或者 tasks。

即便是被認(rèn)為是最有影響力的基準(zhǔn)數(shù)據(jù)集 ImageNet,它的引用量也不到 AlexNet 的三分之一。這種差距在其他案例中更加明顯。

比如,Transformer 使用的主要 benchmark 是 WMT’14,WMT’14 的 workshop report 引用量大約為 1300 次,而 Transformer 本身的論文引用早已突破 16 萬(wàn)次。


這些對(duì)比形象地說(shuō)明了 AI 上半場(chǎng)是關(guān)注于構(gòu)建新的模型和訓(xùn)練方法,evaluation 和 benchmark 則位于第二位,盡管對(duì)于學(xué)術(shù)發(fā)表體系而言,后者是十分必要的。

為什么會(huì)出現(xiàn)這種現(xiàn)象?

一個(gè)重要原因是,在 AI 上半場(chǎng),訓(xùn)練方法比定義 tasks 更難也更令人興奮。從零開始發(fā)明一種全新的算法或模型架構(gòu),比如反向傳播算法、卷積神經(jīng)網(wǎng)絡(luò)(AlexNet),或是 GPT-3 所用的 Transformer,都需要非凡的洞察力和工程能力。

相比之下,為 AI 定義 tasks 往往顯得更直接:我們只是把人類已經(jīng)在做的事情,比如翻譯、圖像識(shí)別或下棋,轉(zhuǎn)化為 benchmark,這個(gè)過(guò)程幾乎不需要太多洞察,甚至不需要多少工程工作。

訓(xùn)練方法往往比具體任務(wù)更通用、適用范圍更廣,因此顯得格外有價(jià)值。比如,Transformer 架構(gòu)最終推動(dòng)了 CV、NLP、RL 等多個(gè)領(lǐng)域的進(jìn)展,影響范圍遠(yuǎn)遠(yuǎn)超出最初驗(yàn)證它效果的 WMT'14 這個(gè)翻譯數(shù)據(jù)集。一個(gè)出色的新訓(xùn)練方法往往能在多個(gè) benchmark 上取得較好效果,因?yàn)樗銐蚝?jiǎn)單、通用,它的影響也因此會(huì)超越某個(gè)具體任務(wù)。

過(guò)去數(shù)十年來(lái)都是訓(xùn)練方法論的創(chuàng)新先行,催生了許多改變世界的理念和突破,并通過(guò)在各個(gè)領(lǐng)域不斷提升的 benchmark 表現(xiàn)出來(lái)。

那么,為什么今天這件事會(huì)發(fā)生改變?因?yàn)檫@些理念和突破的積累,在解決任務(wù)方面帶來(lái)了本質(zhì)改變,造就了一套真正有效的 recipe。

03

AI 的有效配方recipe)

這套 recipe 到底是什么?recipe 的關(guān)鍵成分并不讓人意外:大規(guī)模的語(yǔ)言 pre-training,數(shù)據(jù)和算力的 scaling,reasoning 和 acting 的理念。這幾個(gè)詞乍一聽很像今天出現(xiàn)頻率極高的 buzzwords。

為什么將這幾個(gè)詞稱為 recipe ?我們可以從 RL 的角度來(lái)看。

RL 通常被認(rèn)為是 AI 的“終極形態(tài)”,畢竟從理論上,它能夠保證在 game 中取勝,而在實(shí)踐上,幾乎所有 superhuman 水平的 AI 系統(tǒng)(比如 AlphaGo)都離不開 RL 的支撐。

game:在博弈論中,game 指的是所有在封閉環(huán)境中,有明確輸贏的博弈任務(wù)。

RL 領(lǐng)域有三個(gè)關(guān)鍵組成部分:算法(algorithm)、環(huán)境(environment)和先驗(yàn)知識(shí)(priors)。

很長(zhǎng)時(shí)間以來(lái),RL 研究者主要關(guān)注算法,比如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO 等,也就是 agent 如何學(xué)習(xí)的這一核心機(jī)制。

DQN:Deep Q-Network,即深度 Q 網(wǎng)絡(luò),是深度強(qiáng)化學(xué)習(xí)的一種重要算法,使用深度神經(jīng)網(wǎng)絡(luò)來(lái)逼近Q 值函數(shù),并通過(guò)最大化 Q 值來(lái)選擇最優(yōu)動(dòng)作,其中 Q 值計(jì)算的是 Agent 執(zhí)行某個(gè)行動(dòng)帶來(lái)的價(jià)值變化。

TD-learning:Temporal difference learning,即時(shí)序差分學(xué)習(xí),結(jié)合了動(dòng)態(tài)規(guī)劃(Dynamic Programming)和蒙特卡羅方法(Monte Carlo)的優(yōu)點(diǎn)。

Actor-critic:即演員-評(píng)論家算法,是一種結(jié)合策略梯度和時(shí)序差分學(xué)習(xí)的強(qiáng)化學(xué)習(xí)方法,包括演員(Actor,負(fù)責(zé)行動(dòng))和評(píng)價(jià)者(Critic,負(fù)責(zé)評(píng)價(jià))用神經(jīng)網(wǎng)絡(luò)分工進(jìn)行博弈。

PPO:Proximal Policy Optimization,即近端策略優(yōu)化,是 OpenAI 在 2017 年提出的一種強(qiáng)化學(xué)習(xí)算法,被認(rèn)為是目前強(qiáng)化學(xué)習(xí)領(lǐng)域的 SOTA 方法,也是適用性最廣的算法之一。PPO 簡(jiǎn)化了以前的策略梯度算法,通過(guò)幾個(gè)關(guān)鍵技術(shù)提高了訓(xùn)練的穩(wěn)定性和效率。這是之前 RLHF 最常用的 RL 算法,在 reasoning model 場(chǎng)景下 Deepseek 提出的 GRPO 算法正在取代成為主流。

TRPO:Trust Region Policy Optimization,即置信域策略優(yōu)化,是一種用于強(qiáng)化學(xué)習(xí)的策略優(yōu)化算法。

相比之下,環(huán)境(environment)和先驗(yàn)知識(shí)(priors)往往被當(dāng)作既定條件,或者被盡可能簡(jiǎn)化處理。例如,Sutton 和 Barto 的經(jīng)典教材幾乎講的都是算法,對(duì)于環(huán)境和先驗(yàn)知識(shí)幾乎只字未提。


但在深度強(qiáng)化學(xué)習(xí)時(shí)代,環(huán)境在實(shí)踐中的重要性凸顯:一個(gè)算法的效果往往高度依賴于它所開發(fā)和測(cè)試的環(huán)境。如果忽視環(huán)境,可能會(huì)導(dǎo)致我們構(gòu)建的最優(yōu)算法只在過(guò)于簡(jiǎn)化的環(huán)境中有效。

那么,為什么我們不先思考清楚真正想要解決的環(huán)境,再去尋找最適合它的算法?

OpenAI 最初就是這么計(jì)劃的。

OpenAI 先是打造了 Gym,一個(gè)用于各類 game 的標(biāo)準(zhǔn) RL 環(huán)境,接著又推出了 World of Bits 和 Universe,試圖將互聯(lián)網(wǎng)或計(jì)算機(jī)變成一個(gè) game。這個(gè)設(shè)計(jì)很好,一旦我們可以將所有數(shù)字世界轉(zhuǎn)化為 environment,再用 RL 算法來(lái)解決問題,我們就能實(shí)現(xiàn)數(shù)字領(lǐng)域 AGI。

Gym:Gym 是 OpenAI 在 2016 年 4 月發(fā)布的一個(gè)用于開發(fā)和比較 RL 算法的工具包,提供了多種預(yù)定義環(huán)境,以便研究者和開發(fā)者可以在相同的 benchmarks 下測(cè)試他們的算法。

World of Bits 和 Universe:OpenAI 的 World of Bits 是基于 Universe 的訓(xùn)練平臺(tái),也是 Universe 項(xiàng)目的前身。Universe 發(fā)布于 2016 年 12 月,是一個(gè)能在幾乎所有環(huán)境中衡量和訓(xùn)練 AI 通用智能水平的開源平臺(tái),目標(biāo)是讓 AI Agent 能像人一樣使用計(jì)算機(jī)。

這個(gè)設(shè)計(jì)很好,但并不完全奏效。雖然 OpenAI 取得了巨大的進(jìn)展,比如利用 RL 解決了 Dota、機(jī)器人手等問題,但還沒有解決 computer use 或 web navigation ,并且,在一個(gè)領(lǐng)域表現(xiàn)出色的 RL agent 并不能遷移到另一個(gè)領(lǐng)域。某些關(guān)鍵因素仍然缺失。

直到 GPT-2 或 GPT-3 出現(xiàn),我們才發(fā)現(xiàn)缺失的是先驗(yàn)知識(shí) (priors)。你需要進(jìn)行大規(guī)模 pre-training,將常識(shí)和語(yǔ)言知識(shí)提煉到模型中,然后通過(guò)微調(diào)使其成為網(wǎng)絡(luò) agent(WebGPT)或聊天 agent(ChatGPT),從而改變世界。

結(jié)果發(fā)現(xiàn),RL 中最重要的部分可能甚至不是 RL 算法或環(huán)境,而是先驗(yàn)知識(shí),而這些先驗(yàn)知識(shí)的獲取方式與 RL 完全無(wú)關(guān)。

語(yǔ)言模型的 pre-training 為對(duì)話類任務(wù)提供了良好的先驗(yàn)知識(shí),但在控制計(jì)算機(jī)或玩電子游戲方面卻不夠理想。因?yàn)檫@些領(lǐng)域和互聯(lián)網(wǎng)的文本分布相差很大,直接在這些領(lǐng)域上做 SFT 或 RL 的泛化效果很差。

我是在 2019 年意識(shí)到的這個(gè)問題,當(dāng)時(shí) GPT-2 剛剛發(fā)布,我在它的基礎(chǔ)上做了 SFT 或 RL 來(lái)解決基于文本的 game,最終做出了 CALM。CALM 是世界上第一個(gè)基于 pre-training 語(yǔ)言模型構(gòu)建的 agent,但它要花費(fèi)上百萬(wàn)步的 RL,才能在單一 game 中取得進(jìn)展,而且無(wú)法遷移到其他 game 上。

雖然這正是 RL 的特點(diǎn),對(duì) RL 研究者來(lái)說(shuō)并不意外,但我仍覺得很反常,因?yàn)槿祟惪梢暂p松上手一款新游戲,而且在零樣本的前提下做得比 agent 更好。

這時(shí),我迎來(lái)了人生中第一個(gè)頓悟時(shí)刻:人類之所以能泛化,是因?yàn)槿祟惒粌H能做“去 2 號(hào)柜子”、“用 1 號(hào)鑰匙打開 3 號(hào)箱子”或“用劍殺死地牢怪物”這類操作,還能思考:“地牢很危險(xiǎn),我需要一件武器。附近沒有武器,我需要在鎖著的柜子或箱子里找,3 號(hào)箱子在 2 號(hào)柜子里,那我應(yīng)該先去那里把柜子打開。”


思考(thinking)或推理(reasoning)是一種很特殊的行為,它并不會(huì)直接改變外部世界,但卻擁有一個(gè)開放、無(wú)限組合的空間我們可以想一個(gè)單詞、一句話、一段話,或者一萬(wàn)個(gè)隨機(jī)英語(yǔ)單詞,但周圍環(huán)境不會(huì)立刻發(fā)生變化。

在經(jīng)典 RL 理論中,reasoning 是一個(gè)糟糕的存在,因?yàn)樗鼤?huì)讓決策變得不可能。比如,一個(gè)人需要從兩個(gè)盒子中選一個(gè),其中一個(gè)裝著 100 萬(wàn)美元,另一個(gè)是空的,這個(gè)時(shí)候預(yù)期收益是 50 萬(wàn)美元。現(xiàn)在如果我們往這個(gè)人面前放了無(wú)數(shù)個(gè)空盒子,那么他的預(yù)期收益就變成了 0。

但如果我們?cè)? RL 環(huán)境的動(dòng)作空間(Action Space)中加上 reasoning,我們就能利用語(yǔ)言模型 pre-training 中獲得的先驗(yàn)知識(shí)進(jìn)行泛化,并可以在不同的決策中靈活分配 test-time compute。

動(dòng)作空間:不同的環(huán)境允許不同種類的動(dòng)作,在給定的環(huán)境中,有效動(dòng)作的集合被稱為動(dòng)作空間(Action Space)。在離散動(dòng)作空間(Discrete Action Space),agent 的動(dòng)作數(shù)量是有限的,在連續(xù)動(dòng)作空間(Continuous Action Space),動(dòng)作是實(shí)值的向量。

這個(gè)過(guò)程很神奇,我會(huì)在未來(lái)專門寫一篇 blog 來(lái)講。可以通過(guò) ReAct 這篇論文先了解我對(duì) agent reasoning 的看法。

ReAct:ReAct 是姚順雨在ReAct: Synergizing Reasoning and Acting in Language Models 中提出的框架,到今天還在 agent framework 中占有一席之地。

當(dāng)下,我對(duì)于這件事的解釋是:雖然一個(gè)人面前被放置了無(wú)數(shù)個(gè)空盒子,但他在此之前,他已經(jīng)在各種 game 中見過(guò)這些盒子,之前的這些選盒子的經(jīng)驗(yàn)?zāi)軒椭玫刈R(shí)別出哪個(gè)盒子更可能裝著錢。

用一句抽象的話來(lái)說(shuō):語(yǔ)言通過(guò) agent reasoning 來(lái)實(shí)現(xiàn)泛化(language generalizes through reasoning in agents.)。

一旦我們擁有了正確的 RL 先驗(yàn)知識(shí)(語(yǔ)言 pre-training)和 environment(將語(yǔ)言推理作為行動(dòng)),算法可能是最微不足道的部分。現(xiàn)在我們有了 o 系列、R1、deep research、computer-using agent,未來(lái)還會(huì)有更多的成果。多么諷刺的轉(zhuǎn)折!

長(zhǎng)期以來(lái),RL 研究者更關(guān)心算法,遠(yuǎn)勝于關(guān)心 environment ,幾乎沒有人關(guān)注先驗(yàn)知識(shí)——所有的 RL 實(shí)驗(yàn)本質(zhì)上都是從零開始的,但我們繞了幾十年的彎路,才意識(shí)到也許我們的優(yōu)先級(jí)應(yīng)該反過(guò)來(lái)。

但正如 Steve Jobs 所說(shuō):You can’t connect the dots looking forward; you can only connect them looking backward.

04

歡迎來(lái)到 AI 下半場(chǎng)

這套 recipe 在徹底改變 AI 的游戲規(guī)則,AI 上半場(chǎng)的游戲規(guī)則是:

? 我們開發(fā)出新穎的訓(xùn)練方法或模型,在各種 benchmarks 上取得更好的成果。

? 我們創(chuàng)造出更難的 benchmarks,并繼續(xù)這個(gè)循環(huán)。

現(xiàn)在這個(gè)游戲規(guī)則正在被徹底改變,原因在于:

? 這套 recipe 本質(zhì)上已經(jīng)把攻克 benchmark 的過(guò)程標(biāo)準(zhǔn)化、流程化了,我們不再需要太多新的想法。并且因?yàn)檫@套 recipe 具有較好的 scaling 和泛化能力,你為某個(gè)具體任務(wù)設(shè)計(jì)的全新方法可能只能帶來(lái) 5% 的提升,而下一代的 o 系列模型即使沒有專門針對(duì)這個(gè)任務(wù)訓(xùn)練,也能帶來(lái) 30% 的提升。

? 即使我們?cè)O(shè)計(jì)出了更難的 benchmark,它們也往往會(huì)很快(而且越來(lái)越快)被這套 recipe 攻克。我的同事 Jason Wei 做了一張精彩的圖,直觀地展示了這個(gè)趨勢(shì)。


那 AI 下半場(chǎng)應(yīng)該做什么?如果新的訓(xùn)練方法不再必要,更難的 benchmark 也會(huì)被越來(lái)越快地攻克,我們應(yīng)該怎么做?

我認(rèn)為我們需要從根本上重新思考“評(píng)估”(evaluation),這不僅意味著設(shè)計(jì)更新、更難的 benchmarks,而是要徹底質(zhì)疑現(xiàn)有的評(píng)估方法,創(chuàng)造新的評(píng)估方法,這樣才能迫使我們發(fā)明超越現(xiàn)有有效的 recipe 的新方法。

但這很難,因?yàn)槿祟愑袘T性,人類很少去質(zhì)疑最基礎(chǔ)的假設(shè)——你只是理所當(dāng)然地接受它們,卻沒意識(shí)到它們其實(shí)只是“假設(shè)(assumptions)”,而不是“定律(laws)”。

用一個(gè)例子來(lái)說(shuō)明這種慣性,假如你基于人類考試,發(fā)明出了一種史上最成功的 AI 評(píng)估方法之一。在 2021 年這也許是一個(gè)突破性的想法,但到了 3 年后,這一方法已被很多人使用,屬于非常常規(guī)的評(píng)估方法。那么你接下來(lái)會(huì)做什么?很可能是再設(shè)計(jì)一套更難的考試。

再比如,你已經(jīng)成功解決了基礎(chǔ)的編程任務(wù),那么你接下來(lái)會(huì)做什么?很可能是尋找更難的編程任務(wù),直到達(dá)到 IOI 金牌的水平。

慣性是一種很自然的現(xiàn)象,但問題也正出在這里。AI 已經(jīng)在國(guó)際象棋和圍棋上戰(zhàn)勝了世界冠軍,在 SAT 和律師資格考試中超過(guò)了大多數(shù)人類,達(dá)到了 IOI 和 IMO 金牌的能力,但至少?gòu)慕?jīng)濟(jì)或 GDP 的角度看,世界并沒有發(fā)生太大變化。

我將這個(gè)稱之為“效用問題(utility problem)”,我認(rèn)為這是當(dāng)下 AI 領(lǐng)域最重要的問題。

也許我們很快就能解決“效用問題”,也許還不能。但無(wú)論結(jié)果如何,這個(gè)問題背后的根源可能非常簡(jiǎn)單:我們的評(píng)估方法在很多基本假設(shè)上與現(xiàn)實(shí)世界的設(shè)定不同。

舉兩個(gè)假設(shè)為例:

?假設(shè) 1:評(píng)估應(yīng)該是自動(dòng)運(yùn)行

通常一個(gè) agent 會(huì)收到一個(gè)任務(wù)輸入,自動(dòng)完成任務(wù),最后得到一個(gè)任務(wù)獎(jiǎng)勵(lì)。但現(xiàn)實(shí)中,agent 往往需要在整個(gè)任務(wù)過(guò)程中持續(xù)與人類互動(dòng),比如你不會(huì)給客服發(fā)一條長(zhǎng)信息,然后等十分鐘,期待對(duì)方給出一條詳細(xì)答復(fù)來(lái)解決所有問題。當(dāng)我們質(zhì)疑這種評(píng)估假設(shè)時(shí),就催生出了新的 benchmarks,要么將真實(shí)人類引入交互環(huán)節(jié)(例如 Chatbot Arena),要么引入用戶模擬(例如 tau-bench)。


?假設(shè) 2:被評(píng)估的任務(wù)應(yīng)該是獨(dú)立同分布(i.i.d.)的

如果你有一個(gè)包含 500 個(gè)任務(wù)的測(cè)試集,評(píng)估的時(shí)候,你會(huì)將每個(gè)任務(wù)獨(dú)立運(yùn)行,最后對(duì)結(jié)果取平均,得出整體評(píng)分。

但現(xiàn)實(shí)中,任務(wù)往往是順序進(jìn)行的,而不是并行的。一位 Google 的軟件工程師在逐步熟悉 google3 倉(cāng)庫(kù)后,會(huì)越來(lái)越高效地解決問題,但一個(gè)軟件工程 agent 在同一個(gè)倉(cāng)庫(kù)中解決多個(gè)問題,卻無(wú)法獲得這種熟悉度。我們顯然需要 long-term memory 的方法(事實(shí)上已經(jīng)有一些相關(guān)嘗試),但學(xué)術(shù)界缺乏能合理體現(xiàn)這種需求的正確 benchmarks,甚至缺乏質(zhì)疑 i.i.d. 這個(gè)被視為機(jī)器學(xué)習(xí)基礎(chǔ)假設(shè)的勇氣。

獨(dú)立同分布:Independent and identically distributed,即 i.i.d.,是機(jī)器學(xué)習(xí)中一個(gè)重要的假設(shè),它表明訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)遵循相同的概率分布。這個(gè)假設(shè)確保了在訓(xùn)練集上訓(xùn)練的模型能夠有效地在測(cè)試集上進(jìn)行泛化,從而在未知數(shù)據(jù)上保持良好性能。

這些假設(shè)一直以來(lái)就是默認(rèn)存在的。在 AI 上半場(chǎng),基于這些假設(shè)來(lái)設(shè)計(jì) benchmarks 是合理的,因?yàn)樵谥悄芩捷^低時(shí),提高智能通常就能提升效用。現(xiàn)在在這些假設(shè)下,那套通用 recipe 已幾乎被保證奏效。那么 AI 下半場(chǎng)這個(gè)新游戲的玩法會(huì)是:

? 我們需要開發(fā)面向現(xiàn)實(shí)世界效用的全新評(píng)估設(shè)定或 task;

? 我們需要用 recipe 來(lái)攻克這些評(píng)估設(shè)定或 task,或用新組件來(lái)增強(qiáng) recipe,然后重復(fù)這個(gè)循環(huán)。

這個(gè)游戲很難,因?yàn)樗錆M了未知,但也格外令人興奮。AI 上半場(chǎng)的玩家專注于攻克電子游戲和標(biāo)準(zhǔn)化考試,AI 下半場(chǎng)的玩家則通過(guò)把智能轉(zhuǎn)化為有用的產(chǎn)品,打造出數(shù)十億甚至萬(wàn)億美元的公司。

上半場(chǎng)充斥著各種不斷迭代的訓(xùn)練方法和模型,而下半場(chǎng)在某種程度上對(duì)它們進(jìn)行了篩選。通用 recipe 會(huì)輕松碾壓你的漸進(jìn)式改進(jìn),你創(chuàng)造出能打破這套 recipe 的新假設(shè)。那時(shí),你就能做出真正改變游戲規(guī)則的研究。

歡迎來(lái)到 AI 下半場(chǎng)!


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
國(guó)腳曾提出心理輔導(dǎo),本期集訓(xùn)邀請(qǐng)了巴黎奧運(yùn)代表團(tuán)的心理咨詢師

國(guó)腳曾提出心理輔導(dǎo),本期集訓(xùn)邀請(qǐng)了巴黎奧運(yùn)代表團(tuán)的心理咨詢師

直播吧
2025-05-29 20:57:10
4個(gè)中校2個(gè)中隊(duì)長(zhǎng),巴鐵公開擊落印軍名單,除了殲10還有梟龍戰(zhàn)果

4個(gè)中校2個(gè)中隊(duì)長(zhǎng),巴鐵公開擊落印軍名單,除了殲10還有梟龍戰(zhàn)果

說(shuō)天說(shuō)地說(shuō)實(shí)事
2025-05-29 19:02:12
孫繼海青訓(xùn)風(fēng)波!中巴俱樂部發(fā)文劃清界限,家長(zhǎng)無(wú)奈改名字刪視頻

孫繼海青訓(xùn)風(fēng)波!中巴俱樂部發(fā)文劃清界限,家長(zhǎng)無(wú)奈改名字刪視頻

夢(mèng)史
2025-05-29 14:55:39
悲催!網(wǎng)傳去年微軟蘇州裁員去西雅圖的員工,現(xiàn)全部被裁且0賠償

悲催!網(wǎng)傳去年微軟蘇州裁員去西雅圖的員工,現(xiàn)全部被裁且0賠償

火山詩(shī)話
2025-05-29 07:24:26
新冠再次爆發(fā),可能不發(fā)燒!提醒:出現(xiàn)5個(gè)癥狀,病毒或已來(lái)敲門

新冠再次爆發(fā),可能不發(fā)燒!提醒:出現(xiàn)5個(gè)癥狀,病毒或已來(lái)敲門

明月聊史
2025-05-29 17:48:39
美國(guó)務(wù)卿:將狠狠吊銷中國(guó)留學(xué)生簽證

美國(guó)務(wù)卿:將狠狠吊銷中國(guó)留學(xué)生簽證

大象新聞
2025-05-29 10:54:47
莫言:男人過(guò)了40歲,不要再去碰20歲的女人,無(wú)論她多么楚楚動(dòng)人;女人過(guò)了40歲,不要再去碰不珍惜你的人。

莫言:男人過(guò)了40歲,不要再去碰20歲的女人,無(wú)論她多么楚楚動(dòng)人;女人過(guò)了40歲,不要再去碰不珍惜你的人。

感覺會(huì)火
2025-05-29 12:06:26
淚崩!江蘇05后女生獨(dú)自養(yǎng)活3個(gè)弟妹,陌生男子轉(zhuǎn)賬6萬(wàn):好好活著

淚崩!江蘇05后女生獨(dú)自養(yǎng)活3個(gè)弟妹,陌生男子轉(zhuǎn)賬6萬(wàn):好好活著

小人物看盡人間百態(tài)
2025-05-29 11:57:25
兩部門:云南西北部、西藏東南部局地發(fā)生山洪災(zāi)害可能性較大

兩部門:云南西北部、西藏東南部局地發(fā)生山洪災(zāi)害可能性較大

界面新聞
2025-05-29 18:05:38
重磅打虎!正部級(jí)畢井泉官宣落馬,曾引咎辭職

重磅打虎!正部級(jí)畢井泉官宣落馬,曾引咎辭職

新京報(bào)
2025-05-29 20:46:34
曾因問題疫苗引咎辭職,畢井泉被查,系今年打掉第5個(gè)正部

曾因問題疫苗引咎辭職,畢井泉被查,系今年打掉第5個(gè)正部

南方都市報(bào)
2025-05-29 21:24:24
王毅明天簽字,在聯(lián)合國(guó)見證下,把美國(guó)踢出局,宣告一個(gè)時(shí)代結(jié)束

王毅明天簽字,在聯(lián)合國(guó)見證下,把美國(guó)踢出局,宣告一個(gè)時(shí)代結(jié)束

說(shuō)天說(shuō)地說(shuō)實(shí)事
2025-05-29 19:54:16
唇語(yǔ)專家破譯法國(guó)總統(tǒng)馬克龍被妻子打臉后對(duì)話:布麗吉特怒罵“滾開,你個(gè)廢物”

唇語(yǔ)專家破譯法國(guó)總統(tǒng)馬克龍被妻子打臉后對(duì)話:布麗吉特怒罵“滾開,你個(gè)廢物”

愛意隨風(fēng)起呀
2025-05-29 00:50:32
鄭欽文:我本該穿著長(zhǎng)裙登場(chǎng)的,但我太害羞了就沒這么做

鄭欽文:我本該穿著長(zhǎng)裙登場(chǎng)的,但我太害羞了就沒這么做

直播吧
2025-05-29 11:15:17
美國(guó)切斷部分對(duì)華半導(dǎo)體技術(shù)出口,暫停噴氣發(fā)動(dòng)機(jī)技術(shù)對(duì)華出口

美國(guó)切斷部分對(duì)華半導(dǎo)體技術(shù)出口,暫停噴氣發(fā)動(dòng)機(jī)技術(shù)對(duì)華出口

澎湃新聞
2025-05-29 13:04:02
有人員死亡!高架快速路一車道突然斷頭,車輛沖出墜落?官方:是特大事故

有人員死亡!高架快速路一車道突然斷頭,車輛沖出墜落?官方:是特大事故

揚(yáng)子晚報(bào)
2025-05-29 17:35:05
美國(guó)衛(wèi)生部長(zhǎng):美國(guó)新冠死亡率比海地高200倍,海地疫苗接種率僅1.3%

美國(guó)衛(wèi)生部長(zhǎng):美國(guó)新冠死亡率比海地高200倍,海地疫苗接種率僅1.3%

風(fēng)向觀察
2025-05-29 19:26:53
日本研究完印巴空戰(zhàn)后得出結(jié)論,中國(guó)不講武德!

日本研究完印巴空戰(zhàn)后得出結(jié)論,中國(guó)不講武德!

局勢(shì)帝
2025-05-29 13:44:49
石應(yīng)康自殺闞全程被抓,兩個(gè)標(biāo)志性人物落幕,預(yù)示著一個(gè)時(shí)代結(jié)束

石應(yīng)康自殺闞全程被抓,兩個(gè)標(biāo)志性人物落幕,預(yù)示著一個(gè)時(shí)代結(jié)束

醫(yī)院院長(zhǎng)
2025-05-29 12:59:40
福建通報(bào)4起違反中央八項(xiàng)規(guī)定精神問題

福建通報(bào)4起違反中央八項(xiàng)規(guī)定精神問題

環(huán)球網(wǎng)資訊
2025-05-29 19:41:11
2025-05-29 22:03:00
FounderPark incentive-icons
FounderPark
關(guān)注AI創(chuàng)業(yè),專注和創(chuàng)業(yè)者聊真問題
762文章數(shù) 133關(guān)注度
往期回顧 全部

科技要聞

英偉達(dá)財(cái)報(bào)炸裂 黃仁勛卻嘆退出中國(guó)太可惜

頭條要聞

疑因2年前的一句"阿姨" 男子遭電話短信騷擾不敢回家

頭條要聞

疑因2年前的一句"阿姨" 男子遭電話短信騷擾不敢回家

體育要聞

納達(dá)爾,法網(wǎng),漫長(zhǎng)告別

娛樂要聞

辛柏青沉默8天后,這些事還是發(fā)生了

財(cái)經(jīng)要聞

若對(duì)等關(guān)稅叫停,特朗普還能怎么加關(guān)稅

汽車要聞

換上高爾夫GTI同款2.0T動(dòng)力 新凌渡L GTS實(shí)車曝光

態(tài)度原創(chuàng)

教育
家居
本地
房產(chǎn)
軍事航空

教育要聞

剛剛發(fā)布:南京市開始啟動(dòng)!

家居要聞

暖色復(fù)古 溫馨小資情調(diào)

本地新聞

云游中國(guó) |來(lái)仰天湖大草原,一起策馬奔騰

房產(chǎn)要聞

清盤倒計(jì)時(shí)!這個(gè)天河芯紅盤,贏的不止多一點(diǎn)!

軍事要聞

以軍承認(rèn)使用激光武器攔截?zé)o人機(jī)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 靖安县| 昭觉县| 梧州市| 宜昌市| 五常市| 永登县| 曲阳县| 镇平县| 孝感市| 星子县| 横峰县| 县级市| 房产| 凉城县| 满洲里市| 绥棱县| 康平县| 康保县| 合水县| 深水埗区| 留坝县| 西宁市| 武穴市| 阳城县| 酒泉市| 四会市| 灵川县| 辽宁省| 民勤县| 武穴市| 青铜峡市| 瑞昌市| 盐亭县| 东平县| 司法| 岗巴县| 上饶县| 安多县| 德安县| 沙坪坝区| 当涂县|