99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

清華姚班大牛,OpenAI姚順雨:AI的下半場要像產品經理一樣思考,RL算法取決于環境

0
分享至


還記得 AlphaGo 剛擊敗李世石時,全世界驚呼“人工智能時代來了”,轉眼不過幾年,ChatGPT、o?系列 模型已經把“智能”從棋盤和試卷一路卷到代碼、創作甚至電腦屏幕背后的每一次點擊

清華姚班出身大牛,現任OpenAI 研究科學家姚順雨在最新長文《The Second Half》中拋出一個驚人判斷:

過去幾十年我們專注于“把模型訓得更強”,如今游戲規則徹底反轉——接下來比拼的不是訓練,而是“如何定義并評估真正有用的任務”。換言之,第一階段的看家法寶是 Transformer、深度強化學習和大規模預訓練;而第二階段,你得像產品經理一樣重新思考:AI 究竟該為誰解決什么問題、又該如何衡量“解決得好不好”。這一轉向,將決定誰只是“模型分數更高”,誰能真正撬動萬億級經濟價值

姚順雨在文中還提到:

Sutton(強化學習之父) & Barto 的經典教材幾乎只談算法,幾乎不談環境與先驗,然而,在深度 RL時代,人們發現環境對經驗結果影響巨大:一種算法的表現往往極度依賴其開發和測試的環境。如果忽略環境,你也許會造出只在玩具設置里無比優越的“最優”算法。那么為何不先確定真正想解決的環境,再找最適合的算法?

這段看法其實剛好和這兩天Sutton與谷歌RL副總裁寫的最新論文《Welcome to the Era of Experience》的觀點一致

關于《Welcome to the Era of Experience》可以看我昨天的文章:

以下是全文分享:

《The Second Half》全文翻譯

原作者:姚順雨(Shunyu Yao),OpenAI 研究科學家 原文標題:The Second Half 原文摘要:We’re at AI’s halftime. 地址: https://ysymyth.github.io/The-Second-Half/

幾十年來,AI 主要關注于開發新的訓練方法和模型。事實證明這條路行之有效:從擊敗世界冠軍的國際象棋和圍棋程序,到在 SAT 和律師資格考試上超過大多數人類,再到在 IMO 和 IOI 上摘金奪銀。寫進教科書的里程碑——Deep Blue、AlphaGo、GPT?4 以及 o?series——背后都是 AI 方法上的根本性創新:搜索、深度強化學習、規模化和推理能力。隨著時間推移,一切都在變得更好。

那么,現在究竟發生了什么不同?

用三個詞概括:強化學習終于奏效了。更準確地說:強化學習終于具備了泛化能力。經歷多次重大彎路和里程碑的累積,我們終于找到了一套可行的配方,能用語言和推理解決各種 RL 任務。哪怕就在一年前,如果你告訴大多數 AI 研究者一份單一的配方可以同時搞定軟件工程、創意寫作、IMO 級數學、鍵盤鼠標操作以及長篇問答——他們肯定會笑你“幻覺”。這些任務各自極難,許多研究者整個博士階段可能只盯著其中一個小方向。

然而,它真的發生了。

接下來會怎樣?

AI 的下半場——從此刻開始——將把重心從“解決問題”轉向“定義問題”。在這個新時代,評價訓練更重要。我們不再僅僅問“能不能訓練出解決 X 的模型?”,而是要問“我們應該訓練 AI 做什么?如何衡量真實的進步?”要在下半場取得成功,我們必須及時轉變心態和技能,更像產品經理那樣思考。

前半場回顧

要理解前半場,就看看哪些工作贏得了桂冠。你認為迄今最具影響力的 AI 論文是哪幾篇?

我在斯坦福 224N 課堂上做過小測驗,答案并不意外:Transformer、AlexNet、GPT?3 等。這些論文的共同點是什么?它們提出了能訓練出更好模型的根本性突破,并通過在某些基準上顯著提升成績來發表。

還有一個潛在共性:這些“贏家”都是訓練方法或模型,而不是基準或任務。哪怕可以說是最具影響力的基準數據集——ImageNet——其引用量也不到 AlexNet 的三分之一。模型 VS. 基準的對比在其他地方更為懸殊:Transformer 的核心基準是 WMT’14 翻譯,其研討會報告引用量約 1300,而 Transformer 論文則超過 160,000。


這說明了前半場的游戲規則:重點是構建新模型和方法,而評估與基準處于次要(但必要)地位。

為什么?因為在 AI 的前半場,提出新算法或模型架構往往比定義任務更難、更令人興奮。與此相對,把已有的人類任務(翻譯、圖像識別、下棋)轉成基準顯得簡單得多。更重要的是,好方法往往更通用:Transformer 最初在 WMT’14 翻譯任務上嶄露頭角,后來卻驅動了計算機視覺、自然語言處理、強化學習等眾多領域的進步。一個偉大的新方法能爬過許多不同的基準,因此其影響通常超越單一任務。

這套游戲行之數十年,催生了改變世界的想法與突破,在各領域不斷刷新基準成績。為何游戲要改變?因為所有這些突破的累積,帶來了能夠真正解決任務的“通用配方”

配方是什么?

配方的原料并不意外:大規模語言預訓練、數據與計算的規模化,以及“推理與行動”的理念。這些詞似乎成了舊金山每天都在喊的流行語,但為何稱之為“配方”?

可以用強化學習 (RL) 的視角來理解——RL 常被視作 AI 的“終局”——理論上能贏下游戲,實際上也難以想象沒有 RL 的超人系統(如 AlphaGo)。RL 有三大關鍵組成:算法、環境與先驗。長期以來,RL 研究者幾乎把全部注意力放在算法(REINFORCE、DQN、PPO、TRPO 等)上,同時把環境和先驗視為固定或最小化條件。Sutton & Barto 的經典教材幾乎只談算法,幾乎不談環境與先驗。


然而,在深度 RL時代,人們發現環境對經驗結果影響巨大:一種算法的表現往往極度依賴其開發和測試的環境。如果忽略環境,你也許會造出只在玩具設置里無比優越的“最優”算法。那么為何不先確定真正想解決的環境,再找最適合的算法?

這正是 OpenAI 的初衷:他們構建了 Gym、World of Bits、Universe 等一系列標準 RL 環境,試圖把互聯網或電腦變成游戲環境。計劃聽上去完美:一旦把所有數字世界變成環境,再用聰明的 RL 算法解決它們,就能得到數字 AGI。

計劃很好,但并不完全奏效。OpenAI 在用 RL 解決 Dota、機械手等方向取得巨大進展,卻始終無法搞定“用電腦”或“網頁導航”,而且一個領域的 RL 代理無法遷移到另一領域。缺了什么?

直到 GPT?2、GPT?3 出現,人們才發現缺的原來是先驗。需要強大的語言預訓練,把常識和語言知識蒸餾進模型,再通過微調把它變成 WebGPT 或 ChatGPT(并改變世界)。事實證明,RL 最重要的部分可能并非算法或環境,而是先驗——而這些先驗可以通過與 RL 并不直接相關的方式獲得。

語言預訓練為聊天提供了好先驗,卻不足以同樣出色地操控電腦或玩電子游戲。為何?因為這些領域與互聯網文本分布差得更遠,直接進行監督微調或 RL 效果不佳。2019 年 GPT?2 剛問世時,我曾在此之上做監督微調/RL 來解決文本冒險游戲——CALM 是世界上第一個基于預訓練語言模型的游戲代理。但它需要數百萬步 RL 才能爬過單個游戲,且無法泛化。雖然這正是典型 RL 的特征,但我覺得奇怪:人類卻能零樣本上手新游戲并表現更好。于是我迎來了人生第一次“頓悟”:我們之所以泛化,是因為我們可以選擇“思考”而不只是“行動”——例如先想到“地牢危險,需要武器,而箱子可能藏武器”,再規劃行動。


“思考”,或“推理”,是一種奇特動作:它不直接影響外部世界,但其空間開放、組合爆炸——你可以想一個詞、一句話、一段話,甚至隨機想 10000 個單詞,而周圍世界不會立即改變。在經典 RL 理論中,這是交易極差、讓決策幾乎不可能:如果需要在兩個箱子中選一個,有一個有 100 萬美元,另一個空,你期望賺 50 萬;若我再加無限個空箱子,你期望收獲為零。但當把推理加入 RL 中的動作空間時,我們借助語言預訓練先驗來泛化,并能為不同決策靈活配置推理時長。這很神奇,恐怕我得另寫文章解釋;簡而言之:語言通過代理中的推理實現泛化

當我們擁有正確的 RL 先驗(語言預訓練)和 RL 環境(把語言推理作為動作)后,RL 算法反而成了最瑣碎的部分。于是有了 o?series、R1、“deep research” 和面向電腦操作的代理,未來還會更多。諷刺的是:幾十年來 RL 研究者過分關注算法,幾乎沒人理會先驗——所有實驗幾乎都是從零開始。卻花了數十年彎路才發現,也許我們該完全倒過來排優先級。

正如 Steve Jobs 所說:“你無法預見地連接點點滴滴,只有回頭看時才能。”

下半場

這套配方正在徹底改寫游戲規則。回顧前半場的循環:

  1. 1. 提出新訓練方法或模型,刷基準分數;

  2. 2. 創建更難的基準,繼續循環。

現在循環被破壞了,因為:

  • ? 配方把“刷分”工業化且無需太多新點子。你琢磨半天提升 5%,下一代 o?series 隨手提升 30%。

  • ? 即便造更難基準,配方很快(而且越來越快)就能解決。


接下來怎么玩?如果新方法不再稀缺,而更難基準也會迅速被破,那我們該做什么?

我認為必須從根本上重新思考“評估”。這不僅僅是再造新基準,更要質疑現有評估設置,創造新的評估方式,迫使我們發明超越配方的新方法。這很難,因為人類有慣性,很少質疑基本假設——許多假設被視為天經地義。

舉兩例說明慣性:

  1. 1.評估“應該”自動運行——通常代理收到一次任務輸入,就完全自主地做事,最后得到評分。但現實中,代理必須在任務過程中與人類交互——你不會給客服發一大段信息等 10 分鐘就指望一次性解決。于是出現了讓真人或仿真用戶在環的基準:如 Chatbot Arena、tau?bench。


  2. 2.評估“應該”獨立同分布 (i.i.d.) 運行——如果測試集有 500 個任務,你并行跑完取平均。但現實中任務是順序完成的:Google 軟件工程師越熟悉代碼庫,解決 bug 越快;而代理卻在同一倉庫里反復“首次見面”。我們顯然需要長期記憶,但學術界缺乏能證明需求的基準,也缺乏質疑 i.i.d. 假設的勇氣。

這些假設在前半場無傷大雅,因為智能水平低時,只要智能提升,效用就會同步提升。但現在,通用配方已確保在這些假設下必勝。因此,下半場的新游戲是:

  1. 1.設計面向真實效用的新評估設置或任務

  2. 2.用配方或在其上增添新組件來解決它們,循環往復。

這場游戲難在陌生,卻也令人興奮。前半場玩家在電子游戲和考試里刷分;下半場玩家則有機會把智能做成真正有用的產品,建立十億、萬億美元的公司。前半場充斥增量模型和方法;在下半場,它們被配方“過濾”——除非你創造新假設來打破配方,否則注定被碾壓。

歡迎來到下半場!

鳴謝

本文基于作者在 Stanford 224N 與 Columbia 的演講。初稿由 OpenAI “deep research” 讀取幻燈片并生成。

姚順雨

教育經歷

美國普林斯頓大學—— 計算機科學博士(2019 – 2024)
清華大學—— 計算機科學學士(2015 – 2019) ,期間擔任“姚班”學生會主席,創建清華 Rap Club

?星標AI寒武紀,好內容不錯過?

用你的在看告訴我~

求贊

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
特朗普稱“我無法想象中方會介入”,在美軍開戰前,中國立場被公開試探?

特朗普稱“我無法想象中方會介入”,在美軍開戰前,中國立場被公開試探?

荷蘭豆愛健康
2025-06-21 17:57:18
上海一女子,在封閉陽臺用200個礦泉水瓶種菜,實現了蔬菜自由

上海一女子,在封閉陽臺用200個礦泉水瓶種菜,實現了蔬菜自由

小嵩
2025-06-02 10:32:36
“夠舉報了”,無知母親曬兒子保送通知書,網友一眼發現不對勁

“夠舉報了”,無知母親曬兒子保送通知書,網友一眼發現不對勁

知曉科普
2025-06-23 11:23:17
李在明不去了,石破茂也不去了

李在明不去了,石破茂也不去了

封面新聞
2025-06-24 03:27:08
賞金獵人的契約精神

賞金獵人的契約精神

古老板的老巢
2025-06-23 12:10:52
著名演員突發腦出血離世,終年51歲!網友:作品太經典,帶來許多歡樂

著名演員突發腦出血離世,終年51歲!網友:作品太經典,帶來許多歡樂

福建衛生報
2025-06-21 12:24:54
伊朗外長:若以色列在德黑蘭時間4點前停止行動伊朗也將停止

伊朗外長:若以色列在德黑蘭時間4點前停止行動伊朗也將停止

新京報
2025-06-24 09:10:04
為愛發電!前英格蘭國腳卡羅爾透露:法全乙每月工資還不夠付房租

為愛發電!前英格蘭國腳卡羅爾透露:法全乙每月工資還不夠付房租

雷速體育
2025-06-23 23:34:17
黃楊鈿甜主演的多部劇將播出,制片人張萌回應網友

黃楊鈿甜主演的多部劇將播出,制片人張萌回應網友

大象新聞
2025-06-23 16:02:07
杜蘭特交易塵埃落定,NBA各隊開始追求哈登,哈杜或在休斯頓重聚

杜蘭特交易塵埃落定,NBA各隊開始追求哈登,哈杜或在休斯頓重聚

八度妖體育
2025-06-23 08:03:09
于東來瘋狂關店到底怕什么?99%的人不懂

于東來瘋狂關店到底怕什么?99%的人不懂

魯八兩
2025-06-24 00:40:32
深圳市新能源汽車產業辦主任黃鳴,跨市履新

深圳市新能源汽車產業辦主任黃鳴,跨市履新

澎湃新聞
2025-06-24 12:26:28
上海一男子被拍下站在12樓連廊偷窺女子臥室,女子稱共來了三次,律師:侵犯女子隱私

上海一男子被拍下站在12樓連廊偷窺女子臥室,女子稱共來了三次,律師:侵犯女子隱私

瀟湘晨報
2025-06-24 12:01:29
長期吃米和長期吃面的人,誰的心血管更健康?結果出乎意料

長期吃米和長期吃面的人,誰的心血管更健康?結果出乎意料

人民日報健康客戶端
2025-06-23 07:36:11
重磅!2025全國高考錄取率或跌破80%!本科上線率最低不足40%,重本上線率差距大

重磅!2025全國高考錄取率或跌破80%!本科上線率最低不足40%,重本上線率差距大

譚老師地理工作室
2025-06-23 18:55:40
福建高考成績預計今天公布 錄取控制線將隨之出爐 志愿填報將于本月30日啟動

福建高考成績預計今天公布 錄取控制線將隨之出爐 志愿填報將于本月30日啟動

朗威談星座
2025-06-24 11:12:43
終于蹲到了后續!無錫馬拉松“野鴛鴦”事件官方公告來了!

終于蹲到了后續!無錫馬拉松“野鴛鴦”事件官方公告來了!

馬拉松跑步健身
2025-06-23 21:53:39
雨果又奪一冠!網友:巔峰狀態下的雨果沒人能戰勝,美國大滿貫國乒想奪冠,還是要有隊員消耗他

雨果又奪一冠!網友:巔峰狀態下的雨果沒人能戰勝,美國大滿貫國乒想奪冠,還是要有隊員消耗他

好乒乓
2025-06-24 13:03:28
霍勒迪1換3交易評級:綠軍一舉多得獲評B 開拓者令人困惑僅評C

霍勒迪1換3交易評級:綠軍一舉多得獲評B 開拓者令人困惑僅評C

羅說NBA
2025-06-24 13:58:24
2025高考分數線預測出爐,想上一本,低于“這個分數”基本無望

2025高考分數線預測出爐,想上一本,低于“這個分數”基本無望

妍妍教育日記
2025-06-20 20:32:00
2025-06-24 14:24:49
AI寒武紀 incentive-icons
AI寒武紀
專注于人工智能,科技領域
731文章數 320關注度
往期回顧 全部

科技要聞

特斯拉股價飆漲8%,但Robotaxi小違章不斷

頭條要聞

媒體:以伊"12天戰爭"迅速走向停火 不符合以總理利益

頭條要聞

媒體:以伊"12天戰爭"迅速走向停火 不符合以總理利益

體育要聞

如果你喜歡籃球,你沒理由不喜歡步行者

娛樂要聞

名校不是護身符,李雪琴更多黑料被扒

財經要聞

以色列和伊朗同意全面停火!

汽車要聞

7.98萬起 firefly螢火蟲推出電池租用購車方案

態度原創

本地
時尚
教育
公開課
軍事航空

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

土到爆的“奶奶涼鞋”又火了!這幾雙好穿又好搭!

教育要聞

高考志愿填報重要參考數據:2025各地高考一分一段表匯總

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:以伊完全同意全面停火

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 汝城县| 涡阳县| 襄汾县| 新源县| 措勤县| 五家渠市| 尼勒克县| 柏乡县| 孝昌县| 深水埗区| 鸡西市| 沂源县| 隆回县| 惠州市| 荔浦县| 修武县| 南平市| 理塘县| 连平县| 分宜县| 绥滨县| 宣武区| 鲁甸县| 耒阳市| 吴江市| 乌海市| 永宁县| 夹江县| 罗源县| 寻甸| 福贡县| 广丰县| 中阳县| 射洪县| 南安市| 武功县| 绥宁县| 阿拉尔市| 临泉县| 泾源县| 准格尔旗|