99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

OpenAI 姚順雨:“算法為王”終結,歡迎來到“產品思維”時代

0
分享至


大數據文摘編譯

回顧過去幾十年,AI的發展幾乎就是一部“頂級模型與新方法”迭代史。

從DeepBlue擊敗象棋世界冠軍、AlphaGo征服圍棋、GPT-4刷爆各類考試榜單,到o1、R1等新一代模型橫掃數學、編程、寫作、操作等任務,每一次歷史性突破的背后,都是訓練方法、模型架構的根本性創新。

這時候的游戲規則很簡單:誰能發明更強的訓練方法、模型架構,就能稱霸榜單;誰能在ImageNet、GLUE、MMLU等benchmark上顯著提升,就能寫進教材、贏得引用。


姚順雨畢業于清華姚班,普林斯頓大學計算機科學博士,2024 年 8 月加入 OpenAI,是思維樹(ToT)作者。

而現在,AI領域長達數十年的“算法為王”思路,終于迎來顛覆。OpenAI的研究員姚順雨在一篇文章寫道:先驗和環境遠比算法本身更重要。他將接下來的AI時刻稱之為“下半場”

“AI第一半場像極了‘應試教育’,刷榜、拿分、畢業。第二半場才是‘真教育’,要讓AI在真實世界持續創造價值。”

第一半場,我們見證了方法與模型的輝煌;第二半場,我們要直面現實世界的復雜與挑戰。只有解決“效用問題”,讓AI成為現實中的價值創造者,這場比賽才算真正開始。

To thrive in this second half, we’ll need a timely shift in mindset and skill set, ones perhaps closer to a product manager.

可以理解為:“未來,第一流AI研究員的能力,或許更像一位產品經理,而不是算法工程師。

以下是文章全文,文摘菌做了不改變原意的編譯:


簡而言之:我們正處在AI的中場時刻。

幾十年來,AI領域的核心一直在于開發新的訓練方法和模型。這些努力確實帶來了巨大突破:從在國際象棋和圍棋上擊敗世界冠軍,到在SAT和律師資格考試上超越大多數人類,再到收獲國際數學奧林匹克(IMO)和國際信息學奧林匹克(IOI)的金牌。

這些載入史冊的里程碑,無論是DeepBlue、AlphaGo、GPT-4,還是o系列模型,背后其實都離不開AI方法的根本創新:搜索、深度強化學習、模型規模擴展和推理能力。隨著時間推移,AI的表現總是在持續提升。

那現在到底發生了什么變化?

用三個詞概括:強化學習(RL)終于“成了”(RL finally works)。更準確地說,是強化學習終于實現了泛化。

經過多年的探索和一系列關鍵節點的積累,我們終于找到了一個行之有效的通用方法,可以用語言和推理來解決各種強化學習任務。

要知道,就在一年前,如果你跟大多數AI研究人員說:“有一種通用方法,既能搞定軟件開發、創意寫作、IMO級別的數學、鼠標鍵盤操作,還能處理長篇問答。”很多人都會覺得你是在天方夜譚。

畢竟,這些任務都極其復雜,許多研究者一輩子的學術生涯可能只專注于其中一個小領域。

但現在,這一切真的成真了。

接下來會發生什么?AI的“下半場”。

從現在開始,將把重點從“解決問題”轉向“定義問題”。在這個新的階段,如何評估AI能力,比單純訓練模型更加重要。

我們不再只問“我們能不能訓練出能解決X問題的模型?”,而是要問“我們究竟應該訓練AI去做什么?我們又該如何衡量真正的進步?”想要在下半場脫穎而出,我們不僅要及時調整思維方式和能力結構,甚至可能需要逐漸向產品經理靠攏。

01 上半場

要理解AI的“上半場”,不妨看看那些真正的贏家。

到目前為止,你認為最具影響力的AI論文有哪些?我做過斯坦福224N課程里的一個小測試,結果其實并不意外:Transformer、AlexNet、GPT-3等等。

這些論文有什么共同點?它們都帶來了基礎性的突破,讓我們能訓練出更強大的模型。同時,它們之所以能發表,也因為在某些基準測試上取得了顯著提升。

但其實還有個更深層的共性:這些“贏家”本質上都是新的訓練方法或模型,而不是基準測試或具體任務。哪怕是公認最具影響力的基準數據集ImageNet,它的引用量還不到AlexNet的三分之一。而如果你再看看方法和基準之間的對比,這種差距就更加明顯了。

以Transformer為例,它的主要基準是WMT’14機器翻譯任務。WMT’14的工作坊報告被引用大約1,300次,而Transformer論文的引用數已經超過16萬


這恰好說明了AI“上半場”的玩法:重心始終在于打造新的模型和方法,至于評測和基準測試,雖然必不可少,但始終只是輔助,為論文體系服務。

為什么會這樣?很大一個原因在于,在AI發展的上半場,提出新方法本身比設計新任務更難、更令人興奮。創造一項全新的算法或模型架構,比如反向傳播算法、卷積神經網絡(AlexNet),或GPT-3背后的Transformer,都需要極高的洞見和工程能力。

相比之下,為AI設計任務通常要簡單得多:我們只需把人類已經在做的事情(比如翻譯、圖像識別、下棋)直接轉換成基準測試即可,這里面并沒有太多創新或者技術難點。

此外,新方法往往比具體任務更具通用性和適用范圍,因此價值更高。比如Transformer架構,最初只是在WMT’14機器翻譯數據集上驗證,但后來卻成為計算機視覺、自然語言處理、強化學習等眾多領域的核心動力,遠遠超出了它最初的應用場景。

一個優秀的新方法可以在許多不同的基準測試上取得突破,因為它本身簡潔而通用,其影響力自然也就跨越了單一任務。

這種模式持續了數十年,并不斷催生出改變世界的創新和突破,其具體表現就是各個領域基準成績的不斷刷新。那么,這種游戲規則為什么會發生改變?原因在于,所有這些創新和突破的積累,已經讓我們在“解決任務”這件事上,獲得了質的飛躍和真正可行的“通用配方”。

02 “通用配方”

那么,這套“通用配方”究竟是什么?其實它的核心要素并不意外:大規模語言預訓練、模型和數據的極致擴展,以及“推理+行動”的理念。乍一聽,這些詞可能和硅谷每天流行的術語沒什么兩樣,但為什么要稱之為“配方”呢?

我們可以從強化學習(RL)的角度來理解。強化學習常被認為是AI的“終極形態”,畢竟,從理論上講,RL可以保證在各種博弈中取勝;從實際應用看,沒有RL也很難想象像AlphaGo這樣超越人類的系統會出現。

在強化學習中,核心有三大要素:算法、環境和先驗知識。長期以來,RL研究者的關注點主要集中在算法本身(比如REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO等),也就是智能體如何學習的“智慧核心”,而環境和先驗知識通常被看作是固定的或者只是最簡單的配置。

舉個例子,Sutton和Barto那本經典的RL教科書,幾乎只講算法,幾乎沒有涉及環境設計或先驗知識的內容。


然而,進入深度強化學習時代后,大家逐漸意識到,環境本身對最終效果有著巨大的影響:一種算法的表現,往往高度依賴于它所被開發和測試的環境。如果忽略了環境,你可能會造出一個只在“玩具”環境中表現優異的“最優”算法。所以,為什么我們不先弄清楚到底要解決什么樣的環境,再去找最合適的算法呢?


Universe項目

這正是OpenAI最初的思路。他們先推出了gym,一個涵蓋各種游戲的標準RL環境,之后又有了World of Bits和Universe項目,試圖把互聯網或者計算機本身變成一個“游戲環境”。這個思路聽起來很不錯吧?只要我們能把所有數字世界都變成可操作的環境,然后用聰明的RL算法去解決它們,數字世界的AGI似乎就指日可待了。

這個計劃很不錯,但卻沒有完全奏效。OpenAI在這條路上確實取得了不少進展,比如用RL解決了Dota、機械手等難題。但他們始終沒能攻克“使用計算機”或者“網頁導航”這樣的任務,而且在一個領域學到的RL代理,幾乎無法遷移到另一個領域。顯然,某個關鍵環節還缺失了。

直到GPT-2和GPT-3的出現,大家才意識到,缺的其實是“先驗知識”。你需要大規模的語言預訓練,把普世的常識和語言知識“蒸餾”進模型里,之后再進行微調,才能讓AI成為網頁代理(WebGPT)或者聊天機器人(ChatGPT),并最終改變世界。事實證明,RL中最關鍵的部分,可能既不是算法本身,也不是環境本身,而是“先驗”。而這些先驗知識,可以通過和RL完全無關的方式獲得。

大規模語言預訓練為聊天場景帶來了良好的先驗,但在“控制計算機”或“玩電子游戲”等領域,效果卻遠遠不如聊天。


地址:https://arxiv.org/abs/2010.02903

為什么?這些領域距離互聯網文本的分布更遠,直接在這些任務上用SFT(監督微調)或RL,泛化能力很差。我在2019年就注意到這個問題:當時GPT-2剛剛問世,我嘗試用它加SFT和RL來玩文字冒險游戲:CALM,這也是世界上第一個用預訓練語言模型構建的智能體。模型在單個游戲上要經歷數百萬步的RL訓練,才能逐步“爬坡”;更糟糕的是,換一個新游戲就幾乎無法遷移。

雖然這正是RL的典型表現,RL研究者對此早已見怪不怪,但我還是覺得奇怪:我們人類明明可以幾乎不用訓練就能上手新游戲,還能很快表現得更好。這讓我第一次有了“頓悟”,人類之所以能泛化,是因為我們不只是機械地執行“去2號柜子”“用鑰匙1打開3號箱子”“用劍打怪”這種操作。我們還會主動思考,比如:“地牢很危險,我需要武器。現在沒看到武器,可能得從鎖著的箱子里找。3號箱子在2號柜子里,那我應該先去那里把它打開。”


“思考”或“推理”本質上是一種非常特殊的“行動”:它并不會直接改變外部世界,但推理本身的空間卻是開放且近乎無限的。

你可以思考一個單詞、一句話、一段文章,甚至隨意組合一萬個英文單詞,而你周圍的世界卻不會因此立即發生變化。在經典的強化學習理論框架下,這其實是一個很難處理的問題,也讓決策變得幾乎不可能。想象一下,你需要在兩個箱子中選擇一個,其中一個裝著一百萬美元,另一個是空的,你的期望收益是五十萬美元。但如果我再加入無限多個空箱子,你的期望收益就會變成零。

然而,一旦我們把“推理”納入RL環境的動作空間,并用語言預訓練獲得的先驗知識來驅動AI泛化能力,就能在做出不同決策時靈活地分配推理所需的計算資源。

這是一件極其神奇的事。坦白說,我自己對其中的奧秘還沒有完全梳理清楚,可能日后還需要專門寫一篇文章來詳細討論。如果你感興趣,可以去看一下ReAct論文,了解智能體推理的起源故事,也能感受到我當時的思考和靈感。


地址:https://arxiv.org/abs/2210.03629

我的直觀理解是:即使你面對無數個空箱子,在你過往的所有經歷和各類“游戲”中,這些選擇和嘗試其實積累了經驗,也為你在關鍵時刻做出正確決策打下了基礎。抽象地說,語言通過推理,賦予了智能體強大的泛化能力。

當我們找到了合適的RL先驗(即通過大規模語言預訓練獲得的知識)和理想的RL環境(即將語言推理作為行動的一部分),你會發現,RL算法本身反而變得不那么重要了。于是我們才有了o系列、R1、deep research、能用計算機的智能體等一系列突破。諷刺的是,長期以來,RL研究者一直把重心放在算法上,幾乎無人關注“先驗”,幾乎所有RL實驗都從零開始。我們花了幾十年時間,才終于意識到,也許最應該關注的恰恰是我們一直忽略的部分。

正如喬布斯所說:“你無法預見未來如何把這些點連接起來,只有當你回頭看時,這些點才會連成線。

03 下半場

這套“通用配方”正在徹底改變AI的游戲規則。回顧上半場的玩法:

  1. 我們不斷提出新穎的訓練方法或模型,在各種基準測試上“爬坡”突破;

  2. 隨之創造更難的基準測試,然后繼續循環。

但這一套游戲正在被“配方”所打破,因為:這套配方本質上已經把“刷榜”變成了標準化、產業化的流水線工作,不再需要太多全新的創意。只要按部就班地擴大模型、數據和算力,就能高效泛化到各種任務。你費盡心思為某個特定任務設計的新方法,或許能提升5%,但下一代o系列模型,哪怕不是專門為這個任務設計,可能就能直接提升30%。

即便我們不斷設計更難的基準,配方的擴展能力極強,很快(而且越來越快)就能攻破這些新基準。我的同事Jason Wei曾用一幅非常直觀的圖,清楚地展現了這一趨勢:


那么,下半場還能怎么玩?如果創新方法已經不再重要,而更難的基準測試也會被“配方”迅速攻克,我們還能做什么?

我認為,我們需要從根本上重新思考“評測”這件事。這不僅僅是設計更難的新基準,更是在質疑現有的評測體系,創造全新的評測方式,從而倒逼我們去發明超越現有“通用配方”的新方法。這其實很難做到,因為人類本身就有慣性,我們很少會主動質疑那些被視為理所當然的基本假設,往往下意識地把它們當作“自然法則”。

舉個例子來說明這種慣性:假如你曾基于人類考試體系,發明過歷史上最成功的AI評測之一。在2021年,這或許是一個極為大膽的創意,但三年后,這個思路已經被用到極致。你會怎么辦?大概率是再設計一套更難的考試。又或者,你已經讓AI攻克了基礎的編程任務,你可能會選擇不斷尋找更高難度的編程題,直到AI達到國際信息學奧賽金牌水平。

這種慣性很正常,但問題在于:AI已經在國際象棋、圍棋上擊敗了世界冠軍,在SAT、律師資格考試中超過了大多數人類,甚至在IOI、IMO上拿到了金牌。可放眼現實世界,至少從經濟和GDP的角度來看,這個世界并沒有發生什么本質性的變化。

我把這稱為“效用問題”(utility problem),并認為這是AI領域目前最重要的問題。

或許我們很快就能解決這個問題,也可能還需要更長時間。但無論如何,問題的根源其實出奇地簡單:我們的評測體系與真實世界的應用環境,在許多基本層面上存在差異。舉兩個例子:

1.傳統的AI評測“理應”是自動化的:通常是讓智能體接收一個任務輸入,獨立完成任務,然后獲得獎勵或評分。但現實世界中,智能體往往需要在任務過程中與人類持續互動——比如,你不會給客服發一大段信息后,等上十分鐘就期望對方能一次性給你完美的答復。正因為質疑了這種評測假設,新的基準應運而生:要么引入真實用戶參與(比如 Chatbot Arena),要么通過模擬用戶來實現交互(比如 tau-bench)。


2.評測“理應”是獨立同分布(i.i.d.)的:如果你有一個包含500個任務的測試集,通常會讓智能體分別獨立地完成每個任務,然后將所有分數做平均,得出一個總體指標。但現實中,任務往往是按序進行的,而非彼此獨立、同時發生。比如,Google 的一位軟件工程師會隨著對代碼庫的熟悉,在解決 google3 的各種問題時表現得越來越好;而一個AI軟件工程師則是不斷解決同一倉庫里的各種問題,卻無法像人類那樣積累“熟悉感”。顯然,我們需要具備長期記憶能力的方法(事實上相關研究已經出現),但學術界卻沒有相應的基準來證明其必要性,甚至缺乏質疑i.i.d.假設的勇氣。而這個假設恰恰是機器學習的基礎之一。

這些假設“似乎一直如此”,在AI的上半場,基于這些假設來開發評測體系和基準其實沒什么問題,因為當智能水平較低時,單純提升智能本身確實能帶來效用的提升。但現在,“通用配方”已經在這些假設下無往不利。因此,下半場的游戲規則變成了:

  1. 我們需要圍繞真實世界的效用,開發全新的評測體系或任務。

  2. 然后用“通用配方”去解決這些任務,或在配方基礎上引入新的創新組件,循環推進。

這個新游戲很難,因為它充滿了不確定和陌生。但也正因如此,它令人無比興奮。上半場的玩家在解決電子游戲和考試題,而下半場的玩家,則有機會用智能打造出真正有用的產品,締造數十億、數萬億美元的公司。上半場充滿了各種“微創新”的方法和模型,而下半場則會對這些創新做出真正的篩選。

只要你沿用舊的假設,“通用配方”就能輕易碾壓你的微小改進;但如果你能創造出打破舊配方的新假設,你就有機會做出真正改變游戲規則的研究。

歡迎來到AI的下半場!

原文鏈接:https://t.co/WddJkbSfks

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒級計費,平均節省開支30%以上!

掃碼了解詳情?


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
兢兢業業25年被降職,我躺平只做分內事,3個月后公司業績暴跌80%

兢兢業業25年被降職,我躺平只做分內事,3個月后公司業績暴跌80%

天夢見證
2025-06-02 22:10:51
廣西兩名干部被查

廣西兩名干部被查

魯中晨報
2025-06-05 20:54:08
難!國足連續6屆無緣世界杯,13次沖擊世界杯僅2002年成功

難!國足連續6屆無緣世界杯,13次沖擊世界杯僅2002年成功

直播吧
2025-06-05 23:56:23
歷史性突破!英美發明全新高血壓藥物,3期臨床效果驚人!

歷史性突破!英美發明全新高血壓藥物,3期臨床效果驚人!

徐德文科學頻道
2025-06-05 21:01:19
離任國乒?王皓官宣,參加競聘,北京新崗位曝光,已到公示階段

離任國乒?王皓官宣,參加競聘,北京新崗位曝光,已到公示階段

東球弟
2025-06-05 10:57:57
什么情況,最近都在傳這個事,真相是什么?

什么情況,最近都在傳這個事,真相是什么?

中產先生
2025-06-05 12:19:16
55歲“淫僧”黃連奎兩年染指128名少婦,連18歲的少女都不放過

55歲“淫僧”黃連奎兩年染指128名少婦,連18歲的少女都不放過

民間精選故事匯
2025-03-10 08:10:19
全家開撕!貝克漢姆兒子兒媳高調受訪回擊爸媽,倆弟弟發帖內涵大哥:說真話吧你!

全家開撕!貝克漢姆兒子兒媳高調受訪回擊爸媽,倆弟弟發帖內涵大哥:說真話吧你!

英國報姐
2025-06-05 21:49:35
5殺姆巴佩!亞馬爾2球,西班牙5:4!驚險進決賽,大戰C羅冠軍之巔

5殺姆巴佩!亞馬爾2球,西班牙5:4!驚險進決賽,大戰C羅冠軍之巔

話體壇
2025-06-06 05:23:26
香港司機歧視內地人后續:故意鎖車讓孩童中暑,警方介入結果亮了

香港司機歧視內地人后續:故意鎖車讓孩童中暑,警方介入結果亮了

說說史事
2025-06-05 08:54:02
總投資135億元,廣東為何要建黃茅峽水庫?

總投資135億元,廣東為何要建黃茅峽水庫?

澎湃新聞
2025-06-05 11:32:26
“22年的仇終于報了!”72歲老頭闖入退休法官家中,對他連捅13刀,得手后大笑

“22年的仇終于報了!”72歲老頭闖入退休法官家中,對他連捅13刀,得手后大笑

坦然風云
2025-06-05 11:40:01
解密:北京的天上人間是如何崛起的?又是如何步步走向覆滅的?

解密:北京的天上人間是如何崛起的?又是如何步步走向覆滅的?

文史旺旺旺
2025-06-04 21:11:14
你以后就會知道,上一輪下崗的,和未來下崗的,會是同一類人

你以后就會知道,上一輪下崗的,和未來下崗的,會是同一類人

記憶承載
2025-06-05 11:30:36
真兇浮現!不到72小時,俄專機連夜飛往北京,俄想要的中方給了

真兇浮現!不到72小時,俄專機連夜飛往北京,俄想要的中方給了

嘆知
2025-06-03 13:40:31
特朗普:短時間內促成俄烏立即停火比較困難

特朗普:短時間內促成俄烏立即停火比較困難

新華社
2025-06-06 04:27:07
中國已發出明確信號:諸君盡可留住美元,而我們……

中國已發出明確信號:諸君盡可留住美元,而我們……

觀察者網
2025-06-05 07:59:12
“插著儀器的屁股”走光了!上海知名主持人曝某三甲醫院腸鏡檢查不關門,患者隱私保護引熱議!

“插著儀器的屁股”走光了!上海知名主持人曝某三甲醫院腸鏡檢查不關門,患者隱私保護引熱議!

新民晚報
2025-06-05 15:47:25
中國女排壞消息!最大對手驚艷亮相,發球太強,打崩歐洲勁旅

中國女排壞消息!最大對手驚艷亮相,發球太強,打崩歐洲勁旅

跑者排球視角
2025-06-05 07:11:19
伊萬:沒晉級世界杯教練有責任,但年輕球員有很好的未來

伊萬:沒晉級世界杯教練有責任,但年輕球員有很好的未來

懂球帝
2025-06-06 00:49:35
2025-06-06 05:40:49
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6649文章數 94424關注度
往期回顧 全部

科技要聞

對話盛景網聯彭志強:跳出SaaS虧損黑洞!從“賣工具”到“賣結果”的AI RaaS轉型法則

頭條要聞

特朗普:我要求馬斯克離開 馬斯克瘋了

頭條要聞

特朗普:我要求馬斯克離開 馬斯克瘋了

體育要聞

提前無緣美加墨世界杯 國足眾將賽后落淚

娛樂要聞

陳赫宴請好友,李乃文攜妻子罕見亮相

財經要聞

習近平同美國總統特朗普通電話

汽車要聞

旗艦+大六座+百萬級 阿維塔全新SUV預計明年量產

態度原創

本地
親子
游戲
時尚
手機

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

親子要聞

爸爸才是孩子真正的起跑線

《馬里奧賽車世界》M站已有評測:兩家媒體給90+分

泰權威!復刻三分已成濃顏貴女

手機要聞

領先蘋果iPhone 17 Air!華為Mate XTs三折疊將國內首發eSIM

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 嘉祥县| 巫山县| 连平县| 怀集县| 团风县| 称多县| 株洲市| 永康市| 鹿邑县| 汾阳市| 双城市| 顺义区| 墨江| 偏关县| 景德镇市| 镇坪县| 运城市| 钟祥市| 民县| 肇庆市| 利辛县| 莱阳市| 信丰县| 郸城县| 万安县| 山西省| 太仆寺旗| 蒙阴县| 福建省| 丹阳市| 海城市| 新河县| 旬邑县| 田阳县| 灵璧县| 阜康市| 光山县| 博兴县| 岳普湖县| 兴安盟| 合阳县|