99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

思維鏈之父跳槽Meta,不只因為1億美元!離開OpenAI前泄天機

0
分享至


新智元報道

編輯:KingHZ

【新智元導讀】離開OpenAI,只是為了Meta天價薪資?Jason Wei離職博客,泄露天機:未來AI更令人向往!

硅谷人才爭奪戰,火熱升級!

過去,是OpenAI從谷歌等公司吸引人才;現在,Meta直接砸錢搶人。

頂尖AI人才的薪酬包可謂天價,1億美元還是扎克伯格給的起步價!

思維鏈之父、華人AI科學家Jason Wei,就是從谷歌跳槽到OpenAI,剛剛又跳槽到Meta。


在AI領域,Jason Wei非常高產。

根據谷歌學術統計,他有13篇被引次數超過1000的論文,合作者包括Jeff Dean、Quoc V. Le等知名AI研究員,參與了OpenAI的GPT-4、GPT-4o、o1、深度研究等項目。


離職消息被媒體爆出之前,他發表了兩篇博客,或許能讓我們看出他為何選擇離開

意外的是,這些靈感都來自強化學習!



RL之人生啟示

天生我材必有用

過去一年,他開始瘋狂學習強化學習,幾乎每時每刻都在思考強化學習。

RL里有個核心概念:永遠盡量「on-policy」(同策略):與其模仿他人的成功路徑,不如采取行動,自己從環境中獲取反饋,并不斷學習。

當然,在一開始,模仿學習(imitation learning)非常必要,就像我們剛開始訓練模型時,必須靠人類示范來獲得基本的表現。但一旦模型能產生合理的行為,大家更傾向于放棄模仿,因為要最大化模型獨特的優勢,就只能依靠它自己的經驗進行學習。

一個很典型的例子是:相比用人類寫的思維鏈做監督微調,用RL訓練語言模型解數學題效果更好。

人生也一樣。

我們一開始靠「模仿」來成長,學校就是這個階段,合情合理。

研究別人的成功之道,然后照抄。有時候確實有效,但時間一長就能意識到,模仿永遠無法超越原版,因為每個人都有自己獨特的優勢。

強化學習告訴我們,如果想超越前人,必須走出自己的路,接受外部風險,也擁抱它可能給予的獎勵。

他舉兩個他自己更享受、卻相對小眾的習慣:

  • 讀大量原始數據。

  • 做消融實驗,把系統拆開看每個部件的獨立作用。

有一次收集數據集時,他花了幾天把每條數據讀一遍,然后給每個標注員寫個性化反饋;數據質量隨后飆升,他也對任務有了獨到見解。

今年年初,他還專門花了一個月,把過去研究中「瞎搞」的決策逐條消融。雖然費了不少時間,但因此弄清了哪種RL真正好用,也收獲了很多別人教不會的獨特經驗。

更重要的是,順著自己的興趣去做研究不僅更快樂,我也感覺自己正在打造一個更有特色、更屬于自己的研究方向。

所以總結一下:模仿確實重要,而且是起步的必經之路。但一旦你站穩腳跟,想要超越別人,就得像強化學習那樣on-policy,走自己的節奏,發揮你獨有的優勢與短板

AI的未來

驗證非對稱性,意指某些任務的驗證遠比求解更為簡單。

隨著強化學習(RL)的突破,這一概念正成為AI領域最重要的思想之一。

細察之下,驗證非對稱性無處不在

  • 數獨和填字游戲:解決數獨或填字游戲非常耗時,要嘗試各種可能性去滿足約束條件。但驗證一個答案是否正確卻非常簡單,只需檢查是否符合規則即可。

  • 開發網站:比如開發一個像Instagram這樣的網站,需要工程師團隊數年之功。但驗證網站是否正常運行,普通人只需幾分鐘就能完成,比如瀏覽頁面、檢查功能是否可用。

  • BrowseComp問題:要解決這類問題,通常需要瀏覽數百個網站,但驗證給定答案卻要快得多,因為可以直接搜索答案是否符合約束條件。

有些任務的驗證耗時與求解相當。例如:

  • 驗證兩個900位數字相加的結果,和自己計算的時間幾乎一樣。

  • 驗證某些數據處理程序的代碼是否正確,可能和自己編寫代碼的耗時相當。

有些任務驗證比解決還費時。例如:

  • 核查一篇文章中的所有事實,可能比寫文章本身更耗時(引用Brandolini定律:「辟謠所需的精力比制造謠言大一個數量級」)。

  • 提出一個新的飲食療法只需一句話:「只吃野牛肉和西蘭花」,但要驗證它對普通人群是否健康,卻得做多年大規模實驗。

通過前置研究,可以讓驗證變得更簡單。例如:

  • 數學競賽問題:如果有解答要點,驗證答案是否正確非常簡單。

  • 編程問題:閱讀代碼去驗證正確性,這很麻煩。如果你有覆蓋充分的測試用例,就可以快速檢查任何給定的解決方案;實際上,Leetcode就是這樣做的。在某些任務中,可以改善驗證但不足以使其變得簡單。

  • 部分改進:比如「說出荷蘭足球運動員的名字」,提前備好名單能大幅加速驗證,但仍需人工核對某些冷門名字。


為什么驗證非對稱性如此重要?

深度學習史證明:凡是能被測量的,都能被優化。

在RL框架下,驗證能力等同于構建訓練環境的能力。由此誕生驗證者定律

AI解決任務的訓練難度,與任務可驗證性成正比。所有可解且易驗證的任務,終將被AI攻克。

具體來說,AI訓練的難易程度取決于任務是否滿足以下條件:

  1. 客觀真相:所有人對什么是“好答案”有共識。

  2. 快速驗證:驗證一個答案只需幾秒鐘。

  3. 可擴展驗證:可以同時驗證多個答案。

  4. 低噪聲:驗證結果與答案質量高度相關。

  5. 連續獎勵:可以對多個答案的質量進行排序。

過去十年,主流AI基準測試均滿足前四項——這正是它們被率先攻克的原因。盡管多數測試不滿足第五項(非黑即白式判斷),但通過樣本平均仍可構造連續獎勵信號。


為什么可驗證性重要?

根本原因是:當上述條件滿足時,神經網絡每一步梯度都攜帶高信息量,迭代飛輪得以高速旋轉——這也是數字世界進步遠快于物理世界的秘訣。

AlphaEvolve的案例

谷歌開發的AlphaEvolve堪稱「猜想-驗證」范式的終極形態。

以「求容納11個單位六邊形的最小外接六邊形」為例:

  • 完美契合驗證者法則五項特性

  • 雖看似對單一問題的「過擬合」,但科學創新恰恰追求這種訓練集=測試集的極致優化——因為每個待解問題都可能蘊含巨大價值

悟透此理后,方覺驗證之不對稱,宛如空氣無孔不入。

試想這樣一個世界:凡能衡量的問題,終將告破。

智能的邊界必將犬牙交錯:在可驗證任務中,AI所向披靡,只因這些領域更易被馴服。

這般未來圖景,怎不令人心馳神往?

參考資料:

https://www.jasonwei.net/blog/asymmetry-of-verification-and-verifiers-law

https://www.jasonwei.net/blog/life-lessons-from-reinforcement-learning


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
跳水能拿世界冠軍,卻治不了鄰居“坐地起價”,這是什么道理?

跳水能拿世界冠軍,卻治不了鄰居“坐地起價”,這是什么道理?

暮光視界
2025-07-17 12:22:14
最新消息!川西墜河6母女中的大明玉找到了,丈夫回憶兩人過往

最新消息!川西墜河6母女中的大明玉找到了,丈夫回憶兩人過往

九方魚論
2025-07-18 19:44:39
歲月沉香處,自有清風來

歲月沉香處,自有清風來

青蘋果sht
2025-07-15 06:38:16
對黃楊鈿甜耳環的通報,我有理有據地提出質疑

對黃楊鈿甜耳環的通報,我有理有據地提出質疑

虬髯客好忙
2025-07-17 18:13:36
哈哈長公主的秘密前夫!

哈哈長公主的秘密前夫!

多元思想
2025-07-18 16:19:25
吉祥三寶現狀:父親早已去世,女兒遠嫁韓國生子,母親孤身一人

吉祥三寶現狀:父親早已去世,女兒遠嫁韓國生子,母親孤身一人

七公子娛樂
2025-07-04 12:18:31
FOREVER!利物浦官網將若塔移除出前鋒名單&將其加入“永恒”名單

FOREVER!利物浦官網將若塔移除出前鋒名單&將其加入“永恒”名單

直播吧
2025-07-18 10:44:32
杜建英同學發聲,稱宗馥莉沒教養是惡人,杜建英多年一直愁眉不展

杜建英同學發聲,稱宗馥莉沒教養是惡人,杜建英多年一直愁眉不展

快看張同學
2025-07-19 09:26:34
曝沃特金斯愿加盟曼聯,最低5000萬可買到!曾搭檔姆貝莫無需磨合

曝沃特金斯愿加盟曼聯,最低5000萬可買到!曾搭檔姆貝莫無需磨合

羅米的曼聯博客
2025-07-18 10:09:49
逼走陳忠和,打壓劉國梁,排擠郎平,89歲“體壇惡人”如今怎樣

逼走陳忠和,打壓劉國梁,排擠郎平,89歲“體壇惡人”如今怎樣

八斗小先生
2025-06-24 16:27:02
A股第三次牛市或許悄然來臨,錢太多了!

A股第三次牛市或許悄然來臨,錢太多了!

數據挖掘分析
2025-07-19 08:37:33
醫生提醒:父母過了50歲后,一定要打這3種疫苗!別不當回事

醫生提醒:父母過了50歲后,一定要打這3種疫苗!別不當回事

39健康網
2025-07-17 14:40:42
2025年7月起,各地會陸續公布養老金調整方案嗎?今年會有啥亮點

2025年7月起,各地會陸續公布養老金調整方案嗎?今年會有啥亮點

社保小達人
2025-07-19 09:15:03
32歲的田志希高調官宣已經懷孕,孩子小名小花生,已經14周了!

32歲的田志希高調官宣已經懷孕,孩子小名小花生,已經14周了!

桑啟紅原
2025-07-19 08:43:04
那年在玉米地逮住鄰村姑娘偷玉米,她說:你讓我做什么都可以

那年在玉米地逮住鄰村姑娘偷玉米,她說:你讓我做什么都可以

匹夫來搞笑
2025-06-20 10:50:55
1951年一名15歲志愿軍手癢癢,朝美軍開了一炮,結果被記了二等功

1951年一名15歲志愿軍手癢癢,朝美軍開了一炮,結果被記了二等功

近史談
2025-07-18 06:16:07
宗馥莉極端心理:愿意隨時隨地死去,最鄙視自己,家庭關系畸形

宗馥莉極端心理:愿意隨時隨地死去,最鄙視自己,家庭關系畸形

小楊侃事
2025-07-18 13:55:26
1929年,彭湃因叛徒出賣犧牲,一醫生密告陳賡:我知道叛徒在哪

1929年,彭湃因叛徒出賣犧牲,一醫生密告陳賡:我知道叛徒在哪

墨渡千秋
2025-07-12 10:39:01
中國球迷太有梗!一件“五花肉”T恤給約基奇成功逗笑了

中國球迷太有梗!一件“五花肉”T恤給約基奇成功逗笑了

雷速體育
2025-07-18 17:55:14
七年前,山東美女買英國優質男精子,生下混血寶寶,如今怎樣了?

七年前,山東美女買英國優質男精子,生下混血寶寶,如今怎樣了?

知鑒明史
2025-07-18 00:10:03
2025-07-19 10:31:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
13094文章數 66099關注度
往期回顧 全部

科技要聞

凌晨,OpenAI重磅更新,Manus們算白忙活嗎

頭條要聞

牛彈琴:點起的火燒到自己身上 特朗普的最大麻煩來了

頭條要聞

牛彈琴:點起的火燒到自己身上 特朗普的最大麻煩來了

體育要聞

夏聯-楊瀚森8+8+5+3帽 開拓者大勝火箭

娛樂要聞

王琳自曝被兒子打,承認自己水性楊花

財經要聞

娃哈哈爭產大戰:杜建英的進擊

汽車要聞

售30萬?方程豹鈦7高配版有激光雷達/車載無人機

態度原創

家居
房產
健康
教育
時尚

家居要聞

簡構智居 現代功能美學

房產要聞

一梯一戶純板樓!斷貨三年,??谶@一核心區,硬貨出場!

呼吸科專家破解呼吸道九大謠言!

教育要聞

現在大學生就業壓力,不是大,是非常大

15件甜撩系睡衣!純欲又少女,根本頂不住!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 邹城市| 汕尾市| 邢台市| 宜宾县| 土默特左旗| 科技| 石台县| 镇巴县| 乳源| 永康市| 亚东县| 吴川市| 长泰县| 恩平市| 涿州市| 泸水县| 博乐市| 洛阳市| 蕉岭县| 龙井市| 高清| 左云县| 鹤峰县| 芜湖市| 永福县| 铜陵市| 祁阳县| 靖远县| 突泉县| 益阳市| 寿宁县| 内丘县| 汪清县| 象州县| 山东| 永嘉县| 庆云县| 英山县| 关岭| 百色市| 镇赉县|