機器之心報道
機器之心編輯部
Meta 針對 OpenAI 的挖人竟然還在繼續!
這或許是目前為止,扎克伯格挖走的最強技術人才。
就在剛剛,外媒 Wired 的一位資深 AI 領域記者爆料稱,「多個消息源證實,OpenAI 知名研究員 Jason Wei 和另一位研究科學家 Hyung Won Chung 將雙雙離職,投奔 Meta。」
并且,他們二人的 Slack 賬號已經被停用。機器之心也從 OpenAI 相關人士證實了該消息,「(Jason Wei)Slack 沒了」,但是否是加入 Meta 還有待進一步證實。
Jason Wei 是 OpenAI 的知名科學家,目前 AI 大模型領域里重要技術思維鏈(CoT)的主要作者,Hyung Won Chung 也是 o1 的核心貢獻者之一。
Jason Wei 是 CoT 論文的第一作者,該論文的引用量已超過 1.7 萬
如果你對他們的印象還不夠深,還記得去年 12 月 OpenAI 連續兩周的新產品發布會嗎?坐在奧特曼旁邊的就是 Hyung Won Chung,最右邊的是 Jason Wei。他倆都畢業于 MIT,曾在谷歌工作,現在可能一起去了 Meta。
爆料消息出來不久,Jason Wei 并沒有正面回應,而是發了一篇推特,介紹其長博客,探討了驗證非對稱性以及「驗證者」法則。
但評論區看熱鬧的大家伙似乎已經不關注他寫了什么,都在恭喜他跳槽到 Meta。
在發了這篇技術博客沒多長時間,Jason Wei 又發了一篇推特。
以下是原推內容翻譯:
過去一年成為一名強化學習(RL)狂熱愛好者,并且清醒時大部分時間都在思考 RL,這無意中教會了我一個關于如何過好自己生活的重要道理。
RL 中的一個核心概念是,你總是希望處于「同策略(on-policy)」狀態:與其模仿別人成功的軌跡,不如采取自己的行動,并從環境給予的獎勵中學習。顯然,模仿學習(imitation learning)在最初引導模型達到非零通過率時很有用,但一旦模型能走出合理的軌跡,我們通常就會避免模仿學習,因為要充分發揮模型自身(與人類不同)優勢的最佳方式是只從它自己的軌跡中學習。一個被廣泛接受的實例是:在訓練語言模型解決數學應用題方面,強化學習比簡單地用人類編寫的思維鏈進行監督微調效果更好。
人生也是如此。我們最初通過模仿學習(學校教育)來引導自己,這非常合理。但即使在我畢業后,仍有一個習慣:研究別人如何取得成功并試圖模仿他們。有時會奏效,但最終我意識到,我永遠無法完全超越他人,因為他們是在發揮他們的優勢,而這些優勢我可能并不具備。這可能是某位研究人員比我更成功地進行大膽嘗試(運行 yolo),因為他們親自搭建了代碼庫而我沒有;或者一個非 AI 的例子:一位足球運動員利用我不具備的力量優勢保持控球權。
進行同策略 RL 帶來的啟示是:要超越前輩(beat the teacher),必須走自己的路,承擔風險并從環境中獲取回報。例如,比起一般的研究人員,我更喜歡做兩件事:(1) 大量審閱數據,(2) 進行消融研究以理解系統中各個組件的作用。有一次在收集數據集時,我花了幾天時間審閱數據并給每位人類標注員提供個性化反饋,之后數據質量變得極佳,并且我對要解決的任務獲得了寶貴的見解。今年早些時候,我花了一個月時間回溯并逐一消融研究之前在做深度研究時嘗試做的每個決策。這花費了相當多的時間,但通過這些實驗,我學到了關于哪種類型的 RL 效果好的獨特經驗。發揮自己的熱情讓我更有滿足感,而且我現在感覺自己正走在為自己和自己的研究開辟一片更強大天地的道路上。
簡而言之,模仿是好的,你必須在初始階段這樣做。但一旦你完成了足夠的引導,若想超越前輩,就必須進行「同策略」的強化學習,學會揚長避短。
接下來,我們來看這兩位研究員的履歷。
Jason Wei
Jason Wei 是思維鏈(Chain of Thought,CoT)概念開山之作 ——「Chain-of-Thought Prompting Elicits Reasoning in Large Language Models」的第一作者,本科畢業就加入了谷歌。在那里,他推廣了思維鏈提示概念,共同領導了指令調優的早期工作,并和 Yi Tay、Jeff Dean 等人合著了關于大模型涌現能力的論文。
2023 年 2 月,Jason Wei 加入 OpenAI,工作內容包括了推理模型 o1 和深度研究模型。
在 Google Scholar 主頁上,Jason Wei 的論文引用量已經超過了 77k,其中前兩位分別是 CoT 提示論文和 GPT-4 技術報告。
Hyung Won Chung
Hyung Won Chung 出生于韓國,OpenAI 研究科學家,專注于 LLM 的研究與應用。
他博士畢業于麻省理工學院,之后曾在谷歌從事了三年多的研究工作,期間參與了 PaLM(具有 5400 億參數的大語言模型)、 BLOOM( 1760 億參數的開放式多語言模型)、Flan-T5 等多個重要項目的研發。
離開谷歌后,Hyung Won Chung 于 2023 年加入 OpenAI。
在 OpenAI 工作期間,Hyung Won Chung 參與了多個重大項目的研究, 特別在以下項目中扮演了關鍵角色:o1-preview(2024 年 9 月),o1 正式版(2024 年 12 月)、Deep Research(2025 年 2 月),以及領導了 Codex mini 模型訓練。
在 OpenAI 一些重大發布會上,我們也經??吹?Hyung Won Chung 的身影。
Hyung Won Chung 參與過的 OpenAI 一些發布會
作為 o1 系統的奠基貢獻者,他在開發大語言模型的推理、搜索信息能力、以及使用強化學習策略方面發揮了重要作用。
Hyung Won Chung 還在多個重要場合分享洞見,包括斯坦福 CS25 講座廣受大家好評。
Hyung Won Chung 在 OpenAI 的研究工作中,他的貢獻不僅推動了 o1 系列模型成為具有思考能力的前沿工具,也在編碼智能體、系統評估和安全保障方面開辟了新路徑,形成了一個從理論到應用、從開發到普及的完整研究生態。
隨著 Jason Wei、Hyung Won Chung 兩位大佬級別的人員離開,OpenAI 真的要被挖麻了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.