99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

僅憑一篇博客,他成功入職OpenAI!核心技術或用于GPT-5訓練

0
分享至


新智元報道

編輯:定慧 桃子

【新智元導讀】未中頂會,沒有發表arXiv,一篇博客卻成為OpenAI速通票。天才科學家Keller Jordan僅憑Muon優化器博客加入OpenAI。甚至,它可能被用于訓練下一代超級模型GPT-5。

如果想成功應聘加入OpenAI需要什么條件?

科班出身?頂會論文?師從像Hinton、LeCun這樣的AI大師?還是社交媒體上的技術紅人?

或者,也許只需要寫一篇博客就行。

Keller Jordan是一名機器學習領域的研究學者,2024年底他設計了一種神經網絡隱藏層的優化器Muon,并公開記錄了自己的研究進展。


很快,社區成員也開始并行實驗,報告結果,事情變得越來越有趣——OpenAI和xAI同時注意到了他,最終他選擇加入了OpenAI!


Muon第二作者Yuchen Jin直言,發表論文≠影響力。或許Muon已經被用于GPT-5的訓練中。


別再盲目追頂會

Keller Jordan的故事和DeepSeek開源引發的轟動有些相似,雖然兩者的影響力遠不可比擬,但事情背后的底層邏輯似乎都指向同一個——

在快速迭代的AI世界里,傳統的論文模式似乎已經落伍,開放&社區共建&快速響應也許才能讓人類跟上AI進化的速度。

微軟研究院的研究工程師Shital Shah在知曉Keller Jordan的經歷后感到非常興奮,因為他一直認為研究就該「以這種方式進行」

即使在「開放」的研究實驗室中,你也會看到太多研究人員對「早期想法」敝帚自珍、斤斤計較。

研究分享通常只在親密的朋友之間進行,很長一段時間,人們對此過于執著……

任何一個想法都需要花費數月時間才能通過發表的論文面世。

而當它最終發表時,又常常淹沒于大量其他論文之中。

如果有人確實注意到了它,對其做出改進又需要經歷同樣漫長而艱難的另一個周期。

Keller則采取了不同的方法。


他將初步想法作為公開的GitHub倉庫發布,而不是以論文形式發表。

人們可以立即嘗試并改進這些內容。

所有人都可以在任何時間驗證所有內容。由于一切都是開放的,因此不存在作弊或夸大主張的空間。

這確實可以稱得上是「分布式實時人工智能研究」!短短幾天內,Keller和其他人就改進了想法。看到潛力的人們紛紛加入并協助進行并行化。

在傳統的人工智能研究領域,這個反饋周期本需要6個多月的時間,而不是僅僅6天。

關于在發論文和「速通技術」之間,Keller Jordan的看法依然和半年前一樣,今日他轉發了一則2月份的自己的推文,表示雖然Muon火了,也幫他進入了OpenAI,但是他不會給Muon寫一篇論文。


Keller Jordan的意思很明顯,相比于arXiv上的一篇大概率被「淹沒」的論文,還不如老老實實的繼續研究自己的「優化器」。

甚至在今天還「特地」表達了自己關于目前AI優化其論文的看法——「都是虛假的,都是水文」


影響力>聲望

說來,僅憑一個博客被OpenAI招入麾下,Keller Jordan本人有著怎樣的背景?


他于2020年獲得了加州大學圣地亞哥分校數學和計算機科學雙學士學位,也曾就讀于加州大學圣克魯斯分校和UC伯克利。


畢業后,他曾入職專注于生成式AI公司Hive任機器學習工程師。隨后,又在維也納復雜性科學中心擔任訪問研究員。

直到2024年12月,Keller正式加入OpenAI。

他所有GitHub項目中,最具影響力的便是——Modded-NanoGPT,星標超2.4k。

Keller和團隊僅用8塊H100在3分鐘內復現GPT模型,僅需處理0.73B token。


他本人還有一個個人博客,自入職OpenAI以來,一直沒有更新,最后一篇文章正是Muon優化器。


Muon這篇文章究竟講的是什么?

一個優化器,破訓練速度新紀錄

在深度學習領域,優化器是推動模型訓練效率和性能的核心工具。

直到2024年12月,一個名為Muon優化器橫空出世,憑借卓越性能刷新NanoGPT和CIFAR-10訓練速度世界紀錄。

Muon,是一種為神經網絡2D參數隱藏層設計的優化器。

其核心思想是,SGD-動量法(SGD-momentum)生成的更新矩陣,通過Newton-Schulz迭代進行正交化處理,生成接近于半正交矩陣的更新,從而提升訓練效率。

它的實現簡單高效,支持在bf16精度下穩定運行,顯著降低了計算開銷。


比起AdamW優化器,Muon在多個任務中,表現非常驚艷。

在CIFAR-10中,它將達到94%準確率的訓練時間從3.3縮短至2.6 A100 秒,提升約21%。

針對NanoGPT訓練,Muon在FineWeb數據集上,將驗證損失達到3.28訓練速度提升了1.35倍。


此外,在774M和1.5B參數規模的模型上,Muon依舊保持訓練速度優勢。

訓練一個1.5B參數的Transformer模型達到GPT-2 XL水平,Muon僅需10個8xH100小時,而AdamW需要13.3小時,效率提升約25%。

那么,在AI圈,Muon的影響力有多大?

微軟團隊1月份論文中,便使用了Muon優化器。


一些機器學習大佬專為此著分析,還有更多研究中擁抱Muon優化器。



Muon的潛力

人工智能發展速度飛快,模型訓練始終是其核心環節,而優化器則扮演著至關重要的角色,它負責調整模型的參數,讓模型在數據上表現得更好。

過去幾年里,AdamW一直是訓練大語言模型的主力。

AdamW能讓GPT、LLaMA、Qwen這類龐然大物學得又穩又快。

然而,隨著模型參數從幾億增加到幾千億,訓練時間從幾天變成幾周甚至幾個月,AdamW的局限性開始顯現——它在超大規模場景下的效率開始受到挑戰。

進一步提升AI能力,需要更大的模型和更多的訓練資源。

但計算資源的成本高昂,訓練時間過長也會拖慢研究和應用的進度。

因此,開發更高效的優化器,不僅是技術上的追求,更是經濟和實踐上的迫切需求。

然后Muon「悄然出現」,盡管它還未成為業界焦點,但其獨特的設計和卓越的性能表明,它可能是AI模型訓練領域的一次重大基礎創新。

而這個事關重大的創新,并不是來自于著名論文或者知名團隊,而僅僅是Keller Jordan的一次「練手」。

AI研究員就業市場的「混亂現狀」

許多AI研究員博士似乎都陷入了一個誤區,認為在頂級會議上發表論文就是最終目標。

曾經有一段時間,發表論文就等于產生影響!

ResNet、Seq2Seq、Adam、Attention、Transformers、MoE,都是以論文的形式出現的。

真正的錯誤在于未能察覺這一情況早已不再適用。

發表文章≠影響力。

Muon只是一篇博客文章。它讓Keller成功進入了OpenAI,他現在可能正用它來訓練GPT-5。

Keller并不是孤例!

即便是沒有獲得博士學位,也可以入職OpenAI。昨天,James Campbell官宣放棄博士學位,要為ChatGPT和AGI引入記憶與人格。


傳統的同行評審周期根本無法跟上現代人工智能研究和開發的步伐。

當然基于人工智能的同行評審可能還是很有必要的。

開源就像新的同行評審。現實世界的采用和可復現性更為重要。

但不幸的是,在學術界,激勵機制有些錯位。學者需要展示「證據」來推動自己的職業生涯(升職、資金支持、同行認可)。

而最有價值的證明形式就是在頂級會議上發表論文。

頂級AI企業的人才選拔是否已從單純看學術論文,轉向綜合考察論文、工程和社區等多維度表現還不能就此下定論。

但正如OpenAI官方所言,他們「并不唯學歷論,更看重實際潛力與技能」。

無論通過哪條路徑,關鍵在于拿出過硬的成果(無論是論文、代碼還是項目)并產生實質影響力

參考資料:

https://kellerjordan.github.io/posts/muon/

https://www.51cto.com/aigc/4707.html

https://x.com/Yuchenj_UW/status/1934291648542126580

https://x.com/kellerjordan0/status/1890178773586489716

https://shital.com/blog/tweets/thread/202410131001-adamw-who-new-optimizer/


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
華為新機突然開售,價格把網友們整不會了

華為新機突然開售,價格把網友們整不會了

科技堡壘
2025-06-22 12:31:45
羅帥宇為什么敢硬剛?!

羅帥宇為什么敢硬剛?!

立德讀書
2025-06-13 21:21:49
A股:大家要做好心理預期,明天(6月23日),股市很可能這樣變化

A股:大家要做好心理預期,明天(6月23日),股市很可能這樣變化

財經大拿
2025-06-22 07:10:07
還是低估了黑豆水的威力!早晚一杯,火氣消了,睡眠也好了!

還是低估了黑豆水的威力!早晚一杯,火氣消了,睡眠也好了!

江江食研社
2025-06-16 18:30:09
970萬德黑蘭人已逃走500萬,伊朗原油揮淚大甩賣

970萬德黑蘭人已逃走500萬,伊朗原油揮淚大甩賣

史政先鋒
2025-06-21 21:49:44
違規吃喝標準確定!杜絕“一刀切”式整治,誰亂加碼誰擔責

違規吃喝標準確定!杜絕“一刀切”式整治,誰亂加碼誰擔責

王五說說看
2025-06-22 16:07:36
“貨沒收到,錢卻要還!”各地數百人報案京東白條被盜刷,警方立案后仍被催收

“貨沒收到,錢卻要還!”各地數百人報案京東白條被盜刷,警方立案后仍被催收

大風新聞
2025-06-20 21:40:13
平行世界四維空間真存在嗎?網友:我去過陰間,在上五年級的時候

平行世界四維空間真存在嗎?網友:我去過陰間,在上五年級的時候

解讀熱點事件
2025-05-06 00:07:14
湖北小縣城:體制內女教師的貧富差距

湖北小縣城:體制內女教師的貧富差距

英軍眼
2025-06-22 11:59:00
美國為什么要打擊伊朗核設施?伊朗會如何報復性反擊?

美國為什么要打擊伊朗核設施?伊朗會如何報復性反擊?

點評校尉
2025-06-22 12:44:39
比“不婚不育”更猛烈的沖擊波,來自70后父母的集體“撒手”!

比“不婚不育”更猛烈的沖擊波,來自70后父母的集體“撒手”!

小談食刻美食
2025-05-14 08:28:53
吃霸王婚宴的錢總“社會性死亡”了,生意被曝,新婚女兒也被連累

吃霸王婚宴的錢總“社會性死亡”了,生意被曝,新婚女兒也被連累

知鑒明史
2025-06-19 16:42:38
不出意外,7月起,將迎來新一波降價潮,4類商品價格或會“跳水”

不出意外,7月起,將迎來新一波降價潮,4類商品價格或會“跳水”

小談食刻美食
2025-06-20 17:01:49
為什么說對大自然要保持敬畏之心,看完網友的各種分享,讓人后怕

為什么說對大自然要保持敬畏之心,看完網友的各種分享,讓人后怕

熱鬧的河馬
2024-11-01 14:00:16
一天“血賺”38萬?浙江一派出所被網友瘋狂點贊!

一天“血賺”38萬?浙江一派出所被網友瘋狂點贊!

FM93浙江交通之聲
2025-06-22 23:01:16
《慶余年》男演員轉型拍短劇,演長劇18年無人理,一朝霸總天下知

《慶余年》男演員轉型拍短劇,演長劇18年無人理,一朝霸總天下知

易同學愛談娛樂
2025-06-22 16:10:05
郭德綱真沒有說錯,穿旗袍還真有開叉到胳肢窩的!大家看看唄!

郭德綱真沒有說錯,穿旗袍還真有開叉到胳肢窩的!大家看看唄!

翻開歷史和現實
2025-05-15 23:36:41
大批特務被捕,美中情局叫苦連天,中國成“間諜墳場”

大批特務被捕,美中情局叫苦連天,中國成“間諜墳場”

智觀科技
2025-06-18 11:39:09
全賣光了!貴州一家人套現42億,把爛攤子留給了8.8萬股民

全賣光了!貴州一家人套現42億,把爛攤子留給了8.8萬股民

毒sir財經
2025-04-25 22:21:31
19歲女孩被親生父親一周強奸4次,報警后母親竟讓她去撤案

19歲女孩被親生父親一周強奸4次,報警后母親竟讓她去撤案

胖胖侃咖
2025-05-28 08:00:16
2025-06-23 02:48:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12929文章數 66077關注度
往期回顧 全部

科技要聞

"你應該靠嘴吃飯",羅永浩自述被梁文鋒勸退

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

體育要聞

中國女排0-3意大利 香港站3勝1負收官

娛樂要聞

離婚四年!趙麗穎被曝新戀情惹爭議

財經要聞

蘋果后院起火

汽車要聞

首搭華為雙王牌/6月24日預售 嵐圖FREE+正式下線

態度原創

游戲
本地
時尚
數碼
公開課

《鬼武者》新作專為次世代而生!制作人解釋缺席上世代

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

伊姐周日熱推:電視劇《完美的救贖》;電視劇《書卷一夢》......

數碼要聞

曝索尼PS6將采用全新AMD架構:光追、AI性能翻倍

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 霍邱县| 呼图壁县| 探索| 台安县| 延川县| 喜德县| 平远县| 永顺县| 玉环县| 隆化县| 东乌珠穆沁旗| 尉犁县| 马尔康县| 和龙市| 曲麻莱县| 建昌县| 靖安县| 甘谷县| 尼勒克县| 玛多县| 福安市| 浦城县| 乃东县| 府谷县| 云龙县| 三穗县| 江安县| 三台县| 铅山县| 梨树县| 黄陵县| 丹江口市| 菏泽市| 巴马| 遂宁市| 龙江县| 静海县| 玛纳斯县| 京山县| 扶余县| 海丰县|