99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

爆肝一篇博客拿下OpenAI Offer!Muon作者怒揭:幾乎所有優化器的論文都是“假的”

0
分享至


整理 | 屠敏

出品 | CSDN(ID:CSDNnews)

不是頂會論文,也沒有發在 arXiv 上,甚至連“正式發表”都稱不上——但就是這樣的一篇純博客文章,卻讓一名研究員成功拿到了 OpenAI 的 Offer,甚至據說這篇博客的技術還被用于 GPT-5 的訓練工作。


聽起來像是一個段子,但這位名叫 Keller Jordan 的研究員卻真實地做到了。

Keller Jordan 的這篇博客叫做Muon: An optimizer for hidden layers in neural networkshttps://kellerjordan.github.io/posts/muon/,其中提出了一種名為 Muon 的新優化器。

簡單來看,這篇文章既不是論文格式,也沒有同行評審,卻因實測效果出色而意外走紅。更出人意料的是,它還成了他叩開 OpenAI 大門的敲門磚。

這一消息最早由 Keller Jordan 的合作者、AI 云平臺初創公司 Hyperbolic Labs 的聯合創始人 Yuchen Jin 在 X 上公開。

Yuchen Jin 寫道:

「很多博士(包括曾經的我)常常陷入一個誤區:認為在頂級會議上發表論文就是最終目標。

但“發表”并不等于“影響力”。

Muon 只是篇博客文章,卻幫 Keller 拿到了 OpenAI 的 offer——現在他可能正在用它訓練 GPT-5。

我很感激他把我列為第二作者。我只是用 NanoGPT 跑了些實驗,測試 Muon 在更大語言模型上的可擴展性,結果它徹底擊敗了 AdamW(曾經的優化器之王)!

這事教會我:無論是做研究,還是生活,追求的應該是影響力,而不是光鮮的頭銜。」

AI 產品爆發,但你的痛點解決了嗎?8.15-16 北京威斯汀·全球產品經理大 會 PM-Summit,3000+ AI 產品人社群已就位。
直面 AI 落地難題、拆解頭部案例、對接精準資源!

掃碼登記信息,添加小助手進群,搶占 AI 產品下一波紅利:

進群后,您將有機會得到:
· 最新、最值得關注的 AI 產品資訊及大咖洞見
· 獨家視頻及文章解讀 AGI 時代的產品方法論及實戰經驗
· 不定期贈送 AI 產品干貨資料和秘籍


頂會論文≠有影響力

Yuchen Jin 的這番話一出,激起了不少的討論。

畢竟,在學術圈,頂會論文幾乎是衡量一個人研究水平和職業潛力的“硬通貨”——特別是對博士來說,能否進入一流實驗室、申請教職、爭取經費,其背后有沒有在 NeurIPS、ICLR、CVPR、ACL 這類會議上掛名還是很重要的。

而 Keller 卻用一篇“非正式”的博客文章,直接實現彎道超車,頗有些顛覆常規的意味。

其實,Keller Jordan 早在今年 2 月就公開表達過自己對這一事的態度。他在 X 上寫道,自己之所以沒有為 Muon 寫一篇正式的 arXiv 論文,是因為他壓根不相信,“寫出一篇數據漂亮、圖表華麗的優化器論文”與“這個優化器實際有沒有用”之間有什么必然聯系。

他更看重真實訓練中的表現,“我只相信實測跑分”。

在他看來,與其把大量時間投入在格式要求繁瑣、評審周期冗長的論文撰寫上,不如專注于實踐落地與真實效果。畢竟,一個想法從成形到論文發表,往往需要耗費數月甚至更久的時間,而當它終于面世時,極有可能會“過時”,而即使發布了又可能會被淹沒在頂會上一波又一波的投稿浪潮中,很少有人真正看、也很少有人真的用。

時下,在 AI 加快各領域迭代速度之際,這種觀點并非罕見。

前谷歌研究員 Hieu Pham 對此事評論稱:

“曾幾何時,‘發表論文’就等于‘產生影響’。ResNet、Seq2Seq、Adam、Attention、Transformers、MoE……這些經典成果都是以論文形式出現的。但真正的問題,是我們沒有意識到這個時代已經過去了。我自己也曾犯過類似的錯誤。好在,現在我們還有機會重新選擇。”


他補充道,就優化器而言,“行業已經有成千上萬篇關于優化器的論文發表了,但真正推動 SOTA(最優性能)前進的,也就只有一次——從 Adam 到 AdamW。其他所謂的進步,基本都是這兩個的改進實現,比如 FSDP。因此,我們真的應該停止再寫這類論文了。也不必引用 AdamW,大家都知道它是哪里來的。”

同是博士畢業的 Yuchen Jin 也感慨學術生態的局限:“這就是學術界令人唏噓的地方。我曾有一位實驗室同伴,沒能在任何頂級的計算機系統會議上發表論文,這導致他很難拿到名校教職。但最終,他成了谷歌的副總裁。”


非常規的“硬核學霸”

如今,Keller Jordan 的經歷也給人們帶來新的啟發:原來,不寫論文,也照樣能闖進一流的頂尖實驗室。

隨著 Muon 受到越來越多研究者的關注,就在今日, Keller 繼續重申自己的觀點——「已經有上百篇關于優化器的論文發表了,但所謂的最優性能(SOTA)也就提升了幾次而已。所以我們可以得出一個結論:幾乎所有優化器的論文都是“假的”。如果你也打算再寫一篇這樣的“假優化器”論文,拜托別引用 Muon。我不需要你的引用。」

這番言論雖然犀利,卻也反映出Keller Jordan對“實際效果大于學術裝飾”的堅持,以及他鮮明的個性。

打開 Keller 的履歷,他也的確是個不折不扣的“硬核學霸”。

從領英資料來看,Keller 曾就讀于加州大學圣克魯斯分校,主攻機器學習、數據科學等方向。而后在 UC 伯克利,主修操作系統、計算安全。而后于 2020 年以 3.94 的高績點(滿分 4)獲得美國加州大學圣迭戈分校數學與計算機科學雙學位。

畢業后,他進入 Hive 公司,擔任機器學習工程師,隨后又作為訪問研究員(Visiting Researcher)加入維也納復雜科學研究中心(Complexity Science Hub Vienna),繼續深耕 AI 實踐。

到了 2024 年 12 月,也就是發布 Muon 不久之后,Keller 成功入職 OpenAI,以一種幾乎“逆學術常規”的方式,打破了人們對進入頂尖 AI 實驗室的固有認知。

那么問題來了:他那篇非正式的博客文章,到底有何魔力?為什么沒有頂會背書、沒有論文格式,卻能引發如此關注?

接下來,我們就來一起看看 Muon 的真實效果與特性。


對比其他優化器,Muon 有何吸引之處?

Muon 是一個專門為神經網絡隱藏層設計的優化器。它目前刷新了 NanoGPT 和 CIFAR-10 等熱門任務的訓練速度記錄。

首先從實測上來看,Muon 目前已經取得了非常不錯的成績:

  • 在 CIFAR-10 上,從頭訓練到 94% 準確率的時間,從 3.3 A100 秒縮短到 2.6 A100 秒。

  • 在 NanoGPT 的“精煉網頁(FineWeb)”任務中,把驗證損失達到 3.28 的速度提升了 1.35 倍。

  • 在參數規模擴展到 774M 和 1.5B 時,訓練速度依然保持優勢。

  • 用 Muon 訓練一個 15 億參數的 transformer,在 HellaSwag 任務中達到了 GPT-2 XL 的水平,只用了 10 小時(8 張 H100 組成的 GPU 集群)。而使用 AdamW 則需要 13.3 小時才能達到相同水平。

下圖展示了在 NanoGPT 任務中,Muon 與其他優化器在樣本效率和實際訓練時間上的對比表現:

圖 1 按樣本效率比較優化器

圖 2 按掛鐘時間比較優化器

以下是 Muon 和 AdamW 在訓練 15 億參數語言模型時的對比:


圖 3 Muon 與 AdamW 在 15 億參數短時間訓練中的對比

從設計上來看,Muon 的核心原理是——先用帶動量的 SGD(SGD-momentum)生成更新,再對每個更新矩陣進行一次 Newton-Schulz(NS)迭代處理,最后才將其應用到模型參數上。


它的實現也較為簡單:

# Pytorch code
def newtonschulz5(G, steps=5, eps=1e-7):
    assert G.ndim == 2
    a, b, c = (3.4445, -4.7750, 2.0315)
    X = G.bfloat16()
    X /= (X.norm() + eps)
    if G.size(0) > G.size(1):
        X = X.T
    for _ in range(steps):
        A = X @ X.T
        B = b * A + c * A @ A
        X = a * X + B @ X
    if G.size(0) > G.size(1):
        X = X.T
    return X

Newton-Schulz 迭代的作用是對更新矩陣進行近似正交化,也就是說,它會執行如下操作:

換句話說,NS 迭代的實際效果是:把原本由 SGD-momentum 得出的更新矩陣,替換成與之最接近的“半正交矩陣”

感興趣的小伙伴也可以通過 GitHub 地址快速找到 Muon 的 PyTorch 實現:https://github.com/KellerJordan/Muon


Keller 的經歷并不是在否定學術的價值,而是在提醒我們:在 AI 快速演進的當下,影響力的來源正在悄然改變。

一篇實測效果出色的博客文章,可能比一篇格式完美卻難落地的論文更具說服力。

這也讓我們聯想到 DeepSeek,這支隊伍同樣是走出了一條“技術效果優先”的成名路徑:沒有高調預熱,沒有復雜包裝,靠著實打實的性能和穩定表現,在激烈的大模型競賽中殺出重圍,迅速贏得社區認可。

對當下的 AI 研究者來說,也許是時候重新思考:什么才是真正值得投入時間的事?是一篇“看起來很強”的論文,還是一個“跑得足夠快”的模型?Keller 和 Muon 的爆紅,或許只是這一轉變的開始。

參考:

Muon 博客原文:https://kellerjordan.github.io/posts/muon/

https://x.com/Yuchenj_UW/status/1934291648542126580

https://x.com/hyhieu226/status/1934290217516793947

https://x.com/kellerjordan0/status/1934138033240146313

2025 全球產品經理大會

8 月 15–16 日

北京·威斯汀酒店

2025 全球產品經理大會將匯聚互聯網大廠、AI 創業公司、ToB/ToC 實戰一線的產品人,圍繞產品設計、用戶體驗、增長運營、智能落地等核心議題,展開 12 大專題分享,洞察趨勢、拆解路徑、對話未來。

更多詳情與報名,請掃碼下方二維碼。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
小四月從瑞士回國,15歲的她有點凸嘴,素顏像媽媽,一身行頭超5w

小四月從瑞士回國,15歲的她有點凸嘴,素顏像媽媽,一身行頭超5w

史書無明
2025-07-23 21:59:58
戶口博弈:男子拿到北京戶口就跳槽,戶口被公司直接遷到湖北宜昌

戶口博弈:男子拿到北京戶口就跳槽,戶口被公司直接遷到湖北宜昌

阿傖說事
2025-07-18 09:09:24
鬧大了!奧委會點名讓中國辦奧運?網友吵翻:先看看菜市場的價簽

鬧大了!奧委會點名讓中國辦奧運?網友吵翻:先看看菜市場的價簽

史書無明
2025-07-22 20:43:33
教育部辦公廳主任朱小杰,職務調整

教育部辦公廳主任朱小杰,職務調整

新京報
2025-07-23 22:09:25
韋德:比爾想和哈登合作有些日子了 這都因為后者的組織能力

韋德:比爾想和哈登合作有些日子了 這都因為后者的組織能力

直播吧
2025-07-23 21:24:43
A股:指數精準收在3582.30,不出意外,明天再次上演同樣的劇本?

A股:指數精準收在3582.30,不出意外,明天再次上演同樣的劇本?

說說史事
2025-07-23 17:24:08
A股:公安部、發改委重磅發聲!穩定幣突發利空,明天市場如何走?

A股:公安部、發改委重磅發聲!穩定幣突發利空,明天市場如何走?

八斗小先生
2025-07-23 16:48:14
傳奇搖滾巨星去世,兩周前剛舉辦告別演唱會

傳奇搖滾巨星去世,兩周前剛舉辦告別演唱會

紅星新聞
2025-07-23 14:33:47
陳佩斯《戲臺》票房井噴,讓多少資方臉紅,黃渤這次又賭對了?

陳佩斯《戲臺》票房井噴,讓多少資方臉紅,黃渤這次又賭對了?

東方不敗然多多
2025-07-22 17:27:31
官方出手!親美辱華、為安倍哭喪的呂麗萍,今自食惡果再次變笑話

官方出手!親美辱華、為安倍哭喪的呂麗萍,今自食惡果再次變笑話

啟娛說
2025-07-22 16:42:28
24省份半年報陸續出爐:廣東穩居首位,四川守住第五

24省份半年報陸續出爐:廣東穩居首位,四川守住第五

時代周報
2025-07-23 15:24:30
娃哈哈風波后,鐘睒睒昔日言論被挖出:人要有道德水平,我們的錢是干凈的

娃哈哈風波后,鐘睒睒昔日言論被挖出:人要有道德水平,我們的錢是干凈的

可達鴨面面觀
2025-07-20 09:49:18
馬斯克可能重返美國政壇:他為啥敢硬剛總統?這正是美國厲害之處

馬斯克可能重返美國政壇:他為啥敢硬剛總統?這正是美國厲害之處

老方
2025-07-23 14:47:35
堅持埼玉的訓練方法1000天之后,堂主lee成為了真正的一拳超人

堅持埼玉的訓練方法1000天之后,堂主lee成為了真正的一拳超人

手談姬
2025-07-22 20:56:03
煥然一新的紅魔?阿莫林的夢想11人,在姆貝烏莫之后還有三筆轉會

煥然一新的紅魔?阿莫林的夢想11人,在姆貝烏莫之后還有三筆轉會

夜白侃球
2025-07-23 20:11:29
指南針股價創新高

指南針股價創新高

每日經濟新聞
2025-07-23 13:13:17
賴清德、曹興誠掉槍大扣分,藍營估罷免從“亮紅燈”轉趨穩

賴清德、曹興誠掉槍大扣分,藍營估罷免從“亮紅燈”轉趨穩

郭茂辰海峽傳真
2025-07-23 22:22:52
人在極度勞累下,一次最多能睡多久?網友:列車員說把他嚇壞了

人在極度勞累下,一次最多能睡多久?網友:列車員說把他嚇壞了

特約前排觀眾
2025-07-23 00:15:03
偶遇王思聰坐飛機!蜷腿看著好疲憊,戴名表坐經濟艙該省省該花花

偶遇王思聰坐飛機!蜷腿看著好疲憊,戴名表坐經濟艙該省省該花花

娛樂圈圈圓
2025-07-23 11:38:02
蔡依林回應與彭于晏復合6年

蔡依林回應與彭于晏復合6年

大象新聞
2025-07-23 19:08:27
2025-07-24 00:23:00
CSDN incentive-icons
CSDN
成就一億技術人
25804文章數 242100關注度
往期回顧 全部

科技要聞

別自嗨了!XREAL徐馳:AI眼鏡只有5歲智商

頭條要聞

印度、孟加拉關切雅魯藏布江下游水電站工程 中方回應

頭條要聞

印度、孟加拉關切雅魯藏布江下游水電站工程 中方回應

體育要聞

英格蘭最紅球星 也是加勒比島國驕傲

娛樂要聞

汪峰森林北同游日本 各帶各娃互不耽誤

財經要聞

律師解析娃哈哈遺產案:遺囑是最大變數

汽車要聞

德系大招放盡 場地極限測試全新奧迪A5L

態度原創

房產
教育
本地
手機
公開課

房產要聞

海南自由貿易港全島封關,2025年12月18日正式啟動!

教育要聞

黑龍江考生389分撿漏雙一流鄭州大學

本地新聞

這雙丑鞋“泰”辣眼,跪求內娛不要抄作業

手機要聞

iOS 26 Beta 4更新,液態玻璃又調整

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 嘉黎县| 白朗县| 南开区| 乐安县| 蕉岭县| 芜湖县| 乌拉特前旗| 波密县| 大埔县| 贺州市| 唐山市| 太湖县| 五莲县| 新绛县| 孝昌县| 云浮市| 屏山县| 塔城市| 东海县| 新泰市| 阳谷县| 遂昌县| 临海市| 绩溪县| 长泰县| 崇明县| 大庆市| 瑞安市| 顺平县| 绩溪县| 遵化市| 加查县| 涪陵区| 怀集县| 柘荣县| 科技| 临洮县| 建水县| 施秉县| 湘乡市| 平潭县|