99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

斯坦福意外用AI生成超強CUDA內核,性能比人類專家優化得還要好!

0
分享至

明敏 克雷西 發自 凹非寺
量子位 | 公眾號 QbitAI

好家伙,AI意外生成的內核(kernel),性能比人類專家專門優化過的還要好!

斯坦福最近披露了一組新發現,結果真的太亮眼了。

由AI優化的內核,在常見深度學習操作上,翻倍超越原生PyTorch,性能至多可以提升近400%——

  • 矩陣乘法(Matmul,FP32):性能達到PyTorchtorch.matmul的101.3%。
  • 二維卷積(Conv2D):性能達到torch.nn.Conv2D的179.9%。
  • Softmax:性能達到torch.softmax的111.8%。
  • 層歸一化(LayerNorm):性能達到torch.nn.LayerNorm的484.4%。
  • Conv2D+ReLU+MaxPool組合操作:性能達到PyTorch參考實現的290.1%,以及torch.compile()參考實現的189.0%。

(在NVIDIA L40S GPU上進行基準測試,性能百分比定義為參考時間除以生成的kernel_size時間)



更驚人的是,這一切都是意外實現的。

研究團隊本來的目標是生成合成數據以訓練內核生成模型。

結果發現,僅在測試階段生成的合成數據本身,竟然可以生成性能非常優秀的內核。



圍觀網友:沒想到AI也要取代內核工程師了。



還有人發現,除了性能大幅提升外,研究團隊采用的方法也非常有趣:

他們沒有簡單的在操作上逐步優化(類似于爬坡算法),而是在每次迭代之間加入了一個語言推理的步驟,通過這種方式鼓勵搜索過程更加多樣化。
也就是說,他們是讓系統在每次改進時通過類似“思考”的方式產生更多想法,從而找到更好的解決方案。



具體如何實現,一起來看。

改代碼前先生成自然語言優化思想

按照斯坦福團隊博客的描述,這種內核生成的思路非常簡單——給定torch代碼,然后告訴大模型編寫自定義內核來替換torch算子。

這些內核是用純CUDA-C編寫,無需使用CUTLASS和Triton等庫和DSL(Domain-Specific Language,領域專用語言)。

不同于傳統方法的是,模型并不是一上來就直接改代碼,而是先用自然語言生成優化思想,然后再將這些思想轉化為新的代碼變體。

團隊這樣做的理由是,“按順序修改”式的優化思路缺乏多樣性,導致陷入局部極小值,重復訪問同一類轉換或無休止地優化沒有前景的軌跡。

為了進一步增強思路多樣性,斯坦福團隊還使用了多分支的探索模式。

具體來說,他們的方法并非每一步都只優化一個候選方案,而是將每個想法分散開來,使其衍生出多個實現,并使用性能最高的內核作為下一輪的種子。



團隊使用OpenAI o3和Gemini 2.5 Pro挑戰KernelBench 1級中的10個問題,運行多輪后,最佳內核開始出現。

其中大多數最佳結果出現在后續輪次(總共5輪),并且主要是第4輪或第5輪。

KernelBench是斯坦福團隊自己提出的一套AI生成內核測試基準,基準中的任務分為3個級別,其中1級是指單一原始操作(Single primitive operation),包括AI的基礎構建塊(例如卷積、矩陣-向量與矩陣-矩陣乘法、損失函數、激活函數以及層歸一化)



這一發現再加上之前DeepMind的AlphaEvolve,以及o3發現Linux的0day漏洞等一系列事件,讓網友們認為Gemini 2.5Pro和o3的能力水平已經達到了新的層級。



回到斯坦福的項目,在生成過程當中,可以看到模型的生成思路開始顯現出與人類的經驗相似之處——

  • 內存訪問優化:提高不同內存層次結構(全局內存、共享內存、寄存器)之間數據移動的效率,并確保以最大化帶寬和最小化沖突的方式訪問數據;
  • 異步操作和延遲隱藏:通過將慢速操作(如全局內存訪問)與計算或其他內存傳輸重疊,“隱藏”慢速操作的延遲;
  • 數據類型和精度優化:盡可能使用低精度數據類型(如 FP16 或 BF16)以減少內存帶寬要求、提高緩存效率;
  • 計算和指令優化:提高算術計算本身的效率,減少指令數量,或利用專門的硬件指令;
  • 并行性和占用率增強:最大化流多處理器(SM)上的活動線程數量,以更好地隱藏延遲并提高整體吞吐量;
  • 控制流和循環優化:減少與循環、分支和索引計算相關的開銷。

并且斯坦福團隊還展示了一組具體的優化軌跡,從中可以看出,并不是每一步優化都一定能讓速度更快,但經過多個步驟的組合,內核的速度能夠得到大幅提升,并最終超越PyTorch。



在具體實現上,有人詢問AI生成CUDA內核時的優化建議,是否可以被轉化為對應代碼實現、還是說只是觸發了隨機探索?

作者回應說,盡管還沒有進行更嚴謹的系統驗證,但是手動檢查的案例中,生成的CUDA實現與提出的優化建議是大致匹配的。

即AI并不是在完全隨機做優化,而是確實在嘗試實現它自己提出的策略。



華人主創團隊意外發現

這項研究共有三位作者:Anne Ouyang、Azalia Mirhoseini和Percy Liang。

Ouyang目前是斯坦福大學擴展智能實驗室的博士生,她本碩畢業于麻省理工,曾在英偉達cuDNN團隊工作。



Percy Liang是斯坦福大學計算機科學副教授兼統計學助理教授,目前擔任斯坦福基礎模型研究中心主任。

曾和李飛飛一起發布、推進了多項研究工作。



Azalia Mirhoseini是斯坦福大學計算機科學助理教授、斯坦福擴展實驗室創始人。她曾在DeepMind、Google Brain以及Anthropic工作過。

她此前參與的研究包括MoE、芯片設計算法AlphaChip等。



本次研究,本來是希望生成數據來訓練內核生成模型。

但是在過程中卻出現了意想不到的結果,僅在測試階段生成的合成數據本身,竟然可以生成性能非常優秀的內核。

因為這些內核利用了此前被認為很難實現的高級優化和硬件特性,所以團隊決定以博客形式分享此次成果。

不過具體是如何生成數據的,研究團隊暫時不對外發布,只是提到了這種設計理念也很簡單

最關鍵的還是,它已經展示出了巨大潛力。

此外,研究團隊也認為此次發現也與最近的一些趨勢相呼應——大規模再訓練已不是必需。

有時,聰明的搜索和分支策略,可以解鎖科學創新并解決復雜問題,通過verifier進行廣泛搜索還能有更多收獲。
將強大推理能力與同時探索多個假設結合起來,能帶來更好結果。就像AlphaEvolve、AlphaEvolution、 Gemini 2.5 Pro深度思考一樣。

最后,團隊表示這項研究還有很多可優化的空間。比如他們手頭上就還在優化兩個維度:

  • FP16 Matmul:52% performance of torch.matmul
  • FP16 Flash Attention::9% performance of torch.nn.functional.scaled_dot_product_attention

與FP16或BF16相比,FP32在新推出硬件上的優化程度通常比較低,這也是為何使用FP32內核比PyTorch更容易實現性能提升。

他們表示,雖然現在還有不少限制,但是對于未來前景還是很樂觀的。

畢竟最開始,他們連能正常運行的內核都生成不了,但是通過不斷優化搜索方法,已經能讓flash attention的性能提升到了一個不錯的水平。

值得一提的是,搜索使用的資源也很少,大概只用了300萬token輸入和400萬token輸出。

One More Thing

實際上,不只是一個團隊在嘗試開發內核大模型。

就在5月,開發了Devin的Cognition開源了首個通過強化學習即可編寫CUDA內核的大模型Kevin-32B。

它基于QwQ-32B在KernelBench數據集上使用GRPO,實現了多輪強化學習,性能優于o3、o4-mini。




[1]https://crfm.stanford.edu/2025/05/28/fast-kernels.html
[2]https://x.com/anneouyang/status/1928124885567467768
[3]https://x.com/cognition_labs/status/1919835720493236295

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“俄版珍珠港事件”后,全世界都在擔憂它……

“俄版珍珠港事件”后,全世界都在擔憂它……

樞密院十號
2025-06-02 22:55:21
與C羅分手后超級經紀人門德斯再次崛起,手握亞馬爾等一大批新星

與C羅分手后超級經紀人門德斯再次崛起,手握亞馬爾等一大批新星

雷速體育
2025-06-02 22:33:25
豐田CEO:這款發動機將終結電動汽車,混動技術卷起效率

豐田CEO:這款發動機將終結電動汽車,混動技術卷起效率

Hi秒懂科普
2025-06-02 13:59:03
鈦金屬,再見!iPhone17Pro確定都換了

鈦金屬,再見!iPhone17Pro確定都換了

搞機小帝
2025-06-02 21:04:40
《藏海傳》3位演員是鄭曉龍旗下藝人,借肖戰的東風,刷足存在感

《藏海傳》3位演員是鄭曉龍旗下藝人,借肖戰的東風,刷足存在感

趣文說娛
2025-06-03 10:04:24
40 歲以上中年人失業都干嘛去了?

40 歲以上中年人失業都干嘛去了?

了不起的程序員
2025-06-03 09:09:54
農村留守婦女的性生活到底有多尷尬?

農村留守婦女的性生活到底有多尷尬?

書畫藝術收藏
2024-03-06 19:00:05
四川“女巨人”身高2.10米,和1.68米重慶小伙未婚先孕,如今怎樣

四川“女巨人”身高2.10米,和1.68米重慶小伙未婚先孕,如今怎樣

果娛
2025-06-02 12:30:22
美國禁售EDA,中國反制來了,美企2519億芯片并購案突遭凍結

美國禁售EDA,中國反制來了,美企2519億芯片并購案突遭凍結

一個有靈魂的作者
2025-06-03 12:49:30
印尼羽毛球公開賽開戰,比賽畫面網友直呼“辣眼睛”

印尼羽毛球公開賽開戰,比賽畫面網友直呼“辣眼睛”

佑銘羽球
2025-06-03 11:50:06
機票價格“跳水” 突現1.1折!網友:抓緊時間抄底

機票價格“跳水” 突現1.1折!網友:抓緊時間抄底

環球網資訊
2025-06-02 14:38:03
中國5月財新制造業降至48.3,較4月下降2.1個百分點,2024年10月以來首次收縮

中國5月財新制造業降至48.3,較4月下降2.1個百分點,2024年10月以來首次收縮

和訊網
2025-06-03 10:03:02
36萬億美債,崩盤進入倒計時,白宮喊話中國,7天內必須見一面

36萬億美債,崩盤進入倒計時,白宮喊話中國,7天內必須見一面

阿傖說事
2025-06-03 12:49:25
每日郵報:水晶宮可能失去歐戰資格,高層緊急前往歐足聯商討

每日郵報:水晶宮可能失去歐戰資格,高層緊急前往歐足聯商討

懂球帝
2025-06-03 01:01:17
俄官方證實,一共損失了9架轟炸機,已經觸碰俄羅斯核打擊紅線

俄官方證實,一共損失了9架轟炸機,已經觸碰俄羅斯核打擊紅線

龍炎校尉
2025-06-03 10:58:17
為什么要禁止醫護擅自醫學科普?

為什么要禁止醫護擅自醫學科普?

歷史總在押韻
2025-06-01 00:43:00
毛選:搞好人際關系最好的方法,不是講道理,也不是討好他人

毛選:搞好人際關系最好的方法,不是講道理,也不是討好他人

李舟
2025-05-20 12:55:30
最后時刻,金文洙整合成功,三位總統力挺,他能逆風翻盤嗎?

最后時刻,金文洙整合成功,三位總統力挺,他能逆風翻盤嗎?

千雪新說
2025-06-02 22:19:17
被踢出局?國足23人名單大曝光,2人無緣比賽,1個中場+1個前鋒

被踢出局?國足23人名單大曝光,2人無緣比賽,1個中場+1個前鋒

體育有點水
2025-06-03 11:41:30
6月3日重要調整!今晚19:30中央5套CCTV5、CCTV+5直播節目表

6月3日重要調整!今晚19:30中央5套CCTV5、CCTV+5直播節目表

娛樂看阿敞
2025-06-03 10:24:00
2025-06-03 14:31:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10606文章數 176159關注度
往期回顧 全部

科技要聞

賈躍亭股東日哽咽談FF:我“特別愧疚”

頭條要聞

哈佛女生蔣雨融:我21歲本科畢業 對自己的口音很驕傲

頭條要聞

哈佛女生蔣雨融:我21歲本科畢業 對自己的口音很驕傲

體育要聞

從家鄉的水泥球場,他一路走上歐洲之巔

娛樂要聞

李小璐賈乃亮首合體!陪甜馨過六一

財經要聞

霸王交卷,單店失蹄

汽車要聞

吉利汽車5月銷量23.52萬輛 同比增長46%

態度原創

教育
數碼
時尚
旅游
家居

教育要聞

教育部和各省開通2025年高考舉報電話

數碼要聞

AZZA“無限塔”機箱家族新增 813 PUZZLE,造型類似魯班鎖

彩色襯衫太適合夏天了,高級又氣質

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

家居要聞

北歐氛圍 清新活潑趣味

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 关岭| 利川市| 红安县| 南阳市| 伊宁县| 镇江市| 洞口县| 贺兰县| 马公市| 肇东市| 长汀县| 寿宁县| 辉南县| 绥芬河市| 新郑市| 莒南县| 博爱县| 巫溪县| 家居| 务川| 崇左市| 钦州市| 烟台市| 乳山市| 乌拉特后旗| 洛阳市| 广汉市| 西乌珠穆沁旗| 庆城县| 贺兰县| 溆浦县| 额尔古纳市| 灵丘县| 同心县| 嵊州市| 革吉县| 枣阳市| 丰镇市| 芦山县| 江阴市| 宜良县|