網易首頁 > 網易號 > 正文申請入駐

太猛了！英偉達讓 Deepseek R1 編寫 GPU 內核，結果 R1 寫的比熟練工程師還好

2025-02-14 21:09:01　來源: AI寒武紀

江蘇舉報

分享至

DeepSeek 又上大分！

英偉達使用 DeepSeek-R1 讓 AI 自動生成 GPU 內核代碼，結果效果超越人類工程師，更離譜的是在 KernelBench Level 1 上實現了 100% 的數值正確性

我們一起來扒一扒事情原委：

隨著 AI 模型越來越強大，要解決的問題也越來越復雜。這時候，一種叫做“推理時序 scaling” (inference-time scaling)的新技巧就火了起來，聽起來高大上，其實說白了，就是給 AI更多的時間去思考！

就像我們人類解難題一樣，難題太復雜？那就多花點時間，多想想不同的解法，最終選出最優(yōu)方案！“推理時序 scaling” 就是讓 AI 在推理過程中，分配更多的計算資源，嘗試更多可能性，最終找到最佳答案。這也被稱為AI 的“reasoning” 或 “l(fā)ong-thinking” (長思考)能力

這次 Nvidia 的工程師們就用DeepSeek-R1模型，加上“推理時序 scaling”技術，搞了個實驗，結果讓人驚掉下巴！他們想讓 AI自動生成 GPU 上的 Attention (注意力機制) 內核代碼

要知道，Attention 機制可是大語言模型的基石，但是它的計算量巨大，尤其是處理長文本的時候，簡直是性能殺手！所以，優(yōu)化 Attention 內核代碼就顯得尤為重要。這活兒非常考驗技術，經驗豐富的工程師也要花費大量時間和精力

更麻煩的是，Attention 機制還有各種變體 (比如 causal, relative positional embeddings 等等)，多模態(tài)模型 (比如 vision transformers) 還會引入更復雜的 Attention 機制 (Spatial Neighborhood Attention)，人工優(yōu)化簡直要命！

但是！Nvidia 這次直接讓DeepSeek-R1 模型上陣，自動生成這些復雜的 GPU 內核代碼！而且還用上了 “推理時序 scaling” 的大招！

?? “閉環(huán)驗證” + “長時間推理” = 超強 AI 代碼生成器！

Nvidia 的工程師們設計了一個巧妙的“閉環(huán)驗證” (closed-loop)工作流程。簡單來說就是：

1. 人工給 DeepSeek-R1 模型一個初始 prompt (指令)，告訴它要生成什么樣的 GPU 內核代碼
2. DeepSeek-R1 生成第一版代碼
3. “驗證器” (verifier) 在 Nvidia H100 GPU 上運行生成的代碼，并進行分析
4. 驗證器根據分析結果，生成新的 prompt，反饋給 DeepSeek-R1 模型
5. DeepSeek-R1 模型根據新的 prompt，繼續(xù)優(yōu)化代碼

這個過程就像一個AI 程序員和 AI 代碼評審員之間的持續(xù)對話，不斷迭代優(yōu)化代碼。更厲害的是，Nvidia 工程師們讓這個過程持續(xù)了 15 分鐘！這就是 “推理時序 scaling” 的威力！給 AI 足夠的時間，它就能不斷改進，最終達到驚人的效果！

KernelBench 權威評測：100% Level-1 問題搞定！96% Level-2 問題拿下！

效果怎么樣呢？數據說話！Nvidia 用 Stanford 的KernelBench 基準測試來評估生成的內核代碼。結果顯示，對于Level-1 難度的問題，DeepSeek-R1 生成的代碼 100% 數值正確！對于 Level-2 難度的問題，也達到了 96% 的正確率！

在某些情況下，DeepSeek-R1 生成的內核代碼，性能甚至超過了經驗豐富的工程師手工優(yōu)化的代碼！

推理時間越長，效果越好！

英偉達還展示了“推理時間預算” (inference-time budget)對模型性能的影響。分配給 AI 更多的時間 (超過 10 分鐘)，就能顯著提高代碼的正確率！這再次證明了 “推理時序 scaling” 的有效性

Nvidia 這次實驗，無疑展示了DeepSeek-R1 模型和“推理時序 scaling”技術在GPU 內核自動生成領域的巨大潛力

未來 AI 可以自動優(yōu)化各種底層代碼，程序員可以把更多精力放在更高層次的創(chuàng)新上，這將極大地加速 AI 技術的發(fā)展！

當然，Nvidia 也承認，這還只是一個開始，要實現更廣泛、更穩(wěn)定的應用，還需要更多的研究和努力。但無論如何，這都是一個激動人心的開端！

參考：

https://developer.nvidia.com/blog/automating-gpu-kernel-generation-with-deepseek-r1-and-inference-time-scaling/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.