網易首頁 > 網易號 > 正文申請入駐

NYU教授公布2025機器學習課程大綱：高校為何死磕基礎理論？

2025-05-13 10:53:42　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：+0

最近，Meta 公司首席 AI 科學家、圖靈獎得主 LeCun 轉發了他在紐約大學的同事 Kyunghyun Cho 的一篇帖子：內容是關于這位教授 2025 學年機器學習研究生課程的教學大綱和講義。

講義地址：https://arxiv.org/abs/2505.03861
教學大綱：https://docs.google.com/document/d/1OngR25IMEM5bJ458J8z4OCnTFG87KJ5ihgWojU1DD64

該課程聚焦于以隨機梯度下降（SGD）為核心的基礎機器學習算法，特意避開大型語言模型（LLM）內容，同時鼓勵學生深入研讀領域經典論文，回溯機器學習的理論發展脈絡。

在這個人人都關注 LLM 的時代，這樣的課程設計乍看似乎很特別。但對比其他高校的課程表會發現，各大高校研究生機器學習課程仍普遍以基礎理論和經典模型為核心。

比如斯坦福 CS229，是經典的機器學習基礎課程，2025 年冬季課程簡介中，課程系統講授包括線性回歸、邏輯回歸、SVM、神經網絡、聚類、降維、EM 算法等基本模型與方法，強調數學推導與優化思想，廣泛應用于跨領域研究。

MIT 的 6.790 課程是其研究生階段的核心機器學習課程，前身為 6.867，現已更新為 6.7900。該課程強調從概率建模和統計推理的角度深入理解機器學習方法，適合希望在理論與實踐之間建立堅實聯系的學生。

清華電子系研究生課程也設置了《機器學習》《統計推斷理論和方法》等核心理論課程。

而最新 LLM 內容多在專門選修課中出現，比如斯坦福大學 CS25: Transformers United，是一門專注于 LLM 和 Transformer 架構的研究型課程，詳見機器之心報道《OpenAI、谷歌等一線大模型科學家公開課，斯坦福 CS 25 春季上新！》。

可以看出，教育界普遍認為基礎教學有助于學生長遠發展。Cho 在撰寫講義時引用了 Sutton 的「苦澀教訓」，強調通用可擴展方法（如以 SGD 為核心）比具體架構更重要。他刻意省略了復雜體系（如 LLM）而專注于歷史上成熟的算法和數學直覺，認為「一個學期時間不足以深入所有主題」，只能先打下堅實基礎。

此外，Cho 曾在博客中提到，2010–2015 年間深度學習尚未普及時，很多 ML 課程對神經網絡僅作簡單提及。

如今通過強調經典方法、閱讀經典論文，可以讓學生理解知識的源頭與演進脈絡，培養批判性思考能力。總體而言，基礎導向的教學能讓學生掌握算法背后的數學原理和優化方法，而不是「盲目套用」最新模型。

理論 VS 實踐

但我們無法逃避的一個問題是：大學培養機制（尤其是研究生 / 博士教育）強調基礎、原理和科研能力，而實際工作環境尤其在工業界常常需要快速響應、工程落地、產品迭代能力。

一味的強調「必須理解深層原理」，在某些語境下，確實可能顯得有些「何不食肉糜」。

「你怎么連 attention 的 Q/K/V 向量都沒推導過就來調模型？」現實可能是：「我只是想學個微調技巧，用 LLaMA 寫個客服機器人。」

對此不少大學也在積極探索解決方案，為彌補科研與工程能力脫節，不少學校推出了「橋接」課程或實踐項目。

例如，斯坦福大學在開設 CS229 等理論課的基礎上，還專門設立了 CS329S《機器學習系統設計》實踐課。這門課著重講授如何構建可實際部署、運行穩定且具備擴展性的機器學習系統，內容包括數據處理、特征提取、模型上線與監控等環節。

CMU 的機器學習博士生必須修讀 10-718《機器學習實踐》課程。在這門課中，學生需要完成學期項目，從頭到尾搭建并部署一個完整的機器學習系統。課程描述明確指出，學生將通過項目學習處理真實場景下的數據問題，掌握從原始數據清洗到模型最終上線的全流程技能。

國內高校也開始重視實踐教學。清華大學電子系與企業合作開設了多門實用性課程，如「大數據技術的應用與實踐」、「高階機器學習」和「智能制造」等，將行業實際案例和編程實踐引入教學過程。

為何高校仍執著于「慢功」？

在當今技術飛速發展的背景下，許多高校依然強調「打好基礎、追求深刻理解」，這并非單純的「固步自封」。

真正的技術能力不僅在于「會用工具」或「能跑模型」，而在于理解方法背后的原理，在面對新問題、新技術時，具備獨立分析、判斷和創造的能力。吳恩達曾在一篇文章中以個人經歷說明持續學習基礎知識的重要性，他強調「牢靠且及時更新的基礎知識是成為一名高產機器學習工程師的關鍵」。

文章鏈接：https://www.deeplearning.ai/the-batch/issue-146/

這種理念的核心在于「抗變化性」。技術潮流更新迅速，從 CNN 到 Transformer，再到 LLM 和多模態系統，每一步都可能顛覆現有工程范式。

要適應這些變化，不能僅靠追逐熱點，而需深入掌握優化、泛化、表示學習等底層理論。只有理解「為何這樣設計」以及「背后的假設是什么」，才能在面對全新技術時避免迷茫。

此外，深厚的基礎是科研與技術創新的起點。科研不僅是調參或復現論文，更在于提出問題、構建假設、設計新方法。這離不開扎實的數學工具、嚴謹的邏輯訓練以及對經典工作的積累。基礎課程培養的不僅是知識點，更是抽象思維與批判性思考能力。

深度學習教父、圖靈獎得主 Geoffrey Hinton 在接受 MIT Technology Review 采訪時指出，正是對基礎算法的長期堅持和深入研究，才推動了深度學習的突破，「我們花了幾十年時間打磨神經網絡的基本原理，直到 2010 年代才迎來真正的應用爆發。基礎知識的積累和理解，是 AI 領域每一次重大進步的根本。」

當然，這種教育路徑并非忽視實踐，而是強調：真正的實踐力應建立在理解力之上。不僅要會用工具，更要了解其來龍去脈、適用邊界與改進方向。

因此，「找工作」與「打基礎」并非非此即彼的選擇題，而是時間維度上的權衡。短期內，工具技能能帶來直接的崗位匹配；但長期來看，基礎能力才是跨越技術周期、持續成長的「護城河」。

課程講義

現在我們回過頭來看看這份 100 頁 pdf 的課程講義，它對機器學習進行了全面介紹，涵蓋了基礎概念和現代技術，有興趣的讀者可以閱讀原文。

每一章的結構和內容概要如下：

第一章：能量函數介紹能量函數作為機器學習中的統一主題的概念。解釋了不同的機器學習范式（監督學習、無監督學習、分類、聚類等）如何可以被構架為最小化能量函數。討論潛在變量和正則化在定義和學習能量函數中的作用。

第二章：機器學習中的基本分類思想涵蓋了基本的分類算法，包括感知器、邊際損失、softmax 和交叉熵損失。解釋分類器訓練中的反向傳播，重點在于線性和非線性能量函數。討論了隨機梯度下降（SGD）和自適應學習率優化方法。涉及泛化和模型選擇，包括偏差 - 方差權衡和超參數調整。

第三章：神經網絡的基本構建塊探索了神經網絡架構中常用的構建塊。討論了歸一化技術（批量歸一化、層歸一化）。介紹了卷積塊、循環塊和注意力機制。介紹了神經網絡中置換等變性和不變性的概念。

第四章：概率機器學習和無監督學習說明了如何從概率角度解釋能量函數。涵蓋了變分推斷和高斯混合模型。討論了連續潛在變量模型和變分自編碼器（VAEs）。介紹了重要性采樣及其方差。

第五章：無向生成模型探索無向生成模型，重點介紹受限玻爾茲曼機（RBMs）和專家乘積（PoE）。討論馬爾可夫鏈蒙特卡洛（MCMC）方法用于從 RBMs 中采樣。引入基于能量的生成對抗網絡（EBGANs）。涵蓋自回歸模型。

第六章：進一步話題提供了機器學習中幾個高級主題的概述。討論了一步強化學習和多步強化學習。探索了集成方法（袋裝法，提升法）和貝葉斯機器學習。介紹元學習。探討混合密度網絡和因果關系。

經典論文

最后我們來看看 Cho 提到的經典論文，這里節選了一部分。

「Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning」——Ronald J. Williams

論文地址：https://link.springer.com/article/10.1007/BF00992696

該論文提出了 REINFORCE 算法，一種基于策略梯度的強化學習方法，用于訓練連接主義模型（如神經網絡）。該算法通過直接優化期望獎勵，奠定了現代策略梯度方法的基礎。

「Efficient Backprop」——Yann LeCun, Leon Bottou, Genevieve B. Orr, Klaus-Robert Müller（重點關注弟 4 節）

論文地址：https://link.springer.com/chapter/10.1007/978-3-642-35289-8_3

系統總結了反向傳播（Backpropagation）的優化技巧，包括學習率調整、權重初始化、激活函數選擇等。第 4 節特別討論了高效訓練神經網絡的實用方法。

「Training Products of Experts by Minimizing Contrastive Divergence」——Geoffrey Hinton

論文地址：https://www.cs.toronto.edu/~hinton/absps/nccd.pdf

提出了對比散度（Contrastive Divergence, CD）算法，用于訓練受限玻爾茲曼機（RBM）和專家乘積模型。這是深度學習復興前的重要工作，為后續深度信念網絡（DBN）奠定了基礎。

「Auto-Encoding Variational Bayes」——D. Kingma, M. Welling

論文地址：https://arxiv.org/abs/1312.6114

提出了變分自編碼器（Variational Autoencoder, VAE），通過變分貝葉斯方法實現高效的生成模型訓練。VAE 結合了神經網絡和概率建模，成為生成模型領域的里程碑。

「Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks」——Chelsea Finn, Pieter Abbeel, Sergey Levine

論文地址：https://arxiv.org/abs/1703.03400

提出了 MAML（Model-Agnostic Meta-Learning），一種通用的元學習算法，使模型能夠通過少量樣本快速適應新任務。MAML 在少樣本學習（Few-Shot Learning）領域具有開創性意義。

更多詳細內容請參見原講義和教學大綱。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.