機器之心報道
編輯:+0
最近,Meta 公司首席 AI 科學家、圖靈獎得主 LeCun 轉發了他在紐約大學的同事 Kyunghyun Cho 的一篇帖子:內容是關于這位教授 2025 學年機器學習研究生課程的教學大綱和講義。
- 講義地址:https://arxiv.org/abs/2505.03861
- 教學大綱:https://docs.google.com/document/d/1OngR25IMEM5bJ458J8z4OCnTFG87KJ5ihgWojU1DD64
該課程聚焦于以隨機梯度下降(SGD)為核心的基礎機器學習算法,特意避開大型語言模型(LLM)內容,同時鼓勵學生深入研讀領域經典論文,回溯機器學習的理論發展脈絡。
在這個人人都關注 LLM 的時代,這樣的課程設計乍看似乎很特別。但對比其他高校的課程表會發現, 各大高校研究生機器學習課程仍普遍以基礎理論和經典模型為核心。
比如斯坦福 CS229, 是經典的機器學習基礎課程,2025 年冬季課程簡介中,課程系統講授包括線性回歸、邏輯回歸、SVM、神經網絡、聚類、降維、EM 算法等基本模型與方法,強調數學推導與優化思想,廣泛應用于跨領域研究。
MIT 的 6.790 課程是其研究生階段的核心機器學習課程,前身為 6.867,現已更新為 6.7900。該課程強調從概率建模和統計推理的角度深入理解機器學習方法,適合希望在理論與實踐之間建立堅實聯系的學生。
清華電子系研究生課程也設置了《機器學習》《統計推斷理論和方法》等核心理論課程。
而最新 LLM 內容多在專門選修課中出現,比如斯坦福大學 CS25: Transformers United,是一門專注于 LLM 和 Transformer 架構的研究型課程,詳見機器之心報道《OpenAI、谷歌等一線大模型科學家公開課,斯坦福 CS 25 春季上新!》 。
可以看出,教育界普遍認為基礎教學有助于學生長遠發展。Cho 在撰寫講義時引用了 Sutton 的「苦澀教訓」,強調通用可擴展方法(如以 SGD 為核心)比具體架構更重要。他刻意省略了復雜體系(如 LLM)而專注于歷史上成熟的算法和數學直覺,認為「一個學期時間不足以深入所有主題」,只能先打下堅實基礎。
此外,Cho 曾在博客中提到,2010–2015 年間深度學習尚未普及時,很多 ML 課程對神經網絡僅作簡單提及。
如今通過強調經典方法、閱讀經典論文,可以讓學生理解知識的源頭與演進脈絡,培養批判性思考能力。總體而言,基礎導向的教學能讓學生掌握算法背后的數學原理和優化方法,而不是「盲目套用」最新模型。
理論 VS 實踐
但我們無法逃避的一個問題是:大學培養機制(尤其是研究生 / 博士教育)強調基礎、原理和科研能力,而實際工作環境尤其在工業界常常需要快速響應、工程落地、產品迭代能力。
一味的強調「必須理解深層原理」,在某些語境下,確實可能顯得有些「何不食肉糜」。
「你怎么連 attention 的 Q/K/V 向量都沒推導過就來調模型?」現實可能是:「我只是想學個微調技巧,用 LLaMA 寫個客服機器人。」
對此不少大學也在積極探索解決方案, 為彌補科研與工程能力脫節,不少學校推出了「橋接」課程或實踐項目。
例如,斯坦福大學在開設 CS229 等理論課的基礎上,還專門設立了 CS329S《機器學習系統設計》實踐課。這門課著重講授如何構建可實際部署、運行穩定且具備擴展性的機器學習系統,內容包括數據處理、特征提取、模型上線與監控等環節。
CMU 的機器學習博士生必須修讀 10-718《機器學習實踐》課程。在這門課中,學生需要完成學期項目,從頭到尾搭建并部署一個完整的機器學習系統。課程描述明確指出,學生將通過項目學習處理真實場景下的數據問題,掌握從原始數據清洗到模型最終上線的全流程技能。
國內高校也開始重視實踐教學。清華大學電子系與企業合作開設了多門實用性課程,如「大數據技術的應用與實踐」、「高階機器學習」和「智能制造」等,將行業實際案例和編程實踐引入教學過程。
為何高校仍執著于「慢功」?
在當今技術飛速發展的背景下,許多高校依然強調「打好基礎、追求深刻理解」,這并非單純的「固步自封」。
真正的技術能力不僅在于「會用工具」或「能跑模型」,而在于理解方法背后的原理,在面對新問題、新技術時,具備獨立分析、判斷和創造的能力。 吳恩達曾在一篇文章中以個人經歷說明持續學習基礎知識的重要性,他強調「牢靠且及時更新的基礎知識是成為一名高產機器學習工程師的關鍵」。
文章鏈接:https://www.deeplearning.ai/the-batch/issue-146/
這種理念的核心在于「抗變化性」。技術潮流更新迅速,從 CNN 到 Transformer,再到 LLM 和多模態系統,每一步都可能顛覆現有工程范式。
要適應這些變化,不能僅靠追逐熱點,而需深入掌握優化、泛化、表示學習等底層理論。只有理解「為何這樣設計」以及「背后的假設是什么」,才能在面對全新技術時避免迷茫。
此外,深厚的基礎是科研與技術創新的起點。科研不僅是調參或復現論文,更在于提出問題、構建假設、設計新方法。這離不開扎實的數學工具、嚴謹的邏輯訓練以及對經典工作的積累。基礎課程培養的不僅是知識點,更是抽象思維與批判性思考能力。
深度學習教父、圖靈獎得主 Geoffrey Hinton 在接受 MIT Technology Review 采訪時指出,正是對基礎算法的長期堅持和深入研究,才推動了深度學習的突破,「我們花了幾十年時間打磨神經網絡的基本原理,直到 2010 年代才迎來真正的應用爆發。基礎知識的積累和理解,是 AI 領域每一次重大進步的根本。」
當然,這種教育路徑并非忽視實踐,而是強調:真正的實踐力應建立在理解力之上。不僅要會用工具,更要了解其來龍去脈、適用邊界與改進方向。
因此,「找工作」與「打基礎」并非非此即彼的選擇題,而是時間維度上的權衡。短期內,工具技能能帶來直接的崗位匹配;但長期來看,基礎能力才是跨越技術周期、持續成長的「護城河」。
課程講義
現在我們回過頭來看看這份 100 頁 pdf 的課程講義,它對機器學習進行了全面介紹,涵蓋了基礎概念和現代技術,有興趣的讀者可以閱讀原文。
每一章的結構和內容概要如下:
第一章:能量函數 介紹能量函數作為機器學習中的統一主題的概念。解釋了不同的機器學習范式(監督學習、無監督學習、分類、聚類等)如何可以被構架為最小化能量函數。討論潛在變量和正則化在定義和學習能量函數中的作用。
第二章:機器學習中的基本分類思想 涵蓋了基本的分類算法,包括感知器、邊際損失、softmax 和交叉熵損失。解釋分類器訓練中的反向傳播,重點在于線性和非線性能量函數。討論了隨機梯度下降(SGD)和自適應學習率優化方法。涉及泛化和模型選擇,包括偏差 - 方差權衡和超參數調整。
第三章:神經網絡的基本構建塊 探索了神經網絡架構中常用的構建塊。討論了歸一化技術(批量歸一化、層歸一化)。介紹了卷積塊、循環塊和注意力機制。介紹了神經網絡中置換等變性和不變性的概念。
第四章:概率機器學習和無監督學習 說明了如何從概率角度解釋能量函數。涵蓋了變分推斷和高斯混合模型。討論了連續潛在變量模型和變分自編碼器(VAEs)。介紹了重要性采樣及其方差。
第五章:無向生成模型 探索無向生成模型,重點介紹受限玻爾茲曼機(RBMs)和專家乘積(PoE)。討論馬爾可夫鏈蒙特卡洛(MCMC)方法用于從 RBMs 中采樣。引入基于能量的生成對抗網絡(EBGANs)。涵蓋自回歸模型。
第六章:進一步話題 提供了機器學習中幾個高級主題的概述。討論了一步強化學習和多步強化學習。探索了集成方法(袋裝法,提升法)和貝葉斯機器學習。介紹元學習。探討混合密度網絡和因果關系。
經典論文
最后我們來看看 Cho 提到的經典論文,這里節選了一部分。
- 「Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning」——Ronald J. Williams
論文地址:https://link.springer.com/article/10.1007/BF00992696
該論文提出了 REINFORCE 算法,一種基于策略梯度的強化學習方法,用于訓練連接主義模型(如神經網絡)。該算法通過直接優化期望獎勵,奠定了現代策略梯度方法的基礎。
- 「Efficient Backprop」——Yann LeCun, Leon Bottou, Genevieve B. Orr, Klaus-Robert Müller(重點關注弟 4 節)
論文地址:https://link.springer.com/chapter/10.1007/978-3-642-35289-8_3
系統總結了反向傳播(Backpropagation)的優化技巧,包括學習率調整、權重初始化、激活函數選擇等。第 4 節特別討論了高效訓練神經網絡的實用方法。
- 「Training Products of Experts by Minimizing Contrastive Divergence」——Geoffrey Hinton
論文地址:https://www.cs.toronto.edu/~hinton/absps/nccd.pdf
提出了對比散度(Contrastive Divergence, CD)算法,用于訓練受限玻爾茲曼機(RBM)和專家乘積模型。這是深度學習復興前的重要工作,為后續深度信念網絡(DBN)奠定了基礎。
- 「Auto-Encoding Variational Bayes」——D. Kingma, M. Welling
論文地址:https://arxiv.org/abs/1312.6114
提出了變分自編碼器(Variational Autoencoder, VAE),通過變分貝葉斯方法實現高效的生成模型訓練。VAE 結合了神經網絡和概率建模,成為生成模型領域的里程碑。
- 「Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks」——Chelsea Finn, Pieter Abbeel, Sergey Levine
論文地址:https://arxiv.org/abs/1703.03400
提出了 MAML(Model-Agnostic Meta-Learning),一種通用的元學習算法,使模型能夠通過少量樣本快速適應新任務。MAML 在少樣本學習(Few-Shot Learning)領域具有開創性意義。
更多詳細內容請參見原講義和教學大綱。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.