智東西
作者 陳駿達
編輯 李水青
智東西6月26日報道,近日,計算機視覺大牛、MIT教授何愷明入職谷歌DeepMind,他在個人主頁上更新了自己的最新職位——谷歌DeepMind杰出科學家(兼職)。同時,何愷明也仍然保留了MIT電氣工程與計算機科學學院(EECS)的終身教職。
何愷明是深度殘差網絡(ResNet)的提出者之一。他作為第一作者發表的ResNet論文《Deep Residual Learning for Image Recognition》,是21世紀被引次數最多的論文。
文中所提出的殘差連接在現代深度學習模型中無處不在,包括Transformers、AlphaGo Zero、AlphaFold以及當今幾乎所有的生成式AI模型。截至今年5月,何愷明的各類出版物總被引量已經超過70萬次。
2024年加入MIT之前,何愷明始終活躍于產業界與學術界,曾陸續在微軟亞洲研究院(MSRA)、Facebook AI研究院(FAIR)擔任研究科學家。他擁有清華大學物理系基礎科學班學士學位和香港中文大學信息工程博士學位,在本科期間,曾在微軟亞洲研究院視覺計算組實習,師從計算機視覺大牛孫劍;在香港中文大學期間師從香港中文大學多媒體實驗室創始人、商湯科技創始人湯曉鷗。
除了ResNet之外,何愷明還曾發表多項極具學術價值、對AI、計算機視覺產生深遠影響的研究成果。
2009年,在香港中文大學期間,何愷明在其第一篇發表的學術論文中提出了“圖像去霧算法”,這篇論文一經發表便斬獲了當年度的計算機視覺頂會CVPR年度最佳論文獎,何愷明也成為CVPR歷史上首位獲此殊榮的華人。
2015年,何愷明在微軟亞洲研究院工作時提出的ResNet在ImageNet圖像識別大賽中奪冠,相關論文獲得了2016年的CVPR最佳論文獎。
在FaceBook AI研究院工作期間,何愷明還在圖像分割領域做出重要貢獻,作為第一作者和第二作者分別發表了Mask R-CNN、Faster R-CNN兩篇重要論文。相關研究將圖像分割的準確度和效率提升到新的水準,Mask R-CNN論文獲得了2017年的ICCV最佳論文獎。
何愷明還曾獲得2018年PAMI青年研究員獎、ECCV 2018、CVPR 2021最佳論文榮譽獎和ICCV 2021埃弗林漢姆獎等著名獎項。
目前,谷歌DeepMind和何愷明本人都尚未披露后者入職后具體的安排。不過,我們可以從何愷明近期在CVPR、NeurIPS大會上的分享中,了解到他眼中具有學術價值的研究方向。
自AlexNet以來,識別模型已普遍實現端到端訓練和推理,但當前主流的生成模型在概念上類似于“分層訓練”,通常涉及多個步驟的推理與計算。何愷明帶領的團隊已于2025年發表了單步生成模型理論框架MeanFlow。未來,他可能會持續探索適用于端到端生成建模的框架。
同時,何愷明還稱識別與生成是一體兩面的問題,識別是從數據到嵌入的“流動”,而生成是從嵌入到數據的“流動”。未來,識別與生成一體化的框架也可能成為其重要研究方向之一。
在2024年于NeurIPS大會上分享時,何愷明強調:“未來才是真正的測試集”。他主張研究者應該關注尚未見過的新數據、新配置、新用例和新情境,以減少研究的“過擬合”。
在同一場大會上,何愷明稱研究的本質在于尋找“驚喜”。在加入谷歌DeepMind后,我們或許可以期待他帶來更多令人驚喜的科研成果。
來源:何愷明個人主頁
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.