來源:西湖大學
編輯整理:雙一流高教
西湖大學迎來一位新成員,其辦公室吸引了多位老師前來交流探討。這位新教授究竟擁有怎樣的學術背景,能產生如此的“磁吸效應”?
答案在于統計學。
近期,國際知名統計學家佘軼原教授已正式加入西湖大學,擔任理學院和理論科學研究院講席教授。
統計學作為數據科學的核心基礎,是機器學習與人工智能等領域不可或缺的支撐學科,廣泛服務于自然科學、工程技術及社會科學等諸多領域。事實上,統計學無處不在,它不僅關乎我們對數據的理解和處理,更深刻地塑造著我們的科學理念與信念。
佘軼原教授
佘軼原的研究涵蓋高維統計、機器學習、優化技術、大數據分析及穩健統計,綜合了理論、計算及應用,屬于統計學、數學和計算機科學的深度交叉領域。
他的學術經歷本就橫跨多個學科,早年在北京大學接受了數學與計算機方向的系統訓練,隨后赴美攻讀統計學。2008年,佘軼原在統計學頂尖學府斯坦福大學獲得博士學位。此后任教于佛羅里達州立大學統計系,2018年晉升為正教授,現已全職加盟西湖大學。
佘軼原教授是美國統計學會會士、數理統計學會會士及國際統計學會當選會員,曾榮獲美國國家科學基金會職業生涯獎。佘軼原是西湖大學引進的首位統計學教授,他的加入將為學校在統計學科的布局增添了關鍵一環,并將致力于打造西湖大學在數據科學及其交叉領域的研究與人才培養新高地。
不定中的確定
說到統計,許多人往往誤以為它只是數據的簡單收集與整理,實際上,這只是統計學的起點。
統計學更關注如何通過數據推斷總體規律,并為實際決策提供堅實的理論依據。作為國家一級學科,統計學不僅嚴謹且富有實踐價值,早已深度融入社會生活和各類科學領域。
“統計學是一門以數據為核心、研究與應對不確定性的科學。”佘軼原說。
為什么要關注不確定性?測量誤差、個體差異、抽樣偏差,以及現實世界問題的高度復雜性和模型的不完備性等等,共同構成了不確定性的來源。統計學通過嚴謹的分析與建模,幫助我們理解并量化這些不確定性,提升科學推斷和決策的可靠性。
這幾年火熱的人工智能,其實也離不開統計學的底層原理支持。馬斯克前段時間略帶醋意地說:“機器學習的本質就是統計學?!?/p>
的確,人們期待中的人工智能理想模型,不僅需要在給定數據上實現良好的擬合效果,更重要的是具備統計上的有效性——即模型能夠適應更廣泛、更一般的未知情境,這才是真正意義上的智能。
統計學和機器學習領域將這種能力稱為“泛化能力”。反之,如果忽視這種考量,模型通常會出現過擬合的問題,也就是失去泛化能力。
當今復雜模型的參數量已達萬億級別,遠超人類認知維度。佘軼原的研究重點之一——高維統計領域,其核心挑戰在于樣本量遠低于變量維度,導致“維度災難”(curse of dimensionality)尤為尖銳。這種以少測多的挑戰在數學上曾一度被認為是“不適定問題”。
然而,現代統計學的研究發現,現實世界的數據并非毫無結構,而是常常蘊含著內在的簡潔性,比如經過適當變換后呈現出的稀疏性或低秩性。利用這一洞察,我們依然能夠從中獲得精準的預測與穩健的推斷。
現代統計學的核心挑戰之一,便是在有限且不完美的樣本中,如何精準地還原高維數據的內在結構——佘軼原教授如此概括。
他的研究致力于融合嚴謹的非漸進性理論分析、高效的優化算法與先進的正則化技術,如選擇、投影、聚類等,深入挖掘數據背后的內在關聯,旨在讓看似混亂的高維信息變得清晰且可解釋。
在高維統計、低秩建模、穩健推斷,以及非凸與非光滑優化等前沿方向上,他的研究不僅為機器學習從復雜數據中發現規律提供了新方法,也為生物醫學、經濟學等諸多學科的數據分析提供了有效工具和嶄新的思路。
更多專業了解
復制鏈接打開
www.westlake.edu.cn/faculty/Yiyuan-She.shtml
異常中的尋常
現實中的數據往往并不“干凈”:異常值、標記錯誤、高杠桿點(high-leverage points)等現象隨處可見。這些異常數據的“破壞力”很大,有時即使只有一個極端的異常點,也可能導致傳統估計和推斷方法完全失效。
你可能會想,干脆找出來扔掉就行了。但在現代大數據應用中,人工直觀地識別異常點幾乎不可行,更何況參數估計、異常檢測與統計推斷本就是密切相關、難以割裂的聯合優化問題,在監督學習場景下尤其復雜。
如何在異常中發現尋常?正如佘軼原教授所說,數據科學的興起為穩健統計帶來了新的機遇與挑戰。
一些傳統穩健估計方法常在模型假設下將異常數據視為“雜音”而專注于抑制其影響。但現實中,這些異常未必是輕微擾動,反而可能承載關鍵的信息與規律。正如在犯罪調查中,真正幫助找到線索的往往正是看似異常的信息。
因此,在建模、估計與推斷過程中,同步量化評估每個數據點的異常風險尤為重要。針對這一挑戰,佘軼原教授創新性地構建了穩健損失函數與高維統計正則化之間的理論橋梁,通過融合稀疏約束與非凸優化技術將異常檢測與參數估計統一于同一框架。在此基礎上,他提出了具備有限樣本理論保證的新方法和高效算法應用于大數據分析。
在統計學家眼中,世界本身就充滿著不確定性,人類所獲取的數據也自然蘊含隨機性與變異性。那么,到底是數據決定了我們的觀念,還是觀念主導了對數據的解讀?如今一些復雜模型所涌現出的驚人能力,某種程度上正是數據驅動的成果。而要徹底理解這些復雜機制的背后本質,更離不開統計學的深入研究。
面對現實數據的復雜性,我們依然渴望確定,在偶然中捕捉必然。這正是統計與數據科學令人著迷之處,正如佘軼原教授在入職自我介紹中所言——
尋幽入微,知常達變。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.