新智元報道
編輯:定慧
【新智元導讀】即便在Transformer與ChatGPT尚未誕生的年代,Ilya已敏銳預見深度學習的廣闊前景,展現出令人嘆服的遠見與清醒。這是一段10年前Ilya對于如今AI時代的預言。
Ilya Sutskever因在深度學習方面的遠見卓識而聞名。
他現在許多廣為流傳的言論其實都來自于他在2023年參加Dwarkesh播客時的發言。
此后,直到2025年Ilya創辦SSI后,幾乎不再有公開的言論,此前曾探討過Ilya的去向。
最近,一位名為Nathan Lambert的博主聲稱他收到了一段Ilya在10年前,也就是2015年談論深度學習的語音片段。
令他感到震驚的是,Ilya在那么多年前就已準確預見了這一切,尤其是他的直覺從那時至今幾乎沒有任何改變。
在進行資料整理,同樣震驚我們的是:
早在2015年,Ilya對于深度學習的理解就已經遠超如今絕大部分人(即使是10年后今天)。
這個視頻片段來自一個已經停播的博客節目《Talking Machines》,我們在其官網找到最初的采訪錄音。
此時的Ilya還是谷歌的研究員,節目中談論了他的工作、他是如何對機器學習產生興趣的,以及為何機器學習(Machine Learning)會和魔法思維(Magical Thinking)產生聯系。
現在就讓我們將時間回撥10年,看看當年的Ilya是如何洞察深度學習的。
在編輯這篇文章時,我們也驚訝地發現,即使只是通過文字記錄,Ilya的觀點歷經10年歲月洗禮,依然鮮明犀利。
數學出身的Ilya,認為「機器學習」違反直覺
Ilya首先講述了他通往人工智能的道路,對于這樣一位才華橫溢的人物來說,這并不令人意外。
我十幾歲時就一直對人工智能感興趣。
我覺得那非常棒而且引人入勝。之后我繼續攻讀了數學專業本科。
當你學習數學的時候,你會深知數學注重的是證明事物。
如果你看到某種規律,在沒有經過證明之前,它并不意味著就是正確的。
因此,對于擁有數學背景的我來說,學習(機器學習)似乎是非常違反直覺的,因為學習強調的是進行歸納推理,而這些歸納步驟看起來很難用嚴謹的方法去解釋清楚。
如果你習慣于嚴格地證明結果,那么歸納似乎幾乎就像魔法一樣。
因此,我當時對學習特別感興趣,因為我深知人類具備這種能力,而從單純的數學角度來看,學習似乎根本不可能實現,這讓我感到不可思議。
大二和Hinton合作
于是我開始四處尋找,結果發現多倫多有一個非常出色且強大的學習研究團隊。
我在本科二年級時便開始與Jeff Hinton(AI之父)合作。
相比硬科學,機器學習的理解更加容易
機器學習確實是一門復雜的科學。
我想這不像物理學。
我認為在物理學、數學以及許多其他硬科學領域,一個人需要掌握大量知識后才能開始發揮作用。
雖然我不太確定,因為我從未涉足這些領域。
這只是我的印象。
而機器學習則更多地是,那些重要的想法,甚至是與前沿研究相關的想法,都離表面非常近。
這個觀點和我們如今的現狀是如此的吻合。
尤其是在一個遠離真正訓練前沿的實驗室中,在沒有特別努力尋找的情況下,周圍的機器學習的低垂果實之多令人驚訝。
深度學習之所以有效,很大程度上是因為人們愿意付出努力去把握這些機會。
Ilya認為:
只要有正確的指導和方向,無需多年學習就能理解機器學習背后的主要思想、有效方法的主要理念以及主要的直覺認識。
監督學習是機器學習中最成功的領域
Ilya在訪談中談到,到目前為止(2015年),監督學習是機器學習中最成功的領域。
主持人隨后請Ilya解釋他最近的工作,Ilya繼續深入講解了深度學習如何得出答案的另一個核心要點。
所以你說,好,數據會告訴我們最佳的連接方式。
因為深度神經網絡是一種非常強大、非常豐富的模型,它可以完成很多復雜的任務。
我們很難想象它有哪些事情是無法做到的。
正因如此,每當我們擁有大型數據集時,我們可以應用一種簡單的學習算法來找到最佳的神經網絡,并取得良好的結果。
因此,我當時致力于將深度監督學習方法應用于神經網絡,解決輸入是序列、輸出也是序列的問題。
從概念上講,這與我之前所討論的內容并沒有實質差別,主要是一個技術問題。
其關鍵在于確保模型能夠處理輸入和輸出都是長度不再預先固定的序列。
但它的基本方法是一樣的,并且使用了相同的基本學習算法。
因此,再次強調,由于這些模型具有很強的表達能力和功能,它們確實能夠解決許多困難的、非平凡的模式識別問題,以及用其他任何手段幾乎無法想象能解決的問題。
再者,令人驚訝的是,盡管這種方法最終表現得如此強大,它實際上卻非常簡單易懂。
學習算法極其簡單。也許只需要一個小時,一個聰明的學生就能理解它全部的工作原理。
這個觀點也和我們當下的現狀極度吻合。
不論是LLM還是Transformer,我們都可以在簡單學習后,了解它的基本原理。
甚至就像2023年那次采訪的題目,為何「預測下一個單詞」這么簡單的模型就能超越人類的智能。
只是為了增加數據
在Ilya看來,將深度學習中成功的圖像分類技術應用到序列分類(即更接近文本)上只是「一個技術細節」。
人們所做的很多工作更像是在為模型構建數據加載器,而不是我們提出的架構本身有多新穎。
Ilya如此注重數據和通用性,那么后來像Transformer這樣的架構席卷整個機器學習領域也許并不會讓他感到意外。
神經網絡的目標函數非常復雜
它高度非凸。
而且從數學上完全沒有任何保證能確保優化成功。
因此,如果你和一位研究優化理論的學者討論,他們會告訴你,從理論上根本沒有理由相信這種優化會奏效。
然而,事實證明它確實能成功——這是經驗證明的結果。
純粹靠理論,我們很難解釋太多細節。
并不是因為這里有什么「魔法」,而只是說明我們還沒完全搞清楚原理。
我們其實不清楚,為什么這些看似簡單的啟發式優化算法在這些問題上表現得如此出色。
因為沒有任何數學定理或理論可以說明它們必然會成功。
我們真正期待的定理,應該反映「在現有條件下做到最好」這種理念。
然而,人類的智慧并不追求絕對最優,就像我們設計飛機或汽車時也不會力求完美。
我們只需要一個「夠好」的工程系統就行。
深度學習和非凸優化給我們的,正是一群「夠好」的系統。雖然它們可能不是最優解,卻依然非常有用、充滿潛力。
這就是事實。
深度學習追求的是「夠好」
在許多領域,尤其是學術界,人們過度追求最優,反而忽略了真正重要的目標。
深度學習是一門務實的科學,它在現有資源條件下追求「夠好」。
隨著數據量和算力的飛速增長,「夠好」往往就能帶來驚人的成果。
這種「夠好」的思路,也讓現代人工智能更像「煉金術」而非傳統科學.
因為傳統科學的進展通常要慢得多。
也許正是這種因為深度學習是務實的,在如今算力爆炸和數據豐富的時代,LLM雖然還是「黑箱」,但已經切實的改變了我們的工作和生活。
某種意義上,也算「預言」了整個LLM時代。
初始化的尺度直接決定了模型的可訓性
關于這一點,還有一些不那么直觀但非常重要的細節值得討論。
你可以這樣理解:神經網絡里有大量神經元和連接,每層都會先將輸入乘以隨機權重,再經過非線性變換。
第一層處理完后,第二層又會重復相同的過程:乘權重、做非線性變換。
如果這些隨機權重太小,信號在多次相乘后就會迅速衰減到幾乎為零。
當信號到達輸出層時,你幾乎感受不到任何輸入的影響。
這樣一來,學習算法就無法發現輸入和輸出之間的關聯,也就沒法改進模型。
因此,我們必須讓隨機初始化的權重大多數情況下足夠大,才能保證輸入的變化一路傳遞到輸出層。
一旦滿足了這個條件,梯度就能夠找到正確的方向,有效地優化網絡。
…因此在實際應用中,當研究人員希望在一個真實數據集上訓練神經網絡時,初始化的尺度是你需要關注的最重要的參數之一。
以上內容節選自音頻對話內容,絕大部分來源于Ilya本人。
這就是Ilya 2015年對機器學習的深刻洞察。
那時,距離Transformer發布還有4年,距離ChatGPT發布還有7年的時間。
但是Ilya已經深刻地體會到神經網絡的威力。
如果你想要更加深入的了解,可以詳細聽聽上面的音頻。
最后想說的是,Ilya對于這場改變我們所有人的科技革命的直覺。就來自于在這次訪談中他想要告訴我們的:追求務實,擁抱簡單。
參考資料:
https://feeds.acast.com/public/shows/talking-machines
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.