未經許可不得轉載,務必保留原文出處鏈接和公眾號名片
關注本城公眾號并設星標,不錯過最新精彩內容
文:Web3天空之城·城主
【城主說】 正在舉行的深度學習頂會NeuralPS2024上,Ilya意外現身會場做了主題演講。AI巨佬上來就是王炸:直接斷言當下大模型的核心“預訓練”機制即將走到終結。同時提出了對未來AI進展方式的展望。
以下和大家解讀Ilya這個備受關注的主題演講的重點,同時附上全文和視頻供有興趣的同學進一步研究。
過去| 深度學習的早期假設
神經網絡的能力:
十年前,Ilya 和他的團隊假設,如果一個神經網絡擁有十層,它就能夠在一瞬間完成任何人類能夠完成的任務。這個假設基于深度學習的核心理念,即人工神經元與生物神經元在某種程度上是相似的。由于生物神經元的處理速度相對較慢,因此如果人類能夠在一瞬間完成某項任務,那么一個足夠大的神經網絡理論上也應該能夠做到。十層這個數字盡管現在看起來比較幼稚,但反映了當時對深度學習潛力的樂觀預期。
自回歸模型的貢獻和局限:
Ilya 回顧了十年前他們在 NeurIPS 會議上提出的關于自回歸模型的一些觀點。當時的一些觀點是正確的,但也有觀點是錯誤的。
正確觀點:自回歸模型能夠捕捉序列的正確分布:如果一個自回歸模型能夠很好地預測下一個標記,那么它實際上就抓住了接下來序列的正確分布。這一點在當時是一個相對較新的想法,也是他們工作的核心。這一觀點推動了自回歸模型在機器翻譯等領域的應用,并最終促成了預訓練時代的到來,例如 GPT 模型的出現。
錯誤觀點:流水線并行化是明智的:他們在當時使用了流水線并行化來加速訓練過程,但在今天看來,這種方法并不是最佳選擇。現在的深度學習模型訓練更傾向于使用其他并行化策略。
B站傳送:【AI巨佬ILya最新演講 "我們所知的大模型預訓練即將終結" @NeuralPS2024-嗶哩嗶哩】 https://b23.tv/QhQC0iy
現在| 關于預訓練時代的終結
Ilya在演講中深入探討了“預訓練時代”,這是一個深度學習領域取得巨大進步的時期。
預訓練時代的核心是使用超大型神經網絡在海量數據集上進行訓練,然后再針對特定任務進行微調。 這種方法極大地提高了模型的性能,并在自然語言處理、計算機視覺等領域取得了突破性進展。GPT 模型系列就是預訓練時代最具代表性的成果。
但是,Ilya認為,預訓練時代即將走向終結。雖然計算能力通過更好的硬件、更好的算法和更大的集群在增長,但數據量卻沒有相應的增長。他將數據比喻為人工智能的“化石燃料”,認為我們已經達到了數據的巔峰,再也不會有更多的數據。
預訓練時代終結的原因:
數據量增長停滯:計算能力的提升速度遠超數據量的增長速度。
數據是有限資源: 我們只有一個互聯網,可用的數據總量是有限的。
預訓練時代結束后,深度學習將走向何方? Ilya提出了幾種可能性:
代理 (Agents): 代理可以自主學習和行動,有望成為深度學習的新突破口。
合成數據: 合成數據可以彌補真實數據不足,但如何生成高質量的合成數據是一個挑戰。
推理時間計算: 推理時間計算可以提高模型的效率和靈活性。
從生物學中汲取靈感: 生物系統,特別是人腦的運作機制,可以為深度學習提供新的啟示。
Ilya 認為,未來深度學習的關鍵在于找到新的方法來克服數據量的限制。這需要探索新的學習算法,例如能夠從有限數據中學習的算法,以及更高效地利用計算資源的算法。
未來| 超智能:深度學習的終極目標?
Ilya 在演講中談到了超級智能的概念,并認為這是深度學習發展的終極目標。雖然他沒有詳細闡述超級智能的定義和實現路徑,但從他的演講中,我們可以總結出他對超級智能的一些理解:
與人類智能有質的區別:超級智能并非簡單的人類智能的增強版,而是擁有全新的能力和屬性。這就像類人猿的大腦進化與其他哺乳動物的顯著差異一樣,超級智能也可能以一種我們無法預見的方式超越人類智能。
具備強大的代理能力:超級智能將不再是被動的信息處理系統,而是能夠主動地進行推理、規劃和行動。他們將能夠理解和處理復雜的現實世界問題,并做出自主的決策。
擁有自我意識:Ilya 認為,超級智能可能會發展出自我意識, 這將使其擁有更強大的學習和適應能力。 自我意識也將使超級智能能夠更好地理解人類和其他智能體,并與之互動。
Ilya 并沒有給出超級智能何時會出現的具體時間,但他認為這只是一個時間問題。他強調,我們應該認真思考超級智能帶來的挑戰,例如:
超級智能的不可預測性:超級智能的推理能力將遠超人類, 其行為和決策將變得難以預測。
如何控制超級智能: 如何確保超級智能的行為符合人類的利益和價值觀,是一個至關重要的問題。
超級智能與人類的關系: 超級智能的出現將重新定義人類在宇宙中的位置, 我們需要思考如何與超級智能共存。
演講全文·Web3天空之城書面版
我想感謝組織者選擇這篇論文獲得這個獎項。這真的非常好。我還要感謝我出色的合著者和合作伙伴,Oriol Vinyals 和 Quoc Le,他們剛才就在你面前。
你們現在看到的是一張圖片,一張截圖,來自十年前2014年在蒙特利爾 NeurIPS 會議上的類似演講。這是一個更加無邪的時代。這是我們,當時拍攝的照片。這里是之前的場景。順便說一下,這里是之后。
現在我們有了我經驗豐富的,可能是護目鏡的視角。但在這里,我想談談這項工作的內容,或許進行一個十年的回顧。因為在這項工作中的很多觀點是正確的,但有些則不是。我們可以回顧這些觀點,看看發生了什么,以及它是如何溫和地演變成我們今天所處的位置。
那么讓我們先談談我們做了什么。我們將通過展示十年前同一次演講的幻燈片來進行總結。我們工作的總結如下三點:這是一個基于文本訓練的自回歸模型,一個大型神經網絡,還有一個大型數據集?,F在讓我們更深入地探討一些細節。這是一張十年前的幻燈片,還不錯。我們在這里討論的是深度學習假設:如果你有一個十層的大型神經網絡,它可以在一瞬間完成任何人類能夠完成的事情。
為什么我們如此強調人類在短短一秒鐘內能夠做的事情?為什么特別是這個內容?如果你相信深度學習的教義,或認為人工神經元和生物神經元是相似的,或者至少差異不大,并且相信真實的神經元比我們人類快速完成的任何事情都要慢,我甚至是指全世界的某一個人。如果全世界有一個人能在一瞬間完成某項任務,那么一個十層的神經網絡也可以做到。這就成立了。你只需將他們的連接提取出來并嵌入到你的人工神經網絡中。
這就是動機。任何一個人能夠在一瞬間完成的事情,一個大型的十層神經網絡也能夠做到。我們專注于十層神經網絡是因為當時我們只知道如何訓練這樣的網絡。如果在層數上有所突破,就可以做更多的事情。但在那時我們只能做到十層,這就是為什么我們強調人類在瞬間內能做的任何事情。這是演講中的另一張幻燈片,說明我們主要想法的一張幻燈片。你可能能夠識別出兩個東西,或者至少一個東西。你可能會意識到這里發生了一些自回歸的事情。
它到底在說什么?這張幻燈片到底在說什么?
這張幻燈片講的是,如果你有一個自回歸模型,并且它能很好地預測下一個標記,那么它實際上能捕捉到接下來序列的正確分布。而這在當時是相對較新的事情。這并不是字面意義上的第一個自回歸神經網絡,但我認為它是第一個我們真正相信如果你訓練得很好,那么你將獲得任何你想要的自回歸神經網絡。在我們的案例中,彼時的任務是謙遜的,今天看來依舊謙遜,但當時卻是極為大膽的翻譯工作。
現在我將向你展示一些許多人可能從未見過的古老歷史。它被稱為LSTM。對于那些不熟悉的人,LSTM是以前貧困的深度學習研究者在變換器出現之前所做的事情。它基本上是一個ResNet,但旋轉了90度。所以這就是LSTM。它出現得更早,有點像是略微復雜的ResNet。你可以看到這里是你的積分器,現在稱為殘差流,同時還有一些乘法運算。這稍微復雜了一些,但這就是我們所做的。這是一個旋轉了90度的ResNet。
我想強調的另一個來自那次舊演講的酷炫特點是我們使用了并行化。但不僅僅是任何并行化,我們使用了流水線,如同每個GPU一層的證據所示。
流水線是明智的嗎?
正如我們現在所知,流水線并不是明智之舉。但在那時,我們沒有那么聰明。所以我們使用了這個,并在使用八個GPU時獲得了3.5倍的加速。
而結論幻燈片在某種意義上,正是當時演講的結論幻燈片,是最重要的幻燈片。因為它清楚地闡明了可以說是擴展假設的起點,也就是說,如果你擁有一個非常大的數據集,并且訓練一個非常大的神經網絡,那么成功是有保證的。有人可以爭辯,如果你是寬大一點的話,這確實是在發生的事情。
我想提到另一個想法。而這個,我聲稱,是經得起時間考驗的真正想法。這是深度學習本身的核心理念。這是連接主義的理念。這是一個思想,如果你允許自己相信人工神經元在某種程度上類似于生物神經元,那么這會給你信心,相信非常大的神經網絡不需要與人類大腦同等規模。它們可能會小一些,但可以配置它們做幾乎所有人類所能做的事情。這仍然是有區別的,因為人類大腦還會想辦法重新配置自己。
我們使用的最佳學習算法需要的數據信息點與參數數量相同。在這方面,人類仍然更優秀。不過,這導致了我所稱的“預訓練時代”的到來。
預訓練時代是指我們所討論的GPT-2模型、GPT-3模型和縮放法則。我想特別提到我的前同事Alec Radford、Jared Kaplan和Dario Amodei,感謝他們做出的真正貢獻。這一切推動了我們今天看到的所有進步,尤其是超大型神經網絡。它們在巨大數據集上進行異常龐大的訓練。
但是,預訓練如我們所知無疑將會結束。預訓練將會結束。它為什么會結束?
因為雖然計算能力通過更好的硬件、更好的算法和更大的集群在增長,但所有這些都在不斷增加你的計算能力??墒菙祿]有增長,因為我們只有一個內部網。你甚至可以說,數據是人工智能的化石燃料。它像是某種方式被創造出來的,現在我們使用它,但我們已經達到了數據的巔峰,再也不會有更多了。我們必須處理我們擁有的數據。我仍然認為這會讓我們走得很遠,但這只是一個內部網。
所以,在這里我會稍微放肆一下,推測一下接下來會發生什么。實際上,我不需要推測,因為很多人也在推測,我會提到他們的推測。你可能聽過“代理”的說法。這很常見,我相信最終會發生某些事情,但人們覺得某些代理是未來。更具體地說,還有些模糊的方向是合成數據。
但合成數據是什么意思?
弄清楚這一點是一個大挑戰,我確信不同的人在這里都會有各種有趣的進展。以及推理時間計算,或者最近在 O1 模型中看到的比較生動的東西。這些都是人們在預訓練之后嘗試弄清楚該做什么的例子。這些都是非常好的事情。我想提一個來自生物學的例子,我覺得這真的很酷。這個例子是這樣的。
很多年前,在一個會議上,我看了一場演講,有人展示了一張圖表。圖表顯示了哺乳動物的身體大小和大腦大小之間的關系。在這個例子中,是以質量來衡量的。我記得他們在討論中提到,生物學里一切都那么混亂,但在這里,你有一個罕見的例子,動物的身體大小和大腦之間有著非常緊密的關系。我出于好奇,對這張圖產生了興趣。
于是我在谷歌上尋找這張圖。在谷歌圖片中,找到了一張相關的圖片。這個圖像有趣的是,上面展示了各種不同的哺乳動物,以及非人類的靈長類動物,這基本上屬于同一類群體。根據我的了解,類人猿是與人類在進化上密切相關的親屬,比如尼安德特人,還有許多其他的,可能稱為能人。他們都在這里。有趣的是,他們的腦-體比的斜率指數不同,這很酷。這意味著有先例,有生物學找出某種不同縮放的例子,顯然有些東西是不同的,所以我覺得這很酷。
順便說一下,我想強調,這個x軸是對數尺度。你看,這里是100,這里是1,000,10,000,100,000,以克為單位:1克,10克,100克,1,000克。所以,事情有可能會有所不同。我們正在做的事情,迄今為止所擴展的事情,其實是我們最初找到的擴展方式。毫無疑問,整個領域,所有在這里工作的人,將會找出該做什么。
但是,我想在這里談一談,我想花幾分鐘時間來推測一下更長遠的未來。我們都朝哪里走呢?我們在取得所有這些進展,真是令人驚訝。十年前,當您回顧這個領域時,還記得一切是多么無能嗎?您當然可以說,即使已經有深度學習技術,但看到它的實際應用仍然難以置信。我無法完全表達那種感覺。
您知道,如果您在過去兩年才加入這個領域,與計算機對話并得到回應是理所當然的事情,這就是計算機的本質。然而,這并不總是如此。
我想稍微談談超級智能,這顯然是這個領域的發展方向。這是我們在這里構建的內容。超智能的特點是,它在質量上將與我們現有的技術截然不同。
接下來一分鐘,我的目標是嘗試給您一些具體的直覺,讓您自己能夠推理出它會有多么不同。現在我們擁有令人難以置信的語言模型及其出色的聊天機器人,它們甚至可以做到一些事情,但在某種程度上又奇怪地不可靠,會感到困惑,同時在評估中表現出驚人的超人能力。因此,如何調和這個問題真的很不清楚。但最終,系統遲早會實現具備代理能力的目標。目前,這些系統在有意義的層面上還不是代理。它們只是微弱地開始具有代理性功能。系統實際上會進行推理。
順便提一下推理的問題:一個進行推理的系統,推理越多,越不可預測。我們習慣的深度學習非??深A測,因為其本質上是在復制人類的直覺反應。
如果我們考慮到0.1秒的反應時間,我們大腦中的處理就是直覺。所以我們賦予了人工智能一些直覺。但是推理卻是不可預測的,我們看到了一些早期的跡象。其中一個原因是,因為下棋的人工智能,即便是對最優秀的人類棋手來說,也是不容易預料的。
因此,我們將不得不面對極其不可預測的人工智能系統。它們將從有限的數據中理解事物,不會感到困惑,而這些都是目前的重大限制。順便說一下,我并不是在談論如何,也不是在談論何時。我只是說這會發生。當所有這些事情發生時,加上自我意識,因為為什么不呢?自我意識是有用的。它是我們自己的一部分,是我們自己世界模型的一部分。當所有這些事情匯聚在一起時,我們將擁有與今天截然不同的質量和屬性的系統。它們將擁有令人難以置信和驚人的能力。但是,這樣的系統所帶來的問題,我將把它留作想象的練習。這與我們習慣的非常不同。
而且,我會說,預測未來肯定也是不可能的。真的,各種事情都是可能的。但在這個振奮人心的音符上,我將結束。非常感謝。謝謝。
(全場長時間掌聲)
Q&A:
在2024年,有沒有其他生物結構是人類認知的一部分,你認為值得以類似的方式探索,或者是你感興趣的任何方式?
所以,我回答這個問題的方式是,如果你或者某人有一種特定的洞見,認為我們都非常愚蠢,因為大腦顯然在做某些事情,而我們卻沒有,這可以做的話,他們應該去追求它。我個人不這樣做。這要看你所關注的抽象層次。也許我會這樣回答,對生物啟發的人工智能有很大的渴望。你可以在某種程度上認為,生物啟發的人工智能是非常成功的,因為深度學習的所有內容都是生物啟發的人工智能。但另一方面,生物啟發是非常有限的,這僅僅使用神經元,這就是生物啟發的全部程度。更詳細的生物啟發一直很難獲得。但我不會將其排除在外。我認為如果有人有獨特的洞見,他們可能會看到一些東西,這會是有用的。
我有一個關于自動校正的問題問你。你提到推理作為未來建模的核心方面之一,也許是一種區分因素。我們在一些海報會議中看到的是,模型中的幻覺現象。今天我們分析這種幻覺現象的方式,也許你可以糾正我,因為你是這個領域的專家。我們知道模型缺乏推理能力的危險,因此我們正在使用統計分析的方法,比如某個標準差或距均值的距離等。在未來,你不覺得給定推理的模型將能夠自我糾正,或者說自動糾正,這將是未來模型的核心特性,以便減少許多幻覺,因為模型會識別出何時發生幻覺?也許這個問題太抽象了,但模型將能夠推理并理解何時發生幻覺?這個問題有意義嗎?
是的,答案也是肯定的。我認為你所描述的極其可信。你應該去檢查。我不會排除目前一些早期推理模型可能已經在發生這種情況,我不知道。但是,從長遠來看,為什么不呢?這是Microsoft Word的一部分,自動糾正是核心特性。
我認為將其稱為自動糾正實際上是對其的不公。當你提到自動更正時,你似乎覺得它比自動更正要宏偉得多,但撇開這一點,答案是肯定的。
謝謝。伊利亞。我喜歡這個結局,神秘地留下了懸念,他們會取代我們嗎?或者他們更優越嗎?他們需要權利嗎?
這是一種新的人類智力物種。所以,也許他們需要這些東西。我覺得現實生活中的一些人認為我們需要為這些事物爭取權利。
我有一個與此無關的問題。我們該如何創造正確的激勵機制,讓人類實際上能夠以給予他們作為智人所擁有的自由的方式來創造它?
我覺得在某種意義上,這就是人們應該更多反思的問題。但是關于我們應該創造什么激勵結構的問題,我并不覺得我知道。我對回答這樣的問題沒有信心,因為這就像在談論創造某種自上而下的政府結構,我不知道。這也可能是一種加密貨幣。
我的意思是,有 BitTensor,有些事情。我覺得我不是評論加密貨幣的合適人選,但是。但是,順便說一下,你所描述的事情有可能會發生,確實在某種意義上,如果你有人工智能,而他們所想的只是與我們共存并擁有權利,也許那樣還不錯。
但我不知道,我的意思是事情是如此不可預測。我猶豫要發表評論,但我鼓勵這種推測。
感謝你的精彩演講。我叫Shalev Lifshitz,來自多倫多大學,與Sheila一起工作。感謝你所做的所有工作。我想問一下,你認為大語言模型(LLM)能否在分布外進行多跳推理的泛化?
這個問題的假設是答案只有“是”或“否”,但實際上問題不應該只用“是”或“否”來回答。因為“分布外泛化”是什么意思呢?分布內的意思是什么,分布外的意思又是什么?由于這是一次關于時間的討論,我想說很久以前,在人們使用深度學習之前,依賴的是字符串匹配這類的方法,比如N-元組。對于機器翻譯,人們使用的是統計短語表。你能想象嗎?他們有成千上萬的復雜代碼,這真的讓人難以理解。
在那時,泛化的意思是數據集中措辭是否完全不同?,F在,我們可能會說,我的模型在某個數學競賽上獲得了很高分數,但也許這些數學題或某個論壇上的一些討論談論的是相同的想法,因此它被模型記住了。好吧,你可以說,也許它在分布內,也許這是記憶,但我也認為我們對什么算作泛化的標準確實大幅提高了,這種提高是戲劇性的,不可思議的,如果你一直在跟蹤的話。
因此,我認為答案在某種程度上可能不如人類好。我認為人類的確在概括方面做得更好,但與此同時,他們確實在某種程度上越界概括。
我希望這是一個有用的同義反復的回答。謝謝。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.