99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

何愷明在MIT的最新講座!

0
分享至

來(lái)源:Datawhale

麻省理工學(xué)院施瓦茨曼計(jì)算學(xué)院(MIT Schwarzman College of Computing)舉辦的“拓展計(jì)算視野”系列講座中,“深度學(xué)習(xí)日”邀請(qǐng)了麻省理工學(xué)院電氣工程與計(jì)算機(jī)科學(xué)系副教授、計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室成員何愷明(Kaiming He)博士,就生成式模型(Generative Modeling)這一主題發(fā)表了精彩演講。


何愷明博士首先介紹了生成式模型的概念及其廣泛應(yīng)用,包括文本生成、圖像生成、視頻生成(如Sora),以及在科學(xué)領(lǐng)域如蛋白質(zhì)設(shè)計(jì)和天氣預(yù)報(bào)中的應(yīng)用。他強(qiáng)調(diào)了生成式模型與判別式模型的區(qū)別,并指出生成式模型的核心在于概率建模,即學(xué)習(xí)數(shù)據(jù)背后的潛在分布。

隨后,何愷明博士深入探討了深度學(xué)習(xí)在生成式模型中的作用,并介紹了當(dāng)前主流的生成式模型方法,包括變分自編碼器(VAE)、生成對(duì)抗網(wǎng)絡(luò)(GAN)、自回歸模型和擴(kuò)散模型。他還特別強(qiáng)調(diào)了生成式模型作為“下一級(jí)抽象”的概念。最后,他通過(guò)多個(gè)實(shí)例,展示了如何將現(xiàn)實(shí)世界的問(wèn)題(如自然語(yǔ)言對(duì)話、圖像描述、機(jī)器人控制等)形式化為生成式模型,并強(qiáng)調(diào)了其廣泛的適用性。 講座深入淺出,為理解生成式模型提供了寶貴的視角。



視頻地址:
https://www.youtube.com/watch?v=2yJSoaGU2i4

綱要

生成式模型 ├── 一、 介紹 (Introduction) │   ├── 生成式模型 (Generative Modeling) 概述及其影響 │   ├── 生成式AI時(shí)代的應(yīng)用舉例 (ChatGPT, 文本生成圖像/視頻) │   ├── 日常生活中的應(yīng)用 (AI 輔助編程) │   ├── 科學(xué)問(wèn)題中的應(yīng)用 (蛋白質(zhì)設(shè)計(jì), 天氣預(yù)報(bào)) │   └── 生成式模型的歷史發(fā)展 (Photoshop 內(nèi)容感知填充, 紋理合成) ├── 二、 什么是生成式模型?(What are Generative Models?) │   ├── 生成式模型的特性 │   │   ├── 多種可能的預(yù)測(cè) │   │   ├── 預(yù)測(cè)的合理性 │   │   ├── 分布外生成 │   │   └── 預(yù)測(cè)的復(fù)雜性 │   ├── 與判別式模型 (Discriminative Models) 的比較 │   └── 概率建模 (Probabilistic Modeling) 的重要性 ├── 三、 深度學(xué)習(xí)與生成式模型 (Deep Learning and Generative Models) │   ├── 深度學(xué)習(xí)是表示學(xué)習(xí) (representation learning) │   ├── 生成式模型中的深度學(xué)習(xí) │   │   ├── 表示數(shù)據(jù)實(shí)例和概率分布 │   │   └── 分布之間的映射 │   └── 深度生成模型的要素 │       ├── 問(wèn)題形式化 │       ├── 表示 (Representations) │       ├── 目標(biāo)函數(shù) (Objective Functions) │       ├── 優(yōu)化器 (Optimizer) │       └── 推理算法 (Inference Algorithm) ├── 四、 現(xiàn)代生成式模型方法 (Modern Approaches to Generative Models) │   ├── 生成式模型為什么難? │   │   ├── 無(wú)監(jiān)督學(xué)習(xí) (Unsupervised Learning) │   │   └── 分布映射 │   └── 主要方法介紹 │       ├── 變分自編碼器 (Variational Autoencoders, VAE) │       ├── 生成對(duì)抗網(wǎng)絡(luò) (Generative Adversarial Networks, GAN) │       ├── 自回歸模型 (Autoregressive Models) │       ├── 擴(kuò)散模型 (Diffusion Models) │       └── 流匹配 (Flow Matching) ├── 五、 將生成式模型應(yīng)用于現(xiàn)實(shí)世界問(wèn)題 (Formulating Real World Problems into Generative Modeling) │    ├── 條件分布 p(x|y) 的解釋 (y: 條件, x: 數(shù)據(jù)) │    └── 不同應(yīng)用場(chǎng)景下的 x 和 y │       ├── 自然語(yǔ)言對(duì)話 (chatbot) │       ├── 文本到圖像/視頻生成 │       ├── 3D 生成 │       ├── 蛋白質(zhì)生成 │       ├── 無(wú)條件圖像生成 │       ├── 圖像分類(lèi)與開(kāi)放詞匯識(shí)別 │       ├── 圖像描述 (Image Captioning) │       └──機(jī)器人策略學(xué)習(xí) ├── 六、 總結(jié) (Conclusion) │    ├── 生成式模型以深度神經(jīng)網(wǎng)絡(luò)為構(gòu)建塊 │    ├── 生成式模型是下一級(jí)的抽象 │    └──未來(lái)的發(fā)展:更高級(jí)別模型的構(gòu)建塊 └── 七、 問(wèn)答環(huán)節(jié) (Q&A)      ├── 關(guān)于分類(lèi)任務(wù)中生成模型與判別模型的比較      └── 關(guān)于 p(x|y) 的方向性和目標(biāo)函數(shù)的問(wèn)題

講座實(shí)錄 一、 介紹 (Introduction)

大家好!今天我將和大家聊聊生成式模型 (Generative Modeling)。在座的各位,有多少人用過(guò) ChatGPT 或者類(lèi)似的工具?(停頓,觀察聽(tīng)眾反應(yīng))可能每個(gè)人都用過(guò),對(duì)吧?那么,在接觸 ChatGPT 之前,有多少人聽(tīng)說(shuō)過(guò)“生成式模型”這個(gè)術(shù)語(yǔ)?(停頓,觀察聽(tīng)眾反應(yīng))嗯,還是有不少人了解的。

在這次演講中,我將對(duì)生成式模型做一個(gè)高度概括的介紹,并探討它如何影響我們的生活以及未來(lái)的研究方向。

毫無(wú)疑問(wèn),我們正處在一個(gè)所謂的“生成式AI”時(shí)代。對(duì)公眾而言,這個(gè)時(shí)代可能始于 ChatGPT 或其他聊天機(jī)器人的出現(xiàn)。我們可以用自然語(yǔ)言與計(jì)算機(jī)交流,提出各種問(wèn)題,它就像一個(gè)助手,幫助我們解決各種問(wèn)題。但這并不是唯一的生成式AI模型。

另一個(gè)非常流行且強(qiáng)大的工具是“文本到圖像生成”。用戶可以給計(jì)算機(jī)一段文本,通常稱(chēng)為“提示詞”(prompt),然后計(jì)算機(jī)會(huì)生成一張圖片。例如……(切換幻燈片,展示“一只泰迪熊在黑板前講授生成式模型”的圖片)我希望這能正常工作……(調(diào)試設(shè)備)……抱歉,出了點(diǎn)小問(wèn)題。


好,回到正題。例如,在這個(gè)例子中,提示詞是“一只泰迪熊在黑板前講授生成式模型”。計(jì)算機(jī)算法很可能以前從未見(jiàn)過(guò)這張確切的圖像,但這就是它如何根據(jù)給定的文本提示生成圖像的。

我們甚至可以更進(jìn)一步,要求計(jì)算機(jī)算法生成一段視頻。(播放 Sora 生成的紙飛機(jī)視頻)這是由 Sora 在一年前生成的,非常令人印象深刻。我相信,可能沒(méi)有哪個(gè)制片人會(huì)以這種方式拍攝視頻,讓這么多紙飛機(jī)在樹(shù)林或森林上空飛翔。這完全是計(jì)算機(jī)算法想象出來(lái)的。

實(shí)際上,生成式模型可以成為我們?nèi)粘I钪蟹浅?qiáng)大的生產(chǎn)力工具。例如,它仍然是一種聊天機(jī)器人,但它可以幫助我們編寫(xiě)代碼。這是一個(gè)AI助手,它可以閱讀你的代碼,嘗試修復(fù)代碼中的問(wèn)題,你可以直接用自然語(yǔ)言與助手交流,助手會(huì)將你的指令轉(zhuǎn)換成代碼。從某種意義上說(shuō),以前的編程語(yǔ)言可能是 C++、Python 或 Java,而下一代的編程語(yǔ)言可能就是英語(yǔ),或者說(shuō)人類(lèi)的語(yǔ)言。

生成式模型的應(yīng)用遠(yuǎn)不止計(jì)算機(jī)科學(xué)領(lǐng)域。實(shí)際上,它已經(jīng)被用于許多科學(xué)問(wèn)題中。例如,蛋白質(zhì)設(shè)計(jì)與生成 (Protein Design and Generation)。我們的終極目標(biāo)是設(shè)計(jì)或生成某種類(lèi)型的蛋白質(zhì),來(lái)解決我們關(guān)心的問(wèn)題,比如治愈某些非常危險(xiǎn)或致命的疾病。這項(xiàng)工作被稱(chēng)為 RF diffusion,它實(shí)際上是今年諾貝爾獎(jiǎng)得主工作的一部分。

還有許多其他的科學(xué)問(wèn)題可以從生成式模型中受益。這是 DeepMind 幾年前的一項(xiàng)工作,他們可以使用這個(gè)模型來(lái)預(yù)測(cè)未來(lái)幾小時(shí)或幾天的天氣變化。對(duì)于經(jīng)典算法來(lái)說(shuō),這是一個(gè)非常困難的問(wèn)題,因?yàn)槲覀冎溃鞖饣驓夂虻淖兓腔煦绲模茈y精確預(yù)測(cè)。我們可能不想要那一時(shí)刻的確切物理狀態(tài),我們想要的是一些定性的行為,比如那一時(shí)刻是否下雨或刮風(fēng)。從這個(gè)意義上說(shuō),生成式模型或深度學(xué)習(xí)可以為這個(gè)問(wèn)題提供一個(gè)很好的解決方案。


實(shí)際上,在生成式模型最近進(jìn)入我們的日常生活之前,它已經(jīng)被開(kāi)發(fā)和應(yīng)用了幾十年。有一個(gè)工具叫做 Patchmatch,或者在 Photoshop 軟件中被稱(chēng)為“內(nèi)容感知填充”(Content Aware Fill)。當(dāng)我還是博士生的時(shí)候,這是一個(gè)非常令人印象深刻的工具,當(dāng)時(shí)我研究的正是同一個(gè)問(wèn)題。這里的場(chǎng)景是,你會(huì)得到一張照片,用戶可以指定照片中的某個(gè)區(qū)域或結(jié)構(gòu),計(jì)算機(jī)算法會(huì)嘗試根據(jù)用戶的指令修復(fù)或編輯照片。


事實(shí)上,在那個(gè)時(shí)候,還沒(méi)有深度學(xué)習(xí)。老實(shí)說(shuō),對(duì)于這個(gè)應(yīng)用或這個(gè)算法,甚至沒(méi)有機(jī)器學(xué)習(xí)。這是一個(gè)非常經(jīng)典的計(jì)算算法,但在概念上,這也是一種生成式模型。這項(xiàng)生成式模型背后的技術(shù),實(shí)際上可以追溯到更早的10年前。這是一種叫做紋理合成 (Texture Synthesis) 的算法,它的目標(biāo)是,給你一個(gè)紋理示例,你希望將紋理擴(kuò)展到更大的圖像,或者將紋理粘貼到你關(guān)心的某個(gè) 3D 對(duì)象上。這里的想法非常簡(jiǎn)單,你只需根據(jù)已經(jīng)合成的內(nèi)容,逐像素地合成紋理。在今天的語(yǔ)境下,這實(shí)際上就是一個(gè)自回歸模型 (autoregressive model)。

二、 什么是生成式模型?(What are Generative Models?)

這就是我接下來(lái)要講的內(nèi)容。我將快速介紹生成式模型的概念,然后介紹一些現(xiàn)代方法,如何使用當(dāng)今的深度神經(jīng)網(wǎng)絡(luò)構(gòu)建生成式模型,以及如何將現(xiàn)實(shí)世界的問(wèn)題形式化為生成式模型。


首先,什么是生成式模型?事實(shí)證明,這是一個(gè)非常困難的問(wèn)題,因?yàn)楫?dāng)生成式模型變得越來(lái)越強(qiáng)大時(shí),生成式模型的范圍也在不斷變化。即使我將介紹一些生成式模型的經(jīng)典定義,我只想說(shuō),也許今天,每一個(gè)問(wèn)題都可以被形式化為一種生成式模型。

現(xiàn)在,讓我們看看剛才介紹的應(yīng)用場(chǎng)景。這些場(chǎng)景有什么共同點(diǎn)?例如,圖像生成、視頻生成和文本生成,實(shí)際上,對(duì)于一個(gè)輸入,存在多個(gè)預(yù)測(cè),或者從概念上講,存在無(wú)限個(gè)預(yù)測(cè)。假設(shè)你希望計(jì)算機(jī)生成一張貓的圖像,你會(huì)告訴計(jì)算機(jī)“這是一只貓,我想要一只貓”。從概念上講,存在無(wú)限多種可能的貓。

生成式模型的另一個(gè)特性是,某些預(yù)測(cè)比其他預(yù)測(cè)更合理 (plausible)。例如,如果你想要一只貓,計(jì)算機(jī)可能會(huì)生成一只獅子,也可能生成一只狗。根據(jù)常識(shí),在這種情況下,獅子比狗更合理,當(dāng)然,貓比獅子更合理。

生成式模型還有一個(gè)非常有趣的特性,你的訓(xùn)練數(shù)據(jù)可能不包含精確的解決方案。正如我們所看到的,我相信計(jì)算機(jī)從未見(jiàn)過(guò)一只泰迪熊站在黑板前講授生成式模型,同樣,計(jì)算機(jī)也肯定沒(méi)有見(jiàn)過(guò)這些在森林上空飛翔的紙飛機(jī)。這是一種“分布外”生成 (out-of-distribution generation)。計(jì)算機(jī)算法是在某些數(shù)據(jù)上訓(xùn)練的,但它們生成的內(nèi)容可能超出了訓(xùn)練數(shù)據(jù)的分布。

此外,大多數(shù)情況下,生成式模型的預(yù)測(cè)可能比它們的輸入更復(fù)雜、信息量更大,從概念上講,維度也更高。例如,在文本到圖像生成中,如果你希望計(jì)算機(jī)生成一只貓,這只是一個(gè)很短的詞,而輸出圖像將有數(shù)百萬(wàn)像素,甚至更多。

所有這些特性使得生成式模型比一些經(jīng)典的深度學(xué)習(xí)或識(shí)別問(wèn)題困難得多。


在教科書(shū)中,這是生成式模型的正式定義。通常,當(dāng)介紹生成式模型時(shí),人們會(huì)將其與所謂的判別式模型 (Discriminative Models) 進(jìn)行比較。什么是判別式模型?正如你在這次演講中看到的,如果我們關(guān)心圖像分類(lèi)問(wèn)題,你會(huì)得到一張圖像,然后你要訓(xùn)練一個(gè)模型,例如一個(gè)神經(jīng)網(wǎng)絡(luò),你希望神經(jīng)網(wǎng)絡(luò)輸出一個(gè)標(biāo)簽,比如說(shuō)“狗”。從概念上講,在這個(gè)非常簡(jiǎn)單的場(chǎng)景中,我們可以將生成式模型想象成逆轉(zhuǎn)這個(gè)過(guò)程。

在這種情況下,你會(huì)得到一個(gè)“狗”的標(biāo)簽,然后你希望訓(xùn)練一個(gè)模型,同樣,這可以是一個(gè)神經(jīng)網(wǎng)絡(luò),然后你希望輸出圖像,也就是 x。在這種情況下,會(huì)有許多可能的輸出,許多可能的狗。輸出的維度會(huì)更高,輸出會(huì)是你以前從未見(jiàn)過(guò)的另一只狗。

從概念上講,這是判別式模型和生成式模型的一種概率可視化。左邊是判別式模型,有一些綠點(diǎn),代表一個(gè)類(lèi)別,還有一些橙點(diǎn),代表另一個(gè)類(lèi)別。判別式模型的目標(biāo)是找到一個(gè)可以分離這兩個(gè)類(lèi)別的邊界,這似乎更容易。從概念上講,任務(wù)是找出這個(gè)條件概率分布,這意味著你會(huì)得到 x,比如一張圖像,然后你想要估計(jì) y 的概率,比如它是標(biāo)簽 0 還是標(biāo)簽 1。

相比之下,在生成式模型的上下文中,你仍然會(huì)得到相同的數(shù)據(jù),相同的點(diǎn)。但這里的目標(biāo)是估計(jì)這些點(diǎn)的概率分布。假設(shè)在這個(gè)類(lèi)別中,對(duì)應(yīng)于 y=1,你想要估計(jì)這個(gè)類(lèi)別的條件概率分布。從概念上講,在生成式模型中,我們關(guān)心的是概率建模 (Probabilistic Modeling)。這是生成式模型想要解決的關(guān)鍵問(wèn)題,也是關(guān)鍵挑戰(zhàn)。


你可能會(huì)想,為什么,為什么會(huì)有概率?為什么我們關(guān)心概率建模?實(shí)際上,在許多現(xiàn)實(shí)世界的問(wèn)題中,我們可以假設(shè)存在一些潛在的分布。你也可以假設(shè)你的數(shù)據(jù)實(shí)際上是由一些非常復(fù)雜的世界模型 (world model) 生成的。

例如,如果我們關(guān)心人臉圖像,我們可以將問(wèn)題形式化為存在一些潛在因素 (latent factors),比如姿態(tài)、光照、尺度,實(shí)際上還有人臉的身份。這些是潛在因素,然后你假設(shè)這些潛在因素存在一些分布。這些潛在因素會(huì)被一個(gè)世界模型渲染,例如,你如何將一個(gè) 3D 對(duì)象投影到一個(gè) 2D 像素網(wǎng)格上。然后,這些潛在向量將被這個(gè)世界模型渲染,而你實(shí)際能觀察到的只是一個(gè) 2D 網(wǎng)格。

這就是觀察值 x。然后,你的 2D 網(wǎng)格會(huì)遵循一些非常復(fù)雜的分布,這些分布不能簡(jiǎn)單地用一些潛在分布來(lái)描述。這就是為什么我們關(guān)心概率建模,而生成式模型正試圖揭示這些潛在向量,以逆轉(zhuǎn)這個(gè)過(guò)程。


例如,假設(shè)我們有一些數(shù)據(jù),假設(shè)我有一個(gè)狗的數(shù)據(jù)集,這意味著我有很多數(shù)據(jù)點(diǎn),每個(gè)數(shù)據(jù)點(diǎn)對(duì)應(yīng)一張狗的圖像。從概念上講,我們想象存在一個(gè)潛在的分布,可以對(duì)所有狗的分布進(jìn)行建模。值得注意的是,這已經(jīng)是你建模的一部分,因?yàn)槟憧梢杂迷S多不同的方式對(duì)潛在的世界生成器進(jìn)行建模。即使我們經(jīng)常假設(shè)存在這個(gè)潛在分布,這個(gè)分布也是建模的一部分。

然后,生成式模型的目標(biāo)是學(xué)習(xí)一個(gè)神經(jīng)網(wǎng)絡(luò),或者其他模型,來(lái)近似這個(gè)分布。假設(shè)這個(gè)紅色分布是我們從神經(jīng)網(wǎng)絡(luò)中學(xué)到的,這里的目標(biāo)是最小化數(shù)據(jù)分布和你估計(jì)的分布之間的距離。這仍然是一個(gè)非常困難的問(wèn)題,有很多解決方案,但從概念上講,幾乎所有現(xiàn)有的生成式模型都可以用這種方式形式化,它們只是試圖解決這個(gè)問(wèn)題所暴露出的挑戰(zhàn)。

從概念上講,假設(shè)你的模型在這方面做得很好,那么你就可以開(kāi)始從你估計(jì)的分布中進(jìn)行采樣 (sampling)。如果你的模型做得很好,這意味著當(dāng)你從這個(gè)分布中采樣時(shí),你所做的在概念上類(lèi)似于從原始數(shù)據(jù)分布中采樣。在這種情況下,希望它會(huì)產(chǎn)生另一只你的算法從未見(jiàn)過(guò)的狗。

也有可能進(jìn)行概率估計(jì) (probability estimation)。也就是說(shuō),你的模型會(huì)得到另一張圖像,比如說(shuō)一只貓,然后你可以問(wèn)模型,這張圖像在原始數(shù)據(jù)分布下的可能性有多大。在這種情況下,如果原始數(shù)據(jù)分布是關(guān)于狗的,而輸入圖像是一只貓,那么希望它會(huì)產(chǎn)生一個(gè)較低的概率密度估計(jì)。

這就是我們?nèi)绾问褂酶怕式?lái)形式化生成式模型問(wèn)題。

三、 深度學(xué)習(xí)與生成式模型 (Deep Learning and Generative Models)

正如你可以想象的那樣,今天我們解決生成式模型最強(qiáng)大的工具是深度學(xué)習(xí)。Philip 已經(jīng)對(duì)深度學(xué)習(xí)做了一個(gè)非常出色和快速的介紹。從概念上講,簡(jiǎn)而言之,深度學(xué)習(xí)是表示學(xué)習(xí) (representation learning)。

Philip 介紹的是學(xué)習(xí)表示數(shù)據(jù),或者從概念上講,表示數(shù)據(jù)實(shí)例的過(guò)程。這意味著你會(huì)得到數(shù)據(jù),比如說(shuō)圖像,然后你想要將圖像映射到標(biāo)簽。這是使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行表示學(xué)習(xí)的一種方式。


在生成式模型中,實(shí)際上有另一種使用深度學(xué)習(xí)的方式,但仍然是為了表示學(xué)習(xí)的目標(biāo)。也就是說(shuō),我們不僅要學(xué)習(xí)單個(gè)數(shù)據(jù)實(shí)例的表示,還要學(xué)習(xí)概率分布的表示。這是一個(gè)更復(fù)雜的問(wèn)題,從概念上講,它可以被視為學(xué)習(xí)另一種方式的映射。假設(shè)這里,輸出是標(biāo)簽,比如說(shuō)貓的標(biāo)簽或狗的標(biāo)簽,然后你想要將其映射回像素空間。

因此,正如你可以想象的那樣,深度學(xué)習(xí)或深度神經(jīng)網(wǎng)絡(luò)是生成式模型的一個(gè)非常強(qiáng)大的工具。從概念上講,當(dāng)你將這個(gè)工具用于這個(gè)問(wèn)題時(shí),模型實(shí)際上同時(shí)扮演著這兩個(gè)角色:首先,學(xué)習(xí)表示數(shù)據(jù)實(shí)例;其次,學(xué)習(xí)表示概率分布。


從概念上講,這就是模型的樣子。你的模型會(huì)得到一個(gè)非常簡(jiǎn)單的分布,例如,它可以是一個(gè)高斯分布,也可以是一個(gè)均勻分布,這無(wú)關(guān)緊要。在圖像的情況下,這看起來(lái)就像一張完全嘈雜的圖像。然后,目標(biāo)是學(xué)習(xí)一個(gè)神經(jīng)網(wǎng)絡(luò),使得它可以將嘈雜的圖像映射到輸出空間中的另一張圖像。從概念上講,如果你的模型可以做得很好,希望輸出會(huì)是一張視覺(jué)上合理的圖像,比如說(shuō),在這種情況下是一只狗。然后,你可以不斷地從輸入分布中采樣噪聲,希望神經(jīng)網(wǎng)絡(luò)會(huì)將所有內(nèi)容轉(zhuǎn)換成輸出中有意義的圖像。

從概念上講,當(dāng)你這樣做時(shí),實(shí)際上,你的神經(jīng)網(wǎng)絡(luò)正試圖將一個(gè)簡(jiǎn)單的分布(例如這里的高斯分布)映射到另一個(gè)分布,從概念上講,這是為了近似潛在的數(shù)據(jù)分布。從這個(gè)意義上說(shuō),生成式模型是分布之間的映射 (mapping between distributions),它不僅僅是一對(duì)數(shù)據(jù)點(diǎn)和一個(gè)標(biāo)簽之間的映射,它是從一個(gè)分布到另一個(gè)分布。

接下來(lái)的幻燈片會(huì)有一點(diǎn)技術(shù)性,也許我可以快速過(guò)一下。這些是深度生成模型的一些基本要素 (Fundamental Elements of a Deep Generative Model)。首先,你可能需要將現(xiàn)實(shí)世界的問(wèn)題形式化為概率模型或生成式模型。這是我們?cè)O(shè)計(jì)算法最關(guān)鍵的部分之一。

在你完成之后,你需要一些表示 (Representations),今天,通常這是一個(gè)神經(jīng)網(wǎng)絡(luò)。你想要表示數(shù)據(jù)及其分布。然后,你需要引入一些目標(biāo)函數(shù) (Objective Functions) 來(lái)衡量?jī)蓚€(gè)分布之間的差異。然后,你需要一個(gè)優(yōu)化器 (Optimizer),可以解決非常困難的優(yōu)化問(wèn)題。然后,你還需要一個(gè)推理算法 (Inference Algorithm),從概念上講,這是一個(gè)采樣器 (sampler),可以從潛在分布中采樣。


今天,許多數(shù)學(xué)和理論研究都與這個(gè)列表中的一個(gè)或多個(gè)要素有關(guān)。我不打算深入細(xì)節(jié),但接下來(lái)我將對(duì)生成式模型的一些現(xiàn)代方法和流行方法做一個(gè)非常高層次和快速的概述。我還將解釋為什么生成式模型是一個(gè)難題。

四、 現(xiàn)代生成式模型方法 (Modern Approaches to Generative Models)

這是你剛剛看到的圖。如你所見(jiàn),這里的問(wèn)題是,如果你的模型得到一張嘈雜的圖像或嘈雜的輸入,你希望它將噪聲映射到輸出圖像。為什么這很難?回想一下,在 Philip 的演講中,他談到了監(jiān)督學(xué)習(xí)的問(wèn)題。在這種情況下,你會(huì)得到一張圖像,以及該圖像的標(biāo)簽,你有一對(duì)輸入和輸出。這是一個(gè)形式化非常好的監(jiān)督學(xué)習(xí)問(wèn)題,這個(gè)問(wèn)題對(duì)于現(xiàn)代神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō)很容易解決。

但在生成式模型中,從概念上講,這是一個(gè)無(wú)監(jiān)督學(xué)習(xí) (Unsupervised Learning) 問(wèn)題。也就是說(shuō),你會(huì)得到一張圖像,但從概念上講,你不知道什么輸入噪聲會(huì)對(duì)應(yīng)于那張圖像。這種對(duì)應(yīng)關(guān)系或配對(duì)問(wèn)題也是你的底層算法應(yīng)該嘗試解決的問(wèn)題。從這個(gè)意義上說(shuō),從概念上講,這不僅僅是映射圖像對(duì)或數(shù)據(jù)對(duì),而是映射兩個(gè)分布。你想要將一個(gè)簡(jiǎn)單的高斯分布映射到一個(gè)非常復(fù)雜的數(shù)據(jù)分布,這就是為什么生成式模型很難。

有許多有效且非常聰明的算法可以解決這個(gè)問(wèn)題。我將從一些非常基本和優(yōu)雅的算法開(kāi)始,然后我將開(kāi)始討論一些當(dāng)今最先進(jìn)的算法。


首先,我將討論變分自編碼器 (Variational Autoencoders, VAE)。從概念上講,在生成式模型中,正如我們已經(jīng)介紹過(guò)的,你想要將輸入分布映射到輸出分布。然后,我們可以將其形式化為一個(gè)自編碼 (autoencoding) 問(wèn)題。這意味著,如果你有數(shù)據(jù)的分布,那么你可以訓(xùn)練另一個(gè)神經(jīng)網(wǎng)絡(luò),將數(shù)據(jù)分布映射到你喜歡的分布,比如說(shuō)高斯分布。然后,在你得到這個(gè)分布之后,你可以學(xué)習(xí)生成器將其轉(zhuǎn)換回來(lái)。從概念上講,你計(jì)算輸入和輸出之間的距離。

這是深度學(xué)習(xí)中非常經(jīng)典的自編碼思想。但在經(jīng)典算法中,通常從概念上講,這會(huì)被應(yīng)用于數(shù)據(jù)實(shí)例的概念,也就是說(shuō),你將其應(yīng)用于每一張圖像。在變分自編碼器中,從概念上講,自編碼的概念被應(yīng)用于分布。你可以想象這個(gè)分布只是一個(gè)對(duì)象,只是一個(gè)你想要處理的實(shí)體。你將這個(gè)對(duì)象轉(zhuǎn)換成這個(gè)更簡(jiǎn)單的對(duì)象,然后你再將其轉(zhuǎn)換回來(lái)。這就是自編碼的思想。


另一個(gè)非常流行的解決方案,可以說(shuō)是 10 年前生成式模型研究的開(kāi)端,叫做生成對(duì)抗網(wǎng)絡(luò) (Generative Adversarial Networks, GAN),簡(jiǎn)稱(chēng) GAN。從概念上講,GAN 也只是想學(xué)習(xí)一個(gè)生成器,從一個(gè)簡(jiǎn)單的分布到數(shù)據(jù)分布。但 GAN 并沒(méi)有在簡(jiǎn)單分布之前引入另一個(gè)網(wǎng)絡(luò),而是在你獲得估計(jì)分布之后引入了一個(gè)額外的神經(jīng)網(wǎng)絡(luò)。這個(gè)額外的神經(jīng)網(wǎng)絡(luò)被稱(chēng)為判別器 (discriminator)。判別器的目標(biāo)是判斷你的樣本是來(lái)自預(yù)測(cè)分布還是來(lái)自真實(shí)分布。如果判別器無(wú)法判斷它來(lái)自哪個(gè)分布,那么這意味著這兩個(gè)分布將非常相似。

GAN 是過(guò)去十年中最流行和最強(qiáng)大的生成式模型,直到過(guò)去三四年出現(xiàn)了一些非常強(qiáng)大的工具。

另一個(gè)非常強(qiáng)大的生成式模型工具叫做自回歸模型 (Autoregressive Models)。在自然語(yǔ)言處理的上下文中,這通常被稱(chēng)為“下一個(gè)詞預(yù)測(cè)”(next token prediction)。但從概念上講,自回歸或自回歸的思想不僅僅是預(yù)測(cè)下一個(gè)詞。基本上,如果我們關(guān)心涉及許多元素或許多變量的概率,那么根據(jù)概率論的基本原理,我們總是可以將這個(gè)聯(lián)合概率分解為一系列條件概率。


自回歸模型的關(guān)鍵思想是分別對(duì)每個(gè)條件概率進(jìn)行建模,而不是對(duì)整個(gè)聯(lián)合概率進(jìn)行建模。如果你按照序列的順序進(jìn)行這種分解,假設(shè)在這種情況下,你想要首先預(yù)測(cè) x1,然后預(yù)測(cè) x2,條件是 x1,依此類(lèi)推,如果你遵循這個(gè)順序,那么你可以將你的問(wèn)題轉(zhuǎn)化為下一個(gè)詞預(yù)測(cè)。

自回歸模型的思想是將一個(gè)非常復(fù)雜的問(wèn)題分解為一堆更簡(jiǎn)單、更小的問(wèn)題。例如,在這種情況下,在第一個(gè)輸出中,你將估計(jì)一個(gè)非常簡(jiǎn)單且低維的分布。在這個(gè)例子中,例如,這將是一個(gè)一維分布。然后在第二個(gè)節(jié)點(diǎn)中,它將預(yù)測(cè)變量的下一個(gè)維度。然后,它將是一個(gè)二維分布,依此類(lèi)推。很難可視化更高維的分布,但從概念上講,當(dāng)你這樣做時(shí),這將是一個(gè)高維空間中的分布。這是自回歸模型的關(guān)鍵思想。

然后,在過(guò)去的三四年里,出現(xiàn)了一種非常強(qiáng)大的模型,特別是在圖像生成和計(jì)算機(jī)視覺(jué)領(lǐng)域。這個(gè)模型的靈感來(lái)自物理學(xué)中的熱力學(xué)。其思想是,你可以將問(wèn)題形式化為通過(guò)添加高斯噪聲來(lái)反復(fù)破壞干凈的數(shù)據(jù)或輸入圖像,然后你可以逐步將其轉(zhuǎn)換為完全噪聲的圖像。然后,學(xué)習(xí)的目標(biāo)是逆轉(zhuǎn)這個(gè)過(guò)程。如果你能做到這一點(diǎn),那么你就可以逐步從嘈雜的輸入回到干凈的圖像。這個(gè)想法被稱(chēng)為擴(kuò)散 (diffusion),或者通常也被稱(chēng)為去噪擴(kuò)散 (denoising diffusion)。


從概念上講,使用概率或概率分布的術(shù)語(yǔ),這意味著你將有一個(gè)輸入數(shù)據(jù)分布,希望它是關(guān)于干凈圖像的。然后,你只需在其上反復(fù)添加噪聲。從概念上講,這就像在分布空間上運(yùn)行一個(gè)卷積核。通過(guò)多次這樣做,最終你將把數(shù)據(jù)分布轉(zhuǎn)換為高斯分布。然后,你的模型只是試圖學(xué)習(xí)逆轉(zhuǎn)這個(gè)過(guò)程。

這是擴(kuò)散模型在推理時(shí)的樣子。它將從一個(gè)非常簡(jiǎn)單的分布開(kāi)始,比如說(shuō)高斯分布。然后,它將逐步逆轉(zhuǎn)這個(gè)過(guò)程,回到數(shù)據(jù)分布。實(shí)際上,這種可視化與圖形學(xué)中流行的許多概念非常相似。例如,你可以想象這個(gè)過(guò)程的起點(diǎn)是一些圓錐形的形狀,比如說(shuō)一個(gè)球體或一個(gè)圓柱體。然后,你想要逐步變形或扭曲這個(gè)對(duì)象、這個(gè)形狀,變成你喜歡的另一個(gè)形狀。假設(shè)這可以是,例如,一座山或一只兔子。

你想要逐步將輸入球體扭曲成一只兔子,這是一個(gè)研究得很好的問(wèn)題。在分布建模的情況下,我們可以將這個(gè)分布字面上想象成一個(gè)幾何實(shí)體。然后,你可以形式化一個(gè)過(guò)程來(lái)進(jìn)行這種轉(zhuǎn)換。實(shí)際上,我剛才描述的是一種新興的思想,叫做流匹配 (Flow Matching)。你想要從一個(gè)非常簡(jiǎn)單的對(duì)象或非常簡(jiǎn)單的形狀(如球體)流向另一個(gè)更復(fù)雜的形狀(如兔子)。如果你有這個(gè)算法,然后如果你將你的底層形狀形式化為一些概率分布,那么你就可以使用這個(gè)思想來(lái)進(jìn)行概率建模,也就是生成式建模。


從概念上講,這只是同一件事的另一種可視化。你將從一些簡(jiǎn)單的分布開(kāi)始,比如說(shuō)高斯分布。這將是你想建模的數(shù)據(jù)分布。這里的目標(biāo)是逐步將你的輸入分布更改為輸出分布。然后,在計(jì)算機(jī)圖形學(xué)中,有許多優(yōu)秀的解決方案可以解決這個(gè)問(wèn)題。這里的一個(gè)想法是學(xué)習(xí)一個(gè)流場(chǎng) (flow field)。你可以想象,如果這實(shí)際上是一個(gè) 3D 對(duì)象,那么你將有一些 3D 頂點(diǎn)或 3D 表面。你想要逐漸將這些 3D 表面從球體移動(dòng)到兔子中的一些 3D 表面。如果你這樣做,那么將有一個(gè)流場(chǎng)可以通過(guò)這個(gè)過(guò)程構(gòu)建。背后會(huì)有很多數(shù)學(xué)細(xì)節(jié),當(dāng)然,我不會(huì)深入探討,但這是生成式模型最新進(jìn)展的高層思想,也就是流匹配。


從概念上講,這些是當(dāng)今生成式模型的一些流行方法。我沒(méi)有涉及任何數(shù)學(xué)細(xì)節(jié),但瀏覽所有這些方法是很有趣的。我想說(shuō)明的一點(diǎn)是,在所有這些生成式模型中,都會(huì)有一些深度神經(jīng)網(wǎng)絡(luò)作為構(gòu)建塊。這就像在深度神經(jīng)網(wǎng)絡(luò)中,會(huì)有一些層作為構(gòu)建塊。這些層是 Phillip 剛剛介紹過(guò)的模型。它們可以是線性層,可以是 ReLU,可以是歸一化層或 softmax 層。


神經(jīng)網(wǎng)絡(luò)是由所謂的層構(gòu)建的一些實(shí)體。而今天,這些生成式模型是由深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的一些實(shí)體。從這個(gè)意義上說(shuō),生成式模型是下一級(jí)的抽象。

五、 將生成式模型應(yīng)用于現(xiàn)實(shí)世界問(wèn)題 (Formulating Real World Problems into Generative Modeling)

接下來(lái),我將討論如何在解決現(xiàn)實(shí)世界問(wèn)題的背景下使用這些數(shù)學(xué)模型或生成式模型的理論模型。正如我們已經(jīng)介紹過(guò)的,生成式模型中的關(guān)鍵問(wèn)題是關(guān)于這個(gè)條件分布。你想要建模一個(gè)分布,從概念上講,你會(huì)得到條件 y,這是關(guān)于你的數(shù)據(jù) x 的分布。但在現(xiàn)實(shí)中,什么是 y,什么是 x?


在通用術(shù)語(yǔ)中,y 被稱(chēng)為條件 (conditions)。假設(shè)你想要生成一只貓,它也可能是一些約束 (constraints),假設(shè)你不希望生成某種類(lèi)型的輸出圖像。它也可能是標(biāo)簽 (labels),文本標(biāo)簽,或者其他標(biāo)簽。它也可能是屬性 (attributes),假設(shè)你想要生成一個(gè)大的對(duì)象或一個(gè)小的對(duì)象。

在大多數(shù)情況下,條件 y 會(huì)更抽象,信息量也會(huì)更少。相比之下,輸出 x 通常被稱(chēng)為數(shù)據(jù) (data),或者它是你在現(xiàn)實(shí)世界問(wèn)題中可以看到的樣本的觀察 (observations) 或測(cè)量 (measurements)。在圖像生成的情況下,通常 x 就是圖像。通常,x 會(huì)比條件 y 更具體,信息量更大,維度更高。


現(xiàn)在,讓我們回顧一下我們剛剛介紹過(guò)的應(yīng)用,并討論什么是 x,什么是 y。在自然語(yǔ)言對(duì)話或聊天機(jī)器人的上下文中,條件 y 是用戶給出的所謂提示 (prompt),輸出 x 是聊天機(jī)器人的響應(yīng)。通常,輸出的維度更高,并且會(huì)有許多合理的輸出可以對(duì)應(yīng)于同一個(gè)提示。


同樣,在文本到圖像生成或文本到視頻生成的上下文中,條件將是文本提示,它可以是一個(gè)句子,可以是一個(gè)類(lèi)標(biāo)簽,可以是一些屬性。輸出將是生成的視覺(jué)內(nèi)容,例如圖像和視頻。輸出的維度更高,更復(fù)雜。這些是典型的用例。


當(dāng)然,在 3D 生成方面也是如此。在這種情況下,條件仍然是一個(gè)文本提示,輸出將是 3D 文本結(jié)構(gòu)。在計(jì)算機(jī)視覺(jué)或圖形學(xué)應(yīng)用中,3D 文本結(jié)構(gòu)將是形狀、紋理,甚至可能是底層對(duì)象的光照。

然后,我們可以更進(jìn)一步,將場(chǎng)景推廣到蛋白質(zhì)生成的問(wèn)題。在這種情況下,輸入條件仍然可以是一些提示,仍然可以是一些文本。假設(shè)你可以嘗試告訴計(jì)算機(jī),我想生成一種可以治愈癌癥的蛋白質(zhì)。這是有效的,但問(wèn)題是,計(jì)算機(jī)無(wú)法理解“治愈癌癥”是什么意思,或者它能做什么來(lái)治愈癌癥。


在這種情況下,關(guān)于如何表示你關(guān)心的潛在條件,會(huì)有很多研究。你希望你的輸出蛋白質(zhì)具有某些屬性,你希望這些屬性與治愈癌癥或治愈某些特定疾病有關(guān)。在這種情況下,條件會(huì)更抽象,它也可能是更高維的,因?yàn)樗悄承┬袨榈某橄螅热缯f(shuō)治愈癌癥。輸出將是另一種表示,也是高維的,比如說(shuō) 3D 中的蛋白質(zhì)結(jié)構(gòu),它就像另一種 3D 對(duì)象。

然后,讓我們談?wù)勔恍┢渌膱?chǎng)景,通常,人們不會(huì)認(rèn)為它們是生成式模型。假設(shè)這是一個(gè)非常經(jīng)典的例子,人們會(huì)將其視為我們介紹過(guò)的判別式模型。哦,抱歉,不是這個(gè)。這是圖像生成的典型例子。你會(huì)得到一個(gè)類(lèi)標(biāo)簽,然后你的算法會(huì)被要求生成輸出圖像。這就是所謂的類(lèi)條件情況,這意味著你的 y 將非常具體地針對(duì)一個(gè)標(biāo)簽。


但還有另一種情況,你可以想象你不會(huì)得到任何條件。這意味著你想要生成一個(gè)數(shù)據(jù)輸出,該輸出將遵循數(shù)據(jù)的整個(gè)分布。在這種情況下,你可以將潛在條件想象成一個(gè)隱式條件,這意味著你希望圖像遵循你的底層數(shù)據(jù)集的分布。如果你的模型在這方面可以做得很好,那么它將嘗試區(qū)分這個(gè)數(shù)據(jù)集的分布與任何其他數(shù)據(jù)集的分布。


好,這就是我剛才混淆的例子。這是我們可以將生成式模型應(yīng)用于判別式模型場(chǎng)景的想法。這是一個(gè)非常典型的監(jiān)督學(xué)習(xí)或判別式學(xué)習(xí)的例子,也就是圖像分類(lèi)。你會(huì)得到一張圖像,然后你想要估計(jì)該圖像的標(biāo)簽。如果我們要將其形式化為生成式模型,那么在這種情況下,實(shí)際上 y(在之前幾乎所有例子中都是標(biāo)簽)在這種情況下將是圖像。在這種情況下,圖像是你的條件。然后,類(lèi)標(biāo)簽 x 將是預(yù)測(cè)的輸出。你想要對(duì)輸出的概率分布進(jìn)行建模。

僅僅因?yàn)檫@個(gè)問(wèn)題太簡(jiǎn)單、太瑣碎,通常人們不會(huì)將其視為生成式模型,但它可以是。那么,這里的重點(diǎn)是什么?如果你可以將圖像分類(lèi)建模為生成式模型,那么實(shí)際上,你可以將場(chǎng)景從閉集詞匯表分類(lèi)(這意味著你會(huì)得到一組預(yù)定義的類(lèi)標(biāo)簽)擴(kuò)展到開(kāi)放詞匯表識(shí)別 (Open Vocabulary Recognition) 的場(chǎng)景。這意味著你不會(huì)得到一組預(yù)定義的類(lèi)標(biāo)簽。這意味著對(duì)于同一張圖像,可能有許多合理的答案。在這種情況下,你仍然會(huì)得到一張圖像,但你的輸出不再是一個(gè)唯一的正確答案。可能有許多不同的可能答案可以描述這張圖像。


例如,在這種情況下,這些都是合理的答案,可以說(shuō)這是一只鳥(niǎo)或一只火烈鳥(niǎo),這是紅色或橙色。正如你所看到的,即使對(duì)于這個(gè)非常經(jīng)典的圖像分類(lèi)問(wèn)題,如果我們嘗試將其形式化為生成式模型,它也可以開(kāi)啟新的機(jī)會(huì),并且將啟用新的應(yīng)用,這對(duì)于經(jīng)典的判別式模型來(lái)說(shuō)是不典型的。

我們甚至可以更進(jìn)一步。你可以想象輸入條件 y 仍然是一張圖像,你希望輸出不僅僅是一個(gè)標(biāo)簽或一個(gè)簡(jiǎn)短的描述,它可以是一個(gè)完整的句子,甚至可以是一些可以描述這張圖像的段落。實(shí)際上,這也是計(jì)算機(jī)視覺(jué)中的一個(gè)經(jīng)典問(wèn)題,被稱(chēng)為圖像描述 (Image Captioning)。你希望計(jì)算機(jī)為這張圖像寫(xiě)一個(gè)標(biāo)題。


然后,在這種情況下,我們甚至可以更進(jìn)一步。這張圖像可能只是你在對(duì)話中、在你與聊天機(jī)器人的自然語(yǔ)言對(duì)話中的輸入的一部分。在這種情況下,條件將是輸入圖像和一些其他的文本,也就是用戶給出的一些其他的文本提示。輸出將是聊天機(jī)器人基于這張圖像和文本提示的響應(yīng)。假設(shè)在這種情況下,給定這張圖像,用戶可能會(huì)問(wèn),這張圖像有什么不尋常之處?聊天機(jī)器人可以嘗試提出一些關(guān)于這個(gè)問(wèn)題的答案。它說(shuō),把衣服熨在固定在行駛中的出租車(chē)車(chē)頂上的熨衣板上是不尋常的。


在許多其他的現(xiàn)實(shí)世界問(wèn)題中,例如機(jī)器人技術(shù),我們也可以將策略學(xué)習(xí)的問(wèn)題形式化為生成式模型。例如,在機(jī)器人控制中,可能有許多合理的軌跡、許多合理的策略可以完成相同的任務(wù)。在這種情況下,例如,你希望機(jī)器人將這些 T 形物體移動(dòng)到它們的目標(biāo)位置。機(jī)器人可以從右側(cè)移動(dòng),也可以從左側(cè)移動(dòng)。這兩種軌跡都是合理的,沒(méi)有唯一的答案。這也是我們可以使用生成式模型來(lái)建模這個(gè)策略學(xué)習(xí)問(wèn)題的地方。


總的來(lái)說(shuō),這就是我們剛才看到的。生成式模型從概念上講,只關(guān)心這個(gè)條件分布。在我看來(lái),實(shí)際上,對(duì)于什么是 x 或什么是 y,沒(méi)有任何約束或要求。從概念上講,它們可以是任何東西。這意味著我們可以使用生成式模型來(lái)解決許多種類(lèi)的現(xiàn)實(shí)世界問(wèn)題。我們可以嘗試將所有這些現(xiàn)實(shí)世界問(wèn)題形式化為某種條件分布問(wèn)題,然后我們可以嘗試應(yīng)用生成式模型的最新進(jìn)展作為解決這個(gè)問(wèn)題的工具。這也是為什么生成式模型在今天變得越來(lái)越普遍的部分原因,人們用它來(lái)解決現(xiàn)實(shí)世界的問(wèn)題。



六、 總結(jié) (Conclusion)

這將是這次演講的最后一張幻燈片,但我只想給出一些高層次的想法,并傳達(dá)一些我認(rèn)為最重要的信息。正如我們所看到的,生成式模型有一些深度神經(jīng)網(wǎng)絡(luò)作為它們的構(gòu)建塊。這就像深度神經(jīng)網(wǎng)絡(luò)有一些層作為它們的構(gòu)建塊。10 年前,深度學(xué)習(xí)的研究主要圍繞這些層,比如說(shuō)卷積、激活函數(shù)、歸一化、自注意力層等等。那是大約十年前的研究。


然后,我們有了生成式模型,生成式模型成為下一級(jí)的抽象。所有先前關(guān)于深度神經(jīng)網(wǎng)絡(luò)的研究仍然適用,但有一個(gè)新的研究層次將圍繞生成式模型構(gòu)建。

展望未來(lái),當(dāng)人們使用這些生成式模型來(lái)做更多驚人的事情時(shí),比如說(shuō)大型語(yǔ)言模型、推理、智能體,以及機(jī)器學(xué)習(xí)(我們將在這次演講的其余部分中介紹),在這種情況下,這些現(xiàn)有的生成式模型將成為另一級(jí)的構(gòu)建塊。正如我們可以看到的,正如你從 Philip 的介紹幻燈片中看到的那樣,我們正在構(gòu)建一個(gè)由許多不同層次的模型組成的堆棧。

這些是不同層次的抽象。抽象可以是層,可以是深度神經(jīng)網(wǎng)絡(luò),它們可以是生成式模型,也可以是推理智能體。這就是過(guò)去一個(gè)世紀(jì)左右計(jì)算機(jī)科學(xué)進(jìn)步的方式。人們正在構(gòu)建不同層次的抽象,然后我們可以解鎖不同層次的新機(jī)會(huì)。從這個(gè)意義上說(shuō),我想說(shuō)生成式模型是下一級(jí)的深度學(xué)習(xí),也是下一級(jí)的抽象和構(gòu)建塊。

七、 問(wèn)答環(huán)節(jié) (Q&A)

  • ?觀眾 1 提問(wèn):既然建模主要是映射分布,那么對(duì)于像分類(lèi)這樣的簡(jiǎn)單任務(wù),是不是一個(gè)更難解決的問(wèn)題?因?yàn)槟阍谟成涓怕史植迹@是一個(gè)更復(fù)雜的任務(wù)。這是否意味著它們?cè)诤?jiǎn)單任務(wù)上表現(xiàn)更差?

  • ?Kaiming He 回答:你是說(shuō)生成式模型在簡(jiǎn)單的監(jiān)督學(xué)習(xí)任務(wù)上表現(xiàn)更差嗎?我認(rèn)為目前還沒(méi)有確定的答案。因?yàn)樵谀撤N意義上,我認(rèn)為使用生成式模型來(lái)解決判別式問(wèn)題還沒(méi)有成為一種普遍的共識(shí)。如果這是一個(gè)非常簡(jiǎn)單的,比如說(shuō),閉集詞匯表分類(lèi)任務(wù),如果你非常清楚地知道你有 10 個(gè)可能的標(biāo)簽或 1000 個(gè)可能的標(biāo)簽,那么通常一個(gè)簡(jiǎn)單的解決方案就足夠了。但是,即使在所謂的開(kāi)放詞匯表識(shí)別的情況下,比如說(shuō),你會(huì)得到一張圖像,你仍然想要一個(gè)標(biāo)簽,比如說(shuō)一個(gè)主題標(biāo)簽。那么你仍然可以有一個(gè)詞匯表,但那個(gè)詞匯表只是英語(yǔ)詞匯表,人類(lèi)的詞匯表,它可能非常長(zhǎng)。即使在這種情況下,我認(rèn)為生成式模型也是一個(gè)好主意。然后,如果你想更進(jìn)一步,你想要一個(gè)句子作為描述,或者如果你想要一些基于這張圖像的對(duì)話,那么生成式模型可能是你應(yīng)該使用的唯一解決方案。

  • ?觀眾 2 提問(wèn):非常精彩的演講。我有兩個(gè)問(wèn)題。當(dāng)我們談?wù)摻o定 y 時(shí) x 的概率時(shí),這似乎是單向的。我想知道你對(duì)雙向的可能性有什么看法。其次,在蛋白質(zhì)合成的情況下,是否要求我們至少有一個(gè)明確的目標(biāo),也就是說(shuō),我們確切地知道如何啟動(dòng)?是否可能有一個(gè)明確的目標(biāo)函數(shù)范圍,有能力……(問(wèn)題未說(shuō)完)

  • ?Kaiming He 回答:好問(wèn)題。第一個(gè)問(wèn)題是,是否可以反向進(jìn)行?我認(rèn)為這取決于具體的方法。我認(rèn)為最近,答案是肯定的。流匹配算法可以讓我們做到這一點(diǎn)。正如你可以想象的那樣,在我的類(lèi)比中,如果你把流匹配想象成從一個(gè)球體移動(dòng)到一個(gè)兔子,那么從概念上講,它不需要是一個(gè)球體,它可以是一只貓。你可以從一只貓變形到一只兔子。在這個(gè)類(lèi)比中,這意味著你可以從一個(gè)任意分布轉(zhuǎn)換到另一個(gè)任意分布。然后它們的位置是對(duì)稱(chēng)的。所以從概念上講,你可以交換它們,對(duì)吧?這是第一個(gè)問(wèn)題。第二個(gè)問(wèn)題是,如果我沒(méi)記錯(cuò)的話,是關(guān)于機(jī)器人場(chǎng)景的。是否存在一個(gè)明確的目標(biāo)函數(shù)?或者它是否可以在不明確的情況下工作?(問(wèn)題未說(shuō)完)

  • ?觀眾 2 補(bǔ)充:是的(目標(biāo)函數(shù)不明確的情況)。

  • ?Kaiming He 回答:是的,好問(wèn)題。我認(rèn)為這更像是強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)之間的區(qū)別,或者基本上就是監(jiān)督學(xué)習(xí)。我認(rèn)為從概念上講,我們總是可以將問(wèn)題形式化為強(qiáng)化學(xué)習(xí)。也就是說(shuō),你只想接近目標(biāo)。假設(shè)目標(biāo)是將 T 形物體移動(dòng)到目標(biāo)位置,如果你能做到,你就會(huì)得到獎(jiǎng)勵(lì)。如果你做不到,你就什么也得不到,或者你的獎(jiǎng)勵(lì)是零。這是可能的。然后,模仿學(xué)習(xí)或監(jiān)督學(xué)習(xí)是另一種方式。你試圖給出一些可能的軌跡的例子,然后你試圖模仿這種行為。是的,我想我可以在線下回答問(wèn)題,因?yàn)槲乙呀?jīng)超時(shí)了。讓我們繼續(xù)下一個(gè)演講。

引用鏈接

[1]Deep Learning Day: Generative Modeling: https://www.youtube.com/watch?v=2yJSoaGU2i4


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
馬龍當(dāng)選全國(guó)青聯(lián)副主席

馬龍當(dāng)選全國(guó)青聯(lián)副主席

極目新聞
2025-07-04 09:04:20
必須曝光!上海一面館將別人吃剩的面二次上桌,不道歉反懟顧客

必須曝光!上海一面館將別人吃剩的面二次上桌,不道歉反懟顧客

小蜜情感說(shuō)
2025-07-04 14:54:36
尼克-楊談水拉:獨(dú)行俠完了 更衣室里不再有信任可言

尼克-楊談水拉:獨(dú)行俠完了 更衣室里不再有信任可言

直播吧
2025-07-04 09:25:18
61歲營(yíng)銷(xiāo)天才再出山,賺完老人錢(qián),這次手伸向00后,又狠賺100億

61歲營(yíng)銷(xiāo)天才再出山,賺完老人錢(qián),這次手伸向00后,又狠賺100億

不寫(xiě)散文詩(shī)
2025-06-17 11:44:55
為了把張格爾押到京師凌遲,道光花了多少代價(jià)?四個(gè)字:不計(jì)成本

為了把張格爾押到京師凌遲,道光花了多少代價(jià)?四個(gè)字:不計(jì)成本

丁丁鯉史紀(jì)
2025-07-03 16:11:57
泰王出手強(qiáng)力支持佩通坦,洪森陰謀破敗,淪為東南亞的歷史笑柄

泰王出手強(qiáng)力支持佩通坦,洪森陰謀破敗,淪為東南亞的歷史笑柄

大道無(wú)形我有型
2025-07-03 20:59:43
德約:等我退役后再和費(fèi)德勒、納達(dá)爾一起回顧我們之間的對(duì)決

德約:等我退役后再和費(fèi)德勒、納達(dá)爾一起回顧我們之間的對(duì)決

懂球帝
2025-07-04 02:01:58
伊朗用血的代價(jià)提醒中國(guó),解放臺(tái)灣,這幾個(gè)教訓(xùn)必牢記

伊朗用血的代價(jià)提醒中國(guó),解放臺(tái)灣,這幾個(gè)教訓(xùn)必牢記

奉壹數(shù)碼
2025-06-30 22:46:14
南航機(jī)長(zhǎng)跳樓自殺真相:人情世故讓10年努力清零,幾十位好友發(fā)聲

南航機(jī)長(zhǎng)跳樓自殺真相:人情世故讓10年努力清零,幾十位好友發(fā)聲

云景侃記
2025-07-03 21:21:08
粟裕在地圖前被參謀質(zhì)疑,突然指著他:你說(shuō)得對(duì),這個(gè)位置你來(lái)指揮

粟裕在地圖前被參謀質(zhì)疑,突然指著他:你說(shuō)得對(duì),這個(gè)位置你來(lái)指揮

燦爛夏天
2025-06-28 14:36:58
蘇媒:南京將改建5萬(wàn)人專(zhuān)業(yè)足球場(chǎng);正構(gòu)建完整人才培養(yǎng)體系

蘇媒:南京將改建5萬(wàn)人專(zhuān)業(yè)足球場(chǎng);正構(gòu)建完整人才培養(yǎng)體系

懂球帝
2025-07-04 14:23:07
楊瀚森訓(xùn)練后收拾發(fā)型!夏聯(lián)迎新挑戰(zhàn) 最佳新秀賠率排名已升第15

楊瀚森訓(xùn)練后收拾發(fā)型!夏聯(lián)迎新挑戰(zhàn) 最佳新秀賠率排名已升第15

羅說(shuō)NBA
2025-07-04 09:41:45
回顧:四川18歲校花被51歲和尚藏禪房3個(gè)月,被解救時(shí)已精神失常

回顧:四川18歲校花被51歲和尚藏禪房3個(gè)月,被解救時(shí)已精神失常

談史論天地
2025-06-28 07:45:03
炸裂!北京男子自曝500萬(wàn)娶坐臺(tái)小姐,婚后她死性不改,長(zhǎng)得一般

炸裂!北京男子自曝500萬(wàn)娶坐臺(tái)小姐,婚后她死性不改,長(zhǎng)得一般

深析古今
2025-06-24 22:03:24
突發(fā)!7隊(duì)史詩(shī)級(jí)交易!湖人+勇士!又來(lái)一個(gè)中鋒,徹底炸了...

突發(fā)!7隊(duì)史詩(shī)級(jí)交易!湖人+勇士!又來(lái)一個(gè)中鋒,徹底炸了...

左右為籃
2025-07-04 13:10:48
田亮妻子曬森碟打網(wǎng)球照片:身材高挑,下巴后縮問(wèn)題得到改善

田亮妻子曬森碟打網(wǎng)球照片:身材高挑,下巴后縮問(wèn)題得到改善

直播吧
2025-07-03 17:06:11
61歲阿姨說(shuō):和再婚老伴同居后才明白,男人老了還要找老伴的原因

61歲阿姨說(shuō):和再婚老伴同居后才明白,男人老了還要找老伴的原因

拾代談生活
2025-06-05 15:53:48
南航機(jī)長(zhǎng)捅傷4人后跳樓,上個(gè)月同事李波舉報(bào)領(lǐng)導(dǎo)受賄,迎新進(jìn)展

南航機(jī)長(zhǎng)捅傷4人后跳樓,上個(gè)月同事李波舉報(bào)領(lǐng)導(dǎo)受賄,迎新進(jìn)展

體制內(nèi)老陳
2025-07-04 12:07:45
陶琳:特斯拉音響系統(tǒng)采用全自研設(shè)計(jì) 還有神秘黑科技

陶琳:特斯拉音響系統(tǒng)采用全自研設(shè)計(jì) 還有神秘黑科技

手機(jī)中國(guó)
2025-07-03 16:24:11
荒誕魔幻的氛圍下,大惡之人為何不被人提及?

荒誕魔幻的氛圍下,大惡之人為何不被人提及?

吳女士
2025-07-02 03:57:17
2025-07-04 16:19:01
人工智能研究 incentive-icons
人工智能研究
分享深度學(xué)習(xí)、CV、NLP
275文章數(shù) 130關(guān)注度
往期回顧 全部

科技要聞

被雷軍"震驚"后,何小鵬"藏起"G7的戰(zhàn)報(bào)

頭條要聞

南京一小區(qū)修路114公里 近1200萬(wàn)維修金被當(dāng)"提款機(jī)"

頭條要聞

南京一小區(qū)修路114公里 近1200萬(wàn)維修金被當(dāng)"提款機(jī)"

體育要聞

33歲,她的野心也該火一把了

娛樂(lè)要聞

王嘉爾年收四成借朋友 竟遭人間蒸發(fā)

財(cái)經(jīng)要聞

闖禍電芯商部分產(chǎn)線停產(chǎn)!羅馬仕通知停工

汽車(chē)要聞

純電續(xù)航180km/或30萬(wàn)級(jí) 方程豹鈦7四季度上市

態(tài)度原創(chuàng)

教育
家居
藝術(shù)
房產(chǎn)
軍事航空

教育要聞

等腰三角形角度難題:巧解∠A 的度數(shù)

家居要聞

合理布局 三口之家的溫馨空間

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

房產(chǎn)要聞

千萬(wàn)級(jí)豪宅成交激增!2025年上半年,廣州這些頂豪出圈了!

軍事要聞

俄美元首通話約1小時(shí) 討論中東局勢(shì)、俄烏談判等

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 兴宁市| 武宣县| 卓尼县| 阳西县| 云霄县| 泉州市| 泽普县| 左权县| 夹江县| 克拉玛依市| 江达县| 雷山县| 宁明县| 太仓市| 鄂伦春自治旗| 鄢陵县| 石首市| 垦利县| 祁门县| 邵阳县| 古田县| 东辽县| 灵寿县| 安康市| 罗甸县| 铜山县| 且末县| 饶平县| 集贤县| 库车县| 阳西县| 二手房| 武隆县| 蚌埠市| 陵水| 宾阳县| 苍南县| 威远县| 都安| 亳州市| 防城港市|