99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

大規(guī)模AI落地的關(guān)鍵:量化不確定性

0
分享至

Position: Bayesian Deep Learning is Needed in the Age of Large-Scale AI

大規(guī)模AI落地的關(guān)鍵:量化不確定性的貝葉斯方法

https://arxiv.org/abs/2402.00809


摘要
在當(dāng)前的深度學(xué)習(xí)研究領(lǐng)域中,主要的關(guān)注點(diǎn)集中在大規(guī)模圖像和語言數(shù)據(jù)集上的監(jiān)督任務(wù)中實(shí)現(xiàn)高預(yù)測(cè)準(zhǔn)確性。然而,從更廣闊的視角來看,還有許多被忽視的指標(biāo)、任務(wù)和數(shù)據(jù)類型亟需關(guān)注,例如不確定性建模、主動(dòng)學(xué)習(xí)與持續(xù)學(xué)習(xí)、以及科學(xué)數(shù)據(jù)等。貝葉斯深度學(xué)習(xí)(Bayesian Deep Learning, BDL)提供了一個(gè)有前景的研究方向,并在這些多樣化的場(chǎng)景中展現(xiàn)出優(yōu)勢(shì)。本文認(rèn)為,BDL能夠提升深度學(xué)習(xí)的能力。文章回顧了BDL的優(yōu)勢(shì),指出了當(dāng)前存在的挑戰(zhàn),并強(qiáng)調(diào)了一些令人期待的研究方向,旨在應(yīng)對(duì)這些障礙。展望未來,討論將聚焦于如何將大規(guī)模基礎(chǔ)模型與BDL相結(jié)合,以充分發(fā)揮其潛力。

1. 引言
貝葉斯推理的起源可以追溯到18世紀(jì),源自托馬斯·貝葉斯在概率論領(lǐng)域的奠基性工作。貝葉斯定理是在1760年代發(fā)表的(Bayes, 1763),為統(tǒng)計(jì)推理的概率方法奠定了基礎(chǔ)。從高層次來看,貝葉斯定理描述了如何根據(jù)某些證據(jù)來更新我們的信念。形式上,貝葉斯定理指出后驗(yàn)概率密度函數(shù) p(θ∣D) 在參數(shù)值 θ∈Rν 處的取值,是基于三個(gè)概率密度函數(shù)而定義的:即在考慮證據(jù)(訓(xùn)練數(shù)據(jù)集)D 之前參數(shù) θ 的先驗(yàn)分布 p(θ)、給定參數(shù)值 θ 下證據(jù) D出現(xiàn)的可能性 p(D∣θ),以及在任意參數(shù)值下證據(jù) D 的邊緣概率密度函數(shù)。


幾個(gè)世紀(jì)以來,貝葉斯方法在各個(gè)科學(xué)領(lǐng)域產(chǎn)生了深遠(yuǎn)影響,它提供了一個(gè)基于新證據(jù)更新信念并容納模型參數(shù)不確定性的原則性框架。從20世紀(jì)早期的貝葉斯統(tǒng)計(jì)到其后半葉的“貝葉斯革命”(Jaynes, 2003),這一方法不斷發(fā)展,并影響了從物理學(xué)、醫(yī)學(xué)到人工智能(AI)等多個(gè)領(lǐng)域。

貝葉斯視角在深度學(xué)習(xí)中具有許多應(yīng)用,包括解釋性和預(yù)測(cè)不確定性建模等問題。貝葉斯定理的應(yīng)用可以估計(jì)神經(jīng)網(wǎng)絡(luò)(NN)參數(shù)的后驗(yàn)分布,從而對(duì)這些參數(shù)提供概率意義上的理解和解釋。此外,貝葉斯定理還構(gòu)成了后驗(yàn)預(yù)測(cè)分布估計(jì)的基礎(chǔ),使得量化神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)中的不確定性成為可能。理解神經(jīng)網(wǎng)絡(luò)參數(shù)的作用并量化預(yù)測(cè)中的不確定性有助于風(fēng)險(xiǎn)評(píng)估,并提升決策過程的安全性。

在過去二十年中,將貝葉斯原理與深度學(xué)習(xí)相結(jié)合的貝葉斯深度學(xué)習(xí)(BDL)框架受到了廣泛關(guān)注。盡管BDL具有提供不確定性估計(jì)、提升模型可解釋性、泛化能力和魯棒性的潛力,但在研究和應(yīng)用層面,其主流采納仍然緩慢。一個(gè)常見的擔(dān)憂是BDL缺乏可擴(kuò)展性。然而,在當(dāng)前廣泛且迅速采用大規(guī)模參數(shù)化深度學(xué)習(xí)模型的時(shí)代,本文認(rèn)為BDL仍具有未被開發(fā)的潛力,并可以在當(dāng)前人工智能格局中做出重要貢獻(xiàn)。認(rèn)識(shí)到重新審視BDL適用性的必要性,尤其是在大規(guī)模參數(shù)化深度學(xué)習(xí)模型背景下,本文旨在批判性地分析阻礙BDL更廣泛接受的現(xiàn)有挑戰(zhàn)。通過深入探討這些挑戰(zhàn)并提出未來研究方向,本文希望釋放BDL的全部潛力。

貝葉斯概念在深度學(xué)習(xí)中尚未成為主流的原因,并不是因?yàn)樯疃葘W(xué)習(xí)使不確定性變得無關(guān)緊要。事實(shí)上,在高度參數(shù)化的模型時(shí)代,可靠的認(rèn)知不確定性比以往任何時(shí)候都更為重要。例如,“分布外提示”表明大型語言模型(LLMs)迫切需要可靠的不確定性量化(UQ);見圖1。問題在于,精確的貝葉斯推理通常計(jì)算成本過高。

觀點(diǎn)立場(chǎng) :本論文主張,BDL的發(fā)展能夠克服當(dāng)今深度學(xué)習(xí)面臨的諸多挑戰(zhàn)。特別地,BDL方法對(duì)于滿足21世紀(jì)對(duì)更加成熟的AI系統(tǒng)以及能夠在關(guān)鍵安全決策中可靠評(píng)估不確定性并融合已有知識(shí)的算法的需求至關(guān)重要。例如,BDL方法可以減輕LLMs由于過于自信卻錯(cuò)誤的預(yù)測(cè)所帶來的風(fēng)險(xiǎn)(見圖1)。目前阻礙廣泛可用的BDL方法發(fā)展的主要障礙是其可擴(kuò)展性問題,但本文提出了有前景的研究方向,有望使BDL更適應(yīng)現(xiàn)代深度學(xué)習(xí)的需求。


與頻率學(xué)派方法相比,貝葉斯方法在深度學(xué)習(xí)中具有多項(xiàng)優(yōu)勢(shì)。首先,BDL通過引入相關(guān)的超先驗(yàn)(hyper-priors)減少了超參數(shù)調(diào)優(yōu)的重要性(Lampinen & Vehtari, 2001)。其次,不同于在小數(shù)據(jù)集上訓(xùn)練時(shí)使用的后驗(yàn)正則化技術(shù),BDL允許使用領(lǐng)域知識(shí)作為先驗(yàn)信息(Sam et al., 2024)。第三,在涉及不對(duì)稱誤差代價(jià)的決策制定方面,BDL方法相比頻率學(xué)派方法更具優(yōu)勢(shì)(Tump et al., 2022)。雖然存在一些非貝葉斯方法也在分類問題中推廣“決策校準(zhǔn)”的概念,用于處理此類不對(duì)稱誤差,并適用于決策應(yīng)用場(chǎng)景(Zhao et al., 2021),但BDL的優(yōu)勢(shì)在于它可以提供預(yù)測(cè)的不確定性估計(jì),從而豐富決策過程——例如,在收集到更多數(shù)據(jù)、不確定性降低后再推遲決策。第四,與共形預(yù)測(cè)(conformal prediction)不同,BDL不要求數(shù)據(jù)之間滿足交換性假設(shè),而是可以通過適當(dāng)?shù)臐撛谧兞拷#瑢?shí)現(xiàn)跨時(shí)空維度的數(shù)據(jù)依賴關(guān)系(Tran et al., 2020)。

論文結(jié)構(gòu) :第2節(jié)通過突出BDL的優(yōu)勢(shì)來解釋為何BDL重要。第3節(jié)批判性地反思當(dāng)前BDL方法所面臨的挑戰(zhàn)。第4節(jié)指出了未來研究方向,旨在發(fā)展出可擴(kuò)展的BDL方法,以克服這些挑戰(zhàn),并達(dá)到與現(xiàn)有深度學(xué)習(xí)方案相當(dāng)?shù)挠?jì)算效率。最后,第5節(jié)對(duì)BDL的未來發(fā)展進(jìn)行了總結(jié)性評(píng)論。附錄A是一個(gè)自包含的貝葉斯方法與BDL基礎(chǔ)教程,為本文討論的多種貝葉斯方法提供了背景知識(shí)。


2. 為何貝葉斯深度學(xué)習(xí)重要

BDL(貝葉斯深度學(xué)習(xí))是一種將貝葉斯推理原理與深度學(xué)習(xí)模型相結(jié)合的計(jì)算框架。不同于傳統(tǒng)深度學(xué)習(xí)方法通常提供的參數(shù)點(diǎn)估計(jì),BDL為參數(shù)提供了完整的概率分布,從而可以以原則性的方式處理不確定性。這種內(nèi)在的不確定性量化在現(xiàn)實(shí)場(chǎng)景中尤其有價(jià)值,尤其是在數(shù)據(jù)有限或噪聲較大的情況下。此外,BDL支持先驗(yàn)信息的引入,這體現(xiàn)在先驗(yàn)分布的選擇上。這種對(duì)先驗(yàn)信念的整合作為一種歸納偏置(inductive bias),使模型能夠利用已有知識(shí),并提供一種系統(tǒng)的方式來融合領(lǐng)域?qū)<业慕?jīng)驗(yàn)。基于貝葉斯原理,BDL允許根據(jù)新證據(jù)更新關(guān)于不確定參數(shù)的信念,通過貝葉斯定理(Bayes, 1763)將先驗(yàn)知識(shí)與觀測(cè)數(shù)據(jù)結(jié)合起來。已有若干研究旨在提升對(duì)BDL的理解(Wilson & Izmailov, 2020; Izmailov 等, 2021b;a; Kristiadi 等, 2022; Papamarkou 等, 2022; Kapoor 等, 2022; Khan & Rue, 2023; Papamarkou, 2023; Qiu 等, 2023)。

BDL在多個(gè)關(guān)鍵應(yīng)用領(lǐng)域展現(xiàn)出巨大潛力,包括醫(yī)療健康(Peng 等, 2019;Abdar 等, 2021;Abdullah 等, 2022;Lopez 等, 2023;Band 等, 2021)、單細(xì)胞生物學(xué)(Way & Greene, 2018)、藥物發(fā)現(xiàn)(Gruver 等, 2021;Stanton 等, 2022;Gruver 等, 2023b;Klarner 等, 2023)、農(nóng)業(yè)(Hernandez & López, 2020)、天體物理學(xué)(Soboczenski 等, 2018;Ferreira 等, 2020)、納米技術(shù)(Leitherer 等, 2021)、物理學(xué)(Cranmer 等, 2021)、氣候科學(xué)(Vandal 等, 2018;Luo 等, 2022)、智能電網(wǎng)(Yang 等, 2019)、可穿戴設(shè)備(Manogaran 等, 2019;Zhou 等, 2020)、機(jī)器人(Shi 等, 2021;Mur-Labodia 等, 2023)以及自動(dòng)駕駛(McAllister 等, 2017)。本節(jié)概述了BDL的優(yōu)勢(shì),旨在推動(dòng)其在大規(guī)模人工智能時(shí)代的進(jìn)一步發(fā)展。

2.1 不確定性量化

在BDL中,不確定性量化(UQ)提升了決策過程的可靠性,尤其在模型面對(duì)模糊或分布外輸入時(shí)尤為重要(Tran 等, 2022b)。在這種情況下,模型可以通過相應(yīng)的概率來表明其預(yù)測(cè)缺乏信心,而不是給出表現(xiàn)不佳的點(diǎn)估計(jì)。在AI輔助決策的背景下,預(yù)測(cè)不確定性量化的重要性尤為突出,例如在醫(yī)療健康領(lǐng)域(Band 等, 2021;Lopez 等, 2023)。在涉及安全關(guān)鍵的應(yīng)用中,可靠的不確定性量化可用于更安全地部署模型:當(dāng)AI系統(tǒng)對(duì)其預(yù)測(cè)具有高度不確定性時(shí),可以將決策權(quán)交給人類專家(Tran 等, 2022b;Rudner 等, 2022a;2023)。這一能力對(duì)于應(yīng)對(duì)當(dāng)前語言模型中的挑戰(zhàn)也具有重要意義,其中不確定性量化可用于降低模型過于自信但錯(cuò)誤預(yù)測(cè)所帶來的風(fēng)險(xiǎn)(Kadavath 等, 2022);見圖1示例。類似地,BDL也可以用于應(yīng)對(duì)現(xiàn)代挑戰(zhàn),如大型語言模型中的幻覺問題(Ji 等, 2023)、對(duì)抗攻擊(Andriushchenko, 2023),或文本到圖像模型中的越獄現(xiàn)象(Yang 等, 2023b)。

在包括但不限于化學(xué)和材料科學(xué)等科研領(lǐng)域,由于實(shí)驗(yàn)數(shù)據(jù)采集成本高昂或受限、參數(shù)空間高維且模型本身復(fù)雜度高,BDL在提供穩(wěn)健的不確定性估計(jì)方面表現(xiàn)出色。這一特性對(duì)于指導(dǎo)逆向設(shè)計(jì)問題的決策、通過貝葉斯實(shí)驗(yàn)設(shè)計(jì)、優(yōu)化與模型選擇來優(yōu)化資源利用至關(guān)重要(Stanton 等, 2022;Gruver 等, 2023b;Li 等, 2023;Rainforth 等, 2024;Bamler 等, 2020;Lotfi 等, 2022;Immer 等, 2021a;2023)。

2.2 數(shù)據(jù)效率

BDL(貝葉斯深度學(xué)習(xí))在多種情境下展現(xiàn)出良好的數(shù)據(jù)效率。特別地,已有研究開發(fā)了適用于小樣本學(xué)習(xí)場(chǎng)景的BDL方法(Yoon 等, 2018;Patacchiola 等, 2020),以及適用于數(shù)據(jù)有限下的聯(lián)邦學(xué)習(xí)場(chǎng)景的BDL方法(Zhang 等, 2022b)。

不同于許多需要大量數(shù)據(jù)才能有效泛化的機(jī)器學(xué)習(xí)方法,BDL利用先驗(yàn)知識(shí),并隨著新數(shù)據(jù)的出現(xiàn)不斷更新信念。這使得BDL能夠從小規(guī)模數(shù)據(jù)集中提取有意義的信息,在難以或代價(jià)高昂地收集大量數(shù)據(jù)的情境下表現(xiàn)出更高的效率(Finzi 等, 2021;Immer 等, 2022b;Shwartz-Ziv 等, 2022;Schwobel 等, 2022;van der Ouderaa 等, 2023)。此外,其貝葉斯方法所具有的概率性質(zhì)帶來了正則化效應(yīng),有助于防止過擬合,并從更少的樣本中實(shí)現(xiàn)更好的泛化能力(Rothfuss 等, 2022;Sharma 等, 2023)。BDL的不確定性建模也有助于抵抗異常值的影響,使其非常適合處理噪聲數(shù)據(jù)或分布外數(shù)據(jù)的真實(shí)世界場(chǎng)景。這也使它在基礎(chǔ)模型微調(diào)任務(wù)中具有吸引力,因?yàn)檫@些任務(wù)通常數(shù)據(jù)稀疏且不確定性至關(guān)重要。

此外,BDL的不確定性量化能力可以支持有依據(jù)的數(shù)據(jù)點(diǎn)標(biāo)注選擇。通過結(jié)合先驗(yàn)知識(shí)并在新信息到達(dá)時(shí)持續(xù)更新信念,BDL優(yōu)化了主動(dòng)學(xué)習(xí)的迭代過程,戰(zhàn)略性地選擇最具信息量的樣例進(jìn)行標(biāo)注,從而提升模型性能(Gal 等, 2017)。這一能力在當(dāng)前如何高效選擇上下文學(xué)習(xí)場(chǎng)景中的示例(Margatina 等, 2023)或使用人類反饋進(jìn)行微調(diào)(Casper 等, 2023)等挑戰(zhàn)中尤其具有優(yōu)勢(shì)。

2.3 對(duì)新領(lǐng)域與演化領(lǐng)域的適應(yīng)性

通過動(dòng)態(tài)更新對(duì)先前信念的認(rèn)知以響應(yīng)新的證據(jù),BDL能夠在適應(yīng)新任務(wù)的同時(shí)有選擇地保留舊任務(wù)中的有價(jià)值信息,從而提升跨不同領(lǐng)域和任務(wù)的知識(shí)遷移能力(Rothfuss 等, 2021;2022;Rudner 等, 2024a)。這對(duì)于構(gòu)建能夠適應(yīng)新情境或隨時(shí)間演化的領(lǐng)域的AI系統(tǒng)至關(guān)重要(Nguyen 等, 2018;Rudner 等, 2022b),例如連續(xù)學(xué)習(xí)(continual learning)或終身學(xué)習(xí)(lifelong learning)場(chǎng)景。相比之下,傳統(tǒng)的大型機(jī)器學(xué)習(xí)方法顯得較為靜態(tài),它們假設(shè)數(shù)據(jù)中的潛在模式不會(huì)隨時(shí)間變化,因此在面對(duì)持續(xù)涌入的新數(shù)據(jù)及底層模式的變化時(shí)表現(xiàn)不佳。

2.4 模型誤設(shè)與可解釋性

貝葉斯模型平均(Bayesian Model Averaging, BMA)承認(rèn)并量化模型結(jié)構(gòu)選擇中的不確定性。不同于依賴單一固定模型的方法,BMA考慮的是所有可能模型的概率分布(Hoeting 等, 1998;1999;Wasserman, 2000)。通過引入模型先驗(yàn)并推斷模型后驗(yàn),BDL允許BMA對(duì)網(wǎng)絡(luò)架構(gòu)的不確定性進(jìn)行校準(zhǔn)(Hubin & Storvik, 2019;Skaaret-Lund 等, 2023)。通過對(duì)不同模型可能性的預(yù)測(cè)進(jìn)行加權(quán)平均,BMA減弱了模型誤設(shè)帶來的影響,提供了一個(gè)綜合參數(shù)不確定性與模型結(jié)構(gòu)不確定性的穩(wěn)健框架,最終帶來更可靠且更具解釋性的預(yù)測(cè)結(jié)果(Hubin 等, 2021;Wang 等, 2023a;Bouchiat 等, 2023)。

在BDL中,盡管參數(shù)和結(jié)構(gòu)的可解釋性似乎不那么關(guān)鍵,尤其是在過參數(shù)化的神經(jīng)網(wǎng)絡(luò)被用作未知數(shù)據(jù)生成過程的函數(shù)逼近器的情況下。然而,在那些黑箱預(yù)測(cè)不是主要目標(biāo)的應(yīng)用中,特別是在科學(xué)領(lǐng)域,仍需要開展研究來建立可復(fù)現(xiàn)且可解釋的貝葉斯推理機(jī)制(Rugamer, 2023;Wang 等, 2023a;Dold 等, 2024)。在這方面,以BMA為中心的研究方向在BDL中具有重要價(jià)值。

3. 當(dāng)前挑戰(zhàn)

BDL(貝葉斯深度學(xué)習(xí))面臨的一個(gè)挑戰(zhàn)是其計(jì)算成本較高(Izmailov 等, 2021b)。盡管第2節(jié)中概述了BDL的優(yōu)勢(shì),在貝葉斯方法領(lǐng)域,高斯過程(Gaussian Processes, GPs)在諸如科學(xué)發(fā)現(xiàn)等計(jì)算密集型場(chǎng)景中仍然是首選方法(Tom 等, 2023;Griffiths 等, 2023;Strieth-Kalthoff 等, 2023)。如何證明BDL在實(shí)際應(yīng)用中是低成本的、或至少在現(xiàn)代環(huán)境下具備實(shí)用效率,仍是亟待解決的重要問題之一。本節(jié)旨在探討B(tài)DL的復(fù)雜性,突出兩個(gè)主要挑戰(zhàn):后驗(yàn)推斷(見圖2)與先驗(yàn)設(shè)定。同時(shí)還將探討可擴(kuò)展性為何成為BDL中的一個(gè)核心難題。最后,本節(jié)將討論BDL在基礎(chǔ)模型中的采用所面臨的困難。關(guān)于BDL缺乏收斂性指標(biāo)、性能評(píng)估標(biāo)準(zhǔn)及基準(zhǔn)測(cè)試的問題將在附錄B中進(jìn)行討論。

3.1 拉普拉斯與變分近似

拉普拉斯近似與變分近似利用經(jīng)驗(yàn)損失函數(shù)的幾何或微分信息,構(gòu)建閉式(通常是高斯形式)概率測(cè)度來逼近后驗(yàn)分布。盡管這些方法結(jié)構(gòu)簡(jiǎn)單且歷史悠久(MacKay, 1992),它們?cè)陬A(yù)測(cè)性能上往往具有競(jìng)爭(zhēng)力(Daxberger 等, 2021b;Rudner 等, 2022a;Antoran 等, 2023;Rudner 等, 2023)。更重要的是,由于其具有閉式表達(dá),并能利用自動(dòng)計(jì)算的微分量以及數(shù)值線性代數(shù)的基礎(chǔ)理論,這類方法支持理論分析(Kristiadi 等, 2020)以及解析功能,如校準(zhǔn)(Kristiadi 等, 2021b;a)與邊緣化(Khan 等, 2019;Immer 等, 2021a;b),而這些在隨機(jī)方法中則顯得不夠優(yōu)雅。拉普拉斯近似神經(jīng)網(wǎng)絡(luò)(Ritter 等, 2018)尤其誘人,因?yàn)樗谟?xùn)練過程中不增加額外計(jì)算成本,僅需有限的后處理開銷(相當(dāng)于幾個(gè)訓(xùn)練輪次)即可實(shí)現(xiàn)事后不確定性量化(post-hoc UQ)。此外,近期提出的變分目標(biāo)函數(shù)(Alemi & Poole, 2023)提供了避免內(nèi)部邊緣化的替代預(yù)測(cè)方式。

另一種可擴(kuò)展的近似方法是SWAG(Maddox 等, 2019),它通過修改學(xué)習(xí)率調(diào)度機(jī)制下的隨機(jī)梯度下降(SGD)迭代結(jié)果(Mandt 等, 2017),構(gòu)造出一個(gè)高斯形式的近似后驗(yàn)分布。與拉普拉斯近似類似,它的計(jì)算開銷并不顯著高于標(biāo)準(zhǔn)訓(xùn)練。然而,SWAG是從SGD路徑中估計(jì)曲率,而不是在單個(gè)點(diǎn)上使用海森矩陣(Hessian)。通過從隨機(jī)梯度中生成確定性概率測(cè)度,它彌合了確定性與隨機(jī)方法之間的差距。

盡管這些近似方法在解析方面具有優(yōu)勢(shì),但它們本質(zhì)上仍是局部的,只能捕捉多模態(tài)貝葉斯神經(jīng)網(wǎng)絡(luò)(BNN)后驗(yàn)分布中的單一模式。可以說,它們最根本的問題在于后驗(yàn)依賴于BNN的參數(shù)化方式(MacKay, 1998),因此與概率測(cè)度的一些基本性質(zhì)不一致(Kristiadi 等, 2023)。此外,局部后驗(yàn)幾何可能無法很好地被高斯分布近似,這可能導(dǎo)致從拉普拉斯近似采樣時(shí)出現(xiàn)低估置信度的現(xiàn)象(Lawrence, 2001),該問題可以通過線性化方法緩解(Immer 等, 2021b)。

3.2 集成方法

深度集成方法涉及使用不同初始化重新訓(xùn)練神經(jīng)網(wǎng)絡(luò),并對(duì)最終模型進(jìn)行平均。這種方法在近似后驗(yàn)預(yù)測(cè)分布方面表現(xiàn)良好(Wilson & Izmailov, 2020)。近年來,理論上的進(jìn)展已建立了集成方法與貝葉斯方法之間的明確聯(lián)系(Ciosek 等, 2020;He 等, 2020;Wild 等, 2023)。

在BDL中一個(gè)尚未解決的問題是:是否可以開發(fā)出在性能上超越深度集成方法的可擴(kuò)展貝葉斯推理方法。Izmailov 等(2021b)的研究表明,哈密頓蒙特卡洛(Hamiltonian Monte Carlo, HMC)方法通常優(yōu)于深度集成方法,但其計(jì)算開銷顯著更大。當(dāng)面對(duì)像大型語言模型(LLMs)這樣規(guī)模大且計(jì)算成本高的深度學(xué)習(xí)模型時(shí),使用深度集成方法可能會(huì)遇到顯著挑戰(zhàn),因?yàn)槠溆?xùn)練和執(zhí)行成本高昂。因此,這些大規(guī)模模型可能推動(dòng)研究人員探索更高效的架構(gòu)與推理范式,例如后驗(yàn)蒸餾(posterior distillation)或排斥性集成(repulsive ensembles)(D’Angelo & Fortuin, 2021),以提升不確定性校準(zhǔn)能力并實(shí)現(xiàn)更稀疏的模型使用。

3.3 后驗(yàn)采樣算法

在貝葉斯深度學(xué)習(xí)(BDL)中,馬爾可夫鏈蒙特卡洛(Markov chain Monte Carlo, MCMC;Brooks 等, 2011)方法是一類重要的后驗(yàn)推斷工具。其中,隨機(jī)梯度MCMC(stochastic gradient MCMC, SG-MCMC;Nemeth & Fearnhead, 2021)算法,如隨機(jī)梯度朗之萬動(dòng)力學(xué)(stochastic gradient Langevin dynamics, SG-LD;Welling & Teh, 2011)和隨機(jī)梯度哈密頓蒙特卡洛(stochastic gradient HMC, SG-HMC;Chen 等, 2014),已成為廣泛采用的技術(shù)。

盡管SG-MCMC算法能夠提供更優(yōu)的后驗(yàn)近似效果,但其收斂速度通常慢于隨機(jī)梯度下降(SGD;Robbins, 1951)。這種減緩源于SG-MCMC需要更多迭代次數(shù),以全面探索整個(gè)后驗(yàn)分布,而不僅僅是定位到一個(gè)模式點(diǎn)。

此外,SG-MCMC對(duì)于深度學(xué)習(xí)應(yīng)用而言仍被認(rèn)為計(jì)算成本較高。在這方面的一個(gè)進(jìn)步方向是借鑒機(jī)器學(xué)習(xí)與系統(tǒng)社區(qū)的經(jīng)驗(yàn),利用現(xiàn)代硬件加速蒙特卡洛方法的執(zhí)行效率(Zhang 等, 2022a;Wang 等, 2023b)。例如,Stein變分梯度下降(Stein variational gradient descent, SVGD;Liu & Wang, 2016)位于優(yōu)化與采樣的中間地帶,它通過使用優(yōu)化類型的更新規(guī)則,同時(shí)引入一組相互作用的粒子來實(shí)現(xiàn)采樣。雖然近期研究在貝葉斯神經(jīng)網(wǎng)絡(luò)(BNN)設(shè)置中展示了SVGD的一些有希望的結(jié)果(D’Angelo 等, 2021;D’Angelo & Fortuin, 2021;Pielok 等, 2022),但這些方法在高維問題中往往表現(xiàn)不佳。

另一種改進(jìn)方式是使用循環(huán)步長(zhǎng)調(diào)度策略(cyclical step-size schedules;Zhang 等, 2020b),可以提升收斂速度并增強(qiáng)對(duì)后驗(yàn)空間的探索能力。然而,盡管已有這些進(jìn)展,由于BDL后驗(yàn)分布的高度多模態(tài)性與高維特性,目前仍難以通過采樣方法準(zhǔn)確刻畫完整的后驗(yàn)分布。

因此,亟需開發(fā)出既能匹配SGD的速度(即典型深度學(xué)習(xí)優(yōu)化所使用的速度),又能提供高質(zhì)量后驗(yàn)近似結(jié)果的SG-MCMC算法,以確保其在實(shí)際應(yīng)用中的有效性。

3.4 先驗(yàn)設(shè)定

參數(shù)上的先驗(yàn)會(huì)誘導(dǎo)出函數(shù)空間上的先驗(yàn),而真正影響模型泛化能力的是函數(shù)空間上的先驗(yàn)(Wilson & Izmailov, 2020)。幸運(yùn)的是,神經(jīng)網(wǎng)絡(luò)架構(gòu)本身已經(jīng)賦予了這一函數(shù)先驗(yàn)許多理想屬性。例如,如果使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)架構(gòu),則可以獲得平移等變性(translation equivariance)等特性。

與此同時(shí),在參數(shù)空間上定義先驗(yàn)面臨高維空間復(fù)雜性和不可解釋性的挑戰(zhàn)。因此,一個(gè)目標(biāo)是構(gòu)建信息豐富且恰當(dāng)?shù)南闰?yàn),使得神經(jīng)網(wǎng)絡(luò)權(quán)重的先驗(yàn)在計(jì)算上高效,并傾向于具有理想模型屬性的解(Vladimirova 等, 2019;2021;Fortuin 等, 2022;Rudner 等, 2023),例如:

  • 傾向于具有良好不確定性估計(jì)的模型(Rudner 等, 2024a);

  • 高公平性(Rudner 等, 2024b);

  • 在協(xié)變量偏移下具有良好泛化能力(Klarner 等, 2023);

  • 等變性(Finzi 等, 2021);

  • 或高度稀疏性(Ghosh 等, 2018;Polson & Rocková, 2018;Hubin & Storvik, 2019)。

權(quán)重先驗(yàn)也可以通過低維單位潛變量(low-dimensional unit latent variables)結(jié)合超網(wǎng)絡(luò)(hypernetworks)或高斯過程(GPs)建模為神經(jīng)場(chǎng)(neural fields)(Karaletsos 等, 2018;Karaletsos & Bui, 2020),從而表達(dá)關(guān)于該場(chǎng)的先驗(yàn)知識(shí),避免直接對(duì)權(quán)重進(jìn)行信念參數(shù)化,轉(zhuǎn)而關(guān)注單元的幾何或其他性質(zhì)。

近年來的研究也發(fā)展出了直接在函數(shù)空間而非權(quán)重空間中定義先驗(yàn)的方法(Tran 等, 2022a;Rudner 等, 2022b;Qiu 等, 2023)。函數(shù)空間先驗(yàn)也帶來了一些問題,例如存在定義不當(dāng)?shù)淖兎帜繕?biāo)函數(shù)(Burt 等, 2020;Rudner 等, 2022a),或者在某些情況下需要進(jìn)行計(jì)算代價(jià)高昂的高斯過程近似。

除了高斯過程之外,還有其他方式可以定義函數(shù)空間先驗(yàn)。例如,可以通過自監(jiān)督學(xué)習(xí)(self-supervised learning)來構(gòu)建具有信息量的函數(shù)空間先驗(yàn)(Shwartz-Ziv 等, 2022;Sharma 等, 2023)。

3.5 可擴(kuò)展性

神經(jīng)網(wǎng)絡(luò)(NN)參數(shù)空間中存在對(duì)稱性,這會(huì)導(dǎo)致計(jì)算冗余(Wiese 等, 2023)。在貝葉斯深度學(xué)習(xí)(BDL)背景下解決這些對(duì)稱性所帶來的復(fù)雜性和可識(shí)別性問題,可以顯著影響其可擴(kuò)展性。提出的一些解決方案包括:在BDL推理方法中引入基于對(duì)稱性的約束(Sen 等, 2024),或設(shè)計(jì)具有對(duì)稱意識(shí)的先驗(yàn)分布(Atzeni 等, 2023)。然而,去除對(duì)稱性可能并非最優(yōu)策略,因?yàn)樯疃葘W(xué)習(xí)的成功部分歸因于神經(jīng)網(wǎng)絡(luò)的過參數(shù)化特性,這種特性允許在訓(xùn)練過程中快速探索大量假設(shè),或帶來其他積極的“副作用”,例如誘導(dǎo)稀疏性(Kolb 等, 2023)。

與一種常見的誤解相反——即貝葉斯神經(jīng)網(wǎng)絡(luò)(BNN)在速度和內(nèi)存效率方面天生不如確定性神經(jīng)網(wǎng)絡(luò)——最近的研究挑戰(zhàn)了這一觀點(diǎn)。例如,Ritter 等(2021)的研究表明,BNN在參數(shù)數(shù)量方面可以比其確定性對(duì)應(yīng)模型高出四倍的內(nèi)存效率。此外,像Maddox 等(2019)提出的通過重用標(biāo)準(zhǔn)訓(xùn)練軌跡來構(gòu)建近似后驗(yàn)的方法,僅帶來了微不足道的額外計(jì)算成本。結(jié)合神經(jīng)網(wǎng)絡(luò)與高斯過程(GPs)的混合模型,如深度核學(xué)習(xí)(deep kernel learning, DKL;Wilson 等, 2016),也只比確定性神經(jīng)網(wǎng)絡(luò)略微慢一些或占用更多內(nèi)存。

盡管不確定性量化(UQ)在多個(gè)領(lǐng)域都非常重要,但它不應(yīng)以犧牲預(yù)測(cè)性能為代價(jià)。BDL必須在兩者之間取得平衡,確保UQ的計(jì)算成本與點(diǎn)估計(jì)相當(dāng)。否則,將計(jì)算資源投入到提升深度學(xué)習(xí)模型的預(yù)測(cè)性能上可能是更明智的選擇。有些人可能會(huì)認(rèn)為集成方法由于其高度并行性而較少受到此問題的影響。然而,在連行業(yè)領(lǐng)導(dǎo)者都需要大量圖形處理單元(GPU)資源才能訓(xùn)練一個(gè)大型深度學(xué)習(xí)模型的時(shí)代,單純依賴并行性已顯得不足。同時(shí)實(shí)現(xiàn)時(shí)間效率、內(nèi)存效率以及高模型效用(體現(xiàn)在預(yù)測(cè)性能和不確定性校準(zhǔn)方面)仍是當(dāng)前面臨的重大挑戰(zhàn);這也是近似貝葉斯推理的“圣杯”。

3.6 基礎(chǔ)模型

深度學(xué)習(xí)正處于向“基礎(chǔ)模型”時(shí)代過渡的范式轉(zhuǎn)變之中,這一時(shí)代的特征是模型參數(shù)規(guī)模達(dá)到數(shù)十億級(jí)別而非數(shù)百萬級(jí)別,且主要關(guān)注語言建模而非視覺任務(wù)。貝葉斯深度學(xué)習(xí)(BDL)在大型語言模型(LLMs)中的應(yīng)用,無論是在方法層面還是應(yīng)用場(chǎng)景上,仍相對(duì)未被充分探索。雖然最先進(jìn)的近似推理算法能夠有效處理擁有數(shù)百萬參數(shù)的模型,但僅有少數(shù)研究考慮了LLMs的貝葉斯方法(Xie 等, 2021;Cohen, 2022;Margatina 等, 2022)。特別是,一些面向LLMs的BDL方法已經(jīng)通過貝葉斯低秩適配(Bayesian low-rank adaptation, LoRA;Yang 等, 2024b;Onal 等, 2024)、貝葉斯優(yōu)化(Kristiadi 等, 2024)以及貝葉斯獎(jiǎng)勵(lì)建模(Bayesian reward modeling;Yang 等, 2024a)等方式得以發(fā)展。

正如第2節(jié)所述,BDL成為應(yīng)對(duì)基礎(chǔ)模型局限性的解決方案,特別是在數(shù)據(jù)有限的情況下尤為重要。在涉及個(gè)性化數(shù)據(jù)(Moor 等, 2023)或因果推斷應(yīng)用(Zhang 等, 2023)的場(chǎng)景中,例如個(gè)體處理效應(yīng)估計(jì)(individual treatment effect estimation),當(dāng)數(shù)據(jù)集較小時(shí),BDL在不確定性估計(jì)方面的能力顯得尤為契合。基礎(chǔ)模型在小樣本場(chǎng)景下的微調(diào)設(shè)置是另一個(gè)例子。雖然基礎(chǔ)模型本身具備小樣本學(xué)習(xí)能力(Brown 等, 2020),但BDL提供了可解釋的不確定性量化,這在數(shù)據(jù)受限的環(huán)境下尤為重要。此外,BDL還支持在不確定性條件下的預(yù)測(cè)不確定性估計(jì)與穩(wěn)健決策。

基礎(chǔ)模型代表了BDL研究的一個(gè)寶貴前沿領(lǐng)域,尤其是在評(píng)估與應(yīng)用方面。哪些LLM或Transformer的應(yīng)用可以從貝葉斯推理工具(如邊緣化和先驗(yàn)設(shè)定)中受益?更廣泛地說,我們需要更有意義的實(shí)際應(yīng)用,以令人信服地展示BDL原則不僅限于概念驗(yàn)證。表征認(rèn)知不確定性的價(jià)值可能最為突出的是:當(dāng)LLM或其他大規(guī)模神經(jīng)網(wǎng)絡(luò)部署在其訓(xùn)練數(shù)據(jù)之外的場(chǎng)景中時(shí)。例如,可以在使用LLM進(jìn)行下游預(yù)測(cè)任務(wù)的時(shí)間序列背景中開發(fā)和測(cè)試貝葉斯方法(Gruver 等, 2023a)。


4. 提出的未來研究方向

本節(jié)基于第3節(jié)所描述的挑戰(zhàn),介紹了當(dāng)前致力于解決這些問題的研究進(jìn)展,尤其是聚焦于可擴(kuò)展性方面的改進(jìn)。4.7 貝葉斯深度學(xué)習(xí)中的新興方法 本小節(jié)介紹了一些更為前沿或尚未廣泛研究的貝葉斯深度學(xué)習(xí)研究方法。有關(guān)BDL的若干專題發(fā)展將在附錄D中進(jìn)行討論。

4.1 后驗(yàn)采樣算法

我們需要開發(fā)新型的后驗(yàn)采樣算法,使其在深度神經(jīng)網(wǎng)絡(luò)(DNNs)上表現(xiàn)更佳。這些算法應(yīng)旨在提升效率、降低計(jì)算開銷,并能夠更有效地探索高維參數(shù)空間。

使用帶有溫度調(diào)節(jié)后驗(yàn)(tempered posteriors)的SG-MCMC可能有助于克服從多個(gè)模式中采樣的問題。這可以通過借鑒最優(yōu)傳輸理論(optimal transport theory;Villani, 2021)、基于分?jǐn)?shù)的擴(kuò)散模型(score-based diffusion models;Song 等, 2020),以及常微分方程(ODE)方法如流匹配(flow matching;Lipman 等, 2022)等思路來實(shí)現(xiàn)。這些方法利用神經(jīng)網(wǎng)絡(luò)將一個(gè)簡(jiǎn)單分布(通常是高斯分布)映射到復(fù)雜的數(shù)據(jù)分布(例如圖像分布)。因此,我們有可能使用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)貝葉斯深度學(xué)習(xí)后驗(yàn)與高斯分布之間的映射關(guān)系,或者將其用于MCMC提議機(jī)制中。

總體而言,除了關(guān)注后驗(yàn)的局部信息之外,還需要開發(fā)能夠快速穿越孤立模式的SG-MCMC算法,例如通過歸一化流(normalizing flows)。由于我們可能無法對(duì)所有BNN參數(shù)的高維后驗(yàn)進(jìn)行準(zhǔn)確近似,新的性能指標(biāo)可以聚焦于低維感興趣的函數(shù)量,其中不確定性量化(UQ)是關(guān)鍵組成部分。

一種方法是引入適當(dāng)?shù)募s束以實(shí)現(xiàn)可識(shí)別性,例如對(duì)潛在BNN結(jié)構(gòu)進(jìn)行推斷(Gu & Dunson, 2023)。另一種方法則是專注于典型神經(jīng)網(wǎng)絡(luò)類別的可識(shí)別函數(shù)量,并針對(duì)這些函數(shù)量設(shè)計(jì)后驗(yàn)近似算法。此外,還可以考慮解耦方法(decoupling approaches),即先使用BNN作為黑箱擬合數(shù)據(jù)生成模型,然后在第二階段選擇合適的損失函數(shù)進(jìn)行推理。

另一個(gè)有前景的方向是在參數(shù)空間的子空間中運(yùn)行SG-MCMC算法,例如線性或稀疏子空間(Izmailov 等, 2020;Li 等, 2024),從而進(jìn)一步支持對(duì)目標(biāo)子網(wǎng)絡(luò)進(jìn)行不確定性陳述的構(gòu)建(Dold 等, 2024)。未來,也可以構(gòu)建在QLoRA(Dettmers 等, 2023)或非線性子空間上的SG-MCMC方法。除了將子空間視為確定性的,還可以系統(tǒng)地打破子空間之間的后驗(yàn)依賴,從而形成結(jié)合結(jié)構(gòu)化變分推理與MCMC的新混合采樣器(Alexos 等, 2022),以實(shí)現(xiàn)計(jì)算與精度之間的權(quán)衡。BDL中的子采樣方法也可以與遷移學(xué)習(xí)推理相結(jié)合(Kirichenko 等, 2023)。

4.2 混合貝葉斯方法

未來的實(shí)用BDL方法可能僅對(duì)模型的一部分進(jìn)行不確定性建模,而其他部分則可以使用點(diǎn)估計(jì)高效地求解。因此,我們可以考慮將貝葉斯方法與確定性深度學(xué)習(xí)的效率結(jié)合起來的混合方法。

這種方法可能包括:在模型中不確定性建模更有價(jià)值且成本更低的關(guān)鍵區(qū)域選擇性地應(yīng)用貝葉斯方法,而在其他部分保持確定性方法(Daxberger 等, 2021b)。最后一層拉普拉斯近似就是這樣一個(gè)例子(Daxberger 等, 2021a)。這類混合方法是未來研究的一個(gè)有希望的方向。

傳統(tǒng)上,深度學(xué)習(xí)方法與高斯過程(GPs)的結(jié)合受到GPs可擴(kuò)展性的限制。然而,近年來在擴(kuò)展GP推理方面的進(jìn)展為這些混合模型的廣泛應(yīng)用帶來了希望。DKL(Wilson 等, 2016)就是這類混合模型的一個(gè)例子。隨著GP可擴(kuò)展性技術(shù)的進(jìn)步,DKL的可擴(kuò)展邊界也有可能被進(jìn)一步突破。

關(guān)于連接BDL與深度高斯過程(DGPs;Wilson 等, 2012;Damianou & Lawrence, 2013;Agrawal 等, 2020)的研究文獻(xiàn)豐富。這一研究方向涉及神經(jīng)網(wǎng)絡(luò)高斯過程(Neal, 1996;de G. Matthews 等, 2018),即當(dāng)神經(jīng)網(wǎng)絡(luò)寬度趨于無窮時(shí)所對(duì)應(yīng)的高斯過程。神經(jīng)網(wǎng)絡(luò)與高斯過程之間的聯(lián)系也可能為BDL帶來理論上的新見解。

4.3 深度核過程與機(jī)器

深度核過程(Deep Kernel Processes, DKPs)構(gòu)成了一類面向BDL的深度非參數(shù)方法(Aitchison 等, 2021;Ober & Aitchison, 2021a;Ober 等, 2023)。DKP是一種深度高斯過程(DGP),其特點(diǎn)是將核函數(shù)而非特征向量視為隨機(jī)變量。它可以對(duì)核函數(shù)進(jìn)行先驗(yàn)設(shè)定并執(zhí)行推理,而無需依賴DGP的特征表示或BNN的權(quán)重(Aitchison 等, 2021)。因此,DKP避免了BDL中由參數(shù)排列對(duì)稱性引起的高度多模態(tài)后驗(yàn)分布問題。

使用簡(jiǎn)化的參數(shù)族(例如拉普拉斯近似或變分推理中使用的族)對(duì)這種多模態(tài)后驗(yàn)進(jìn)行準(zhǔn)確近似是非常困難的。相比之下,DKP的后驗(yàn)在實(shí)踐中往往呈現(xiàn)出單峰特性(Yang 等, 2023a)。DKP是核逆威沙特過程(kernel inverse Wishart processes;Shah 等, 2014)的一種推廣,但引入了核函數(shù)的非線性變換,這對(duì)于表征學(xué)習(xí)非常有用。

深度核機(jī)器(Deep Kernel Machines, DKMs;Milsom 等, 2023;Yang 等, 2023a)更進(jìn)一步,通過對(duì)深度核過程(DKP)取無限寬度極限來構(gòu)建模型。通常情況下,這種無限寬度的極限會(huì)消除表征學(xué)習(xí)的能力。然而,DKMs通過精心調(diào)整似然函數(shù),保留了表征學(xué)習(xí)的能力,從而實(shí)現(xiàn)了最先進(jìn)的預(yù)測(cè)性能(Milsom 等, 2023),同時(shí)其理論意義對(duì)貝葉斯深度學(xué)習(xí)(BDL)具有深遠(yuǎn)影響。

DKMs為“函數(shù)空間中的推理”真正意味著什么,以及它如何與表征學(xué)習(xí)相關(guān)聯(lián),提供了關(guān)鍵洞見。具體而言,DKM中每一層所學(xué)到的核函數(shù)定義了該層的“函數(shù)空間”。事實(shí)上,在DKM中,特征上的真實(shí)后驗(yàn)分布是一個(gè)多元高斯分布,其協(xié)方差由所學(xué)到的核函數(shù)給出(Aitchison 等, 2021)。隨著訓(xùn)練過程對(duì)每一層的函數(shù)空間進(jìn)行調(diào)節(jié),使其聚焦于對(duì)預(yù)測(cè)性能至關(guān)重要的特征,表征學(xué)習(xí)便得以實(shí)現(xiàn)。

4.4 半監(jiān)督與自監(jiān)督學(xué)習(xí)

從貝葉斯視角來看,現(xiàn)代深度學(xué)習(xí)中一個(gè)令人意外的現(xiàn)象是半監(jiān)督學(xué)習(xí)的成功。在半監(jiān)督學(xué)習(xí)中,其目標(biāo)函數(shù)看似任意(或至少不明顯對(duì)應(yīng)于某個(gè)已知模型中的似然函數(shù))。此外,在貝葉斯推理中還存在諸如“冷后驗(yàn)效應(yīng)”(cold posterior effect;Aitchison, 2021;Wenzel 等, 2020)等現(xiàn)象,即通過將后驗(yàn)分布提升到高于1的冪次(從而收縮后驗(yàn)),BDL似乎可以獲得更具競(jìng)爭(zhēng)力的預(yù)測(cè)性能。

特別是,半監(jiān)督學(xué)習(xí)所利用的模式來源于數(shù)據(jù)篩選(data curation;Ganev & Aitchison, 2023)。如果在未經(jīng)篩選的數(shù)據(jù)上執(zhí)行半監(jiān)督學(xué)習(xí),則任何性能提升都會(huì)消失。這讓人對(duì)半監(jiān)督學(xué)習(xí)在現(xiàn)實(shí)世界未篩選數(shù)據(jù)集上的適用性產(chǎn)生懷疑。冷后驗(yàn)效應(yīng)的結(jié)果也可以通過認(rèn)知不確定性(aleatoric uncertainty)表示不足來解釋(Kapoor 等, 2022)。

自監(jiān)督學(xué)習(xí)是半監(jiān)督學(xué)習(xí)的一種替代方法。自監(jiān)督學(xué)習(xí)的目標(biāo)通常包括:最大化同一圖像兩種增強(qiáng)形式下潛在表示之間的互信息。從貝葉斯視角來看,這些目標(biāo)看起來有些隨意,因?yàn)樗鼈儾⒉粚?duì)應(yīng)任何明確的似然函數(shù)。然而,可以將這些目標(biāo)形式化為一種具有識(shí)別參數(shù)化的模型(recognition-parameterized model;Aitchison & Ganev, 2023),從而提供對(duì)自監(jiān)督學(xué)習(xí)機(jī)制的理解,并指導(dǎo)如何將其推廣到新場(chǎng)景中,例如將其視為一種學(xué)習(xí)貝葉斯先驗(yàn)的方法(Shwartz-Ziv 等, 2022;Sharma 等, 2023)。

4.5 混合精度與張量計(jì)算

深度學(xué)習(xí)的成功與其與現(xiàn)代計(jì)算技術(shù)及專用硬件(如GPU)的緊密結(jié)合密切相關(guān)。最近關(guān)于混合精度在深度學(xué)習(xí)中影響的研究指出,貝葉斯方法——尤其是概率數(shù)值方法(probabilistic numerics;Oates & Sullivan, 2019)——在更高效地利用計(jì)算資源方面可能發(fā)揮關(guān)鍵作用。

混合精度會(huì)在模型內(nèi)部計(jì)算中引入不確定性,而貝葉斯能夠有效地將這種不確定性傳播到下游預(yù)測(cè)中。此外,混合精度需要決定使用哪種精度,而貝葉斯方法可以確保這些決策是最優(yōu)的,并且能考慮到不同數(shù)值任務(wù)之間的關(guān)聯(lián)性。

受專用硬件(如張量處理單元)的啟發(fā),BDL也可能沿著類似路徑發(fā)展,以應(yīng)對(duì)可擴(kuò)展性問題(Mansinghka, 2009)。這表明,為BDL開發(fā)專用硬件有可能引發(fā)對(duì)推理策略的重新評(píng)估。

與此同時(shí),加速軟件開發(fā)對(duì)于鼓勵(lì)深度學(xué)習(xí)從業(yè)者采用貝葉斯方法至關(guān)重要。目前迫切需要用戶友好的軟件工具,以促進(jìn)BDL在各類項(xiàng)目中的集成。目標(biāo)是使BDL在人力投入方面具備與標(biāo)準(zhǔn)深度學(xué)習(xí)實(shí)踐相當(dāng)?shù)母?jìng)爭(zhēng)力。有關(guān)BDL軟件開發(fā)的努力詳情,請(qǐng)參見附錄C。

4.6 壓縮策略

為了降低BDL模型的計(jì)算成本(包括內(nèi)存效率和計(jì)算速度),研究人員正在探索各種壓縮策略。其中一種方法是使用誘導(dǎo)稀疏性的先驗(yàn)來剪枝BNN的大部分結(jié)構(gòu)(Louizos 等, 2017)。另一種方法是將先驗(yàn)作為熵模型,用于壓縮BNN權(quán)重(Yang 等, 2023c)。

相對(duì)熵編碼與變分貝葉斯量化等方法,通過動(dòng)態(tài)細(xì)化量化網(wǎng)格,實(shí)現(xiàn)了高效的BNN壓縮(Yang 等, 2020)。這些新工具還可用于在測(cè)試階段動(dòng)態(tài)解碼貝葉斯集成,實(shí)現(xiàn)不同精度等級(jí)或集成規(guī)模下的預(yù)測(cè),從而在精度與計(jì)算之間進(jìn)行權(quán)衡。

此外,在壓縮神經(jīng)網(wǎng)絡(luò)權(quán)重的背景下,一種可行的方法是基于觀測(cè)數(shù)據(jù)獲得后驗(yàn)分布,并將一個(gè)樣本編碼為比特序列發(fā)送給接收方(Havasi 等, 2019)。接收方隨后可以提取該后驗(yàn)樣本,并使用對(duì)應(yīng)的權(quán)重進(jìn)行預(yù)測(cè)。在實(shí)際應(yīng)用中,需要通過近似方法獲取后驗(yàn)、編碼樣本并使用對(duì)應(yīng)權(quán)重進(jìn)行預(yù)測(cè)。盡管這一過程中需要用到近似,但與專注于確定性權(quán)重壓縮的方法相比,該方法在壓縮成本與預(yù)測(cè)質(zhì)量之間取得了令人滿意的平衡。

4.7 其他未來研究方向 貝葉斯遷移學(xué)習(xí)與持續(xù)學(xué)習(xí)

遷移學(xué)習(xí)范式正迅速成為部署深度學(xué)習(xí)模型的標(biāo)準(zhǔn)方式。如第2.3節(jié)所述,BDL(貝葉斯深度學(xué)習(xí))天然適合用于遷移學(xué)習(xí)。其重點(diǎn)不僅在于像傳統(tǒng)深度學(xué)習(xí)那樣傳遞一個(gè)初始化參數(shù);而是可以通過源任務(wù)的知識(shí)來指導(dǎo)下游任務(wù)中最優(yōu)解的形狀和位置(Shwartz-Ziv 等, 2022;Rudner 等, 2022b;2023)。自監(jiān)督學(xué)習(xí)也可用于構(gòu)建具有信息量的先驗(yàn),以支持遷移學(xué)習(xí)(Shwartz-Ziv 等, 2022;Sharma 等, 2023)。

利用其在時(shí)間變化數(shù)據(jù)分布下通過后驗(yàn)更新進(jìn)行高效學(xué)習(xí)的能力,當(dāng)前持續(xù)學(xué)習(xí)的研究探索了整合新信息的方法:一種假設(shè)變化率是連續(xù)的(Nguyen 等, 2018;Chang 等, 2022),另一種則引入用于變化點(diǎn)檢測(cè)的先驗(yàn)(Li 等, 2021)。

概率數(shù)值方法

概率數(shù)值方法(probabilistic numerics;Hennig 等, 2022)將數(shù)值算法視為貝葉斯決策者進(jìn)行研究。由于優(yōu)化和線性代數(shù)等數(shù)值方法顯然是深度學(xué)習(xí)的核心,因此概率數(shù)值方法為增強(qiáng)深度學(xué)習(xí)能力并使其更具貝葉斯特性提供了有趣的前景。例如,目前大型模型的訓(xùn)練常常受限于I/O性能,因此在訓(xùn)練與不確定性量化過程中,對(duì)數(shù)據(jù)加載的主動(dòng)管理變得越來越重要。基于單個(gè)計(jì)算對(duì)BDL后驗(yàn)的影響,對(duì)其所提供的信息進(jìn)行量化與控制的方法正在成為一種有潛力的形式化框架,用于深度訓(xùn)練中的算法數(shù)據(jù)處理(Tatzel 等, 2023),并通過概率數(shù)值線性代數(shù)(Wenger 等, 2022)選擇稀疏但信息豐富的“數(shù)據(jù)視角”。

奇異學(xué)習(xí)理論

奇異學(xué)習(xí)理論(singular learning theory, SLT;Watanabe, 2009)研究貝葉斯損失(如邊緣對(duì)數(shù)似然的近似)與神經(jīng)網(wǎng)絡(luò)損失函數(shù)之間的關(guān)系,其理論基礎(chǔ)來自非平衡統(tǒng)計(jì)力學(xué)。最近的研究已經(jīng)建立了貝葉斯方法與SLT之間的聯(lián)系(Wei & Lau, 2023)。

共形預(yù)測(cè)

在不確定性量化方面,共形預(yù)測(cè)(conformal prediction)作為貝葉斯方法的一種替代方案逐漸興起,并能生成良好校準(zhǔn)的不確定性估計(jì)(Vovk 等, 2005)。深度學(xué)習(xí)模型可用于開發(fā)共形預(yù)測(cè)算法(Meister 等, 2023),反之亦然,共形預(yù)測(cè)方法也可用于量化或校準(zhǔn)深度學(xué)習(xí)模型的不確定性。已有初步研究嘗試將貝葉斯方法引入共形預(yù)測(cè)(Hobbhahn 等, 2022;Murphy, 2023),展現(xiàn)出結(jié)合貝葉斯推理優(yōu)勢(shì)與共形預(yù)測(cè)良好校準(zhǔn)不確定性的協(xié)同潛力。

大型語言模型作為分布對(duì)象

大型語言模型(LLMs)可以靈活地作為任意復(fù)雜程序和工作流中的分布對(duì)象使用。若采取貝葉斯視角,則會(huì)引發(fā)多個(gè)值得探索的問題:當(dāng)多個(gè)LLMs相互作用時(shí),如何執(zhí)行聯(lián)合推理?是否存在有效的方法對(duì)LLMs生成的潛在變量進(jìn)行邊緣化,從而實(shí)現(xiàn)跨這些潛在空間的聯(lián)合學(xué)習(xí)?是否可以采用計(jì)算統(tǒng)計(jì)學(xué)或近似推理工具,對(duì)LLMs進(jìn)行各種形式的推理?是否存在創(chuàng)新方式將小型與大型LLMs協(xié)同使用,以實(shí)現(xiàn)即時(shí)推理的攤銷?

元模型

設(shè)想BDL是否會(huì)重演語言模型的發(fā)展路徑,是一個(gè)引人深思的方向。是否可以在BDL框架下設(shè)想一個(gè)貝葉斯元模型(Bayesian meta-model;Krueger 等, 2017)的發(fā)展?這種元模型類似于語言模型,可針對(duì)多種任務(wù)進(jìn)行微調(diào),在各項(xiàng)任務(wù)上表現(xiàn)出具有競(jìng)爭(zhēng)力的預(yù)測(cè)性能,從而推廣攤銷推理(amortized inference)中的方法(Garnelo 等, 2018;Gordon 等, 2019;Müller 等, 2021)。

序貫決策基準(zhǔn)測(cè)試

標(biāo)準(zhǔn)的圖像分類基準(zhǔn)主要關(guān)注最先進(jìn)的預(yù)測(cè)性能,而在此類任務(wù)中,非貝葉斯深度學(xué)習(xí)通常優(yōu)于BDL。為了更有效地評(píng)估預(yù)測(cè)不確定性,建議將注意力轉(zhuǎn)向更深入的模擬研究或聚焦于序貫學(xué)習(xí)與決策問題的科學(xué)應(yīng)用,例如實(shí)驗(yàn)設(shè)計(jì)、貝葉斯優(yōu)化、主動(dòng)學(xué)習(xí)或上下文賭博機(jī)(bandits)。通過優(yōu)先考慮此類場(chǎng)景中的序貫問題,研究人員和實(shí)踐者可以獲得關(guān)于模型在面對(duì)新數(shù)據(jù)時(shí)泛化能力、在不確定條件下穩(wěn)健性,以及其不確定性估計(jì)被實(shí)際決策者利用效果等方面的深入洞察。

5. 最終總結(jié)

本文表明,現(xiàn)代深度學(xué)習(xí)在面對(duì)多種類型的數(shù)據(jù)、任務(wù)和性能指標(biāo)時(shí),存在一系列持續(xù)存在的倫理、隱私和安全問題。然而,這些問題中的許多都可以在貝葉斯深度學(xué)習(xí)(BDL)框架下得到解決,該框架建立在歷經(jīng)兩個(gè)半世紀(jì)科學(xué)與機(jī)器學(xué)習(xí)發(fā)展所驗(yàn)證的基礎(chǔ)原理之上。盡管仍存在若干技術(shù)挑戰(zhàn),但已經(jīng)展現(xiàn)出一條清晰的發(fā)展路徑:通過結(jié)合創(chuàng)造性與實(shí)用性,開發(fā)出能夠匹配二十一世紀(jì)數(shù)據(jù)、硬件與數(shù)值計(jì)算進(jìn)步的BDL方法,尤其是在大規(guī)模基礎(chǔ)模型的背景下。

在一個(gè)深度學(xué)習(xí)模型無縫融入決策系統(tǒng)的未來,BDL將成為構(gòu)建更加成熟、可靠的人工智能系統(tǒng)的關(guān)鍵基石。









一個(gè)優(yōu)化目標(biāo)函數(shù)(11)的模型被稱為 DKM (深度核機(jī)器),而該目標(biāo)函數(shù)(11)也被稱為 DKM 目標(biāo)函數(shù) 。在極限情況下,DKM 目標(biāo)函數(shù)不依賴于中間特征 Fj,這意味著 DKM 中學(xué)到的表示完全由確定性的 Gram 矩陣 G1,…,Gη 所描述。為了理解 DKM 目標(biāo)函數(shù)的意義,可以注意到其中的似然項(xiàng)鼓勵(lì)數(shù)據(jù)擬合,而 KL 散度項(xiàng)則將模型正則化為趨向 NNGP(Lee 等, 2017;Agrawal 等, 2020)。DKM 中表征學(xué)習(xí)的程度可以通過調(diào)節(jié)參數(shù) ρj來控制。相比之下,NNGP 目標(biāo)函數(shù)(10)中缺乏似然項(xiàng),因此在 NNGP 中無法進(jìn)行表征學(xué)習(xí);其中間 Gram 矩陣是固定的,并且僅依賴于輸入數(shù)據(jù)。

與 DKP 目標(biāo)函數(shù)類似,DKM 目標(biāo)函數(shù)在大規(guī)模數(shù)據(jù)集上優(yōu)化起來計(jì)算上不可行,其復(fù)雜度隨數(shù)據(jù)點(diǎn)數(shù)量呈立方級(jí)增長(zhǎng)。然而,Yang 等(2023a)表明,如果使用全局誘導(dǎo)點(diǎn)方法(global inducing point methods),DKM 目標(biāo)函數(shù)可以在時(shí)間上實(shí)現(xiàn)線性擴(kuò)展。DKMs 已被擴(kuò)展到卷積架構(gòu),在 CIFAR-10 上的表現(xiàn)幾乎與神經(jīng)網(wǎng)絡(luò)相當(dāng)(Milsom 等, 2023)。


B. 診斷、指標(biāo)與基準(zhǔn)測(cè)試

目前,針對(duì)貝葉斯深度學(xué)習(xí)(BDL)需求的收斂性和性能評(píng)估指標(biāo)仍存在不足。開發(fā)這類工具不僅有助于明確 BDL 的目標(biāo),也有助于評(píng)估這些目標(biāo)的實(shí)現(xiàn)進(jìn)展。此外,BDL 社區(qū)在評(píng)估指標(biāo)、數(shù)據(jù)集和基準(zhǔn)測(cè)試的選擇上尚無共識(shí),這反映出在一個(gè)傳統(tǒng)上以頻率學(xué)派視角看待的領(lǐng)域中,難以清晰定義 BDL 的目標(biāo),尤其是在測(cè)試數(shù)據(jù)性能方面。許多通用的貝葉斯診斷與評(píng)估方法都是通過貝葉斯工作流(Bayesian workflow;Gelman 等, 2020)提出的。本附錄討論了對(duì) BDL 最相關(guān)的幾種方法。

參數(shù)空間中的收斂診斷

對(duì)于 SG-MCMC 采樣,收斂性和采樣效率的分析(Gelman 等, 2013;Vehtari 等, 2021)是一個(gè)復(fù)雜問題,目前通常通過預(yù)測(cè)分布的匯總統(tǒng)計(jì)量進(jìn)行較為簡(jiǎn)化的分析來繞過這一難題。更一般地,在高維且多模態(tài)的 BDL 模型設(shè)置下驗(yàn)證推理算法的收斂性并不直觀。針對(duì) BNN 的收斂檢查方法仍有待進(jìn)一步研究。

預(yù)測(cè)空間中的性能指標(biāo)

BDL 和 GP 文獻(xiàn)通常關(guān)注預(yù)測(cè)分布的均值,而忽略了對(duì)其方差的分析。一些常用的性能指標(biāo)用于評(píng)估方差水平,例如通過評(píng)估測(cè)試數(shù)據(jù)的對(duì)數(shù)似然或預(yù)測(cè)熵(Rudner 等, 2022a;2023)。然而,目前尚未有一種系統(tǒng)的方法來刻畫 BDL 推理中的預(yù)測(cè)不確定性(除了二分類問題中廣泛使用的 AUROC 和 AUPRC)。設(shè)定用于評(píng)估認(rèn)知不確定性和偶然不確定性(epistemic 與 aleatoric uncertainty)的指標(biāo)體系仍是阻礙 BDL 發(fā)展的一個(gè)挑戰(zhàn),可能需要建立廣泛接受的 BDL 方法基準(zhǔn)測(cè)試來解決這一問題。

模型誤設(shè)設(shè)置下的性能指標(biāo)

應(yīng)對(duì)分布偏移(distribution shift)與測(cè)試數(shù)據(jù)性能相關(guān)挑戰(zhàn),需要發(fā)展穩(wěn)健的性能指標(biāo)。為了在分布偏移條件下建立 BDL 模型的可靠性,獲得模型性能的概率性保證至關(guān)重要,這就需要更強(qiáng)的泛化界(generalization bounds),例如 PAC-Bayes 框架所提供的邊界(Langford & Shawe-Taylor, 2002;Parrado-Hernandez 等, 2012)。此外,在模型誤設(shè)的情況下,校準(zhǔn)(calibration)的評(píng)估變得尤為關(guān)鍵。創(chuàng)新性技術(shù)如兩階段校準(zhǔn)(two-stage calibration;Guo 等, 2017)、共形預(yù)測(cè)(conformal prediction;Papadopoulos 等, 2007)或其貝葉斯變體(Hobbhahn 等, 2022)分別通過改進(jìn)預(yù)測(cè)概率和量化預(yù)測(cè)不確定性提供了實(shí)用解決方案。這些方法共同促成了在底層假設(shè)可能與真實(shí)數(shù)據(jù)分布不符的情境下,對(duì)模型性能更全面的評(píng)估。

數(shù)據(jù)集的概率處理方式

將數(shù)據(jù)集視為可推理的一等公民(first-class citizen)并對(duì)其進(jìn)行概率建模的方式似乎具有前景。這種概率方法有助于創(chuàng)建更具針對(duì)性和實(shí)用性的數(shù)據(jù)集,從而更好地代表海量數(shù)據(jù)源中所包含的知識(shí),提升訓(xùn)練和維護(hù)大型模型的能力。


C. 軟件可用性

將貝葉斯深度學(xué)習(xí)(BDL)方法應(yīng)用于實(shí)際問題,目前仍比使用現(xiàn)成的標(biāo)準(zhǔn)深度學(xué)習(xí)方案更為復(fù)雜,這限制了BDL在現(xiàn)實(shí)世界中的采納。軟件開發(fā)是鼓勵(lì)深度學(xué)習(xí)從業(yè)者采用貝葉斯方法的關(guān)鍵因素。更廣泛地說,我們需要一些軟件工具,使得實(shí)踐者能夠更輕松地在其項(xiàng)目中嘗試BDL。BDL的使用必須在人力投入方面具備與標(biāo)準(zhǔn)深度學(xué)習(xí)相當(dāng)?shù)母?jìng)爭(zhēng)力。

已有若干努力致力于在深度學(xué)習(xí)框架之上開發(fā)軟件包、庫或概率編程語言(PPLs)。例如:bayesianize(Ritter 等, 2021)、bnn priors(Fortuin 等, 2021)、Laplace(Daxberger 等, 2021a)、Pyro(Bingham 等, 2019)和 TyXe(Ritter & Karaletsos, 2022)是在 PyTorch 上構(gòu)建的軟件;TensorFlow Probability 是基于 TensorFlow 構(gòu)建的庫;而 Fortuna(Detommaso 等, 2023)則是基于 JAX 構(gòu)建的庫。來自概率編程社區(qū)的進(jìn)一步貢獻(xiàn)將有助于推動(dòng)這一領(lǐng)域的發(fā)展。

概率編程語言(如 Pyro)在簡(jiǎn)化將概率推理應(yīng)用于深度學(xué)習(xí)方面發(fā)揮著重要作用。事實(shí)上,在 PPL 中對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行概率處理的抽象機(jī)制——如 BDL 庫 TyXe 所實(shí)現(xiàn)的方式——可以簡(jiǎn)化先驗(yàn)和推理技術(shù)在任意神經(jīng)網(wǎng)絡(luò)上的應(yīng)用,這一點(diǎn)已在 TyXe 實(shí)現(xiàn)的多種模型中得到驗(yàn)證。將這些思想擴(kuò)展到涉及大型語言模型(LLMs)以及更定制化的概率結(jié)構(gòu)等現(xiàn)代問題設(shè)置中,將有助于 BDL 在現(xiàn)實(shí)問題中的落地應(yīng)用。

當(dāng)代深度學(xué)習(xí)在各個(gè)維度上都在挑戰(zhàn)規(guī)模極限:包括數(shù)據(jù)集大小、參數(shù)空間和結(jié)構(gòu)化函數(shù)輸出。對(duì)于點(diǎn)估計(jì)任務(wù),社區(qū)已經(jīng)開發(fā)出以數(shù)組為中心的編程范式,支持分片、部分評(píng)估、柯里化等操作。BDL 應(yīng)該能夠借鑒這些思路,發(fā)展出相應(yīng)的軟件系統(tǒng)。


D. 專題發(fā)展

本附錄介紹了一些具有未來潛力的 BDL 專題或?qū)I(yè)化發(fā)展方向,包括面向人機(jī)交互的 BDL、終身學(xué)習(xí)與去中心化學(xué)習(xí)、貝葉斯強(qiáng)化學(xué)習(xí)(RL),以及面向特定領(lǐng)域的 BDL 模型。

人機(jī)交互與可解釋 AI

使 AI 系統(tǒng)能夠溝通并解釋其不確定性,有助于建立信任,并改善 AI 系統(tǒng)與人類之間的互動(dòng)。盡管社區(qū)已做出努力來解釋 DNN 的預(yù)測(cè)結(jié)果,但最近的研究正試圖解釋 BDL 方法的不確定性(Antoran 等, 2021;Bhatt 等, 2021)。理解哪些輸入模式導(dǎo)致了高預(yù)測(cè)不確定性,有助于增強(qiáng)人們對(duì) AI 系統(tǒng)的信任,并揭示訓(xùn)練數(shù)據(jù)稀疏的輸入?yún)^(qū)域。例如,在訓(xùn)練貸款違約預(yù)測(cè)器時(shí),數(shù)據(jù)科學(xué)家可以識(shí)別訓(xùn)練數(shù)據(jù)中代表性不足的人群子群體(按年齡、性別或種族劃分)。從這些群體收集更多數(shù)據(jù),可以為更廣泛的客戶提供更準(zhǔn)確的預(yù)測(cè)。

終身學(xué)習(xí)與去中心化學(xué)習(xí)

當(dāng)前的一個(gè)研究方向是超越傳統(tǒng)的“靜態(tài)”訓(xùn)練-測(cè)試框架,轉(zhuǎn)而關(guān)注“動(dòng)態(tài)”問題,其中測(cè)試集未知。這類問題通常要求較高的預(yù)測(cè)性能、魯棒性和安全性,并面臨基礎(chǔ)設(shè)施的實(shí)際約束。兩個(gè)典型問題是終身學(xué)習(xí)(lifelong learning)和去中心化學(xué)習(xí)(decentralized learning)。聚焦于這些問題有望催生一種新的范式,在這種范式下,貝葉斯思想將在深度學(xué)習(xí)中發(fā)揮作用。

強(qiáng)化學(xué)習(xí)中的高效探索

強(qiáng)化學(xué)習(xí)(RL)是 BDL 已展現(xiàn)出潛力的一個(gè)領(lǐng)域。例如,湯普森采樣(Thompson Sampling, TS)是一種常用于決策的啟發(fā)式方法,其核心思想是“根據(jù)某個(gè)動(dòng)作是最優(yōu)的概率隨機(jī)選擇該動(dòng)作”(Russo 等, 2018)。TS 平衡了探索與利用的關(guān)系,其精確形式需要從貝葉斯后驗(yàn)中采樣。在實(shí)踐中通常使用近似方法,近期研究表明,多個(gè)測(cè)試輸入下的多變量聯(lián)合預(yù)測(cè)分布質(zhì)量對(duì)決策至關(guān)重要(Wen 等, 2021;Osband 等, 2023)。值得注意的是,典型的貝葉斯與非貝葉斯方法通常通過評(píng)估單個(gè)測(cè)試輸入上的邊緣預(yù)測(cè)質(zhì)量來衡量性能,忽略了潛在的依賴關(guān)系(Osband 等, 2022)。雖然深度集成是不確定性建模的常用基線,但基于最后一層拉普拉斯近似的 BDL 方法在多變量聯(lián)合預(yù)測(cè)質(zhì)量方面可以優(yōu)于深度集成(Antoran 等, 2023)。如何在計(jì)算成本與聯(lián)合多變量預(yù)測(cè)質(zhì)量之間取得平衡,是亟需進(jìn)一步研究的方向(Osband 等, 2023)。

另一個(gè) RL 與 BDL 交叉的活躍研究方向是:在給定與環(huán)境交互的數(shù)據(jù)條件下,對(duì)價(jià)值函數(shù)(例如 Q 函數(shù))進(jìn)行準(zhǔn)確的后驗(yàn)近似(Janz 等, 2019)。此設(shè)定不同于典型的貝葉斯監(jiān)督學(xué)習(xí),因?yàn)樵谶@種情況下,價(jià)值函數(shù)的輸出并未直接觀測(cè)到,只有獎(jiǎng)勵(lì)信號(hào)可用。

計(jì)算機(jī)視覺

針對(duì)計(jì)算機(jī)視覺任務(wù)的 BDL 方法也得到了發(fā)展。例如,Kou 等(2024)在擴(kuò)散模型中引入 BDL,構(gòu)建像素級(jí)圖像生成的不確定性估計(jì)器。Goli 等(2024)則使用 BDL 來評(píng)估計(jì)算機(jī)圖形學(xué)背景下預(yù)訓(xùn)練神經(jīng)輻射場(chǎng)的不確定性。未來 BDL 在計(jì)算機(jī)視覺方面的研究可能集中于提升預(yù)測(cè)性能并進(jìn)一步發(fā)展不確定性量化方法。計(jì)算機(jī)視覺與自然語言處理一樣,都是可能推動(dòng) BDL 發(fā)展的重要應(yīng)用場(chǎng)景。

面向特定領(lǐng)域的 BDL 模型

將貝葉斯方法與針對(duì)特定領(lǐng)域定制的深度學(xué)習(xí)模型相結(jié)合,存在大量機(jī)會(huì)。這需要結(jié)合數(shù)據(jù)特征與任務(wù)需求,探索層次模型、遷移學(xué)習(xí)或元學(xué)習(xí)等方法。一個(gè)典型例子是分子屬性預(yù)測(cè)任務(wù):盡管存在多個(gè)不同數(shù)據(jù)集,但每個(gè)數(shù)據(jù)集的數(shù)據(jù)量都有限(Klarner 等, 2023)。可以將學(xué)習(xí)分子特征表示的深度學(xué)習(xí)模型與接收這些表示作為輸入的貝葉斯方法相結(jié)合。后者方法可以在每個(gè)任務(wù)數(shù)據(jù)受限的情況下捕捉不確定性并做出預(yù)測(cè),而深度學(xué)習(xí)特征則可在多個(gè)任務(wù)間共享。

原文鏈接: https://arxiv.org/abs/2402.00809

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
看完報(bào)道,差點(diǎn)以為是伊朗贏了,美國投降了

看完報(bào)道,差點(diǎn)以為是伊朗贏了,美國投降了

走讀新生
2025-06-24 11:05:42
科技助力,中國有望從能源最大進(jìn)口國成為世界主要能源出口國。

科技助力,中國有望從能源最大進(jìn)口國成為世界主要能源出口國。

興史興談
2025-06-25 09:50:49
63歲阿湯哥戀情實(shí)錘后,女兒蘇瑞近照曝光,即將進(jìn)軍好萊塢

63歲阿湯哥戀情實(shí)錘后,女兒蘇瑞近照曝光,即將進(jìn)軍好萊塢

瘋狂影視圈
2025-06-24 23:38:47
以色列防長(zhǎng)稱恢復(fù)猛烈空襲德黑蘭

以色列防長(zhǎng)稱恢復(fù)猛烈空襲德黑蘭

魯中晨報(bào)
2025-06-24 16:27:02
新華社快訊:伊朗議會(huì)通過暫停與國際原子能機(jī)構(gòu)合作的法案

新華社快訊:伊朗議會(huì)通過暫停與國際原子能機(jī)構(gòu)合作的法案

新華社
2025-06-25 14:55:04
黃子韜徐藝洋孩子首曝光:徐媽媽溫柔抱著嬰兒,滿臉的寵溺和燦笑

黃子韜徐藝洋孩子首曝光:徐媽媽溫柔抱著嬰兒,滿臉的寵溺和燦笑

素素娛樂
2025-06-25 10:18:47
雷霆奪冠游行:杰威致敬科比 卡皇掛湖人戒指 SGA抱獎(jiǎng)杯下車狂歡

雷霆奪冠游行:杰威致敬科比 卡皇掛湖人戒指 SGA抱獎(jiǎng)杯下車狂歡

顏小白的籃球夢(mèng)
2025-06-25 09:09:52
中國股市:未來即將有望乘風(fēng)破浪的10匹黑馬,值得收藏研究!!

中國股市:未來即將有望乘風(fēng)破浪的10匹黑馬,值得收藏研究!!

人生宥常
2025-06-25 10:00:10
互動(dòng)被挖,王楚欽戀情曝光?奧運(yùn),孫穎莎喊話想贏,誰注意他舉動(dòng)

互動(dòng)被挖,王楚欽戀情曝光?奧運(yùn),孫穎莎喊話想贏,誰注意他舉動(dòng)

樂聊球
2025-06-25 12:29:54
金正恩的喋血上位:母親幫他扳倒異母大哥,他自己一招搞垮親二哥

金正恩的喋血上位:母親幫他扳倒異母大哥,他自己一招搞垮親二哥

阿胡
2024-01-05 13:57:28
“朱雀玄武敕令”公布第三次高考分?jǐn)?shù)為246分:現(xiàn)在叫周景明,保底可以去兩所職業(yè)學(xué)院,內(nèi)心很平靜

“朱雀玄武敕令”公布第三次高考分?jǐn)?shù)為246分:現(xiàn)在叫周景明,保底可以去兩所職業(yè)學(xué)院,內(nèi)心很平靜

極目新聞
2025-06-25 00:12:47
掘金總裁:會(huì)與約基奇談3年2.12億續(xù)約 特定條件下會(huì)考慮交易他

掘金總裁:會(huì)與約基奇談3年2.12億續(xù)約 特定條件下會(huì)考慮交易他

顏小白的籃球夢(mèng)
2025-06-25 05:29:50
今年!慢特病無需申請(qǐng),醫(yī)保能報(bào)銷95%,門檻費(fèi)取消了

今年!慢特病無需申請(qǐng),醫(yī)保能報(bào)銷95%,門檻費(fèi)取消了

小劉嘮嗑醫(yī)保
2025-06-25 11:20:55
19歲騎手摔死后續(xù):家境被扒太凄慘,高中輟學(xué)養(yǎng)家,父母癱病在床

19歲騎手摔死后續(xù):家境被扒太凄慘,高中輟學(xué)養(yǎng)家,父母癱病在床

體制內(nèi)老陳
2025-06-22 14:22:47
王思聰資產(chǎn)被何猷君收購!汪小菲也沒有想到,自己當(dāng)年的話應(yīng)驗(yàn)了

王思聰資產(chǎn)被何猷君收購!汪小菲也沒有想到,自己當(dāng)年的話應(yīng)驗(yàn)了

振華觀史
2025-06-25 09:03:08
鄭爽在美國參加飯局!一直看身邊大佬,發(fā)福染黃發(fā)全程聊天哈哈笑

鄭爽在美國參加飯局!一直看身邊大佬,發(fā)福染黃發(fā)全程聊天哈哈笑

扒星人
2025-06-25 11:22:09
2-1!溫網(wǎng)首位贏球中國球員:苦戰(zhàn)三盤險(xiǎn)翻車 鄭欽文沖2885萬獎(jiǎng)金

2-1!溫網(wǎng)首位贏球中國球員:苦戰(zhàn)三盤險(xiǎn)翻車 鄭欽文沖2885萬獎(jiǎng)金

侃球熊弟
2025-06-24 21:41:58
女子腰腹部藏匿未申報(bào)港幣114.2萬元出境被海關(guān)查獲

女子腰腹部藏匿未申報(bào)港幣114.2萬元出境被海關(guān)查獲

環(huán)球網(wǎng)資訊
2025-06-24 14:51:02
344比79:川普因打擊伊朗而被提起彈劾,彈劾案被擱置

344比79:川普因打擊伊朗而被提起彈劾,彈劾案被擱置

寰宇大觀察
2025-06-25 10:17:34
海南17歲高一漂亮女生已找到,曝最后朋友圈,或早有征兆...

海南17歲高一漂亮女生已找到,曝最后朋友圈,或早有征兆...

小人物看盡人間百態(tài)
2025-06-24 16:22:16
2025-06-25 15:39:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
639文章數(shù) 11關(guān)注度
往期回顧 全部

科技要聞

小米YU7已下線500輛展車 26日前運(yùn)往全國

頭條要聞

特朗普稱中國可以繼續(xù)從伊朗購買石油 外交部回應(yīng)

頭條要聞

特朗普稱中國可以繼續(xù)從伊朗購買石油 外交部回應(yīng)

體育要聞

山西太原大媽,在NBA闖出一片天

娛樂要聞

林志穎15歲兒子眉眼間神似易烊千璽!

財(cái)經(jīng)要聞

3000億的泡泡瑪特,漲不動(dòng)了?

汽車要聞

樂高樂園x比亞迪官配曝光!兒童駕駛學(xué)校來了

態(tài)度原創(chuàng)

時(shí)尚
數(shù)碼
旅游
教育
軍事航空

挑對(duì)耳環(huán)=開掛!這15款巨in巨高級(jí),太顯臉小了!

數(shù)碼要聞

閃迪創(chuàng)作者系列磁吸手機(jī)移動(dòng)固態(tài)硬盤評(píng)測(cè):便攜存儲(chǔ)的創(chuàng)意之選

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

山東省2025年高考分?jǐn)?shù)線公布

軍事要聞

伊朗總統(tǒng):12天戰(zhàn)爭(zhēng)結(jié)束 重建工作開啟

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 陵川县| 逊克县| 丰镇市| 铅山县| 都江堰市| 桦甸市| 铜川市| 山东省| 广丰县| 东兴市| 云南省| 淮滨县| 綦江县| 靖宇县| 海原县| 宁陕县| 科技| 清徐县| 盐山县| 曲麻莱县| 舟曲县| 饶平县| 色达县| 仁怀市| 璧山县| 婺源县| 宁波市| 阿拉善右旗| 安庆市| 巴林右旗| 青铜峡市| 开封市| 南京市| 天气| 嵩明县| 白山市| 合阳县| 清新县| 枞阳县| 得荣县| 安国市|