Position: Bayesian Deep Learning is Needed in the Age of Large-Scale AI
大規(guī)模AI落地的關(guān)鍵:量化不確定性的貝葉斯方法
https://arxiv.org/abs/2402.00809
摘要
在當(dāng)前的深度學(xué)習(xí)研究領(lǐng)域中,主要的關(guān)注點(diǎn)集中在大規(guī)模圖像和語言數(shù)據(jù)集上的監(jiān)督任務(wù)中實(shí)現(xiàn)高預(yù)測(cè)準(zhǔn)確性。然而,從更廣闊的視角來看,還有許多被忽視的指標(biāo)、任務(wù)和數(shù)據(jù)類型亟需關(guān)注,例如不確定性建模、主動(dòng)學(xué)習(xí)與持續(xù)學(xué)習(xí)、以及科學(xué)數(shù)據(jù)等。貝葉斯深度學(xué)習(xí)(Bayesian Deep Learning, BDL)提供了一個(gè)有前景的研究方向,并在這些多樣化的場(chǎng)景中展現(xiàn)出優(yōu)勢(shì)。本文認(rèn)為,BDL能夠提升深度學(xué)習(xí)的能力。文章回顧了BDL的優(yōu)勢(shì),指出了當(dāng)前存在的挑戰(zhàn),并強(qiáng)調(diào)了一些令人期待的研究方向,旨在應(yīng)對(duì)這些障礙。展望未來,討論將聚焦于如何將大規(guī)模基礎(chǔ)模型與BDL相結(jié)合,以充分發(fā)揮其潛力。
1. 引言
貝葉斯推理的起源可以追溯到18世紀(jì),源自托馬斯·貝葉斯在概率論領(lǐng)域的奠基性工作。貝葉斯定理是在1760年代發(fā)表的(Bayes, 1763),為統(tǒng)計(jì)推理的概率方法奠定了基礎(chǔ)。從高層次來看,貝葉斯定理描述了如何根據(jù)某些證據(jù)來更新我們的信念。形式上,貝葉斯定理指出后驗(yàn)概率密度函數(shù) p(θ∣D) 在參數(shù)值 θ∈Rν 處的取值,是基于三個(gè)概率密度函數(shù)而定義的:即在考慮證據(jù)(訓(xùn)練數(shù)據(jù)集)D 之前參數(shù) θ 的先驗(yàn)分布 p(θ)、給定參數(shù)值 θ 下證據(jù) D出現(xiàn)的可能性 p(D∣θ),以及在任意參數(shù)值下證據(jù) D 的邊緣概率密度函數(shù)。
幾個(gè)世紀(jì)以來,貝葉斯方法在各個(gè)科學(xué)領(lǐng)域產(chǎn)生了深遠(yuǎn)影響,它提供了一個(gè)基于新證據(jù)更新信念并容納模型參數(shù)不確定性的原則性框架。從20世紀(jì)早期的貝葉斯統(tǒng)計(jì)到其后半葉的“貝葉斯革命”(Jaynes, 2003),這一方法不斷發(fā)展,并影響了從物理學(xué)、醫(yī)學(xué)到人工智能(AI)等多個(gè)領(lǐng)域。
貝葉斯視角在深度學(xué)習(xí)中具有許多應(yīng)用,包括解釋性和預(yù)測(cè)不確定性建模等問題。貝葉斯定理的應(yīng)用可以估計(jì)神經(jīng)網(wǎng)絡(luò)(NN)參數(shù)的后驗(yàn)分布,從而對(duì)這些參數(shù)提供概率意義上的理解和解釋。此外,貝葉斯定理還構(gòu)成了后驗(yàn)預(yù)測(cè)分布估計(jì)的基礎(chǔ),使得量化神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)中的不確定性成為可能。理解神經(jīng)網(wǎng)絡(luò)參數(shù)的作用并量化預(yù)測(cè)中的不確定性有助于風(fēng)險(xiǎn)評(píng)估,并提升決策過程的安全性。
在過去二十年中,將貝葉斯原理與深度學(xué)習(xí)相結(jié)合的貝葉斯深度學(xué)習(xí)(BDL)框架受到了廣泛關(guān)注。盡管BDL具有提供不確定性估計(jì)、提升模型可解釋性、泛化能力和魯棒性的潛力,但在研究和應(yīng)用層面,其主流采納仍然緩慢。一個(gè)常見的擔(dān)憂是BDL缺乏可擴(kuò)展性。然而,在當(dāng)前廣泛且迅速采用大規(guī)模參數(shù)化深度學(xué)習(xí)模型的時(shí)代,本文認(rèn)為BDL仍具有未被開發(fā)的潛力,并可以在當(dāng)前人工智能格局中做出重要貢獻(xiàn)。認(rèn)識(shí)到重新審視BDL適用性的必要性,尤其是在大規(guī)模參數(shù)化深度學(xué)習(xí)模型背景下,本文旨在批判性地分析阻礙BDL更廣泛接受的現(xiàn)有挑戰(zhàn)。通過深入探討這些挑戰(zhàn)并提出未來研究方向,本文希望釋放BDL的全部潛力。
貝葉斯概念在深度學(xué)習(xí)中尚未成為主流的原因,并不是因?yàn)樯疃葘W(xué)習(xí)使不確定性變得無關(guān)緊要。事實(shí)上,在高度參數(shù)化的模型時(shí)代,可靠的認(rèn)知不確定性比以往任何時(shí)候都更為重要。例如,“分布外提示”表明大型語言模型(LLMs)迫切需要可靠的不確定性量化(UQ);見圖1。問題在于,精確的貝葉斯推理通常計(jì)算成本過高。
觀點(diǎn)立場(chǎng) :本論文主張,BDL的發(fā)展能夠克服當(dāng)今深度學(xué)習(xí)面臨的諸多挑戰(zhàn)。特別地,BDL方法對(duì)于滿足21世紀(jì)對(duì)更加成熟的AI系統(tǒng)以及能夠在關(guān)鍵安全決策中可靠評(píng)估不確定性并融合已有知識(shí)的算法的需求至關(guān)重要。例如,BDL方法可以減輕LLMs由于過于自信卻錯(cuò)誤的預(yù)測(cè)所帶來的風(fēng)險(xiǎn)(見圖1)。目前阻礙廣泛可用的BDL方法發(fā)展的主要障礙是其可擴(kuò)展性問題,但本文提出了有前景的研究方向,有望使BDL更適應(yīng)現(xiàn)代深度學(xué)習(xí)的需求。
與頻率學(xué)派方法相比,貝葉斯方法在深度學(xué)習(xí)中具有多項(xiàng)優(yōu)勢(shì)。首先,BDL通過引入相關(guān)的超先驗(yàn)(hyper-priors)減少了超參數(shù)調(diào)優(yōu)的重要性(Lampinen & Vehtari, 2001)。其次,不同于在小數(shù)據(jù)集上訓(xùn)練時(shí)使用的后驗(yàn)正則化技術(shù),BDL允許使用領(lǐng)域知識(shí)作為先驗(yàn)信息(Sam et al., 2024)。第三,在涉及不對(duì)稱誤差代價(jià)的決策制定方面,BDL方法相比頻率學(xué)派方法更具優(yōu)勢(shì)(Tump et al., 2022)。雖然存在一些非貝葉斯方法也在分類問題中推廣“決策校準(zhǔn)”的概念,用于處理此類不對(duì)稱誤差,并適用于決策應(yīng)用場(chǎng)景(Zhao et al., 2021),但BDL的優(yōu)勢(shì)在于它可以提供預(yù)測(cè)的不確定性估計(jì),從而豐富決策過程——例如,在收集到更多數(shù)據(jù)、不確定性降低后再推遲決策。第四,與共形預(yù)測(cè)(conformal prediction)不同,BDL不要求數(shù)據(jù)之間滿足交換性假設(shè),而是可以通過適當(dāng)?shù)臐撛谧兞拷#瑢?shí)現(xiàn)跨時(shí)空維度的數(shù)據(jù)依賴關(guān)系(Tran et al., 2020)。
論文結(jié)構(gòu) :第2節(jié)通過突出BDL的優(yōu)勢(shì)來解釋為何BDL重要。第3節(jié)批判性地反思當(dāng)前BDL方法所面臨的挑戰(zhàn)。第4節(jié)指出了未來研究方向,旨在發(fā)展出可擴(kuò)展的BDL方法,以克服這些挑戰(zhàn),并達(dá)到與現(xiàn)有深度學(xué)習(xí)方案相當(dāng)?shù)挠?jì)算效率。最后,第5節(jié)對(duì)BDL的未來發(fā)展進(jìn)行了總結(jié)性評(píng)論。附錄A是一個(gè)自包含的貝葉斯方法與BDL基礎(chǔ)教程,為本文討論的多種貝葉斯方法提供了背景知識(shí)。
2. 為何貝葉斯深度學(xué)習(xí)重要
BDL(貝葉斯深度學(xué)習(xí))是一種將貝葉斯推理原理與深度學(xué)習(xí)模型相結(jié)合的計(jì)算框架。不同于傳統(tǒng)深度學(xué)習(xí)方法通常提供的參數(shù)點(diǎn)估計(jì),BDL為參數(shù)提供了完整的概率分布,從而可以以原則性的方式處理不確定性。這種內(nèi)在的不確定性量化在現(xiàn)實(shí)場(chǎng)景中尤其有價(jià)值,尤其是在數(shù)據(jù)有限或噪聲較大的情況下。此外,BDL支持先驗(yàn)信息的引入,這體現(xiàn)在先驗(yàn)分布的選擇上。這種對(duì)先驗(yàn)信念的整合作為一種歸納偏置(inductive bias),使模型能夠利用已有知識(shí),并提供一種系統(tǒng)的方式來融合領(lǐng)域?qū)<业慕?jīng)驗(yàn)。基于貝葉斯原理,BDL允許根據(jù)新證據(jù)更新關(guān)于不確定參數(shù)的信念,通過貝葉斯定理(Bayes, 1763)將先驗(yàn)知識(shí)與觀測(cè)數(shù)據(jù)結(jié)合起來。已有若干研究旨在提升對(duì)BDL的理解(Wilson & Izmailov, 2020; Izmailov 等, 2021b;a; Kristiadi 等, 2022; Papamarkou 等, 2022; Kapoor 等, 2022; Khan & Rue, 2023; Papamarkou, 2023; Qiu 等, 2023)。
BDL在多個(gè)關(guān)鍵應(yīng)用領(lǐng)域展現(xiàn)出巨大潛力,包括醫(yī)療健康(Peng 等, 2019;Abdar 等, 2021;Abdullah 等, 2022;Lopez 等, 2023;Band 等, 2021)、單細(xì)胞生物學(xué)(Way & Greene, 2018)、藥物發(fā)現(xiàn)(Gruver 等, 2021;Stanton 等, 2022;Gruver 等, 2023b;Klarner 等, 2023)、農(nóng)業(yè)(Hernandez & López, 2020)、天體物理學(xué)(Soboczenski 等, 2018;Ferreira 等, 2020)、納米技術(shù)(Leitherer 等, 2021)、物理學(xué)(Cranmer 等, 2021)、氣候科學(xué)(Vandal 等, 2018;Luo 等, 2022)、智能電網(wǎng)(Yang 等, 2019)、可穿戴設(shè)備(Manogaran 等, 2019;Zhou 等, 2020)、機(jī)器人(Shi 等, 2021;Mur-Labodia 等, 2023)以及自動(dòng)駕駛(McAllister 等, 2017)。本節(jié)概述了BDL的優(yōu)勢(shì),旨在推動(dòng)其在大規(guī)模人工智能時(shí)代的進(jìn)一步發(fā)展。
2.1 不確定性量化
在BDL中,不確定性量化(UQ)提升了決策過程的可靠性,尤其在模型面對(duì)模糊或分布外輸入時(shí)尤為重要(Tran 等, 2022b)。在這種情況下,模型可以通過相應(yīng)的概率來表明其預(yù)測(cè)缺乏信心,而不是給出表現(xiàn)不佳的點(diǎn)估計(jì)。在AI輔助決策的背景下,預(yù)測(cè)不確定性量化的重要性尤為突出,例如在醫(yī)療健康領(lǐng)域(Band 等, 2021;Lopez 等, 2023)。在涉及安全關(guān)鍵的應(yīng)用中,可靠的不確定性量化可用于更安全地部署模型:當(dāng)AI系統(tǒng)對(duì)其預(yù)測(cè)具有高度不確定性時(shí),可以將決策權(quán)交給人類專家(Tran 等, 2022b;Rudner 等, 2022a;2023)。這一能力對(duì)于應(yīng)對(duì)當(dāng)前語言模型中的挑戰(zhàn)也具有重要意義,其中不確定性量化可用于降低模型過于自信但錯(cuò)誤預(yù)測(cè)所帶來的風(fēng)險(xiǎn)(Kadavath 等, 2022);見圖1示例。類似地,BDL也可以用于應(yīng)對(duì)現(xiàn)代挑戰(zhàn),如大型語言模型中的幻覺問題(Ji 等, 2023)、對(duì)抗攻擊(Andriushchenko, 2023),或文本到圖像模型中的越獄現(xiàn)象(Yang 等, 2023b)。
在包括但不限于化學(xué)和材料科學(xué)等科研領(lǐng)域,由于實(shí)驗(yàn)數(shù)據(jù)采集成本高昂或受限、參數(shù)空間高維且模型本身復(fù)雜度高,BDL在提供穩(wěn)健的不確定性估計(jì)方面表現(xiàn)出色。這一特性對(duì)于指導(dǎo)逆向設(shè)計(jì)問題的決策、通過貝葉斯實(shí)驗(yàn)設(shè)計(jì)、優(yōu)化與模型選擇來優(yōu)化資源利用至關(guān)重要(Stanton 等, 2022;Gruver 等, 2023b;Li 等, 2023;Rainforth 等, 2024;Bamler 等, 2020;Lotfi 等, 2022;Immer 等, 2021a;2023)。
2.2 數(shù)據(jù)效率
BDL(貝葉斯深度學(xué)習(xí))在多種情境下展現(xiàn)出良好的數(shù)據(jù)效率。特別地,已有研究開發(fā)了適用于小樣本學(xué)習(xí)場(chǎng)景的BDL方法(Yoon 等, 2018;Patacchiola 等, 2020),以及適用于數(shù)據(jù)有限下的聯(lián)邦學(xué)習(xí)場(chǎng)景的BDL方法(Zhang 等, 2022b)。
不同于許多需要大量數(shù)據(jù)才能有效泛化的機(jī)器學(xué)習(xí)方法,BDL利用先驗(yàn)知識(shí),并隨著新數(shù)據(jù)的出現(xiàn)不斷更新信念。這使得BDL能夠從小規(guī)模數(shù)據(jù)集中提取有意義的信息,在難以或代價(jià)高昂地收集大量數(shù)據(jù)的情境下表現(xiàn)出更高的效率(Finzi 等, 2021;Immer 等, 2022b;Shwartz-Ziv 等, 2022;Schwobel 等, 2022;van der Ouderaa 等, 2023)。此外,其貝葉斯方法所具有的概率性質(zhì)帶來了正則化效應(yīng),有助于防止過擬合,并從更少的樣本中實(shí)現(xiàn)更好的泛化能力(Rothfuss 等, 2022;Sharma 等, 2023)。BDL的不確定性建模也有助于抵抗異常值的影響,使其非常適合處理噪聲數(shù)據(jù)或分布外數(shù)據(jù)的真實(shí)世界場(chǎng)景。這也使它在基礎(chǔ)模型微調(diào)任務(wù)中具有吸引力,因?yàn)檫@些任務(wù)通常數(shù)據(jù)稀疏且不確定性至關(guān)重要。
此外,BDL的不確定性量化能力可以支持有依據(jù)的數(shù)據(jù)點(diǎn)標(biāo)注選擇。通過結(jié)合先驗(yàn)知識(shí)并在新信息到達(dá)時(shí)持續(xù)更新信念,BDL優(yōu)化了主動(dòng)學(xué)習(xí)的迭代過程,戰(zhàn)略性地選擇最具信息量的樣例進(jìn)行標(biāo)注,從而提升模型性能(Gal 等, 2017)。這一能力在當(dāng)前如何高效選擇上下文學(xué)習(xí)場(chǎng)景中的示例(Margatina 等, 2023)或使用人類反饋進(jìn)行微調(diào)(Casper 等, 2023)等挑戰(zhàn)中尤其具有優(yōu)勢(shì)。
2.3 對(duì)新領(lǐng)域與演化領(lǐng)域的適應(yīng)性
通過動(dòng)態(tài)更新對(duì)先前信念的認(rèn)知以響應(yīng)新的證據(jù),BDL能夠在適應(yīng)新任務(wù)的同時(shí)有選擇地保留舊任務(wù)中的有價(jià)值信息,從而提升跨不同領(lǐng)域和任務(wù)的知識(shí)遷移能力(Rothfuss 等, 2021;2022;Rudner 等, 2024a)。這對(duì)于構(gòu)建能夠適應(yīng)新情境或隨時(shí)間演化的領(lǐng)域的AI系統(tǒng)至關(guān)重要(Nguyen 等, 2018;Rudner 等, 2022b),例如連續(xù)學(xué)習(xí)(continual learning)或終身學(xué)習(xí)(lifelong learning)場(chǎng)景。相比之下,傳統(tǒng)的大型機(jī)器學(xué)習(xí)方法顯得較為靜態(tài),它們假設(shè)數(shù)據(jù)中的潛在模式不會(huì)隨時(shí)間變化,因此在面對(duì)持續(xù)涌入的新數(shù)據(jù)及底層模式的變化時(shí)表現(xiàn)不佳。
2.4 模型誤設(shè)與可解釋性
貝葉斯模型平均(Bayesian Model Averaging, BMA)承認(rèn)并量化模型結(jié)構(gòu)選擇中的不確定性。不同于依賴單一固定模型的方法,BMA考慮的是所有可能模型的概率分布(Hoeting 等, 1998;1999;Wasserman, 2000)。通過引入模型先驗(yàn)并推斷模型后驗(yàn),BDL允許BMA對(duì)網(wǎng)絡(luò)架構(gòu)的不確定性進(jìn)行校準(zhǔn)(Hubin & Storvik, 2019;Skaaret-Lund 等, 2023)。通過對(duì)不同模型可能性的預(yù)測(cè)進(jìn)行加權(quán)平均,BMA減弱了模型誤設(shè)帶來的影響,提供了一個(gè)綜合參數(shù)不確定性與模型結(jié)構(gòu)不確定性的穩(wěn)健框架,最終帶來更可靠且更具解釋性的預(yù)測(cè)結(jié)果(Hubin 等, 2021;Wang 等, 2023a;Bouchiat 等, 2023)。
在BDL中,盡管參數(shù)和結(jié)構(gòu)的可解釋性似乎不那么關(guān)鍵,尤其是在過參數(shù)化的神經(jīng)網(wǎng)絡(luò)被用作未知數(shù)據(jù)生成過程的函數(shù)逼近器的情況下。然而,在那些黑箱預(yù)測(cè)不是主要目標(biāo)的應(yīng)用中,特別是在科學(xué)領(lǐng)域,仍需要開展研究來建立可復(fù)現(xiàn)且可解釋的貝葉斯推理機(jī)制(Rugamer, 2023;Wang 等, 2023a;Dold 等, 2024)。在這方面,以BMA為中心的研究方向在BDL中具有重要價(jià)值。
3. 當(dāng)前挑戰(zhàn)
BDL(貝葉斯深度學(xué)習(xí))面臨的一個(gè)挑戰(zhàn)是其計(jì)算成本較高(Izmailov 等, 2021b)。盡管第2節(jié)中概述了BDL的優(yōu)勢(shì),在貝葉斯方法領(lǐng)域,高斯過程(Gaussian Processes, GPs)在諸如科學(xué)發(fā)現(xiàn)等計(jì)算密集型場(chǎng)景中仍然是首選方法(Tom 等, 2023;Griffiths 等, 2023;Strieth-Kalthoff 等, 2023)。如何證明BDL在實(shí)際應(yīng)用中是低成本的、或至少在現(xiàn)代環(huán)境下具備實(shí)用效率,仍是亟待解決的重要問題之一。本節(jié)旨在探討B(tài)DL的復(fù)雜性,突出兩個(gè)主要挑戰(zhàn):后驗(yàn)推斷(見圖2)與先驗(yàn)設(shè)定。同時(shí)還將探討可擴(kuò)展性為何成為BDL中的一個(gè)核心難題。最后,本節(jié)將討論BDL在基礎(chǔ)模型中的采用所面臨的困難。關(guān)于BDL缺乏收斂性指標(biāo)、性能評(píng)估標(biāo)準(zhǔn)及基準(zhǔn)測(cè)試的問題將在附錄B中進(jìn)行討論。
3.1 拉普拉斯與變分近似
拉普拉斯近似與變分近似利用經(jīng)驗(yàn)損失函數(shù)的幾何或微分信息,構(gòu)建閉式(通常是高斯形式)概率測(cè)度來逼近后驗(yàn)分布。盡管這些方法結(jié)構(gòu)簡(jiǎn)單且歷史悠久(MacKay, 1992),它們?cè)陬A(yù)測(cè)性能上往往具有競(jìng)爭(zhēng)力(Daxberger 等, 2021b;Rudner 等, 2022a;Antoran 等, 2023;Rudner 等, 2023)。更重要的是,由于其具有閉式表達(dá),并能利用自動(dòng)計(jì)算的微分量以及數(shù)值線性代數(shù)的基礎(chǔ)理論,這類方法支持理論分析(Kristiadi 等, 2020)以及解析功能,如校準(zhǔn)(Kristiadi 等, 2021b;a)與邊緣化(Khan 等, 2019;Immer 等, 2021a;b),而這些在隨機(jī)方法中則顯得不夠優(yōu)雅。拉普拉斯近似神經(jīng)網(wǎng)絡(luò)(Ritter 等, 2018)尤其誘人,因?yàn)樗谟?xùn)練過程中不增加額外計(jì)算成本,僅需有限的后處理開銷(相當(dāng)于幾個(gè)訓(xùn)練輪次)即可實(shí)現(xiàn)事后不確定性量化(post-hoc UQ)。此外,近期提出的變分目標(biāo)函數(shù)(Alemi & Poole, 2023)提供了避免內(nèi)部邊緣化的替代預(yù)測(cè)方式。
另一種可擴(kuò)展的近似方法是SWAG(Maddox 等, 2019),它通過修改學(xué)習(xí)率調(diào)度機(jī)制下的隨機(jī)梯度下降(SGD)迭代結(jié)果(Mandt 等, 2017),構(gòu)造出一個(gè)高斯形式的近似后驗(yàn)分布。與拉普拉斯近似類似,它的計(jì)算開銷并不顯著高于標(biāo)準(zhǔn)訓(xùn)練。然而,SWAG是從SGD路徑中估計(jì)曲率,而不是在單個(gè)點(diǎn)上使用海森矩陣(Hessian)。通過從隨機(jī)梯度中生成確定性概率測(cè)度,它彌合了確定性與隨機(jī)方法之間的差距。
盡管這些近似方法在解析方面具有優(yōu)勢(shì),但它們本質(zhì)上仍是局部的,只能捕捉多模態(tài)貝葉斯神經(jīng)網(wǎng)絡(luò)(BNN)后驗(yàn)分布中的單一模式。可以說,它們最根本的問題在于后驗(yàn)依賴于BNN的參數(shù)化方式(MacKay, 1998),因此與概率測(cè)度的一些基本性質(zhì)不一致(Kristiadi 等, 2023)。此外,局部后驗(yàn)幾何可能無法很好地被高斯分布近似,這可能導(dǎo)致從拉普拉斯近似采樣時(shí)出現(xiàn)低估置信度的現(xiàn)象(Lawrence, 2001),該問題可以通過線性化方法緩解(Immer 等, 2021b)。
3.2 集成方法
深度集成方法涉及使用不同初始化重新訓(xùn)練神經(jīng)網(wǎng)絡(luò),并對(duì)最終模型進(jìn)行平均。這種方法在近似后驗(yàn)預(yù)測(cè)分布方面表現(xiàn)良好(Wilson & Izmailov, 2020)。近年來,理論上的進(jìn)展已建立了集成方法與貝葉斯方法之間的明確聯(lián)系(Ciosek 等, 2020;He 等, 2020;Wild 等, 2023)。
在BDL中一個(gè)尚未解決的問題是:是否可以開發(fā)出在性能上超越深度集成方法的可擴(kuò)展貝葉斯推理方法。Izmailov 等(2021b)的研究表明,哈密頓蒙特卡洛(Hamiltonian Monte Carlo, HMC)方法通常優(yōu)于深度集成方法,但其計(jì)算開銷顯著更大。當(dāng)面對(duì)像大型語言模型(LLMs)這樣規(guī)模大且計(jì)算成本高的深度學(xué)習(xí)模型時(shí),使用深度集成方法可能會(huì)遇到顯著挑戰(zhàn),因?yàn)槠溆?xùn)練和執(zhí)行成本高昂。因此,這些大規(guī)模模型可能推動(dòng)研究人員探索更高效的架構(gòu)與推理范式,例如后驗(yàn)蒸餾(posterior distillation)或排斥性集成(repulsive ensembles)(D’Angelo & Fortuin, 2021),以提升不確定性校準(zhǔn)能力并實(shí)現(xiàn)更稀疏的模型使用。
3.3 后驗(yàn)采樣算法
在貝葉斯深度學(xué)習(xí)(BDL)中,馬爾可夫鏈蒙特卡洛(Markov chain Monte Carlo, MCMC;Brooks 等, 2011)方法是一類重要的后驗(yàn)推斷工具。其中,隨機(jī)梯度MCMC(stochastic gradient MCMC, SG-MCMC;Nemeth & Fearnhead, 2021)算法,如隨機(jī)梯度朗之萬動(dòng)力學(xué)(stochastic gradient Langevin dynamics, SG-LD;Welling & Teh, 2011)和隨機(jī)梯度哈密頓蒙特卡洛(stochastic gradient HMC, SG-HMC;Chen 等, 2014),已成為廣泛采用的技術(shù)。
盡管SG-MCMC算法能夠提供更優(yōu)的后驗(yàn)近似效果,但其收斂速度通常慢于隨機(jī)梯度下降(SGD;Robbins, 1951)。這種減緩源于SG-MCMC需要更多迭代次數(shù),以全面探索整個(gè)后驗(yàn)分布,而不僅僅是定位到一個(gè)模式點(diǎn)。
此外,SG-MCMC對(duì)于深度學(xué)習(xí)應(yīng)用而言仍被認(rèn)為計(jì)算成本較高。在這方面的一個(gè)進(jìn)步方向是借鑒機(jī)器學(xué)習(xí)與系統(tǒng)社區(qū)的經(jīng)驗(yàn),利用現(xiàn)代硬件加速蒙特卡洛方法的執(zhí)行效率(Zhang 等, 2022a;Wang 等, 2023b)。例如,Stein變分梯度下降(Stein variational gradient descent, SVGD;Liu & Wang, 2016)位于優(yōu)化與采樣的中間地帶,它通過使用優(yōu)化類型的更新規(guī)則,同時(shí)引入一組相互作用的粒子來實(shí)現(xiàn)采樣。雖然近期研究在貝葉斯神經(jīng)網(wǎng)絡(luò)(BNN)設(shè)置中展示了SVGD的一些有希望的結(jié)果(D’Angelo 等, 2021;D’Angelo & Fortuin, 2021;Pielok 等, 2022),但這些方法在高維問題中往往表現(xiàn)不佳。
另一種改進(jìn)方式是使用循環(huán)步長(zhǎng)調(diào)度策略(cyclical step-size schedules;Zhang 等, 2020b),可以提升收斂速度并增強(qiáng)對(duì)后驗(yàn)空間的探索能力。然而,盡管已有這些進(jìn)展,由于BDL后驗(yàn)分布的高度多模態(tài)性與高維特性,目前仍難以通過采樣方法準(zhǔn)確刻畫完整的后驗(yàn)分布。
因此,亟需開發(fā)出既能匹配SGD的速度(即典型深度學(xué)習(xí)優(yōu)化所使用的速度),又能提供高質(zhì)量后驗(yàn)近似結(jié)果的SG-MCMC算法,以確保其在實(shí)際應(yīng)用中的有效性。
3.4 先驗(yàn)設(shè)定
參數(shù)上的先驗(yàn)會(huì)誘導(dǎo)出函數(shù)空間上的先驗(yàn),而真正影響模型泛化能力的是函數(shù)空間上的先驗(yàn)(Wilson & Izmailov, 2020)。幸運(yùn)的是,神經(jīng)網(wǎng)絡(luò)架構(gòu)本身已經(jīng)賦予了這一函數(shù)先驗(yàn)許多理想屬性。例如,如果使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)架構(gòu),則可以獲得平移等變性(translation equivariance)等特性。
與此同時(shí),在參數(shù)空間上定義先驗(yàn)面臨高維空間復(fù)雜性和不可解釋性的挑戰(zhàn)。因此,一個(gè)目標(biāo)是構(gòu)建信息豐富且恰當(dāng)?shù)南闰?yàn),使得神經(jīng)網(wǎng)絡(luò)權(quán)重的先驗(yàn)在計(jì)算上高效,并傾向于具有理想模型屬性的解(Vladimirova 等, 2019;2021;Fortuin 等, 2022;Rudner 等, 2023),例如:
傾向于具有良好不確定性估計(jì)的模型(Rudner 等, 2024a);
高公平性(Rudner 等, 2024b);
在協(xié)變量偏移下具有良好泛化能力(Klarner 等, 2023);
等變性(Finzi 等, 2021);
或高度稀疏性(Ghosh 等, 2018;Polson & Rocková, 2018;Hubin & Storvik, 2019)。
權(quán)重先驗(yàn)也可以通過低維單位潛變量(low-dimensional unit latent variables)結(jié)合超網(wǎng)絡(luò)(hypernetworks)或高斯過程(GPs)建模為神經(jīng)場(chǎng)(neural fields)(Karaletsos 等, 2018;Karaletsos & Bui, 2020),從而表達(dá)關(guān)于該場(chǎng)的先驗(yàn)知識(shí),避免直接對(duì)權(quán)重進(jìn)行信念參數(shù)化,轉(zhuǎn)而關(guān)注單元的幾何或其他性質(zhì)。
近年來的研究也發(fā)展出了直接在函數(shù)空間而非權(quán)重空間中定義先驗(yàn)的方法(Tran 等, 2022a;Rudner 等, 2022b;Qiu 等, 2023)。函數(shù)空間先驗(yàn)也帶來了一些問題,例如存在定義不當(dāng)?shù)淖兎帜繕?biāo)函數(shù)(Burt 等, 2020;Rudner 等, 2022a),或者在某些情況下需要進(jìn)行計(jì)算代價(jià)高昂的高斯過程近似。
除了高斯過程之外,還有其他方式可以定義函數(shù)空間先驗(yàn)。例如,可以通過自監(jiān)督學(xué)習(xí)(self-supervised learning)來構(gòu)建具有信息量的函數(shù)空間先驗(yàn)(Shwartz-Ziv 等, 2022;Sharma 等, 2023)。
3.5 可擴(kuò)展性
神經(jīng)網(wǎng)絡(luò)(NN)參數(shù)空間中存在對(duì)稱性,這會(huì)導(dǎo)致計(jì)算冗余(Wiese 等, 2023)。在貝葉斯深度學(xué)習(xí)(BDL)背景下解決這些對(duì)稱性所帶來的復(fù)雜性和可識(shí)別性問題,可以顯著影響其可擴(kuò)展性。提出的一些解決方案包括:在BDL推理方法中引入基于對(duì)稱性的約束(Sen 等, 2024),或設(shè)計(jì)具有對(duì)稱意識(shí)的先驗(yàn)分布(Atzeni 等, 2023)。然而,去除對(duì)稱性可能并非最優(yōu)策略,因?yàn)樯疃葘W(xué)習(xí)的成功部分歸因于神經(jīng)網(wǎng)絡(luò)的過參數(shù)化特性,這種特性允許在訓(xùn)練過程中快速探索大量假設(shè),或帶來其他積極的“副作用”,例如誘導(dǎo)稀疏性(Kolb 等, 2023)。
與一種常見的誤解相反——即貝葉斯神經(jīng)網(wǎng)絡(luò)(BNN)在速度和內(nèi)存效率方面天生不如確定性神經(jīng)網(wǎng)絡(luò)——最近的研究挑戰(zhàn)了這一觀點(diǎn)。例如,Ritter 等(2021)的研究表明,BNN在參數(shù)數(shù)量方面可以比其確定性對(duì)應(yīng)模型高出四倍的內(nèi)存效率。此外,像Maddox 等(2019)提出的通過重用標(biāo)準(zhǔn)訓(xùn)練軌跡來構(gòu)建近似后驗(yàn)的方法,僅帶來了微不足道的額外計(jì)算成本。結(jié)合神經(jīng)網(wǎng)絡(luò)與高斯過程(GPs)的混合模型,如深度核學(xué)習(xí)(deep kernel learning, DKL;Wilson 等, 2016),也只比確定性神經(jīng)網(wǎng)絡(luò)略微慢一些或占用更多內(nèi)存。
盡管不確定性量化(UQ)在多個(gè)領(lǐng)域都非常重要,但它不應(yīng)以犧牲預(yù)測(cè)性能為代價(jià)。BDL必須在兩者之間取得平衡,確保UQ的計(jì)算成本與點(diǎn)估計(jì)相當(dāng)。否則,將計(jì)算資源投入到提升深度學(xué)習(xí)模型的預(yù)測(cè)性能上可能是更明智的選擇。有些人可能會(huì)認(rèn)為集成方法由于其高度并行性而較少受到此問題的影響。然而,在連行業(yè)領(lǐng)導(dǎo)者都需要大量圖形處理單元(GPU)資源才能訓(xùn)練一個(gè)大型深度學(xué)習(xí)模型的時(shí)代,單純依賴并行性已顯得不足。同時(shí)實(shí)現(xiàn)時(shí)間效率、內(nèi)存效率以及高模型效用(體現(xiàn)在預(yù)測(cè)性能和不確定性校準(zhǔn)方面)仍是當(dāng)前面臨的重大挑戰(zhàn);這也是近似貝葉斯推理的“圣杯”。
3.6 基礎(chǔ)模型
深度學(xué)習(xí)正處于向“基礎(chǔ)模型”時(shí)代過渡的范式轉(zhuǎn)變之中,這一時(shí)代的特征是模型參數(shù)規(guī)模達(dá)到數(shù)十億級(jí)別而非數(shù)百萬級(jí)別,且主要關(guān)注語言建模而非視覺任務(wù)。貝葉斯深度學(xué)習(xí)(BDL)在大型語言模型(LLMs)中的應(yīng)用,無論是在方法層面還是應(yīng)用場(chǎng)景上,仍相對(duì)未被充分探索。雖然最先進(jìn)的近似推理算法能夠有效處理擁有數(shù)百萬參數(shù)的模型,但僅有少數(shù)研究考慮了LLMs的貝葉斯方法(Xie 等, 2021;Cohen, 2022;Margatina 等, 2022)。特別是,一些面向LLMs的BDL方法已經(jīng)通過貝葉斯低秩適配(Bayesian low-rank adaptation, LoRA;Yang 等, 2024b;Onal 等, 2024)、貝葉斯優(yōu)化(Kristiadi 等, 2024)以及貝葉斯獎(jiǎng)勵(lì)建模(Bayesian reward modeling;Yang 等, 2024a)等方式得以發(fā)展。
正如第2節(jié)所述,BDL成為應(yīng)對(duì)基礎(chǔ)模型局限性的解決方案,特別是在數(shù)據(jù)有限的情況下尤為重要。在涉及個(gè)性化數(shù)據(jù)(Moor 等, 2023)或因果推斷應(yīng)用(Zhang 等, 2023)的場(chǎng)景中,例如個(gè)體處理效應(yīng)估計(jì)(individual treatment effect estimation),當(dāng)數(shù)據(jù)集較小時(shí),BDL在不確定性估計(jì)方面的能力顯得尤為契合。基礎(chǔ)模型在小樣本場(chǎng)景下的微調(diào)設(shè)置是另一個(gè)例子。雖然基礎(chǔ)模型本身具備小樣本學(xué)習(xí)能力(Brown 等, 2020),但BDL提供了可解釋的不確定性量化,這在數(shù)據(jù)受限的環(huán)境下尤為重要。此外,BDL還支持在不確定性條件下的預(yù)測(cè)不確定性估計(jì)與穩(wěn)健決策。
基礎(chǔ)模型代表了BDL研究的一個(gè)寶貴前沿領(lǐng)域,尤其是在評(píng)估與應(yīng)用方面。哪些LLM或Transformer的應(yīng)用可以從貝葉斯推理工具(如邊緣化和先驗(yàn)設(shè)定)中受益?更廣泛地說,我們需要更有意義的實(shí)際應(yīng)用,以令人信服地展示BDL原則不僅限于概念驗(yàn)證。表征認(rèn)知不確定性的價(jià)值可能最為突出的是:當(dāng)LLM或其他大規(guī)模神經(jīng)網(wǎng)絡(luò)部署在其訓(xùn)練數(shù)據(jù)之外的場(chǎng)景中時(shí)。例如,可以在使用LLM進(jìn)行下游預(yù)測(cè)任務(wù)的時(shí)間序列背景中開發(fā)和測(cè)試貝葉斯方法(Gruver 等, 2023a)。
4. 提出的未來研究方向
本節(jié)基于第3節(jié)所描述的挑戰(zhàn),介紹了當(dāng)前致力于解決這些問題的研究進(jìn)展,尤其是聚焦于可擴(kuò)展性方面的改進(jìn)。4.7 貝葉斯深度學(xué)習(xí)中的新興方法 本小節(jié)介紹了一些更為前沿或尚未廣泛研究的貝葉斯深度學(xué)習(xí)研究方法。有關(guān)BDL的若干專題發(fā)展將在附錄D中進(jìn)行討論。
4.1 后驗(yàn)采樣算法
我們需要開發(fā)新型的后驗(yàn)采樣算法,使其在深度神經(jīng)網(wǎng)絡(luò)(DNNs)上表現(xiàn)更佳。這些算法應(yīng)旨在提升效率、降低計(jì)算開銷,并能夠更有效地探索高維參數(shù)空間。
使用帶有溫度調(diào)節(jié)后驗(yàn)(tempered posteriors)的SG-MCMC可能有助于克服從多個(gè)模式中采樣的問題。這可以通過借鑒最優(yōu)傳輸理論(optimal transport theory;Villani, 2021)、基于分?jǐn)?shù)的擴(kuò)散模型(score-based diffusion models;Song 等, 2020),以及常微分方程(ODE)方法如流匹配(flow matching;Lipman 等, 2022)等思路來實(shí)現(xiàn)。這些方法利用神經(jīng)網(wǎng)絡(luò)將一個(gè)簡(jiǎn)單分布(通常是高斯分布)映射到復(fù)雜的數(shù)據(jù)分布(例如圖像分布)。因此,我們有可能使用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)貝葉斯深度學(xué)習(xí)后驗(yàn)與高斯分布之間的映射關(guān)系,或者將其用于MCMC提議機(jī)制中。
總體而言,除了關(guān)注后驗(yàn)的局部信息之外,還需要開發(fā)能夠快速穿越孤立模式的SG-MCMC算法,例如通過歸一化流(normalizing flows)。由于我們可能無法對(duì)所有BNN參數(shù)的高維后驗(yàn)進(jìn)行準(zhǔn)確近似,新的性能指標(biāo)可以聚焦于低維感興趣的函數(shù)量,其中不確定性量化(UQ)是關(guān)鍵組成部分。
一種方法是引入適當(dāng)?shù)募s束以實(shí)現(xiàn)可識(shí)別性,例如對(duì)潛在BNN結(jié)構(gòu)進(jìn)行推斷(Gu & Dunson, 2023)。另一種方法則是專注于典型神經(jīng)網(wǎng)絡(luò)類別的可識(shí)別函數(shù)量,并針對(duì)這些函數(shù)量設(shè)計(jì)后驗(yàn)近似算法。此外,還可以考慮解耦方法(decoupling approaches),即先使用BNN作為黑箱擬合數(shù)據(jù)生成模型,然后在第二階段選擇合適的損失函數(shù)進(jìn)行推理。
另一個(gè)有前景的方向是在參數(shù)空間的子空間中運(yùn)行SG-MCMC算法,例如線性或稀疏子空間(Izmailov 等, 2020;Li 等, 2024),從而進(jìn)一步支持對(duì)目標(biāo)子網(wǎng)絡(luò)進(jìn)行不確定性陳述的構(gòu)建(Dold 等, 2024)。未來,也可以構(gòu)建在QLoRA(Dettmers 等, 2023)或非線性子空間上的SG-MCMC方法。除了將子空間視為確定性的,還可以系統(tǒng)地打破子空間之間的后驗(yàn)依賴,從而形成結(jié)合結(jié)構(gòu)化變分推理與MCMC的新混合采樣器(Alexos 等, 2022),以實(shí)現(xiàn)計(jì)算與精度之間的權(quán)衡。BDL中的子采樣方法也可以與遷移學(xué)習(xí)推理相結(jié)合(Kirichenko 等, 2023)。
4.2 混合貝葉斯方法
未來的實(shí)用BDL方法可能僅對(duì)模型的一部分進(jìn)行不確定性建模,而其他部分則可以使用點(diǎn)估計(jì)高效地求解。因此,我們可以考慮將貝葉斯方法與確定性深度學(xué)習(xí)的效率結(jié)合起來的混合方法。
這種方法可能包括:在模型中不確定性建模更有價(jià)值且成本更低的關(guān)鍵區(qū)域選擇性地應(yīng)用貝葉斯方法,而在其他部分保持確定性方法(Daxberger 等, 2021b)。最后一層拉普拉斯近似就是這樣一個(gè)例子(Daxberger 等, 2021a)。這類混合方法是未來研究的一個(gè)有希望的方向。
傳統(tǒng)上,深度學(xué)習(xí)方法與高斯過程(GPs)的結(jié)合受到GPs可擴(kuò)展性的限制。然而,近年來在擴(kuò)展GP推理方面的進(jìn)展為這些混合模型的廣泛應(yīng)用帶來了希望。DKL(Wilson 等, 2016)就是這類混合模型的一個(gè)例子。隨著GP可擴(kuò)展性技術(shù)的進(jìn)步,DKL的可擴(kuò)展邊界也有可能被進(jìn)一步突破。
關(guān)于連接BDL與深度高斯過程(DGPs;Wilson 等, 2012;Damianou & Lawrence, 2013;Agrawal 等, 2020)的研究文獻(xiàn)豐富。這一研究方向涉及神經(jīng)網(wǎng)絡(luò)高斯過程(Neal, 1996;de G. Matthews 等, 2018),即當(dāng)神經(jīng)網(wǎng)絡(luò)寬度趨于無窮時(shí)所對(duì)應(yīng)的高斯過程。神經(jīng)網(wǎng)絡(luò)與高斯過程之間的聯(lián)系也可能為BDL帶來理論上的新見解。
4.3 深度核過程與機(jī)器
深度核過程(Deep Kernel Processes, DKPs)構(gòu)成了一類面向BDL的深度非參數(shù)方法(Aitchison 等, 2021;Ober & Aitchison, 2021a;Ober 等, 2023)。DKP是一種深度高斯過程(DGP),其特點(diǎn)是將核函數(shù)而非特征向量視為隨機(jī)變量。它可以對(duì)核函數(shù)進(jìn)行先驗(yàn)設(shè)定并執(zhí)行推理,而無需依賴DGP的特征表示或BNN的權(quán)重(Aitchison 等, 2021)。因此,DKP避免了BDL中由參數(shù)排列對(duì)稱性引起的高度多模態(tài)后驗(yàn)分布問題。
使用簡(jiǎn)化的參數(shù)族(例如拉普拉斯近似或變分推理中使用的族)對(duì)這種多模態(tài)后驗(yàn)進(jìn)行準(zhǔn)確近似是非常困難的。相比之下,DKP的后驗(yàn)在實(shí)踐中往往呈現(xiàn)出單峰特性(Yang 等, 2023a)。DKP是核逆威沙特過程(kernel inverse Wishart processes;Shah 等, 2014)的一種推廣,但引入了核函數(shù)的非線性變換,這對(duì)于表征學(xué)習(xí)非常有用。
深度核機(jī)器(Deep Kernel Machines, DKMs;Milsom 等, 2023;Yang 等, 2023a)更進(jìn)一步,通過對(duì)深度核過程(DKP)取無限寬度極限來構(gòu)建模型。通常情況下,這種無限寬度的極限會(huì)消除表征學(xué)習(xí)的能力。然而,DKMs通過精心調(diào)整似然函數(shù),保留了表征學(xué)習(xí)的能力,從而實(shí)現(xiàn)了最先進(jìn)的預(yù)測(cè)性能(Milsom 等, 2023),同時(shí)其理論意義對(duì)貝葉斯深度學(xué)習(xí)(BDL)具有深遠(yuǎn)影響。
DKMs為“函數(shù)空間中的推理”真正意味著什么,以及它如何與表征學(xué)習(xí)相關(guān)聯(lián),提供了關(guān)鍵洞見。具體而言,DKM中每一層所學(xué)到的核函數(shù)定義了該層的“函數(shù)空間”。事實(shí)上,在DKM中,特征上的真實(shí)后驗(yàn)分布是一個(gè)多元高斯分布,其協(xié)方差由所學(xué)到的核函數(shù)給出(Aitchison 等, 2021)。隨著訓(xùn)練過程對(duì)每一層的函數(shù)空間進(jìn)行調(diào)節(jié),使其聚焦于對(duì)預(yù)測(cè)性能至關(guān)重要的特征,表征學(xué)習(xí)便得以實(shí)現(xiàn)。
4.4 半監(jiān)督與自監(jiān)督學(xué)習(xí)
從貝葉斯視角來看,現(xiàn)代深度學(xué)習(xí)中一個(gè)令人意外的現(xiàn)象是半監(jiān)督學(xué)習(xí)的成功。在半監(jiān)督學(xué)習(xí)中,其目標(biāo)函數(shù)看似任意(或至少不明顯對(duì)應(yīng)于某個(gè)已知模型中的似然函數(shù))。此外,在貝葉斯推理中還存在諸如“冷后驗(yàn)效應(yīng)”(cold posterior effect;Aitchison, 2021;Wenzel 等, 2020)等現(xiàn)象,即通過將后驗(yàn)分布提升到高于1的冪次(從而收縮后驗(yàn)),BDL似乎可以獲得更具競(jìng)爭(zhēng)力的預(yù)測(cè)性能。
特別是,半監(jiān)督學(xué)習(xí)所利用的模式來源于數(shù)據(jù)篩選(data curation;Ganev & Aitchison, 2023)。如果在未經(jīng)篩選的數(shù)據(jù)上執(zhí)行半監(jiān)督學(xué)習(xí),則任何性能提升都會(huì)消失。這讓人對(duì)半監(jiān)督學(xué)習(xí)在現(xiàn)實(shí)世界未篩選數(shù)據(jù)集上的適用性產(chǎn)生懷疑。冷后驗(yàn)效應(yīng)的結(jié)果也可以通過認(rèn)知不確定性(aleatoric uncertainty)表示不足來解釋(Kapoor 等, 2022)。
自監(jiān)督學(xué)習(xí)是半監(jiān)督學(xué)習(xí)的一種替代方法。自監(jiān)督學(xué)習(xí)的目標(biāo)通常包括:最大化同一圖像兩種增強(qiáng)形式下潛在表示之間的互信息。從貝葉斯視角來看,這些目標(biāo)看起來有些隨意,因?yàn)樗鼈儾⒉粚?duì)應(yīng)任何明確的似然函數(shù)。然而,可以將這些目標(biāo)形式化為一種具有識(shí)別參數(shù)化的模型(recognition-parameterized model;Aitchison & Ganev, 2023),從而提供對(duì)自監(jiān)督學(xué)習(xí)機(jī)制的理解,并指導(dǎo)如何將其推廣到新場(chǎng)景中,例如將其視為一種學(xué)習(xí)貝葉斯先驗(yàn)的方法(Shwartz-Ziv 等, 2022;Sharma 等, 2023)。
4.5 混合精度與張量計(jì)算
深度學(xué)習(xí)的成功與其與現(xiàn)代計(jì)算技術(shù)及專用硬件(如GPU)的緊密結(jié)合密切相關(guān)。最近關(guān)于混合精度在深度學(xué)習(xí)中影響的研究指出,貝葉斯方法——尤其是概率數(shù)值方法(probabilistic numerics;Oates & Sullivan, 2019)——在更高效地利用計(jì)算資源方面可能發(fā)揮關(guān)鍵作用。
混合精度會(huì)在模型內(nèi)部計(jì)算中引入不確定性,而貝葉斯能夠有效地將這種不確定性傳播到下游預(yù)測(cè)中。此外,混合精度需要決定使用哪種精度,而貝葉斯方法可以確保這些決策是最優(yōu)的,并且能考慮到不同數(shù)值任務(wù)之間的關(guān)聯(lián)性。
受專用硬件(如張量處理單元)的啟發(fā),BDL也可能沿著類似路徑發(fā)展,以應(yīng)對(duì)可擴(kuò)展性問題(Mansinghka, 2009)。這表明,為BDL開發(fā)專用硬件有可能引發(fā)對(duì)推理策略的重新評(píng)估。
與此同時(shí),加速軟件開發(fā)對(duì)于鼓勵(lì)深度學(xué)習(xí)從業(yè)者采用貝葉斯方法至關(guān)重要。目前迫切需要用戶友好的軟件工具,以促進(jìn)BDL在各類項(xiàng)目中的集成。目標(biāo)是使BDL在人力投入方面具備與標(biāo)準(zhǔn)深度學(xué)習(xí)實(shí)踐相當(dāng)?shù)母?jìng)爭(zhēng)力。有關(guān)BDL軟件開發(fā)的努力詳情,請(qǐng)參見附錄C。
4.6 壓縮策略
為了降低BDL模型的計(jì)算成本(包括內(nèi)存效率和計(jì)算速度),研究人員正在探索各種壓縮策略。其中一種方法是使用誘導(dǎo)稀疏性的先驗(yàn)來剪枝BNN的大部分結(jié)構(gòu)(Louizos 等, 2017)。另一種方法是將先驗(yàn)作為熵模型,用于壓縮BNN權(quán)重(Yang 等, 2023c)。
相對(duì)熵編碼與變分貝葉斯量化等方法,通過動(dòng)態(tài)細(xì)化量化網(wǎng)格,實(shí)現(xiàn)了高效的BNN壓縮(Yang 等, 2020)。這些新工具還可用于在測(cè)試階段動(dòng)態(tài)解碼貝葉斯集成,實(shí)現(xiàn)不同精度等級(jí)或集成規(guī)模下的預(yù)測(cè),從而在精度與計(jì)算之間進(jìn)行權(quán)衡。
此外,在壓縮神經(jīng)網(wǎng)絡(luò)權(quán)重的背景下,一種可行的方法是基于觀測(cè)數(shù)據(jù)獲得后驗(yàn)分布,并將一個(gè)樣本編碼為比特序列發(fā)送給接收方(Havasi 等, 2019)。接收方隨后可以提取該后驗(yàn)樣本,并使用對(duì)應(yīng)的權(quán)重進(jìn)行預(yù)測(cè)。在實(shí)際應(yīng)用中,需要通過近似方法獲取后驗(yàn)、編碼樣本并使用對(duì)應(yīng)權(quán)重進(jìn)行預(yù)測(cè)。盡管這一過程中需要用到近似,但與專注于確定性權(quán)重壓縮的方法相比,該方法在壓縮成本與預(yù)測(cè)質(zhì)量之間取得了令人滿意的平衡。
4.7 其他未來研究方向 貝葉斯遷移學(xué)習(xí)與持續(xù)學(xué)習(xí)
遷移學(xué)習(xí)范式正迅速成為部署深度學(xué)習(xí)模型的標(biāo)準(zhǔn)方式。如第2.3節(jié)所述,BDL(貝葉斯深度學(xué)習(xí))天然適合用于遷移學(xué)習(xí)。其重點(diǎn)不僅在于像傳統(tǒng)深度學(xué)習(xí)那樣傳遞一個(gè)初始化參數(shù);而是可以通過源任務(wù)的知識(shí)來指導(dǎo)下游任務(wù)中最優(yōu)解的形狀和位置(Shwartz-Ziv 等, 2022;Rudner 等, 2022b;2023)。自監(jiān)督學(xué)習(xí)也可用于構(gòu)建具有信息量的先驗(yàn),以支持遷移學(xué)習(xí)(Shwartz-Ziv 等, 2022;Sharma 等, 2023)。
利用其在時(shí)間變化數(shù)據(jù)分布下通過后驗(yàn)更新進(jìn)行高效學(xué)習(xí)的能力,當(dāng)前持續(xù)學(xué)習(xí)的研究探索了整合新信息的方法:一種假設(shè)變化率是連續(xù)的(Nguyen 等, 2018;Chang 等, 2022),另一種則引入用于變化點(diǎn)檢測(cè)的先驗(yàn)(Li 等, 2021)。
概率數(shù)值方法
概率數(shù)值方法(probabilistic numerics;Hennig 等, 2022)將數(shù)值算法視為貝葉斯決策者進(jìn)行研究。由于優(yōu)化和線性代數(shù)等數(shù)值方法顯然是深度學(xué)習(xí)的核心,因此概率數(shù)值方法為增強(qiáng)深度學(xué)習(xí)能力并使其更具貝葉斯特性提供了有趣的前景。例如,目前大型模型的訓(xùn)練常常受限于I/O性能,因此在訓(xùn)練與不確定性量化過程中,對(duì)數(shù)據(jù)加載的主動(dòng)管理變得越來越重要。基于單個(gè)計(jì)算對(duì)BDL后驗(yàn)的影響,對(duì)其所提供的信息進(jìn)行量化與控制的方法正在成為一種有潛力的形式化框架,用于深度訓(xùn)練中的算法數(shù)據(jù)處理(Tatzel 等, 2023),并通過概率數(shù)值線性代數(shù)(Wenger 等, 2022)選擇稀疏但信息豐富的“數(shù)據(jù)視角”。
奇異學(xué)習(xí)理論
奇異學(xué)習(xí)理論(singular learning theory, SLT;Watanabe, 2009)研究貝葉斯損失(如邊緣對(duì)數(shù)似然的近似)與神經(jīng)網(wǎng)絡(luò)損失函數(shù)之間的關(guān)系,其理論基礎(chǔ)來自非平衡統(tǒng)計(jì)力學(xué)。最近的研究已經(jīng)建立了貝葉斯方法與SLT之間的聯(lián)系(Wei & Lau, 2023)。
共形預(yù)測(cè)
在不確定性量化方面,共形預(yù)測(cè)(conformal prediction)作為貝葉斯方法的一種替代方案逐漸興起,并能生成良好校準(zhǔn)的不確定性估計(jì)(Vovk 等, 2005)。深度學(xué)習(xí)模型可用于開發(fā)共形預(yù)測(cè)算法(Meister 等, 2023),反之亦然,共形預(yù)測(cè)方法也可用于量化或校準(zhǔn)深度學(xué)習(xí)模型的不確定性。已有初步研究嘗試將貝葉斯方法引入共形預(yù)測(cè)(Hobbhahn 等, 2022;Murphy, 2023),展現(xiàn)出結(jié)合貝葉斯推理優(yōu)勢(shì)與共形預(yù)測(cè)良好校準(zhǔn)不確定性的協(xié)同潛力。
大型語言模型作為分布對(duì)象
大型語言模型(LLMs)可以靈活地作為任意復(fù)雜程序和工作流中的分布對(duì)象使用。若采取貝葉斯視角,則會(huì)引發(fā)多個(gè)值得探索的問題:當(dāng)多個(gè)LLMs相互作用時(shí),如何執(zhí)行聯(lián)合推理?是否存在有效的方法對(duì)LLMs生成的潛在變量進(jìn)行邊緣化,從而實(shí)現(xiàn)跨這些潛在空間的聯(lián)合學(xué)習(xí)?是否可以采用計(jì)算統(tǒng)計(jì)學(xué)或近似推理工具,對(duì)LLMs進(jìn)行各種形式的推理?是否存在創(chuàng)新方式將小型與大型LLMs協(xié)同使用,以實(shí)現(xiàn)即時(shí)推理的攤銷?
元模型
設(shè)想BDL是否會(huì)重演語言模型的發(fā)展路徑,是一個(gè)引人深思的方向。是否可以在BDL框架下設(shè)想一個(gè)貝葉斯元模型(Bayesian meta-model;Krueger 等, 2017)的發(fā)展?這種元模型類似于語言模型,可針對(duì)多種任務(wù)進(jìn)行微調(diào),在各項(xiàng)任務(wù)上表現(xiàn)出具有競(jìng)爭(zhēng)力的預(yù)測(cè)性能,從而推廣攤銷推理(amortized inference)中的方法(Garnelo 等, 2018;Gordon 等, 2019;Müller 等, 2021)。
序貫決策基準(zhǔn)測(cè)試
標(biāo)準(zhǔn)的圖像分類基準(zhǔn)主要關(guān)注最先進(jìn)的預(yù)測(cè)性能,而在此類任務(wù)中,非貝葉斯深度學(xué)習(xí)通常優(yōu)于BDL。為了更有效地評(píng)估預(yù)測(cè)不確定性,建議將注意力轉(zhuǎn)向更深入的模擬研究或聚焦于序貫學(xué)習(xí)與決策問題的科學(xué)應(yīng)用,例如實(shí)驗(yàn)設(shè)計(jì)、貝葉斯優(yōu)化、主動(dòng)學(xué)習(xí)或上下文賭博機(jī)(bandits)。通過優(yōu)先考慮此類場(chǎng)景中的序貫問題,研究人員和實(shí)踐者可以獲得關(guān)于模型在面對(duì)新數(shù)據(jù)時(shí)泛化能力、在不確定條件下穩(wěn)健性,以及其不確定性估計(jì)被實(shí)際決策者利用效果等方面的深入洞察。
5. 最終總結(jié)
本文表明,現(xiàn)代深度學(xué)習(xí)在面對(duì)多種類型的數(shù)據(jù)、任務(wù)和性能指標(biāo)時(shí),存在一系列持續(xù)存在的倫理、隱私和安全問題。然而,這些問題中的許多都可以在貝葉斯深度學(xué)習(xí)(BDL)框架下得到解決,該框架建立在歷經(jīng)兩個(gè)半世紀(jì)科學(xué)與機(jī)器學(xué)習(xí)發(fā)展所驗(yàn)證的基礎(chǔ)原理之上。盡管仍存在若干技術(shù)挑戰(zhàn),但已經(jīng)展現(xiàn)出一條清晰的發(fā)展路徑:通過結(jié)合創(chuàng)造性與實(shí)用性,開發(fā)出能夠匹配二十一世紀(jì)數(shù)據(jù)、硬件與數(shù)值計(jì)算進(jìn)步的BDL方法,尤其是在大規(guī)模基礎(chǔ)模型的背景下。
在一個(gè)深度學(xué)習(xí)模型無縫融入決策系統(tǒng)的未來,BDL將成為構(gòu)建更加成熟、可靠的人工智能系統(tǒng)的關(guān)鍵基石。
一個(gè)優(yōu)化目標(biāo)函數(shù)(11)的模型被稱為 DKM (深度核機(jī)器),而該目標(biāo)函數(shù)(11)也被稱為 DKM 目標(biāo)函數(shù) 。在極限情況下,DKM 目標(biāo)函數(shù)不依賴于中間特征 Fj,這意味著 DKM 中學(xué)到的表示完全由確定性的 Gram 矩陣 G1,…,Gη 所描述。為了理解 DKM 目標(biāo)函數(shù)的意義,可以注意到其中的似然項(xiàng)鼓勵(lì)數(shù)據(jù)擬合,而 KL 散度項(xiàng)則將模型正則化為趨向 NNGP(Lee 等, 2017;Agrawal 等, 2020)。DKM 中表征學(xué)習(xí)的程度可以通過調(diào)節(jié)參數(shù) ρj來控制。相比之下,NNGP 目標(biāo)函數(shù)(10)中缺乏似然項(xiàng),因此在 NNGP 中無法進(jìn)行表征學(xué)習(xí);其中間 Gram 矩陣是固定的,并且僅依賴于輸入數(shù)據(jù)。
與 DKP 目標(biāo)函數(shù)類似,DKM 目標(biāo)函數(shù)在大規(guī)模數(shù)據(jù)集上優(yōu)化起來計(jì)算上不可行,其復(fù)雜度隨數(shù)據(jù)點(diǎn)數(shù)量呈立方級(jí)增長(zhǎng)。然而,Yang 等(2023a)表明,如果使用全局誘導(dǎo)點(diǎn)方法(global inducing point methods),DKM 目標(biāo)函數(shù)可以在時(shí)間上實(shí)現(xiàn)線性擴(kuò)展。DKMs 已被擴(kuò)展到卷積架構(gòu),在 CIFAR-10 上的表現(xiàn)幾乎與神經(jīng)網(wǎng)絡(luò)相當(dāng)(Milsom 等, 2023)。
B. 診斷、指標(biāo)與基準(zhǔn)測(cè)試
目前,針對(duì)貝葉斯深度學(xué)習(xí)(BDL)需求的收斂性和性能評(píng)估指標(biāo)仍存在不足。開發(fā)這類工具不僅有助于明確 BDL 的目標(biāo),也有助于評(píng)估這些目標(biāo)的實(shí)現(xiàn)進(jìn)展。此外,BDL 社區(qū)在評(píng)估指標(biāo)、數(shù)據(jù)集和基準(zhǔn)測(cè)試的選擇上尚無共識(shí),這反映出在一個(gè)傳統(tǒng)上以頻率學(xué)派視角看待的領(lǐng)域中,難以清晰定義 BDL 的目標(biāo),尤其是在測(cè)試數(shù)據(jù)性能方面。許多通用的貝葉斯診斷與評(píng)估方法都是通過貝葉斯工作流(Bayesian workflow;Gelman 等, 2020)提出的。本附錄討論了對(duì) BDL 最相關(guān)的幾種方法。
參數(shù)空間中的收斂診斷
對(duì)于 SG-MCMC 采樣,收斂性和采樣效率的分析(Gelman 等, 2013;Vehtari 等, 2021)是一個(gè)復(fù)雜問題,目前通常通過預(yù)測(cè)分布的匯總統(tǒng)計(jì)量進(jìn)行較為簡(jiǎn)化的分析來繞過這一難題。更一般地,在高維且多模態(tài)的 BDL 模型設(shè)置下驗(yàn)證推理算法的收斂性并不直觀。針對(duì) BNN 的收斂檢查方法仍有待進(jìn)一步研究。
預(yù)測(cè)空間中的性能指標(biāo)
BDL 和 GP 文獻(xiàn)通常關(guān)注預(yù)測(cè)分布的均值,而忽略了對(duì)其方差的分析。一些常用的性能指標(biāo)用于評(píng)估方差水平,例如通過評(píng)估測(cè)試數(shù)據(jù)的對(duì)數(shù)似然或預(yù)測(cè)熵(Rudner 等, 2022a;2023)。然而,目前尚未有一種系統(tǒng)的方法來刻畫 BDL 推理中的預(yù)測(cè)不確定性(除了二分類問題中廣泛使用的 AUROC 和 AUPRC)。設(shè)定用于評(píng)估認(rèn)知不確定性和偶然不確定性(epistemic 與 aleatoric uncertainty)的指標(biāo)體系仍是阻礙 BDL 發(fā)展的一個(gè)挑戰(zhàn),可能需要建立廣泛接受的 BDL 方法基準(zhǔn)測(cè)試來解決這一問題。
模型誤設(shè)設(shè)置下的性能指標(biāo)
應(yīng)對(duì)分布偏移(distribution shift)與測(cè)試數(shù)據(jù)性能相關(guān)挑戰(zhàn),需要發(fā)展穩(wěn)健的性能指標(biāo)。為了在分布偏移條件下建立 BDL 模型的可靠性,獲得模型性能的概率性保證至關(guān)重要,這就需要更強(qiáng)的泛化界(generalization bounds),例如 PAC-Bayes 框架所提供的邊界(Langford & Shawe-Taylor, 2002;Parrado-Hernandez 等, 2012)。此外,在模型誤設(shè)的情況下,校準(zhǔn)(calibration)的評(píng)估變得尤為關(guān)鍵。創(chuàng)新性技術(shù)如兩階段校準(zhǔn)(two-stage calibration;Guo 等, 2017)、共形預(yù)測(cè)(conformal prediction;Papadopoulos 等, 2007)或其貝葉斯變體(Hobbhahn 等, 2022)分別通過改進(jìn)預(yù)測(cè)概率和量化預(yù)測(cè)不確定性提供了實(shí)用解決方案。這些方法共同促成了在底層假設(shè)可能與真實(shí)數(shù)據(jù)分布不符的情境下,對(duì)模型性能更全面的評(píng)估。
數(shù)據(jù)集的概率處理方式
將數(shù)據(jù)集視為可推理的一等公民(first-class citizen)并對(duì)其進(jìn)行概率建模的方式似乎具有前景。這種概率方法有助于創(chuàng)建更具針對(duì)性和實(shí)用性的數(shù)據(jù)集,從而更好地代表海量數(shù)據(jù)源中所包含的知識(shí),提升訓(xùn)練和維護(hù)大型模型的能力。
C. 軟件可用性
將貝葉斯深度學(xué)習(xí)(BDL)方法應(yīng)用于實(shí)際問題,目前仍比使用現(xiàn)成的標(biāo)準(zhǔn)深度學(xué)習(xí)方案更為復(fù)雜,這限制了BDL在現(xiàn)實(shí)世界中的采納。軟件開發(fā)是鼓勵(lì)深度學(xué)習(xí)從業(yè)者采用貝葉斯方法的關(guān)鍵因素。更廣泛地說,我們需要一些軟件工具,使得實(shí)踐者能夠更輕松地在其項(xiàng)目中嘗試BDL。BDL的使用必須在人力投入方面具備與標(biāo)準(zhǔn)深度學(xué)習(xí)相當(dāng)?shù)母?jìng)爭(zhēng)力。
已有若干努力致力于在深度學(xué)習(xí)框架之上開發(fā)軟件包、庫或概率編程語言(PPLs)。例如:bayesianize
(Ritter 等, 2021)、bnn priors
(Fortuin 等, 2021)、Laplace
(Daxberger 等, 2021a)、Pyro
(Bingham 等, 2019)和 TyXe
(Ritter & Karaletsos, 2022)是在 PyTorch 上構(gòu)建的軟件;TensorFlow Probability 是基于 TensorFlow 構(gòu)建的庫;而 Fortuna(Detommaso 等, 2023)則是基于 JAX 構(gòu)建的庫。來自概率編程社區(qū)的進(jìn)一步貢獻(xiàn)將有助于推動(dòng)這一領(lǐng)域的發(fā)展。
概率編程語言(如 Pyro)在簡(jiǎn)化將概率推理應(yīng)用于深度學(xué)習(xí)方面發(fā)揮著重要作用。事實(shí)上,在 PPL 中對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行概率處理的抽象機(jī)制——如 BDL 庫 TyXe 所實(shí)現(xiàn)的方式——可以簡(jiǎn)化先驗(yàn)和推理技術(shù)在任意神經(jīng)網(wǎng)絡(luò)上的應(yīng)用,這一點(diǎn)已在 TyXe 實(shí)現(xiàn)的多種模型中得到驗(yàn)證。將這些思想擴(kuò)展到涉及大型語言模型(LLMs)以及更定制化的概率結(jié)構(gòu)等現(xiàn)代問題設(shè)置中,將有助于 BDL 在現(xiàn)實(shí)問題中的落地應(yīng)用。
當(dāng)代深度學(xué)習(xí)在各個(gè)維度上都在挑戰(zhàn)規(guī)模極限:包括數(shù)據(jù)集大小、參數(shù)空間和結(jié)構(gòu)化函數(shù)輸出。對(duì)于點(diǎn)估計(jì)任務(wù),社區(qū)已經(jīng)開發(fā)出以數(shù)組為中心的編程范式,支持分片、部分評(píng)估、柯里化等操作。BDL 應(yīng)該能夠借鑒這些思路,發(fā)展出相應(yīng)的軟件系統(tǒng)。
D. 專題發(fā)展
本附錄介紹了一些具有未來潛力的 BDL 專題或?qū)I(yè)化發(fā)展方向,包括面向人機(jī)交互的 BDL、終身學(xué)習(xí)與去中心化學(xué)習(xí)、貝葉斯強(qiáng)化學(xué)習(xí)(RL),以及面向特定領(lǐng)域的 BDL 模型。
人機(jī)交互與可解釋 AI
使 AI 系統(tǒng)能夠溝通并解釋其不確定性,有助于建立信任,并改善 AI 系統(tǒng)與人類之間的互動(dòng)。盡管社區(qū)已做出努力來解釋 DNN 的預(yù)測(cè)結(jié)果,但最近的研究正試圖解釋 BDL 方法的不確定性(Antoran 等, 2021;Bhatt 等, 2021)。理解哪些輸入模式導(dǎo)致了高預(yù)測(cè)不確定性,有助于增強(qiáng)人們對(duì) AI 系統(tǒng)的信任,并揭示訓(xùn)練數(shù)據(jù)稀疏的輸入?yún)^(qū)域。例如,在訓(xùn)練貸款違約預(yù)測(cè)器時(shí),數(shù)據(jù)科學(xué)家可以識(shí)別訓(xùn)練數(shù)據(jù)中代表性不足的人群子群體(按年齡、性別或種族劃分)。從這些群體收集更多數(shù)據(jù),可以為更廣泛的客戶提供更準(zhǔn)確的預(yù)測(cè)。
終身學(xué)習(xí)與去中心化學(xué)習(xí)
當(dāng)前的一個(gè)研究方向是超越傳統(tǒng)的“靜態(tài)”訓(xùn)練-測(cè)試框架,轉(zhuǎn)而關(guān)注“動(dòng)態(tài)”問題,其中測(cè)試集未知。這類問題通常要求較高的預(yù)測(cè)性能、魯棒性和安全性,并面臨基礎(chǔ)設(shè)施的實(shí)際約束。兩個(gè)典型問題是終身學(xué)習(xí)(lifelong learning)和去中心化學(xué)習(xí)(decentralized learning)。聚焦于這些問題有望催生一種新的范式,在這種范式下,貝葉斯思想將在深度學(xué)習(xí)中發(fā)揮作用。
強(qiáng)化學(xué)習(xí)中的高效探索
強(qiáng)化學(xué)習(xí)(RL)是 BDL 已展現(xiàn)出潛力的一個(gè)領(lǐng)域。例如,湯普森采樣(Thompson Sampling, TS)是一種常用于決策的啟發(fā)式方法,其核心思想是“根據(jù)某個(gè)動(dòng)作是最優(yōu)的概率隨機(jī)選擇該動(dòng)作”(Russo 等, 2018)。TS 平衡了探索與利用的關(guān)系,其精確形式需要從貝葉斯后驗(yàn)中采樣。在實(shí)踐中通常使用近似方法,近期研究表明,多個(gè)測(cè)試輸入下的多變量聯(lián)合預(yù)測(cè)分布質(zhì)量對(duì)決策至關(guān)重要(Wen 等, 2021;Osband 等, 2023)。值得注意的是,典型的貝葉斯與非貝葉斯方法通常通過評(píng)估單個(gè)測(cè)試輸入上的邊緣預(yù)測(cè)質(zhì)量來衡量性能,忽略了潛在的依賴關(guān)系(Osband 等, 2022)。雖然深度集成是不確定性建模的常用基線,但基于最后一層拉普拉斯近似的 BDL 方法在多變量聯(lián)合預(yù)測(cè)質(zhì)量方面可以優(yōu)于深度集成(Antoran 等, 2023)。如何在計(jì)算成本與聯(lián)合多變量預(yù)測(cè)質(zhì)量之間取得平衡,是亟需進(jìn)一步研究的方向(Osband 等, 2023)。
另一個(gè) RL 與 BDL 交叉的活躍研究方向是:在給定與環(huán)境交互的數(shù)據(jù)條件下,對(duì)價(jià)值函數(shù)(例如 Q 函數(shù))進(jìn)行準(zhǔn)確的后驗(yàn)近似(Janz 等, 2019)。此設(shè)定不同于典型的貝葉斯監(jiān)督學(xué)習(xí),因?yàn)樵谶@種情況下,價(jià)值函數(shù)的輸出并未直接觀測(cè)到,只有獎(jiǎng)勵(lì)信號(hào)可用。
計(jì)算機(jī)視覺
針對(duì)計(jì)算機(jī)視覺任務(wù)的 BDL 方法也得到了發(fā)展。例如,Kou 等(2024)在擴(kuò)散模型中引入 BDL,構(gòu)建像素級(jí)圖像生成的不確定性估計(jì)器。Goli 等(2024)則使用 BDL 來評(píng)估計(jì)算機(jī)圖形學(xué)背景下預(yù)訓(xùn)練神經(jīng)輻射場(chǎng)的不確定性。未來 BDL 在計(jì)算機(jī)視覺方面的研究可能集中于提升預(yù)測(cè)性能并進(jìn)一步發(fā)展不確定性量化方法。計(jì)算機(jī)視覺與自然語言處理一樣,都是可能推動(dòng) BDL 發(fā)展的重要應(yīng)用場(chǎng)景。
面向特定領(lǐng)域的 BDL 模型
將貝葉斯方法與針對(duì)特定領(lǐng)域定制的深度學(xué)習(xí)模型相結(jié)合,存在大量機(jī)會(huì)。這需要結(jié)合數(shù)據(jù)特征與任務(wù)需求,探索層次模型、遷移學(xué)習(xí)或元學(xué)習(xí)等方法。一個(gè)典型例子是分子屬性預(yù)測(cè)任務(wù):盡管存在多個(gè)不同數(shù)據(jù)集,但每個(gè)數(shù)據(jù)集的數(shù)據(jù)量都有限(Klarner 等, 2023)。可以將學(xué)習(xí)分子特征表示的深度學(xué)習(xí)模型與接收這些表示作為輸入的貝葉斯方法相結(jié)合。后者方法可以在每個(gè)任務(wù)數(shù)據(jù)受限的情況下捕捉不確定性并做出預(yù)測(cè),而深度學(xué)習(xí)特征則可在多個(gè)任務(wù)間共享。
原文鏈接: https://arxiv.org/abs/2402.00809
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.