在機(jī)器學(xué)習(xí)的世界里,有一個(gè)函數(shù)幾乎無(wú)處不在:
Softmax 。它將神經(jīng)網(wǎng)絡(luò)最后一層的打分變成一組概率,讓模型能用 “ 我有多確定 ” 來(lái)回答問(wèn)題。乍看,這只是一個(gè)便利的數(shù)學(xué)小工具;然而當(dāng)我們把目光移向 19 世紀(jì)的統(tǒng)計(jì)力學(xué),再回到 20 世紀(jì)的信息論,再落腳于今天的深度學(xué)習(xí),會(huì)發(fā)現(xiàn) Softmax 是一座跨越三個(gè)時(shí)代的橋梁 —— 其橋墩正是 “ 熵 ” 這一概念。
一、Softmax 是如何工作的?
設(shè)想我們要讓模型判斷圖像中是否有貓。模型在“有貓”“沒(méi)貓”兩個(gè)選項(xiàng)上各給出一個(gè)分?jǐn)?shù),這些分?jǐn)?shù)可能是任何實(shí)數(shù)。Softmax 把它們轉(zhuǎn)換為概率
這個(gè)公式背后的思想非常簡(jiǎn)單而深刻:它利用指數(shù)函數(shù)將任意實(shí)數(shù)映射為正數(shù),并通過(guò)歸一化確保所有概率之和為 1。由于指數(shù)函數(shù)是單調(diào)遞增的,打分高的類(lèi)別將獲得更大的概率,這與人類(lèi)的直覺(jué)——“高分代表更有可能”——完全一致。
溫度參數(shù) T是 Softmax 中一個(gè)極具物理意味的部分。它控制輸出分布的“尖銳程度”:當(dāng) T 很小時(shí)(趨近于 0),Softmax 幾乎將所有概率壓縮到分?jǐn)?shù)最高的類(lèi)別上,表現(xiàn)出一種“貪婪”的決策風(fēng)格;而當(dāng) T 很大時(shí),分?jǐn)?shù)差異被淡化,概率分布變得更加平坦,模型變得“保守”或“探索性更強(qiáng)”。
二、玻爾茲曼分布:Softmax 的物理原型
Softmax 的形式與物理中的玻爾茲曼分布幾乎一模一樣。玻爾茲曼分布描述的是:在某一溫度下,熱平衡系統(tǒng)中粒子出現(xiàn)在不同能級(jí)上的概率。
能量越低的狀態(tài),所對(duì)應(yīng)的概率越高。這正符合我們對(duì)自然系統(tǒng)的基本認(rèn)知:系統(tǒng)傾向于向低能態(tài)演化。在這里,kk 是玻爾茲曼常數(shù),用于將能量與溫度聯(lián)系起來(lái)。
如果我們將 Softmax 中的打分看作“負(fù)能量”,就可以看到它與玻爾茲曼分布在結(jié)構(gòu)上的對(duì)應(yīng)關(guān)系。機(jī)器學(xué)習(xí)中的“高分優(yōu)先”變成了物理世界中的“低能偏好”,一正一負(fù),邏輯一致。
三、熵:統(tǒng)計(jì)力學(xué)與信息論的共同靈魂
熵是連接 Softmax 與玻爾茲曼的核心概念。它同時(shí)存在于兩門(mén)學(xué)科之中,形式幾乎相同:
在統(tǒng)計(jì)物理中,熵衡量系統(tǒng)微觀狀態(tài)的“混亂度”或“無(wú)序程度”;在信息論中,熵衡量一組概率分布的不確定性,也就是在進(jìn)行最優(yōu)編碼時(shí)的“最低碼長(zhǎng)期望”。
1957 年,E.T. Jaynes 提出了“最大熵原理”:在只有部分信息(比如平均能量)約束的情況下,我們應(yīng)當(dāng)選取熵最大的概率分布,因?yàn)樗诓灰腩~外假設(shè)的前提下最大限度地保留了不確定性。這種觀點(diǎn)把統(tǒng)計(jì)物理從一個(gè)經(jīng)驗(yàn)性的學(xué)科轉(zhuǎn)化為信息推理的分支。
四、Softmax 與最大熵的隱秘聯(lián)系
1 為什么“最大熵”也會(huì)把我們帶到 Softmax?
Softmax并不僅是一個(gè)數(shù)學(xué)變換,它其實(shí)就是最大熵原理在“已知期望打分”這一約束下的最優(yōu)解。換句話說(shuō),如果我們知道模型打出的分?jǐn)?shù),并要求最終概率分布 滿足
概率歸一化:
給定平均打分:
那么,在所有滿足這兩個(gè)條件的概率分布中,Softmax是熵最大的那一個(gè)。
數(shù)學(xué)上,我們通過(guò)極值化下列函數(shù)求解:
對(duì) 求導(dǎo)數(shù)并令其為零,我們就會(huì)發(fā)現(xiàn):
這正是 Softmax 的形式。如果我們將,就可以解釋 T 為一種溫度參數(shù),用來(lái)調(diào)控分布的“銳利程度”。
2 Softmax 是指數(shù)族分布的典范成員
統(tǒng)計(jì)學(xué)中有一個(gè)重要概念叫做“指數(shù)族分布”(Exponential Family)。所有滿足一定約束條件、最大化熵的分布都會(huì)屬于這個(gè)族。Softmax 恰好是當(dāng)你知道分?jǐn)?shù)期望(或?qū)?shù)似然)時(shí),推導(dǎo)出來(lái)的最簡(jiǎn)指數(shù)族模型之一。
這意味著,Softmax 并不是偶然選出來(lái)的;它是一個(gè)“在最小前提下符合推斷原則”的自然選擇。
3交叉熵訓(xùn)練 = 最小化“多余熵” = 逼近熱平衡
在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中,我們常用的目標(biāo)函數(shù)是交叉熵:
它可以被拆解為兩部分:
其中第一項(xiàng)是數(shù)據(jù)分布本身的熵,不依賴(lài)于模型參數(shù);第二項(xiàng)是Kullback–Leibler 散度,衡量模型分布 q 偏離真實(shí)分布 p 的程度。
KL散度在統(tǒng)計(jì)力學(xué)中對(duì)應(yīng)的是系統(tǒng)的“多余自由能”,即系統(tǒng)當(dāng)前狀態(tài)與平衡態(tài)之間的“距離”。因此,訓(xùn)練神經(jīng)網(wǎng)絡(luò)、最小化交叉熵,其實(shí)就是一個(gè)將系統(tǒng)逐步推進(jìn)到熱平衡的過(guò)程。
4最大熵與最小自由能的雙面性
在熱力學(xué)中,系統(tǒng)自發(fā)演化的方向是自由能最小。在信息論中,系統(tǒng)推斷的目標(biāo)是熵最大。表面上看,這兩者相互矛盾,實(shí)則互為鏡像:
保持平均能量恒定時(shí),最大熵狀態(tài)對(duì)應(yīng)最小自由能。
保持分類(lèi)標(biāo)簽或輸出約束時(shí),最小交叉熵對(duì)應(yīng)最大推斷熵。
這種“對(duì)偶關(guān)系”說(shuō)明:Softmax 不僅是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的模型輸出層,它還內(nèi)嵌了關(guān)于如何在不確定性中做出最合理決策的深刻哲學(xué)。
五、溫度、探索與模擬退火
Softmax 的溫度參數(shù)并不是純粹的數(shù)學(xué)技巧,它源自物理中的“模擬退火”過(guò)程。模擬退火是一種優(yōu)化算法,通過(guò)模擬粒子在高溫下的隨機(jī)運(yùn)動(dòng),幫助系統(tǒng)逃出局部最優(yōu),然后逐步降溫,使其最終落入全局最優(yōu)解附近。
同樣,在機(jī)器學(xué)習(xí)中,高溫 Softmax 會(huì)鼓勵(lì)模型更廣泛地探索可能性,而低溫 Softmax 會(huì)令模型更加堅(jiān)定地做出選擇。在強(qiáng)化學(xué)習(xí)、序列生成、策略搜索等任務(wù)中,溫度控制成為了一種重要的策略參數(shù)。
六、結(jié)語(yǔ):從粒子到比特,從能量到概率
Softmax 的普及并非偶然,它是一種讓模型“在已知約束下輸出信息最少、卻又最合理猜測(cè)”的機(jī)制。它借來(lái)了玻爾茲曼分布的外衣,也繼承了最大熵原理的靈魂。在信息缺乏時(shí),它選擇最大化混亂;在數(shù)據(jù)約束到來(lái)時(shí),它又能迅速收斂。于是,一段跨越百年的學(xué)術(shù)脈絡(luò)終在這一行指數(shù)函數(shù)中匯流——
統(tǒng)計(jì)力學(xué)告訴我們:熵決定物質(zhì)運(yùn)動(dòng);信息論告訴我們:熵決定知識(shí)更新;深度學(xué)習(xí)告訴我們:熵還能驅(qū)動(dòng)智能。
在模型最后一次將分?jǐn)?shù)變成概率的那一刻,Softmax 讓“比特”與“粒子”說(shuō)同一種語(yǔ)言。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.