概率分布可以理解為是一個描述可能結果的“地圖”,告訴你某個結果發(fā)生的可能性有多大,幫你看清楚在一堆可能性中哪些結果更常見,哪些結果比較少見。
舉個例子:你平時點的外賣,通常會在30分鐘左右送到,偶爾也會更快或更慢。假設我們畫出你歷史上點過的外賣的送達時間概率分布圖。圖中顯示:大多數(shù)的送達時間集中在平均值附近(約30分鐘),極少數(shù)時候還會遠早于或遠超預期時間。(比如極端天氣、或是小哥在途中見義勇為…)
圖中展示的就是一個典型的正態(tài)分布。概率分布告訴我們,在一系列結果的可能性中,哪些結果更常見,哪些結果更少見。
這就是概率分布的概念——展示某種事件出現(xiàn)的可能性大小。
理解概率分布可以幫助我們在各種隨機事件中找到規(guī)律,在不確定性中做出更好的預估和決策。比如在統(tǒng)計分析時,根據(jù)數(shù)據(jù)分布選擇適當?shù)募僭O檢驗方法、在金融和保險市場通過了解數(shù)據(jù)的分布來評估和管理風險等等。
接下來我們一起看看幾種日常生活中最常見的概率分布。
01
正態(tài)分布 (Normal Distribution)
這種對稱的鐘形曲線應該很眼熟了,它的特點是中間最高,兩邊逐漸降低。這就是我們身邊最為常見的正態(tài)分布(也稱高斯分布)。
正態(tài)分布代表了一種普遍的規(guī)律:大多數(shù)事物都集中在一個平均值附近,越偏離這個中心的極端事件越相對稀少。比如人群的身高、體重、智商等特征往往接近正態(tài)分布。
英國著名的統(tǒng)計學家高爾頓設計了釘板實驗來形象地展示正態(tài)分布:
想象一個木板上有很多小釘子,從頂部放下的小球會隨機向左或向右移動,最終落在底部的容器里。隨著小球數(shù)量增多,大多數(shù)小球會落在中間的容器里,少數(shù)會落到兩邊,形成一個“鐘形曲線”,即正態(tài)分布。
這表明,雖然每個小球的路徑是隨機的,但結果并不完全無序。因為左右移動的概率相等,大多數(shù)小球最終會集中在中間位置。正態(tài)分布展示了這種現(xiàn)象—— 大多數(shù)結果集中在平均值附近,極端情況較少出現(xiàn)。
這大概也是自然的平衡狀態(tài)的一種反映:萬事萬物趨于中庸。
為了更好地理解各種概率分布,我們經(jīng)常使用圖表來直觀地展示概率密度函數(shù)(PDF,通常用來展示連續(xù)數(shù)據(jù)的分布)或概率質量函數(shù)(PMF,通常展示離散數(shù)據(jù)的分布)來觀察不同分布的特性,比如數(shù)據(jù)集中在什么位置以及數(shù)據(jù)的分散程度。
正態(tài)分布的概率密度函數(shù)(PDF)由以下公式給出:
其中,μ是平均值(mean), σ是標準差(standard deviation)。
曲線的形狀完全由均值μ和標準差σ控制。(以下展示了不同均值和方差的分布曲線)
68-95-99.7規(guī)則
在正態(tài)分布中:
約68%的數(shù)據(jù)落在平均值加減一個標準差(μ±σ)范圍內(nèi);
約95%的數(shù)據(jù)落在平均值加減兩個標準差(μ±2σ)范圍內(nèi);
約99.7%的數(shù)據(jù)落在平均值加減三個標準差(μ±3σ)范圍內(nèi)
在生產(chǎn)流程中,68-95-99.7規(guī)則經(jīng)常用來判斷流程穩(wěn)定性。
如果某個部件的目標值偏離了平均值超過三個標準差,說明生產(chǎn)過程出了問題。舉個例子,假設我們在生產(chǎn)線上罐裝飲料,每罐飲料的目標容量是500ml,實際生產(chǎn)過程中存在一定微小誤差。假設這些容量的誤差服從正態(tài)分布:均值為500ml,標準差為5ml。
也就是說,當我們隨機抽取一罐飲料,有68%的概率這罐飲料的容量會在500±5ml(495ml到505ml)之間。
通過采樣和分析,如果大部分產(chǎn)品的容量都落在95%范圍內(nèi)(490ml到510ml),說明生產(chǎn)過程是穩(wěn)定和可控的。反之如果有較多產(chǎn)品超出這個范圍,就需要重新校準設備或調整流程。
中心極限定理(Central Limit Theorem)
中心極限定理是一條重要的統(tǒng)計學原則:當我們從總體中隨機抽取多個獨立且相同下的樣本,這些樣本平均值的分布會趨近于正態(tài)分布。
也就是說,不管原始數(shù)據(jù)的分布如何,隨著樣本數(shù)量的積累,最終都會趨向于一種有序和可預測性(聽起來是不是有點像“無論過程多么混亂,最后總會歸于平靜”的人生哲學)
比如賭彩公司的盈利機制就利用了中心極限定理,保證即使彩票中獎分布是離散的或不規(guī)則的,累加起來的總獎金分布卻是平滑的正態(tài)分布,讓彩票公司能夠在面對小概率事件(如頭獎爆發(fā)),整體上依然能夠維持盈利。
02
伯努利分布(Bernoulli Distribution)
伯努利分布(Bernoulli Distribution)描述只有兩個可能結果的隨機試驗。
拋硬幣就是一個典型的伯努利試驗,它的結果服從伯努利分布:每次拋擲硬幣時,結果只有兩種可能——正面或反面。伯努利分布也是所有二項分布的基礎。
伯努利分布的數(shù)學表達:
其中p 是成功的概率(0 ≤ p ≤ 1)。
伯努利分布在許多實際問題中都有應用,尤其是在那些可以簡化為“成功-失敗”的二元結果場景中:比如在生產(chǎn)線上檢測產(chǎn)品質量,每個產(chǎn)品要么合格(成功)要么不合格(失敗),每次檢測就是一次伯努利試驗。
03
二項分布(Binomial Distribution)
如前面所說,每次拋硬幣都是獨立的伯努利實驗。那么二項分布就可以理解為反復拋硬幣,可以看作是多次伯努利試驗的結果。
二項分布(Binomial Distribution)是描述 n次獨立相同的伯努利試驗中成功次數(shù)的分布。
二項分布的概率質量函數(shù)(PMF)可以用來計算在n次試驗中成功k次的概率,數(shù)學表達式為:
二項分布的參數(shù)包括實驗次數(shù) n和每次實驗成功的概率p。
舉個例子,我們可以用伯努利分布描述用戶是否點擊廣告的情況。某業(yè)務投放了一次廣告給某個用戶,用戶的點擊行為可以看作是一個伯努利試驗(要么點擊,要么不點擊),該用戶的點擊行為服從伯努利分布,那么在n次廣告的投放中(或是n個用戶的點擊事件),這些點擊次數(shù)服從二項分布。
又比如某工廠每天生產(chǎn)100個產(chǎn)品,每個產(chǎn)品有5%的概率是次品,二項分布可以描述每天出現(xiàn)次品的數(shù)量分布;籃球運動員在一次訓練中進行20次投籃,每次投中的概率為0.8,二項分布可以描述他投中次數(shù)的分布情況。
04
泊松分布(Poisson Distribution)
假設你注意到每天早高峰去咖啡店的顧客數(shù)量是隨機的,有時候會突然來一大群人,有時候則沒人光顧。
你開始好奇,在8點到9點這一小時內(nèi)有25位顧客到達的概率是多少?這時泊松分布就能很好地回答這個問題。
泊松分布用于描述“在一定時間內(nèi)發(fā)生了多少次事件”,特別適用于分析那些發(fā)生時間隨機且獨立的事件,比如每小時有多少輛車通過某個路口。
泊松分布在現(xiàn)實中有廣泛的應用,尤其是那些涉及隨機事件發(fā)生次數(shù)的場景,比如:
電話客服中心的呼叫量:如果某個客服中心平均每小時接到5個電話,那么在某個小時內(nèi)接到k個電話的概率可以用泊松分布來估算;
交通事故的發(fā)生次數(shù):可以用泊松分布來預測下個月某路段可能發(fā)生的事故次數(shù);
罕見事件的發(fā)生:假設一家醫(yī)院每天平均接收3個急診病例,那么也可以用泊松分布來計算某天接收到2個或4個急診病例的概率。
泊松分布的概率質量函數(shù)(PMF)定義如下:
其中X是隨機變量,表示事件發(fā)生的次數(shù)。λ 是單位時間內(nèi)事件發(fā)生的平均次數(shù)(即平均到達率)
隨著λ值的增加,事件發(fā)生的次數(shù)的分布會向右移動,且分布的峰值也逐漸變寬。這意味著事件發(fā)生的次數(shù)增多且有更大的分散性。例如,當λ=9時,事件發(fā)生次數(shù)從0到10都有較大的概率,并且分布曲線的尾部比較長。
泊松分布廣泛應用在資源配置優(yōu)化方面的問題。比如呼叫中心在不同時間段接到的電話數(shù)量可能會有很大波動。管理者可以根據(jù)泊松分布的概率預測,判斷在高峰期可能出現(xiàn)的電話需求來合理安排接線員的數(shù)量。
05
指數(shù)分布(ExponentialDistribution)
在統(tǒng)計學中,指數(shù)分布是一種重要的概率分布,用于描述時間間隔或事件間隔的概率。例如,假設你在某個公交車站等待公交車,公交車到達的時間間隔可以用指數(shù)分布來描述。指數(shù)分布廣泛應用在生物學、工程學、物理學和金融學等領域。
回憶前面講的泊松分布 ——
泊松分布描述的是在一個固定時間段內(nèi)某個事件發(fā)生的次數(shù)。它關注的是事件的頻率,指數(shù)分布描述的是兩個事件之間的時間間隔。它關注的是事件的間隔時間。
簡單來說,泊松分布是用來解決“在給定時間內(nèi),事件發(fā)生了多少次”的問題。比如在1周內(nèi)接到多少次詐騙電話?在1年內(nèi),某個路段上發(fā)生了多少次交通事故?
指數(shù)分布則用來解決“兩個連續(xù)事件之間的時間間隔有多長”的問題。比如兩個電話呼叫之間的時間間隔是多少?兩次交通事故之間的時間間隔有多長?
概率密度函數(shù)(PDF):
其中參數(shù)λ 代表著平均發(fā)生率。
指數(shù)分布經(jīng)常用于運籌優(yōu)化。比如通過使用排隊論中的指數(shù)分布模型,銀行可以分析客戶到達的情況以及平均等待時長,了解系統(tǒng)負載情況從而調整服務資源。
06
帕累托分布(Pareto Distribution)
舉個例子,我日常80%的時間都在穿衣柜中20%的那幾件衣服…這其實就是我們熟知的帕累托原則!(28原則)
28原則是指在很多現(xiàn)象中,少數(shù)重要的因素(約20%)往往貢獻了大多數(shù)的結果(約80%)。這個概念最先由意大利經(jīng)濟學家維爾弗雷多·帕累托(Vilfredo Pareto)提出。他發(fā)現(xiàn),80%的財富掌握在20%的人手中,引出了帕累托分布。
帕累托分布為28原則提供了數(shù)學基礎和理論支持。
帕累托分布還具有長尾效應,也就是說雖然大多數(shù)的事件或結果集中在“頭部”(比如熱門商品或常見事件),但還有一個很長的“尾部”,包含了大量的低頻事件或小眾商品。這些小眾的部分雖然單個來看不太顯眼,但總覆蓋面也相當可觀。
帕累托分布的概率密度函數(shù)(PDF):
其中:x是隨機變量,表示某一資源的大小(如財富、收入)Xm是最小可能值(通常大于0);α是形狀參數(shù),決定分布的形狀。
帕累托分布的期望值和方差取決于形狀參數(shù)α的值。
帕累托分布幫助我們在分析和預測不均衡分布現(xiàn)象時更加準確,從而優(yōu)化資源分配和業(yè)務決策。
以上就是6個數(shù)據(jù)分析中常見的概率分布。
數(shù)學家皮埃爾-西蒙·拉普拉斯說過:“概率論是常識的延伸。”看似隨機的現(xiàn)象背后都有著一定的模式。概率分布的作用正是體現(xiàn)現(xiàn)實世界的運行規(guī)律,讓我們能更理性地面對不確定性。
參考文獻
[1]Towards Data Science.“Waiting Line Models.” Towards Data Science, 2024, https://towardsdatascience.com/waiting-line-models-d65ac918b26c.
[2]Padilla, José. “Dice, Dragons and Getting Closer to Normal Distribution: The Centra Limit Theorem.” Minitab Blog, Minitab, 27 June 2020. https://blog.minitab.com/dice-dragons-and-getting-closer-to-normal-distribution
[3]Durrett, Richard. Probability: Theory and Examples. Cambridge University Press, 2019.
[4]Weisstein, Eric W. “Normal Distribution.” MathWorld—A Wolfram Web Resource.
[5]Wikipedia Contributors. “Binomial Distribution.” Wikipedia, The Free Encyclopedia. Available at: https://en.wikipedia.org/wiki/Binomial_distribution
(參考文獻可上下滑動查看)
來源:DataCafe
編輯:瀟瀟雨歇
轉載內(nèi)容僅代表作者觀點
不代表中科院物理所立場
如需轉載請聯(lián)系原公眾號
1.2.
3.
4.
5.
6.
7.
8.
9.
10.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.