航空作家兼研究員大衛(wèi)·諾蘭的一項研究表明,坐在商用飛機的后排在空難中會增加幸存的概率。
研究認(rèn)為每個座位的幸存概率是不一樣的,因此擬合優(yōu)度檢驗會拒絕原假設(shè),即每個座位的乘客幸存率都相等。根據(jù) 1971 年以后發(fā)生的 20 起商用飛機墜機的分析結(jié)果,商務(wù)艙或頭等艙的幸存率為 49%,經(jīng)濟艙中間或者前面的幸存率為 56%,而經(jīng)濟艙尾部的幸存率為 69%。
大衛(wèi)·諾蘭表示他并不會刻意坐在機艙的尾部,因為發(fā)生空難的可能性很低。他更喜歡靠窗的座位。
頻數(shù)分布表
核心概念:在處理大型數(shù)據(jù)集時,頻數(shù)分布表(或稱為頻數(shù)表)通常有助于整理和匯總數(shù)據(jù)。頻數(shù)分布表能幫助我們理解數(shù)據(jù)集分布的特點。此外,構(gòu)建頻數(shù)分布表通常是構(gòu)建直方圖的第一步,而直方圖是用于數(shù)據(jù)分布可視化的圖表。
頻數(shù)分布表(或頻數(shù)表)是通過展示數(shù)據(jù)類別(或組)以及每個類別中數(shù)據(jù)值的數(shù)量(頻數(shù)),來顯示數(shù)據(jù)是如何在不同類別(或組)間劃分的。
構(gòu)建頻數(shù)分布表的流程
構(gòu)建頻數(shù)分布表的目的是:①匯總大型數(shù)據(jù)集;②查看數(shù)據(jù)分布;③識別異常值;④為構(gòu)建圖
表(如直方圖)提供基礎(chǔ)。頻數(shù)分布表可以使用統(tǒng)計軟件生成,也可以通過如下步驟手動構(gòu)建。
1. 選擇分組的數(shù)目,通常在 5 到 20 之間。組數(shù)的選擇有時需要考慮使用近似值是否方便(根據(jù)“斯透奇斯規(guī)則”,最佳組數(shù)的選擇可以依據(jù) 1+(logn)/(log2) 近似,其中 n 是數(shù)據(jù)的個數(shù)。
2. 計算組距:
對結(jié)果取整,以便得到一個方便使用的數(shù)字(通常向上取整)。使用特定的組數(shù)不是最為關(guān)鍵的,而更需要關(guān)注的是通過更改組數(shù)得到方便使用的組上下限。
3. 選擇最小值或低于最小值的某一個較為方便使用的值作為第一組的下限。
4. 通過第一組的下限與組距,得到其他組的下限(用第一組的下限加組距得到第二組的下限;用第二組的下限加組距得到第三組的下限,以此類推)。
5. 在一個數(shù)列中列出所有組的下限,然后確定并列出所有組的上限。
6. 求得每組的頻數(shù)。
在構(gòu)建頻數(shù)分布表時,要確保各組之間不重疊,即每個原始值只屬于其中一個組。即便是那些頻數(shù)為 0 的組,也要包含在內(nèi)進行統(tǒng)計。另外,盡可能對所有的組使用相同的寬度,但有時也不可避免地需要使用開區(qū)間,如“65 歲或以上”。
空難原因頻數(shù)分布表
表 2-3 中列出了從 1960 年到最近幾年有關(guān)空難原因的數(shù)據(jù)。數(shù)據(jù)是名目測量尺度下的分類數(shù)據(jù),但也可以創(chuàng)建如表 2-3 所示的頻數(shù)分布表。可以看到,飛行員失誤是空難的主要原因。這些信息有助于美國聯(lián)邦航空管理局(Federal Aviation Administration)等監(jiān)管機構(gòu)制定減少此類事故的策略。
用帕累托圖展示空難原因
圖2-8展示了基于表2-3的帕累托圖。圖 2-8 和表 2-3 使用了相同的數(shù)據(jù),但圖 2-8 能讓讀者更加鮮明地看到,飛行員失誤是空難的最重要原因。另外,圖 2-8 并沒有嚴(yán)格遵循長條高度從左到右依次遞減的要求,而是將“其他原因”的組放置在圖的最右邊起到可視化的效果。
概率在統(tǒng)計學(xué)中的角色
概率在假設(shè)檢驗中起到了關(guān)鍵作用。統(tǒng)計學(xué)家根據(jù)數(shù)據(jù)做決策:根據(jù)低概率排除偶然發(fā)生的可能性。請看以下關(guān)于概率的作用和統(tǒng)計學(xué)家思維方式的例子。
概率論基礎(chǔ)
事件是一個過程的結(jié)果或結(jié)果的任意集合。簡單事件是不能進一步拆分的結(jié)果或事件。一個過程的樣本空間由所有可能的簡單事件組成。也就是說,樣本空間由所有不能進一步拆分的結(jié)果組成。
計算事件概率的三種常見方法
概率的數(shù)學(xué)符號
P,表示概率。
A、B、C,表示具體事件。
P(A),表示“事件 A 發(fā)生的概率”。
以下是三種計算概率 0 ≤ P(A) ≤ 1 的方法。圖 4-2 展示了概率的可能值以及對可能性的描述。
1. 相對頻數(shù)法:為了確定某類型車輛在一年內(nèi)發(fā)生車禍的概率,我們可以檢查過去的結(jié)果——一年內(nèi)正在使用的該類型車輛的數(shù)量和該類型車輛的車禍數(shù)量;車禍車輛數(shù)與總車輛數(shù)的比率即為該概率。最近一年,此概率的結(jié)果是 0.0480。
2. 經(jīng)典計算法:假設(shè)某彩票游戲的規(guī)則是從1~60 個數(shù)字中選擇 6 個不同的數(shù)字,且每種組合出現(xiàn)的概率都是相等的。現(xiàn)在需要確定中頭獎的概率。使用 4-4 節(jié)展示的方法可以發(fā)現(xiàn),中頭獎的概率是 0.0000000200。
3. 主觀估計法:假設(shè)需要估計被困在電梯里的概率,經(jīng)驗告訴我們,這個概率相當(dāng)?shù)汀R虼司凸烙嬎鼮?0.001。
相對頻數(shù)法
任意給定一個航班,試求其發(fā)生空難的概率。假設(shè)在最近的一年中,大約有 3900 萬個商業(yè)航班,其中發(fā)生空難 16 次。
解答:使用相對頻數(shù)法,計算如下:
因為兩種結(jié)果(空難與沒有空難)的可能性是不等的,所以不能使用經(jīng)典計算法。在沒有歷史數(shù)據(jù)的情況下,可以使用主觀估計法。
用百分比表示概率?
從數(shù)學(xué)上講,概率值 0.25 等于 25%,但是一般使用分?jǐn)?shù)和小數(shù)而非百分比是有原因的。在進行概率值計算時(如 0.25×0.25),雖然對小數(shù)的處理更為容易,但可能會導(dǎo)致很大的計算問題。專業(yè)期刊或統(tǒng)計軟件幾乎都用小數(shù)來表示概率。
使用相對頻數(shù)法所得的概率是一個近似值,而非確切值。但隨著觀測次數(shù)的增加,相應(yīng)的近似概率趨于接近實際概率。這個性質(zhì)通常被稱為大數(shù)定律。
大數(shù)定律:多次重復(fù)某個過程,事件的相對頻數(shù)概率趨于接近實際概率。
大數(shù)定律告訴我們,相對頻數(shù)法往往隨著觀測次數(shù)的增加而會得到更好的概率估計值。該定律反映了一個符合常識的簡單概念:僅基于少數(shù)幾次試驗的概率估計可能會有很大的偏差,但如果進行了大量試驗,則估計往往會更加準(zhǔn)確。
如何理解“可能”?
我們如何解讀“可能”、“不可能”或“極不可能”這些詞語?美國聯(lián)邦航空管理局(FAA)對這些詞語的解讀如下。
可能:每小時飛行中發(fā)生該類事件的概率數(shù)量級大于或等于 0.00001。在每架飛機的使用壽命中,這樣的事件預(yù)計會發(fā)生幾次。
不可能:在 0.00001 或更小的數(shù)量級上的概率。此類事件預(yù)計不會在某一機型的單架飛機的總使用壽命內(nèi)發(fā)生,但可能在某一機型的所有飛機的總使用壽命內(nèi)發(fā)生。
極不可能:在 0.000000001 或更小的數(shù)量級上的概率。這樣的事件是幾乎不可能發(fā)生的,可以等同為沒有發(fā)生過。
本書特色
《基礎(chǔ)統(tǒng)計學(xué)(第14版)(雙色)》一書通俗易懂、妙趣橫生、案例精彩、數(shù)據(jù)豐富,且連續(xù)25年在美國統(tǒng)計類教材排名第一。書中包括統(tǒng)計學(xué)在各個學(xué)科領(lǐng)域中的關(guān)鍵應(yīng)用,不限于自然科學(xué)、經(jīng)濟學(xué)、法學(xué)等,任何專業(yè)的學(xué)生都能在本書中找到與未來工作相關(guān)的實際應(yīng)用。作者花費數(shù)千小時收集的真實數(shù)據(jù)集,配套200多個案例場景生動講解知識點應(yīng)用。希望每一位學(xué)習(xí)統(tǒng)計學(xué)的小伙伴來都擁有這本案頭寶典。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.