航空作家兼研究員大衛·諾蘭的一項研究表明,坐在商用飛機的后排在空難中會增加幸存的概率。
研究認為每個座位的幸存概率是不一樣的,因此擬合優度檢驗會拒絕原假設,即每個座位的乘客幸存率都相等。根據 1971 年以后發生的 20 起商用飛機墜機的分析結果,商務艙或頭等艙的幸存率為 49%,經濟艙中間或者前面的幸存率為 56%,而經濟艙尾部的幸存率為 69%。
大衛·諾蘭表示他并不會刻意坐在機艙的尾部,因為發生空難的可能性很低。他更喜歡靠窗的座位。
頻數分布表
核心概念:在處理大型數據集時,頻數分布表(或稱為頻數表)通常有助于整理和匯總數據。頻數分布表能幫助我們理解數據集分布的特點。此外,構建頻數分布表通常是構建直方圖的第一步,而直方圖是用于數據分布可視化的圖表。
頻數分布表(或頻數表)是通過展示數據類別(或組)以及每個類別中數據值的數量(頻數),來顯示數據是如何在不同類別(或組)間劃分的。
構建頻數分布表的流程
構建頻數分布表的目的是:①匯總大型數據集;②查看數據分布;③識別異常值;④為構建圖
表(如直方圖)提供基礎。頻數分布表可以使用統計軟件生成,也可以通過如下步驟手動構建。
1. 選擇分組的數目,通常在 5 到 20 之間。組數的選擇有時需要考慮使用近似值是否方便(根據“斯透奇斯規則”,最佳組數的選擇可以依據 1+(logn)/(log2) 近似,其中 n 是數據的個數。
2. 計算組距:
對結果取整,以便得到一個方便使用的數字(通常向上取整)。使用特定的組數不是最為關鍵的,而更需要關注的是通過更改組數得到方便使用的組上下限。
3. 選擇最小值或低于最小值的某一個較為方便使用的值作為第一組的下限。
4. 通過第一組的下限與組距,得到其他組的下限(用第一組的下限加組距得到第二組的下限;用第二組的下限加組距得到第三組的下限,以此類推)。
5. 在一個數列中列出所有組的下限,然后確定并列出所有組的上限。
6. 求得每組的頻數。
在構建頻數分布表時,要確保各組之間不重疊,即每個原始值只屬于其中一個組。即便是那些頻數為 0 的組,也要包含在內進行統計。另外,盡可能對所有的組使用相同的寬度,但有時也不可避免地需要使用開區間,如“65 歲或以上”。
空難原因頻數分布表
表 2-3 中列出了從 1960 年到最近幾年有關空難原因的數據。數據是名目測量尺度下的分類數據,但也可以創建如表 2-3 所示的頻數分布表。可以看到,飛行員失誤是空難的主要原因。這些信息有助于美國聯邦航空管理局(Federal Aviation Administration)等監管機構制定減少此類事故的策略。
用帕累托圖展示空難原因
圖2-8展示了基于表2-3的帕累托圖。圖 2-8 和表 2-3 使用了相同的數據,但圖 2-8 能讓讀者更加鮮明地看到,飛行員失誤是空難的最重要原因。另外,圖 2-8 并沒有嚴格遵循長條高度從左到右依次遞減的要求,而是將“其他原因”的組放置在圖的最右邊起到可視化的效果。
概率在統計學中的角色
概率在假設檢驗中起到了關鍵作用。統計學家根據數據做決策:根據低概率排除偶然發生的可能性。請看以下關于概率的作用和統計學家思維方式的例子。
概率論基礎
事件是一個過程的結果或結果的任意集合。簡單事件是不能進一步拆分的結果或事件。一個過程的樣本空間由所有可能的簡單事件組成。也就是說,樣本空間由所有不能進一步拆分的結果組成。
計算事件概率的三種常見方法
概率的數學符號
P,表示概率。
A、B、C,表示具體事件。
P(A),表示“事件 A 發生的概率”。
以下是三種計算概率 0 ≤ P(A) ≤ 1 的方法。圖 4-2 展示了概率的可能值以及對可能性的描述。
1. 相對頻數法:為了確定某類型車輛在一年內發生車禍的概率,我們可以檢查過去的結果——一年內正在使用的該類型車輛的數量和該類型車輛的車禍數量;車禍車輛數與總車輛數的比率即為該概率。最近一年,此概率的結果是 0.0480。
2. 經典計算法:假設某彩票游戲的規則是從1~60 個數字中選擇 6 個不同的數字,且每種組合出現的概率都是相等的。現在需要確定中頭獎的概率。使用 4-4 節展示的方法可以發現,中頭獎的概率是 0.0000000200。
3. 主觀估計法:假設需要估計被困在電梯里的概率,經驗告訴我們,這個概率相當低。因此就估計它為 0.001。
相對頻數法
任意給定一個航班,試求其發生空難的概率。假設在最近的一年中,大約有 3900 萬個商業航班,其中發生空難 16 次。
解答:使用相對頻數法,計算如下:
因為兩種結果(空難與沒有空難)的可能性是不等的,所以不能使用經典計算法。在沒有歷史數據的情況下,可以使用主觀估計法。
用百分比表示概率?
從數學上講,概率值 0.25 等于 25%,但是一般使用分數和小數而非百分比是有原因的。在進行概率值計算時(如 0.25×0.25),雖然對小數的處理更為容易,但可能會導致很大的計算問題。專業期刊或統計軟件幾乎都用小數來表示概率。
使用相對頻數法所得的概率是一個近似值,而非確切值。但隨著觀測次數的增加,相應的近似概率趨于接近實際概率。這個性質通常被稱為大數定律。
大數定律:多次重復某個過程,事件的相對頻數概率趨于接近實際概率。
大數定律告訴我們,相對頻數法往往隨著觀測次數的增加而會得到更好的概率估計值。該定律反映了一個符合常識的簡單概念:僅基于少數幾次試驗的概率估計可能會有很大的偏差,但如果進行了大量試驗,則估計往往會更加準確。
如何理解“可能”?
我們如何解讀“可能”、“不可能”或“極不可能”這些詞語?美國聯邦航空管理局(FAA)對這些詞語的解讀如下。
可能:每小時飛行中發生該類事件的概率數量級大于或等于 0.00001。在每架飛機的使用壽命中,這樣的事件預計會發生幾次。
不可能:在 0.00001 或更小的數量級上的概率。此類事件預計不會在某一機型的單架飛機的總使用壽命內發生,但可能在某一機型的所有飛機的總使用壽命內發生。
極不可能:在 0.000000001 或更小的數量級上的概率。這樣的事件是幾乎不可能發生的,可以等同為沒有發生過。
本書特色
《基礎統計學(第14版)(雙色)》一書通俗易懂、妙趣橫生、案例精彩、數據豐富,且連續25年在美國統計類教材排名第一。書中包括統計學在各個學科領域中的關鍵應用,不限于自然科學、經濟學、法學等,任何專業的學生都能在本書中找到與未來工作相關的實際應用。作者花費數千小時收集的真實數據集,配套200多個案例場景生動講解知識點應用。希望每一位學習統計學的小伙伴來都擁有這本案頭寶典。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.