置信區(qū)間反映的是“樣本均值”這個統(tǒng)計量的不確定性,因此使用的是標(biāo)準(zhǔn)誤(standard error),而不是直接用樣本標(biāo)準(zhǔn)差(standard deviation)。標(biāo)準(zhǔn)誤體現(xiàn)的是均值的波動程度,而樣本標(biāo)準(zhǔn)差體現(xiàn)的是個體數(shù)據(jù)的波動程度,兩者并非一回事,就如下圖所顯示的一樣。
下面會一步一步解釋清楚:
一、標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)誤,究竟差在哪?
很多同學(xué)對“標(biāo)準(zhǔn)差”和“標(biāo)準(zhǔn)誤”這兩個概念傻傻分不清楚,但其實差別明顯:
- 標(biāo)準(zhǔn)差(Standard Deviation,σ或s)
是衡量單個數(shù)據(jù)點相對于平均值波動的程度,反映的是總體(或樣本中每一個個體)數(shù)據(jù)的波動情況。 - 標(biāo)準(zhǔn)誤(Standard Error,σ/√n 或 s/√n)
衡量的是樣本均值這個統(tǒng)計量本身波動的程度,也就是抽取不同樣本后得到的樣本均值之間的波動程度。
簡單來說:
- 標(biāo)準(zhǔn)差:看個體數(shù)據(jù)的波動
- 標(biāo)準(zhǔn)誤:看樣本均值的波動
兩者衡量對象本質(zhì)不同,因此不能混用。
二、為什么置信區(qū)間需要用標(biāo)準(zhǔn)誤?
我們回到置信區(qū)間的本質(zhì)來看:
置信區(qū)間的目標(biāo)是什么?
是推測總體參數(shù)的范圍,比如推測總體均值。這里用到的是“樣本均值”這個統(tǒng)計量,而非單個樣本數(shù)據(jù)本身。
由于樣本均值每次抽樣都會變化,每次抽樣得到的均值都會和真實的總體均值存在一定偏差。這種偏差的波動程度,就是用“標(biāo)準(zhǔn)誤”來描述的。
舉個生動點的例子:
- 假設(shè)一個班有50名同學(xué),真實的平均身高是170cm,標(biāo)準(zhǔn)差為10cm。
- 你每次隨機(jī)抽取10個學(xué)生,算出一個樣本均值,這個均值不會每次都剛好是170cm,可能171cm、168cm、169.5cm……
- 你抽很多次樣本,每個樣本的均值之間是有波動的,這個波動程度就要用標(biāo)準(zhǔn)誤來衡量
- 樣本容量越大,抽取的樣本均值就越接近真實均值(170cm),樣本均值之間的波動就越小,因此標(biāo)準(zhǔn)誤是 σ/√n,n越大,標(biāo)準(zhǔn)誤越小。
因此,置信區(qū)間本質(zhì)上是以樣本均值為中心,向外延伸一定范圍,來推測總體均值在哪個區(qū)間內(nèi)。
這個向外延伸的范圍就必須用標(biāo)準(zhǔn)誤來決定,而不是直接用標(biāo)準(zhǔn)差。
三、為什么不能用樣本的標(biāo)準(zhǔn)差?
很多同學(xué)在做題時發(fā)現(xiàn),給定的是一個樣本,樣本也是正態(tài)分布啊,為啥不用樣本自己的標(biāo)準(zhǔn)差呢?
原因是:
- 樣本的標(biāo)準(zhǔn)差體現(xiàn)的是單個樣本內(nèi)部個體之間的波動。
- 但置信區(qū)間關(guān)注的是樣本均值和總體均值之間的誤差波動。
即便你只抽了一個樣本,這個樣本雖然也近似正態(tài)分布,但它的標(biāo)準(zhǔn)差描述的是數(shù)據(jù)之間的差異,而不是“樣本均值”與“總體均值”之間的差異。
再形象一點:
- 一個樣本數(shù)據(jù)的標(biāo)準(zhǔn)差體現(xiàn)的是樣本內(nèi)個體之間的差距;
- 但你做推斷的時候,關(guān)心的是**“我的這個樣本均值距離真實的總體均值有多遠(yuǎn)?”**
- 為了回答后面這個問題,你必須用標(biāo)準(zhǔn)誤,而非標(biāo)準(zhǔn)差。
四、做題時看到的“σ/√n”和單個樣本的關(guān)系?
做題時題目一般給你一個樣本,常常還會給出總體標(biāo)準(zhǔn)差σ,或者讓你用樣本標(biāo)準(zhǔn)差s來估計σ(如果σ未知的話)。
題目里出現(xiàn)的:
- 總體標(biāo)準(zhǔn)差σ已知,你直接用標(biāo)準(zhǔn)誤 σ/√n 計算置信區(qū)間即可;
- 總體標(biāo)準(zhǔn)差σ未知,那你必須用樣本標(biāo)準(zhǔn)差s來替代σ,這種情況下標(biāo)準(zhǔn)誤為 s/√n。
無論哪種情況,都必須是 σ/√n 或 s/√n,而不是 σ或s本身。
這和你只拿到一個樣本,并不沖突。因為哪怕你只抽了一個樣本,你做推斷的基礎(chǔ)仍然是“樣本均值”這個統(tǒng)計量的波動程度,本質(zhì)不會改變。
總結(jié)一下
標(biāo)準(zhǔn)誤體現(xiàn)的是樣本均值這個統(tǒng)計量的波動,而標(biāo)準(zhǔn)差體現(xiàn)的是個體數(shù)據(jù)的波動,兩者衡量的是完全不同的東西。
置信區(qū)間關(guān)注的核心是推斷總體參數(shù)(例如均值)落在哪個區(qū)間,因此用到標(biāo)準(zhǔn)誤,而非樣本本身的標(biāo)準(zhǔn)差。
理解了這一點,統(tǒng)計推斷中關(guān)于標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)誤的問題也就迎刃而解啦!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.