學習數學的過程中,會體驗到三種感覺。
一種是思想解放的感覺。從小學里學習加減乘除開始,就不斷地突破清規戒律。
一種是智慧和力量增長的感覺。小學里使人焦頭爛額的四則應用題,一旦學會方程,做起來輕松愉快,摧枯拉朽地就解決了。
一種是心靈震撼的感覺。小時候讀到棋盤格上放大米的數學故事,就感到震撼,原來264-1 是這樣大的數!
《思考的樂趣:matrix67的數學筆記》把精心選擇的巧妙的數學證明,一個接一個地拋出來,讓讀者反復體驗智慧和力量增長的感覺,??闯P?。
——張景中
數學家、中國科學院院士
《思考的樂趣:matrix67的數學筆記》
作者:顧森
01
統計數據的陷阱
和統計數據打的交道多了,什么見鬼的事情都能遇上。
統計數據顯示,在鈾礦工作的工人居然與其他人的壽命相當,有時甚至更長!難道統計結果表明在鈾礦工作對身體無害么?
當然不是!
其實,統計數據本身并沒有說謊,鈾礦工人的壽命真的不比普通人低,難就難在我們如何撥開數據的外表,從中挖掘出正確的信息。
事實上,只有那些身強體壯的人才會去鈾礦工作,他們的壽命本來就長一些,正是因為去了鈾礦工作,才把他們的壽命拉低到了平均水平,造成了數據的“偽獨立性”。這種現象常常被稱為“健康工人效應”。
類似地,有數據表明打太極拳的人和不打太極拳的人平均壽命相同。事實上呢,太極拳確實可以強身健體、延長壽命,但打太極拳的人往往是體弱多病的人,這一事實也給統計數據帶來了虛假的獨立性。
有虛假的獨立性數據,就有虛假的相關性數據。
統計數據顯示,去救火的消防員越多,火災損失越大。初次聽到這樣的結論,想必大家的反應都一樣:這怎么可能呢?
仔細想想你就明白了:正因為火災損失大,才會有很多人去救火。因果關系弄顛倒了。
數據只能顯示兩件事情有相關性,但并不能告訴你它們內部的邏輯關系。事實上,兩個在統計數據上呈現相關性的事件,有可能根本就沒有因果關系。
統計數據表明,冰淇淋銷量增加,鯊魚食人事件也會同時增加。但這并不意味著,把冰淇淋銷售點全部取締了,就能減小人被鯊魚吃掉的概率。
真實的情況則是,這兩個變量同時增加只不過是因為夏天來了。
統計數據顯示,足球隊的獲勝率,竟然與隊員的球襪長度成正比。難道把隊員的球襪都換長一些,就能增加進球數了嗎?
顯然不是。數據背后真正的因果關系是,球隊的獲勝率和隊員的球襪長度都與隊員的身高呈正相關,這導致了獲勝率與球襪長度之間表現出虛假的相關性。
類似的例子還有很多。統計數據表明,手指越黃的人,得肺癌的概率越大。但事實上,手指的顏色和得肺癌的概率之間顯然沒有直接的因果聯系。那么為什么統計數據會顯示出相關性呢?這是因為手指黃和肺癌都是由吸煙造成的,于是又營造出一種虛假的相關性。
02
離奇的統計學現象
讀到這里,大家腦子里或許會產生這么一個顛覆性的念頭:根據同樣的道理,我們又憑什么說吸煙會致癌呢?萬一吸煙和肺癌也都是由另外一個東西同時導致的怎么辦?
其實,要想知道吸煙與癌癥之間究竟是否有因果聯系,方法本來很簡單:找一群人隨機分成兩組,規定一組抽煙一組不抽煙,十幾年后再把這一撥人找回來,數一數看是不是抽煙的那一組人患肺癌的更多一些。
這個實驗方法本身是無可挑剔的,但它太不道德了,因此我們只能考慮用自然觀察法,選擇一些本來都不吸煙的健康人進行跟蹤觀察,然后呢,過一段時間這撥人里總會出現一些失意了、墮落了犯上煙癮的人,于是隨著時間的流逝這幫人自然而然地分成了可供統計觀察的兩組人。
注意,這里“是否吸煙”這一變量并不是通過隨機化得來的,它并沒有經過人為的干預,而是自然區分出來的。這是一個致命的缺陷!統計結果表明,犯上煙癮的那些人得肺癌的幾率遠遠高于其他人。這真的能夠說明吸煙致癌嗎?
仔細想想你會發現這當然不能!原因恰似之前提過的例子:完全有可能是因果關系顛倒了,或者某個第三方變量同時對“愛吸煙”和“患肺癌”產生影響。1957年,費希爾(Fisher)提出了兩個備選理論:癌癥引起吸煙(煙癮是癌癥早期的一個癥狀),或者存在某種基因能夠同時引起癌癥和煙癮。
現實中的統計數據往往會表現出一些更加詭異復雜的反?,F象,帶來更多意想不到的麻煩。
辛普森(Simpson)悖論是統計學中最有名的悖論:各個局部表現都很好,合起來一看反而更差。統計學在藥物實驗中的應用相當廣泛,每次推出一種新藥,我們都需要非常謹慎地進行臨床測試。但有時候,藥物實驗的結果會匪夷所思。假設現在我們有一種可以代替安慰劑的新藥。統計數據表明,這種新藥的效果并不比安慰劑好:
簡單算算就能看出,新藥只對40%的人有效,而安慰劑則對50%的人有效。新藥按理說應該更好啊,那問題出在哪里呢?是否因為這種新藥對某一類人有副作用?于是研究人員把性別因素考慮進來,將男女分開來統計:
大家不妨實際計算一下:對于男性來說,新藥對高達70%的人都有效,而安慰劑則只對60%的人有效;對于女性來說,新藥對30%的人都有效,而安慰劑則只對20%的人有效。
滑稽的一幕出現了:我們驚奇地發現,新藥對男性更加有效,對女性也更加有效,但對整個人類則無效!
這種怪異的事屢見不鮮。曾有一個高中的師弟給我發短信,給了我兩所大學的名字,問該填報哪個好。我考慮了各方面的因素,甚至非常認真地幫他查了一下兩所大學的男女生比例,并且很細致地將表格精確到了各個院系。
然后呢,怪事出現了:A學校的每個院系的女生比例都比B學校的同院系要高,但合起來一看就比B學校的低。
當然,進錯了大學找不到女朋友是小事,但醫藥研究需要的是極其精細的統計實驗,稍微出點差錯的話害死的可就不是一兩個人了。
上面的例子再次告訴我們,統計實驗的“隨機干預”有多么重要。從上面的數據里我們直接看到,這個實驗的操作本身就有問題:新藥幾乎全是女性在用,男性則大都在用安慰劑。被試者的分組根本沒有實現完全的隨機化,這才導致了如此混亂的統計結果。
不難設想,如果每種藥物的使用者都是男女各占一半,上述的悖論也就不會產生了。
當然,研究人員也并不笨,這么重大的失誤一般還是不會發生的。問題很可能出在一些沒人注意到的小細節上。比如說,實驗的時候用粉色的瓶子裝新藥,用藍色的瓶子裝安慰劑,然后讓被試人從中隨機選一個來用。結果呢,女孩子們喜歡粉色,選的都是新藥;男的呢則大多選擇了藍瓶子,用的都是安慰劑。最后,200 份新藥和200份安慰劑正好都發完,因此不到結果出來時,就沒有人會注意到這個微小的性別差異所帶來的統計失誤。
當然,上面這個藥物實驗的例子并不是真實的,一看就知道那個數據是湊出來方便大家計算的。不過,永遠不要以為這種戲劇性的事件不會發生。
《致命的藥物》一書詳細披露了20世紀美國的一次重大藥害事件,其原因可以歸結到藥物實驗上去。
人們推測,事故發生的原因就與一些類似的統計學現象相關。這些離奇的統計學現象有時會讓人感到恐慌:連統計數字也不可靠了,還有什么能真實地反映這個世界運轉的規律呢?
《思考的樂趣:Matrix67數學筆記》
作者:顧森
中科院院士張景中、湯濤聯袂推薦
本書是一個瘋狂數學愛好者的數學筆記,面向所有喜愛數學的讀者。本書包括5部分內容,即生活中的數學、數學之美、幾何的大廈、精妙的證明、思維的尺度,涉及48篇精彩的文章。即使你不喜歡數學,也會為本書的精彩所傾倒。
這是一本標新立異的趣味數學書。每一個讀過的人都會被深深吸引。這是一個熱愛思考的年輕人積攢的讓人一讀就欲罷不能的趣味書。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.