讀書介紹:
批判性思維意味著不僅僅思維邏輯本身是重要的,我們還需要具備一定的認知心理學方面的知識,要對人類常見的非理性思維模式保持警惕。
數據在標準化、采集和分析這三個環節,都可能摻雜主觀意志。有時候,個人的主觀臆斷和價值傾向可能通過所謂“客觀”數據的包裝,成為所謂的“事實”。
桑內·布勞的《數據如何誤導了我們》教會我們對數據的主觀性保持警覺,只有當我們學會以懷疑之眼審視數據,方能真正駕馭數據。
本刊特約 續芹/文
在后真相時代,還有“真相”嗎?事實是什么?知識的陣營還牢固嗎?
前段時間看過瑞典教授奧薩·維克福什的《另類事實》,書中對知識是這樣定義的——知識就是那些你信以為真的東西(一種信念),并且它需要與事實相符,而你需要求得證據來保持信念。顯然,在獲取和更新知識這個方面,批判性思維的能力特別重要。批判性思維意味著不僅僅思維邏輯本身是重要的,我們還需要具備一定的認知心理學方面的知識,要對人類常見的非理性思維模式保持警惕。
在大數據時代,很多知識以“大數據”的形式出現,如何認識數據背后的“真相”也就成為考驗思維成熟度的重要標志。桑內·布勞的這本《數據如何誤導了我們》可以幫助我們在“大數據”時代更加審慎地捍衛自己的知識領域。
作者桑內·布勞是荷蘭的一名計量經濟學家和數據統計記者。布勞從兒時起就特別擅長于數字有關的東西,數學是她中學時最喜歡的一門課,后來她在拉斯謨經濟學院(Erasmus School of Economics)攻讀計量經濟學博士學位。作為荷蘭知名新聞平臺“通訊員網”(De Correspondent)的通訊記者,布勞長期致力于數據新聞的深度報道。讀罷這本書,以下這幾個書中案例給我留下了非常深刻的印象。
一圖勝過千言萬語——直觀數據的積極作用
書中最開始講述的一個南丁格爾的例子,一下子就吸引了我。19世紀南丁格爾通過可視化圖表推動了英國的醫療改革的故事,彰顯了數據的積極力量。
南丁格爾1820年出生在一個富裕的英國家庭,在那個時代相比于其他女孩,她接受了非常良好的教育,系統學習過意大利語、哲學、物理、化學還有數學。擁有良好的教育背景的她,在從事隨后的軍中護理工作時,發現當地英軍的陣亡率太高了。對此,她做了一個非常直觀的圖表——東部軍隊死亡原因統計圖,這個統計圖用餅圖的方式非常直觀地顯示了士兵的死亡原因。據此,該報告成功說服了當局。到1880年時,之前的許多問題得到了妥善解決:傷兵們吃得更好了,能洗澡的地方變多了,他們的營房也更干凈了。
歷史學家斯蒂芬·斯蒂格勒將1890年至1940年稱為“統計學的啟蒙時代”,但在這之前的1858年,南丁格爾已經使用統計圖表來解釋現狀和闡述事實了。數字的積極作用彰顯無遺,它可以用來挽救生命。
我平時在學校講授財務分析課程,對此頗有體會。財務分析也是這樣,用圖表的方式直觀展示一家企業的經營業績是非常合適的。當然,圖表在列示時也是有講究的。比較公司的選擇、圖表量綱的選擇,都有可能影響到讀者的感官和判斷。例如,我想分析A公司的營業收入,但這家公司營業收入的增長趨勢并不好看;于是我選擇了另一家經營更加差勁的企業進行比較,這樣A公司顯得還不錯。又例如,我想看一下資產負債率的變動趨勢,這家企業的資產負債表其實增長非??焖?,但是我不想給讀者造成負債率飆升、財務風險增加的印象,于是我將原本縱軸5%的單位調整為100%,顯示出來的資產負債率立刻就不那么陡峭了。所以,當我們再去看一些數據分析和結論時,要對比較對象和量綱保持敏感,以免被誤導。
數據的主觀性
數據在標準化、采集和分析這三個環節,都可能摻雜主觀意志。有時候,個人的主觀臆斷和價值傾向可能通過所謂“客觀”數據的包裝,成為所謂的“事實”。
首先,來討論一下數據如何標準化的問題。
數據的標準化就是指如何測度這個想要測度的對象。例如,關于膚色和智商的有關統計問題上,膚色的測度相對較容易(但事實上,可能也不是那么容易),關于智商的測度則顯然有不同的測度方法,不同的方法測度的面向可能會有較大差異。2014年,《紐約時報》的記者尼古拉斯·韋德撰寫了一本暢銷書,《天生的煩惱》。他在書中指出,世界上不同種族的形成是人類進化的結果,而種族之間的差異就反映在他們的智力水平上。
果真如此嗎?
智商這個概念是人為創造出來了,我們為了測度它,設計了很多不同的題目。例如,韋氏智力測試中,題目涉及詞匯量、數字序列和空間洞察力等,這些內容多與抽象思維相關。隨著時代發展,智商測度中抽象思維越來越占據智力測試題目的主導地位。但側重測度抽象思維僅僅是人類目前選擇測度智商的一種價值判斷而已。
所以,我們一定要意識到數據的“客觀性”本質上是人為建構的產物。很多數據的取得可能都有類似問題,例如問卷設計時的架構帶來的隱含選擇傾向問題、問卷本身設計合理性問題等等,都會影響到數據的測度。
其次,在數據的采集階段。
由于我們很難獲得全樣本的數據,所以一般數據采集會選取一定范圍的樣本。那么這個樣本的普遍性和代表性就會影響到我們對這個數據的理解。
《數據如何誤導了我們》提到一個非常有名的美國生物學家阿爾弗雷德·金賽的案例。在這個案例中,由于研究者個人被一種打破舊有的性行為規則的使命感驅動,導致他在選擇調查對象時人為排除了“保守人群”,從而得出了一些頗為驚世駭俗的研究結論,在上世紀50年代引發了很大的爭議。正如作者布勞評價的那樣——“金賽的研究實際上是一種披著各式圖表和表格的科學外衣下的行動主義”。
在財務分析領域,數據采集的錯誤也有可能會帶來決策上的失誤。例如,某化妝品品牌在第一季度時采用滿減方式大規模促銷,帶來了一季度營業收入的快速增長。如果單單基于此,管理層就做出繼續加大促銷的決策,很有可能由于數據采集不完整、分析不全面而造成重大經營虧損。理性的做法是,在采用滿減方式大規模促銷后,管理層應當審慎觀察后續客戶復購率、退貨率等情況,并仔細核算相關成本來綜合評價促銷效果。
財務分析中,還有可能由于數據顆粒度不夠或者指標設計不當,造成無法取得決策相關數據。例如,某些財務分析系統中僅僅針對營業收入設計了營業收入增長率,但對于導致營業收入增長的原因沒有設計指標而無法進一步仔細分析。對于營業收入的變動,應當區分價格和銷量等因素,來分析導致營業收入變化的原因。
第三,在數據的分析階段。
《數據如何誤導了我們》一書中,作者使用了煙草公司的經典案例。這個案例非常清晰地展示了具有利益沖突的研究者是如何利用自己的專業知識為煙草公司進行辯護的。
統計學家達萊爾·哈夫于1954年出版了一本非常有名的專著《統計數字會說謊》。在這本書中,哈夫指出數據分析階段存在三種類型的“偽因果關系”。第一種,偶然事件——數據呈現的只是偶然情況;第二種,因素缺失——數據呈現的相關性僅僅是相關性,其實中間缺失了一個真正的因素;第三種,反向關聯——因果關系也可能是相反的。這本書非常經典,今天也仍然值得大家研讀。哈夫作為統計專家,在1965年3月美國國會一場有關香煙廣告及包裝的聽證會上發言,他認為吸煙和不健康這二者之間的相關性不應與因果關系混為一談。但隨后更多的不同領域的科學證據都表明,吸煙的確與肺癌發生有非常直接的因果關系,目前這已經成為了“科學共識”,也迫使煙草行業在包裝上做出了明確提示。布勞在《數據如何誤導了我們》中介紹,哈夫收到過煙草業的贊助,這對他的分析的獨立性造成了影響。
在財務分析中,哈夫著作中列示的三種偽因果關系同樣是適用的。例如,某高科技企業某期的利潤率得到了改善,這是否意味著該公司的研發能力突出,是前期高額研發帶來的正面效果呢?第一,觀察利潤表,如果利潤率的改善來自一次性的“非經常性損益”,是偶然事件帶來的,那么就無法說明是公司前期研發帶來的效果;第二、觀察后發現,由于研發支出占用了公司大量資金,使得公司更加審慎地利用資金,成本費用的控制更加高效,從而帶來了利潤率的改善,并不是前期研發支出帶來的效果;第三,還有一種可能是,由于公司利潤率不斷的改善,使得公司有余力進行大額的研發投入,因果關系其實是倒置的。
我這里描述的三種情境對應了哈夫所述的三種偽因果關系。因此,我們進行數據分析時,一定要熟悉統計語言和套路。
大數據時代的困境
我們正處在4V(volume,velocity,variety,veracity)的大數據時代,上文中描述的數據在標準化、采集和分析階段可能面臨的問題還存在嗎?作者認為仍然是存在的。
同樣地,很多抽象概念被不得不量化了;大數據的來源可能不符合倫理要求(黑客問題和隱私數據);以及相關性仍然不等同于因果關系。
事實上,當數據足夠大的時候,你總會發現越來越多的變量間存在顯著關聯。作者提醒我們注意“算法”的背后是什么?正如作者所說——“這些算法想要達成什么目的?是尋求真理還是追逐利潤?是民眾的安全還是自由?是正義還是效率?這些均是道德上的困境,而我們是無法用統計數據解決的”。
該如何解讀數據
布勞提供了一個六步清單,幫助我們來解讀一份數據及其結果。一,這個數字是由誰提供的?數據一定程度上是人類價值判斷和立場選擇的呈現。二,我對這個數字有什么感覺?評估自己的直覺,我們也有自己的價值判斷和取向。三,人們是如何將它標準化的?數據是如何測度的?四,數據是如何被采集的?了解采集方式和樣本代表性。五,數據是如何被分析的?是否可能是偶然事件、因素缺失和反向關聯?六,數據是如何呈現的?數據的呈現方式對于我們理解它也是至關重要的。
當然,一個擁有智識的人是會根據新的數據和證據來選擇是否更新自己的知識的。我們要擁抱不確定性,不然你相信的就是“偽科學”。
桑內·布勞的《數據如何誤導了我們》教會我們對數據的主觀性保持警覺,只有當我們學會以懷疑之眼審視數據,方能真正駕馭數據。科學就是一些還沒有被推翻的假設,是一些可以被證偽的假說。這是科學的本質,懷疑是所有科學家和哲學家的精神內核。當然,這不是說我們要懷疑一切。我們可以選擇去相信(非自己熟悉領域的)專家,畢竟我們沒有精力去驗證所有的事情。但在我們自己的專業領域內,保持對數據的警惕和審慎是應當做到的。
(作者任職于對外經濟貿易大學國際商學院)
本文刊于04月12日出版的《證券市場周刊》
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.