統計陷阱的發現
20世紀50年代,美國的各大媒體和宣傳機構越來越重視利用統計——“這個神秘的語言” -說話,然而大量的統計數據、統計資料由於主、客觀的原因被濫用,很難起到描述事實、傳遞信息的作用。相反,還往往對讀者形成誤導。選萊爾·哈夫(Darrell Huff), 一位具有深厚統計背景的新聞記者——發現了這一現象。
統計陷阱的揭示
數學是一個很嚴謹的工具,然而正如任何工具都可以被別有用心的人用作它途一樣,數學亦不例外,而在所有數學的分支里,統計學由於與不確定性有關,以致用它來有意或無意地行騙的人存在於各個領域,正是這些人,讓統計學背上了“臭名昭著”的惡名,統計學家甚至成了專業騙子的代名詞。要認清這些騙子伎倆,唯有對統計學本身有一定的了解。
毫無疑問,媒體是騙子的最大滋生地,他們無時無刻不在做著誇大、扭曲、隱瞞甚至虛構的報導,他們所報導的新聞里真假的比例是多少,沒有人能夠統計出來,就這樣,他們可以堂而皇之地招搖撞騙。通常來說,媒體只提供統計數據,而不會花篇幅去寫得出此數據的具體過程(顯然,媒體不會耗費更多的財力和人力到這個上面,那樣會少很多好看的新聞),對於數據,如果不知道它的統計過程,那基本上是沒多大意義甚至是毫無意義的。於是,我們經常會在媒體上看到各種各樣的、千奇百怪的違背人常識或與我們想像中不同的驚人結論,每當看到這樣的結論時,我們二話不說就會對做出此結論的人一頓謾罵或嘲笑(一般是專家)。這些統計調查本身往往並沒有錯,錯的是媒體語焉不詳,甚至刻意利用數據得出譁眾取寵的結論。比如很多調查只是顯示具有相關關係,而不是因果關係,但是媒體通常不會指出這是相關性調查,即使指出我們也會忽略它們,或者完全意識不到這些意味著什麼。錯誤的把相關性認為因果性會導致很多荒謬的結論,如果B緊跟著A出現,那么A一定導致B,我在屋裡跳高,剛一跳正好就地震了,於是我認為是我跳高導致了地震的發生。
就這樣,人們對統計數據失去了信任,並不是因為知道了統計數據的騙人手法,而是越來越多不靠譜的結論讓我們很難再相信它們。尤其是對於政府做出的統計數據,我們幾乎是當笑話在看了,比如平均工資的統計,我們經常會覺得自己的工資連平均都沒達到,那么是不是這些統計錯了呢?不是,它們沒有錯,顯然是因為有部分群體工資偏高,從而導致了總體平均數偏高,這裡的平均數是指均值,平均數有均值、中位數、眾數三種,均值一般是三者中能夠得到的最大平均數,在沒有點明是哪種平均數的情況下,通常就是均值,但人們正是可以利用這點來做出各種不同的平均數來達到自己的目的。類似這種統計數據,它本身並沒有錯,錯的是我們賦予了它與原統計數據含義不同的其他意義,以致被誤讀了,當然,很多時候並不是我們在賦予,而是調查者本人有意為之。比如,XXX的復蓋率有多高,並不是表示XXX的使用率也是這樣,它說明的就是復蓋率而不是其他,所以當我們看到原始數據中的XX率被替換成另一種XX率時,我們就應該注意,這樣的替換多數是牽強附會的(其實,未必需要別人幫我們替換,我們自己的思維會主動做其他理解,統計騙子顯然深諳此道)。
統計陷阱的辯證與實踐
擲骰子,連續擲出5個6,很多人都會認為下一次再出現6的幾率會降低,因為在我們看來,擲出個6本身就不容易,再加上已經連續擲出了5次,那下次再擲出6的幾率自然是更低了,其實擲出6的機率還是1/6,這在我們高中數學排列組合時就已經學過,相互獨立事件是不會影響彼此機率的。然而,儘管我們知道這個,感性上我們還是會認為機率降低了,類似這樣的事多不勝數。
當我們經常看到飛機失事和犯罪的新聞,就會認為飛機失事率和犯罪率越來越高了,感慨坐飛機越來越不安全,世風日下。而實際上,這些只是媒體對某一方面有所側重的報導所導致的“假象”。某某產品真垃圾,某某網站服務態度真差,這樣的抱怨網上到處都是,幾乎沒有產品和網站能夠躲得過,那么是不是真的如那些人說的那么差?未必,因為人們往往只會抱怨那些不幸的事,而我們眼裡也往往只容得下這些負面的言論,對這些印象也會格外的深,於是,我們忘記了還有很多沉默的大多數用戶和其他正面的言論。
同媒體一樣,我們的記憶也會有選擇性,尤其是當我們遇到重大事件後,往往容易回憶起事情發生之前某些事發後覺得“異常”的事,認為這是徵兆,而事實是這樣的行為經常發生,只是平常這些東西對我們沒多大用處,所以都忘記了。這就是“事後諸葛亮”。我之前提的那個跳高導致地震的例子,由於地震這件事比較特別,我在事後回憶時想起了當時做過這個比較特殊的事,於是我認為是跳高導致了地震,如果沒有發生地震我就不會記得這件我經常在做的事,而與此同時,同樣在跳高的人顯然不會只有我一個,我有幸成為其中一員,正好碰到了,就是這么巧。
電視劇里的人常說,“怎么這么巧?”,我答,就是這么巧。是的,就是這么巧。我們往往低估了巧合發生的機率。比如,我們碰到一個與自己同一天生日的,就會大嘆真巧啊,進而感慨一下緣分。以一個班為例,假設這個班有60名學生,至少有2人是同一天生日的機率超過99%,50名學生也有97%,40名就是89%,沒有碰到反倒是低機率事件了,事實上只要有23人就足以讓機率達到50%,需要注意的是,這裡只是指有兩個人是同一天生日的機率,而不是給定的一個具體日期,如若是這樣,那么機率就要低很多了。一個籃球運動員,投籃20次,至少連入4球的機率幾乎是50%。再比如地震預測,不要以為這個難預測,其實我們每個人都可以很容易地做出預測,每年發生那么多大的小的地震,蒙對的機率是很高的,就是這么巧,蒙對了,何況在做預測的人多著呢,你碰不到,也有他碰到。
同一個統計結果,換不同的方式來表達會讓人有不同的感覺,比如說一個手術,跟病人說有10%的機率會死,那么病人多數會猶豫不決,如果跟病人說有90%的存活率,那么病人選擇做的可能性就會大很多。
想像,一個號稱自己具有超能力的電視直播節目的主持人,他說只要觀眾配合,集中注意力,他就能夠遠距遙控硬幣,讓他們連擲十次硬幣都是同一個面朝上,成功的觀眾就打電話來告知,由於電視觀眾眾多,假設有一百多萬,那么大概就會有十多萬觀眾被成功遠距遙控,不用全部的十萬來打電話,只用上千個人甚至幾百個人來證實就足矣,即使有很多人懷疑這個沒用,但是當看到這么多人在證實後,你於是動搖了,認為是自己當時精力不夠集中。這是算命的常用的把戲的一個變種,屢試不爽,換個馬甲照樣忽悠我們,我們自己身上也有很多變種。
以上,只是藏在我們身上的一小部分統計騙子,因為這些騙子,我們不止被人騙還被自己騙。騙人不一定要用數字,統計學的邏輯無處不在,要活學活用統計思想。
對待統計數據,作者告訴我們要問5個問題,“誰說的”,”他是如何知道的”,“遺漏了什麼”,“是否有人偷換了概念”,“這個資料有意義嗎”,以後看數據看新聞,如果自己看到後激動了,有話要說,那么先憋著,然後提醒自己問一下這幾個問題,別罵完後才發現原來是假的,很丟臉的。
統計陷阱的思維邏輯
如果你想證明某事,卻發現沒有能力辦到,那么試著解釋其他事情並假裝它們是一回事,這就是我們常犯的邏輯謬誤,偷換概念。統計學中所包含的思維,利用統計學所犯的錯誤,歸根到底就是邏輯。把相關性當成因果性,這是事後歸因;小樣本得出大結論,這是以偏概全;為了證實自己的觀點,刻意用統計方法放大比例,這是訴諸公眾謬誤,因為大家都這樣,所以我是對的。商品廣告說統計數據顯示自己的產品在某一權威群體裡的使用率很高,言下之意是他們的產品是好的,這是訴諸權威謬誤;等等。基本上每一個統計陷阱就是一個邏輯謬誤,學會統計學,就是學會怎么說理。
任何事最怕的就是走向極端,看了後對一切統計數字不再相信,以為看了一本書就成了個統計專家,沒成統計專家也成了個分辨真假專家,這無疑是進入了另一種統計陷阱
統計陷阱的書籍研究
《統計陷阱》達萊爾·哈夫著
該書自1954年出版至今,多次重印並被譯成多國文字,是一本影響深遠的經典性著作。《統計陷阱》一書之所以能夠歷久彌新,是因為其實用性。隨著我國經濟持續發展,我們將接觸到越來越多的統計數據和資料,例如,公司財務報告、證券信息、國家權威機構公布的各種統計數據等等,去粗取精、去偽存真,進行鑑別,相同的問題就會擺在我們面前。這是一本強調統計思維的書。該書列選英國作家利奧·高夫撰寫的《25本投資經典:秀視所有時代最偉大的投資名著》,由此可見其不凡的魅力和影響力。