› 選擇地區
三藩市
紐約
洛杉磯
其他美國地區
香港 台灣 北美
 
2015年11月02日

【網上論壇】統計都是靠估?(中大數據科學及商業統計碩士黃啟明)

於學校附近搜集問卷,就「應否取消TSA」作調查,那麼回答問卷的人便有可能大都是學生及教師,結果會有可能偏向「應該取消」。資料圖片
建立時間 (HKT): 1102 06:00

師父教落,統計統計,籠統地計,統計都是靠估,但要估得有譜。

近日友人介紹了篇由Slate的筆者LeonNeyfakh寫的一篇訪問,內容主要講述他與WilliamRhodes的訪問,對話圍繞着他與一眾AbtAssociates同事寫的一篇研究《FollowingIncarceration,MostReleasedOffendersNeverReturntoPrison》。訪問的吸睛之處,就是此研究與美國司法統計局(BJS)的發表走向不同的結果。簡單來說,BJS的研究是跟蹤40萬名於2005年離開監獄的犯人,結果是68%於3年內重返監獄;反而Rhodes的研究結果則是約每3個離開監獄的犯人中有兩個都不再回到監獄。

撇除政治學問不說,筆者作為統計學的畢業生,跟大家分享這篇訪問的精髓。統計方法要用得其所,結果答得其所,撇除政治的考量,首要懂得答問題。假設Rhodes及BJS的研究都是解答「究竟有多少離開監獄的犯人會重返監獄呢?」同一條問題,為何答案有完全不同方向的分歧呢﹖

第一,是選取樣本(Sampling)。BJS選取的樣本是特定2005年離開監獄的犯人,而Rhodes等人所選取的是從theNationalCorrectionsReportingProgram所得的近15年的犯人樣本。如要解答特定2005年的情況,BJS的研究是合適的;如要解答一個一般的情況,Rhodes等人的研究更妥當。

筆者曾於碩士時做過一個村屋特徵價格模型,今次就以發展城市對村屋售價的影響為例,搜集全港於過去一年的村屋成交樣本,看看興建鐵路對售價的影響,然後把結果應用在新界東北的賠償上。看似被容易接受,但實情犯了兩個選取樣本的錯誤,應用在新界東北上的村屋,便應該參考新界東北的村屋成交,除非作出加權調整,否則便會被全港村屋成交淡化了新界東北村屋成交的特徵;其次是年期,只選取過去一年的成交紀錄,便會忽略了該年的特別因素對成交的影響,例如經濟因素及政策因素。

再以問卷訪問為例,於學校附近搜集問卷,就「應否取消TSA」作調查,那麼回答問卷的人便有可能大都是學生及教師,樣本便被同一類型特徵的人回答,結果會有可能偏向「應該取消」,反之亦然,於非學校區作調查,結果又可能變得不一樣。如果為了方便而只在周末搜集問卷,儘管在非學校區,又可能會多了一些逛街的家長,結果又會變得不一樣。因此,使用錯誤的樣本去解答問題,得出的答案自然是沒有參考價值,對錯誤的結果過份參考,施政便不能反映出實際population的意向。

第二,是樣本調整。其實就是上面剛剛提及到的加權調整,當中Rhodes等人的研究便就重複罪犯的數據作了調整。再看看上面村屋成交樣本的例子,可能於過去一定年份,某屋苑的村屋成交頻密,如果不作加權調整,樣本便有機會被此類村屋成交放大了某些特徵。再看看上面問卷訪問的例子,如果明知結果由某一類型的人作回答,但不作加權調整,即是如果訪問中大多數都是TSA的補習老師,結果就可能偏向「不應取消」。

Rhodes等人的研究,推翻了BJS的結論,算是為離開監獄的犯人平反。統計學是利用科學的方法,嚴謹的計算,利用樣本得出可以代表整體的結果。可惜的是,數字本身不帶任何意義,而是在於詮釋的人,有些是無意的統計錯誤,有些卻是有意,旨在帶出既定的訊息,為訊息建立數據支持。

統計學是一門被廣泛應用的學問,儘管未必人人都懂得做一門統計學研究工作,但學會統計知識,至少讓大家對身邊的資訊,有一定的批判能力。



【蘋果論壇網上版現已推出!除收錄《蘋果日報》論壇版的足本全文外,更開設網上論壇刊登更多讀者投稿,請瀏覽 http://hk.apple.nextmedia.com/feature/onlineforum ,投稿網上論壇可電郵到onlineforum@appledaily.com】

蘋果日報fb,每日分享精選新聞及網絡新鮮事。
返回最頂
壹傳媒: 香港 台灣 | 私隱聲明 服務條款 刊登廣告 聯絡我們 招聘
© 2020 AD Internet Limited. All rights reserved. 版權所有 不得轉載