◎ 劉自平(臺北市立大學社會暨公共事務學系助理教授)
即使當前各種資料科學技術蓬勃發展,並且擁有大量可供分析的資料,分析者仍需審慎分辨其分析結果究竟反映的是變數之間的相關性(correlation)還是因果關係(causality)。若未能謹慎詮釋資料的分析結果,可能會造成將資料中的相關性誤解為錯誤的因果關係,進而造成錯誤的決策。其中,選擇偏誤(selection bias)為一種常見的因果關係詮釋謬誤。
什麼是選擇偏誤?簡言之,選擇偏誤指的是研究對象的選取過程和資料的收集方式受到某些潛在因素影響,進而導致樣本對母體的代表性不足,從而造成分析者做出錯誤的詮釋。例如,若要分析補習對於高中生成績的影響,研究者透過收集到的可觀察資料(observational data),經分析後發現「有補習的學生比沒有補習的學生成績高」,因此得出了「補習有助於提高學生成績」的結論。然而,如此的分析可能忽略了「學習動機較強的學生往往成績比較高,但其同時也會展現出較高的意願參與學校課程以外的補習班訓練」。因此,成績的提升或許可能是因為「學習動機的驅動」,而非補習本身的效果。
在統計學上,這種情況屬於內生性(endogeneity)問題,意即自變數(補習與否)與依變數(考試成績)之間存在其他未被控制的因素,或二者之間可能存在反向的因果關係。在無法確認自變數必然發生於依變數之前的情況下,相反的因果關係仍可能在統計上顯示出相關性,最終造成錯誤解讀。
除此之外,在用總體資料分析個體行為時,除了常見的區位謬誤(ecological fallacy,意指從總體資料的結果得出錯誤的個體行為結論)外,亦可能同時造成上述選擇偏誤/內生性的問題。舉例而言,當分析美國各州的識字率和移民移入數量時,往往可以發現兩者呈現正相關,進而推論出「新移民可提高一般美國民眾學識」。然而此結論忽略了一個因素:識字率較高的州通常經濟發展較佳,對於移民更具吸引力。此類分析同樣容易受到選擇偏誤或內生性問題的影響。
總括來說,研究者需有「相關性不必然等於因果關係」的認知,以避免錯誤地解讀資料分析結果,進而產生錯誤的決策。若是要進行因果關係分析時,必須採取嚴謹的研究設計與分析方法,例如:實驗法、準實驗法、工具變數(instrumental variables)、斷點回歸設計(regression discontinuity design)等方法,以提高分析結果的內部效度(internal validity)。換言之,唯有透過嚴謹的研究設計與使用正確的分析工具,才能有效區分相關性與因果關係,為決策提供更堅實的證據。