在前面的文章裡, 我們談了很多機率的概念, 今天我們來聊聊統計學裡最基礎的研究方法: 迴歸分析。在正式開始介紹迴歸分析前, 我們先聊點輕鬆的東西, 幫助大家跟過往的經驗作個連結。相信大家應該都有聽過控制變因的實驗方法, 舉個簡單的例子, 當你今天進到一個陌生的環境, 你看著牆上的三個開關, 你應該會先按下其中一個, 觀察一下房間發生了什麼改變, 接著再按第二個, 而非一口氣三個開關全按下去, 為什麼? 因為這樣你才能觀察這個開關的功能是什麼? 在做實驗的時候也是如此, 你可以在燒杯裡加入A, 加入B…, 在你對這些試劑一無所知的情況下, 你一口氣把試劑所有試劑道盡燒杯裡, 你會得到的結論大概率就是: 我不知道, 然後浪費了一堆試劑, 接下來, 我們來看看這個想法在研究員的眼中如何呈現。
其中y是應變數, a是截距項, b是斜率, x是操作變因, e是誤差項, 在這裡有個等等會用到的假設, 就是誤差項的平均是0。這個就是最初的迴歸模型 (在不同的情況下, 我們可以允許平均不是0, x不是一次方等情況), 也是許多人的大學生涯中, 除了微積分以外的另一個夢魘。
在大學的教授課程裡, 跟高中有個很大的不同, 就是我們會希望大家在上完這堂課程後, 在往後的人生中觀察到什麼現象時, 能夠利用課堂上教給大家的工具, 驗證或推翻自己的想法, 至少當別人把一份研究報告放在你面前時, 你要有能力看出對方想說什麼, 或是他有沒有想透過一連串複雜的數字來騙你。在這樣的背景前提下, 大學的課程跟高中比起來會更加重視模型做出來的結果該要如何解讀, 避免落入你很會算, 但算了半天卻不知道自己在算什麼的窘境, 那就算算出來的數字完全正確, 意義也不大。大家回想一下, 在區間估計的章節中, 我們是不是也花了很大的篇幅在介紹該如何解讀我們所算出來的區間。
說了半天, 那他到底是什麼呢? 我們對模型的兩端取期望值後, 可以得到
因為我們假設誤差項e的平均為0, 而且常數的平均仍是常數本身 (如果不懂可以試想一下, 拿一堆3來取平均, 就還是3), 因此這條式子可以簡化為
接著我們對他做點手腳:
我們拿(2)減掉(1),
這時候b的解釋就是: 平均而言, x每增加一單位, y會增加b單位。加設今天我是個初出茅廬的農夫, 我最容易改變就是加水的量, 而我最關心的就是稻米的高度, 因此我的x會放澆水的量, y會放稻米的高度, 這時候情況就會變成平均而言我每多澆1公升的水, 稻米會多長高b公分。在醫學的領域裡, 可以換成是平均而言, 我每增加一單位劑量的藥, 我所想觀察的症狀改善了多少。另外, 我們可以將x改成0或1, 0代表沒有服用某種藥物, 1代表有, 此時x增加一單位的意義就從服用藥物的增量, 變成了有沒有服用藥物, 因此b就變為平均而言, 服用藥物的人比沒有服用藥物的人好上b單位。同樣的應用也能換到其他地方, 比如男人是1女人是0, 或是種族, 黃種人是1非黃種人是0等。
這時候就會有同學問那麼控制變因在哪裡? 沒錯, 接下來我們就來談談這個部分。今天我從Lv.1的農夫升級到Lv.2時, 我發現除了澆水的量外, 日照也會影響稻米的高度, 所以我想把日照的量也丟到模型裡,
一樣對他取平均,
這時候b的解釋就會變成: 在其他條件不變下, 平均每多交1公升的水, 稻米會多長高b公分。而什麼是其他條件呢? 就是日照的量, 這個部分會由c來解釋。回到吃藥的例子, 假設x1是你服用某藥物的劑量, 而x2等於1是男生, x2等於0是女生。此時的b代表什麼? 首先我們畫出一張表
眼尖的觀眾應該可以看出b是右邊減掉左邊的結果, 因此他所代表的是平均而言, 女性群體每多服用一單位藥物, 病況變動b單位。這時候有些人就會問, 那男性呢? 我們就要去找, 當X2固定在1 (記得X2等於1代表男性), 然後X1有變動的, 我們會找到b+d, 也就是說平均而言, 男性每多服用一單位藥物, 病情的變化幅度。
以前談到這裡的時候, 有學生向我提問, 在這裡我們就不強調在其他條件不變了嗎? 其實我們有說, 只是換句話說, 我們把這句話改成男生跟女生了, 如此而已。特別提出這個來說是因為這個問題讓我想起了一件有趣的事。在有交乘項的情況下, 我們可以讓其他條件跟著改變, 比方說拿(b+d)-b, 這時候d就被留下來了, 其中b+d指的是男性服藥後病情的變化, b指的是女性, 兩者相減便可以得到平均而言, 藥物對男性群體的影響比女性群體多多少。
此外, 有個係數我們一直沒有去談, a。因為在社會科學的研究中, 截距項代表我們什麼都還沒做, 較無法透過後天的努力去改變它, 因此大部分的研究也較不關心這塊, 當然我們也不排斥如果有其他領域的朋友很常需要用到的, 也歡迎來信告訴我們。
今天的文章中, 我們談到了如何判讀迴歸模型的係數, 只要遵循此理, 大家就能夠理解迴歸模型中的每個數字所代表的意義 (如果你想自行繼續擴充模型也是可以的, 只要仿照上述做法即可)。有個值得注意的是, 迴歸模型終究只是一條數學式, 如果他呈現的結果跟日常生活中的常是相違背時, 我們會傾向尋求更進一步的證據, 那這部分就比較複雜了。