迴歸係數的解釋

更新於 發佈於 閱讀時間約 5 分鐘

控制變因

在前面的文章裡, 我們談了很多機率的概念, 今天我們來聊聊統計學裡最基礎的研究方法: 迴歸分析。在正式開始介紹迴歸分析前, 我們先聊點輕鬆的東西, 幫助大家跟過往的經驗作個連結。相信大家應該都有聽過控制變因的實驗方法, 舉個簡單的例子, 當你今天進到一個陌生的環境, 你看著牆上的三個開關, 你應該會先按下其中一個, 觀察一下房間發生了什麼改變, 接著再按第二個, 而非一口氣三個開關全按下去, 為什麼? 因為這樣你才能觀察這個開關的功能是什麼? 在做實驗的時候也是如此, 你可以在燒杯裡加入A, 加入B…, 在你對這些試劑一無所知的情況下, 你一口氣把試劑所有試劑道盡燒杯裡, 你會得到的結論大概率就是: 我不知道, 然後浪費了一堆試劑, 接下來, 我們來看看這個想法在研究員的眼中如何呈現。

迴歸模型

raw-image

其中y是應變數, a是截距項, b是斜率, x是操作變因, e是誤差項, 在這裡有個等等會用到的假設, 就是誤差項的平均是0。這個就是最初的迴歸模型 (在不同的情況下, 我們可以允許平均不是0, x不是一次方等情況), 也是許多人的大學生涯中, 除了微積分以外的另一個夢魘。

係數解釋

在大學的教授課程裡, 跟高中有個很大的不同, 就是我們會希望大家在上完這堂課程後, 在往後的人生中觀察到什麼現象時, 能夠利用課堂上教給大家的工具, 驗證或推翻自己的想法, 至少當別人把一份研究報告放在你面前時, 你要有能力看出對方想說什麼, 或是他有沒有想透過一連串複雜的數字來騙你。在這樣的背景前提下, 大學的課程跟高中比起來會更加重視模型做出來的結果該要如何解讀, 避免落入你很會算, 但算了半天卻不知道自己在算什麼的窘境, 那就算算出來的數字完全正確, 意義也不大。大家回想一下, 在區間估計的章節中, 我們是不是也花了很大的篇幅在介紹該如何解讀我們所算出來的區間。

說了半天, 那他到底是什麼呢? 我們對模型的兩端取期望值後, 可以得到

raw-image

因為我們假設誤差項e的平均為0, 而且常數的平均仍是常數本身 (如果不懂可以試想一下, 拿一堆3來取平均, 就還是3), 因此這條式子可以簡化為

raw-image

接著我們對他做點手腳:

raw-image

我們拿(2)減掉(1),

raw-image

這時候b的解釋就是: 平均而言, x每增加一單位, y會增加b單位。加設今天我是個初出茅廬的農夫, 我最容易改變就是加水的量, 而我最關心的就是稻米的高度, 因此我的x會放澆水的量, y會放稻米的高度, 這時候情況就會變成平均而言我每多澆1公升的水, 稻米會多長高b公分。在醫學的領域裡, 可以換成是平均而言, 我每增加一單位劑量的藥, 我所想觀察的症狀改善了多少。另外, 我們可以將x改成0或1, 0代表沒有服用某種藥物, 1代表有, 此時x增加一單位的意義就從服用藥物的增量, 變成了有沒有服用藥物, 因此b就變為平均而言, 服用藥物的人比沒有服用藥物的人好上b單位。同樣的應用也能換到其他地方, 比如男人是1女人是0, 或是種族, 黃種人是1非黃種人是0等。

 

這時候就會有同學問那麼控制變因在哪裡? 沒錯, 接下來我們就來談談這個部分。今天我從Lv.1的農夫升級到Lv.2時, 我發現除了澆水的量外, 日照也會影響稻米的高度, 所以我想把日照的量也丟到模型裡,

raw-image

一樣對他取平均,

raw-image

這時候b的解釋就會變成: 在其他條件不變下, 平均每多交1公升的水, 稻米會多長高b公分。而什麼是其他條件呢? 就是日照的量, 這個部分會由c來解釋。回到吃藥的例子, 假設x1是你服用某藥物的劑量, 而x2等於1是男生, x2等於0是女生。此時的b代表什麼? 首先我們畫出一張表

raw-image

眼尖的觀眾應該可以看出b是右邊減掉左邊的結果, 因此他所代表的是平均而言, 女性群體每多服用一單位藥物, 病況變動b單位。這時候有些人就會問, 那男性呢? 我們就要去找, 當X2固定在1 (記得X2等於1代表男性), 然後X1有變動的, 我們會找到b+d, 也就是說平均而言, 男性每多服用一單位藥物, 病情的變化幅度。

以前談到這裡的時候, 有學生向我提問, 在這裡我們就不強調在其他條件不變了嗎? 其實我們有說, 只是換句話說, 我們把這句話改成男生跟女生了, 如此而已。特別提出這個來說是因為這個問題讓我想起了一件有趣的事。在有交乘項的情況下, 我們可以讓其他條件跟著改變, 比方說拿(b+d)-b, 這時候d就被留下來了, 其中b+d指的是男性服藥後病情的變化, b指的是女性, 兩者相減便可以得到平均而言, 藥物對男性群體的影響比女性群體多多少

此外, 有個係數我們一直沒有去談, a。因為在社會科學的研究中, 截距項代表我們什麼都還沒做, 較無法透過後天的努力去改變它, 因此大部分的研究也較不關心這塊, 當然我們也不排斥如果有其他領域的朋友很常需要用到的, 也歡迎來信告訴我們。

小結

今天的文章中, 我們談到了如何判讀迴歸模型的係數, 只要遵循此理, 大家就能夠理解迴歸模型中的每個數字所代表的意義 (如果你想自行繼續擴充模型也是可以的, 只要仿照上述做法即可)。有個值得注意的是, 迴歸模型終究只是一條數學式, 如果他呈現的結果跟日常生活中的常是相違背時, 我們會傾向尋求更進一步的證據, 那這部分就比較複雜了。

avatar-img
2會員
8內容數
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
MC 統計的沙龍 的其他內容
今天來聊點較無聊, 不用說你也都會, 但不說也不會注意到的細節。這樣的內容較生硬, 在生活中也較少用到, 但在考試時不小心寫錯絕對會被撇掉, 在跟數學家溝通時不小心誤用, 對方絕對會跳針, 跳針, 再跳針。
Essentially, all models are wrong, but some are useful. 既然模型都是錯的,那我們還學這些要幹嘛呢?
上一篇文章中, 我們向大家介紹了點估計, 提出了許多點估計會有的問題, 也給出了一些其他的替代方案, 今天我們將會從資料分散程度的角度切入, 跟大家分享另外一種做法。
最近天氣特別炎熱, 如果今天你想出門搭訕, 你知道在西門北車信義還是中山哪個地點比較容易有收穫嗎? 你會怎麼做得知這個資訊呢?
在徐志摩《西湖記》中, 描述了事物因為數量夠大, 所呈現的排列、規律、節奏之美。然而, 數大可不是只有美, 還能有許多妙用!
在上一篇中提到當我們面臨選擇時, 可以從期望值的角度, 思考自己的決策, 但這時候會碰到一個問題, 就是你的決策會趨向保守, 雖然能約束你不要做壞事, 但也可能害你錯失許多機會。該如何改善這樣的困境呢? 讓我們繼續看下去。
今天來聊點較無聊, 不用說你也都會, 但不說也不會注意到的細節。這樣的內容較生硬, 在生活中也較少用到, 但在考試時不小心寫錯絕對會被撇掉, 在跟數學家溝通時不小心誤用, 對方絕對會跳針, 跳針, 再跳針。
Essentially, all models are wrong, but some are useful. 既然模型都是錯的,那我們還學這些要幹嘛呢?
上一篇文章中, 我們向大家介紹了點估計, 提出了許多點估計會有的問題, 也給出了一些其他的替代方案, 今天我們將會從資料分散程度的角度切入, 跟大家分享另外一種做法。
最近天氣特別炎熱, 如果今天你想出門搭訕, 你知道在西門北車信義還是中山哪個地點比較容易有收穫嗎? 你會怎麼做得知這個資訊呢?
在徐志摩《西湖記》中, 描述了事物因為數量夠大, 所呈現的排列、規律、節奏之美。然而, 數大可不是只有美, 還能有許多妙用!
在上一篇中提到當我們面臨選擇時, 可以從期望值的角度, 思考自己的決策, 但這時候會碰到一個問題, 就是你的決策會趨向保守, 雖然能約束你不要做壞事, 但也可能害你錯失許多機會。該如何改善這樣的困境呢? 讓我們繼續看下去。
你可能也想看
Google News 追蹤
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
直觀理解 導數:考慮的是單一變數的函數,描述的是函數在某點的斜率或變化率。 偏導數:考慮的是多變數函數,描述的是函數在某個變數變化時的變化率,其他變數保持不變。  (針對各維度的調整 或者稱變化 你要調多少) 應用 導數:在物理學中應用廣泛,例如描述速度和加速度。 偏導數:在多變量分析、優
瞭解如何透過Regression實作Classification,使用one-hot vector表示不同的類別,並透過乘上不同的Weight和加上不同的bias來得到三個數值形成向量。同時通過softmax的方式得到最終的y'值,並探討使用Cross-entropy來計算類別的loss。
Thumbnail
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
Thumbnail
這篇文章,會帶著大家複習以前學過的前綴和框架, 並且以區間和的概念與應用為核心, 貫穿一些相關聯的題目,透過框架複現來幫助讀者理解這個演算法框架。 前綴和 prefix sum框架 與 區間和計算的關係式 接下來,我們會用這個上面這種框架,貫穿一些同類型,有關聯的題目 (請讀者、或觀眾
什麼叫均值回歸,要如何搭配股市操作,可以參考作者的方法。
Thumbnail
接續上一篇,繼續來講如何從常態分布的機率進行假設檢定,進而推論母體的平均數吧! 這篇會提到否證的邏輯、魔法數字0.5以及統計檢定到底是什麼這三個主題。
Thumbnail
  在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率,而更之前也看過了抽樣分布是如何形成常態分布的過程,現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。
Thumbnail
其實每次回去,家人的行為就是同樣那一套,可是總是看不懂底下的邏輯是什麼。 有些人超痛恨數學,可能他們天生腦子打從心底搞不懂數學的底層邏輯。 我覺得回家對我來說,就像痛恨數學的人去上數學課一樣。
Thumbnail
我們常把研究分成量化與質性兩種不同的方法(當然不止這兩種方法),其中量化分析主要在討論變數與變數的關係,而質性分析則在變數間在的互動過程與事件。因此通常在進行質性研究時,我們需要收集大量田野調查或訪談資料。做過訪談的人都知道,訪談後需要反覆的聆聽訪談錄音並將其轉化為訪談逐字稿,這是一個大工程,還好現
Thumbnail
第一堂學生創新團隊的點評 我們的統計在社會科學裡面,它到底是怎麼樣產生的,我們今天要算這個統計學,要送統計,他們本身要有Raw data,這樣才有辦法進行運用,如:我們要怎麼算平均身高如下是:   「全部身高」除以「人數」等於 每個人幾公分  所以我們要設計如何用電腦計算 ,要「input」
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
直觀理解 導數:考慮的是單一變數的函數,描述的是函數在某點的斜率或變化率。 偏導數:考慮的是多變數函數,描述的是函數在某個變數變化時的變化率,其他變數保持不變。  (針對各維度的調整 或者稱變化 你要調多少) 應用 導數:在物理學中應用廣泛,例如描述速度和加速度。 偏導數:在多變量分析、優
瞭解如何透過Regression實作Classification,使用one-hot vector表示不同的類別,並透過乘上不同的Weight和加上不同的bias來得到三個數值形成向量。同時通過softmax的方式得到最終的y'值,並探討使用Cross-entropy來計算類別的loss。
Thumbnail
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
Thumbnail
這篇文章,會帶著大家複習以前學過的前綴和框架, 並且以區間和的概念與應用為核心, 貫穿一些相關聯的題目,透過框架複現來幫助讀者理解這個演算法框架。 前綴和 prefix sum框架 與 區間和計算的關係式 接下來,我們會用這個上面這種框架,貫穿一些同類型,有關聯的題目 (請讀者、或觀眾
什麼叫均值回歸,要如何搭配股市操作,可以參考作者的方法。
Thumbnail
接續上一篇,繼續來講如何從常態分布的機率進行假設檢定,進而推論母體的平均數吧! 這篇會提到否證的邏輯、魔法數字0.5以及統計檢定到底是什麼這三個主題。
Thumbnail
  在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率,而更之前也看過了抽樣分布是如何形成常態分布的過程,現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。
Thumbnail
其實每次回去,家人的行為就是同樣那一套,可是總是看不懂底下的邏輯是什麼。 有些人超痛恨數學,可能他們天生腦子打從心底搞不懂數學的底層邏輯。 我覺得回家對我來說,就像痛恨數學的人去上數學課一樣。
Thumbnail
我們常把研究分成量化與質性兩種不同的方法(當然不止這兩種方法),其中量化分析主要在討論變數與變數的關係,而質性分析則在變數間在的互動過程與事件。因此通常在進行質性研究時,我們需要收集大量田野調查或訪談資料。做過訪談的人都知道,訪談後需要反覆的聆聽訪談錄音並將其轉化為訪談逐字稿,這是一個大工程,還好現
Thumbnail
第一堂學生創新團隊的點評 我們的統計在社會科學裡面,它到底是怎麼樣產生的,我們今天要算這個統計學,要送統計,他們本身要有Raw data,這樣才有辦法進行運用,如:我們要怎麼算平均身高如下是:   「全部身高」除以「人數」等於 每個人幾公分  所以我們要設計如何用電腦計算 ,要「input」