用R介紹和計算ICC

更新於 發佈於 閱讀時間約 7 分鐘

用R語言進行HLM分析第一章將介紹ICC係數定義,並實際示範如何使用R語言計算ICC,並解釋其含意。


用傳統統計分析多層次資料的限制一文已經說明很清楚,多層次資料的存在使得傳統的統計方法無法直接應用,因為這些方法通常假設觀察到的資料是獨立的。為了解決這個問題,出現了多層次模型(MLM)或階層線性模式(HLM)。這些模型能夠考慮到多層次資料的結構,並在分析中引入階層結構的效應。

ICC介紹

如何確定何時需要做多層次分析?可以透過ICC 決定,ICC 是 Intraclass Correlation Coefficient 的簡寫,中文翻譯為「組間相關係數」。它是一種用於衡量多層次資料中組間變異與總變異之比的指標。ICC 越高,表示層次2變異越大,總變異中層次2變異所占的比例越高。
因此,ICC 越高,越需要使用多層次分析來處理。公式如下圖,τ00代表層次2的變異量,σ2代表層次1的變異量:

raw-image

如下圖,ICC 越高發現相同群體內的成員在分數上表現非常相似

https://dcricollab.dcri.duke.edu/sites/NIHKR/KR/Intraclass_Correlation_Coefficient_Cheat_Sheet_March_15_2020.pdf

https://dcricollab.dcri.duke.edu/sites/NIHKR/KR/Intraclass_Correlation_Coefficient_Cheat_Sheet_March_15_2020.pdf

如下圖,ICC 越低發現相同群體內的成員表現沒有這麼相似

https://dcricollab.dcri.duke.edu/sites/NIHKR/KR/Intraclass_Correlation_Coefficient_Cheat_Sheet_March_15_2020.pdf

https://dcricollab.dcri.duke.edu/sites/NIHKR/KR/Intraclass_Correlation_Coefficient_Cheat_Sheet_March_15_2020.pdf

以下是一些 ICC 的應用:

  • 在教育研究中,可以用 ICC 來衡量班級之間的學業表現差異。ICC 越高,表示班級之間的學業表現差異越大,需要使用多層次分析來控制班級的影響。
  • 在醫療研究中,可以用 ICC 來衡量醫院之間的治療效果差異。ICC 越高,表示醫院之間的治療效果差異越大,需要使用多層次分析來控制醫院的影響。

隨機效果的ANOVA

有隨機效果的ANOVA,允許截距隨著不同層次2單位變化。需要透過具有隨機效果的ANOVA計算ICC。該模型假設我們有兩個層次,依變項為Y,層次1的自變項有0個。β 0第一層的截距,β 0 0第二層截距(又稱為grand-mean ,所有層次2在Y的平均數),e是層次1誤差也就是迴歸中的殘差,e0為隨機效果,所有層次2的變異量。沒有任何其他預測變項。

Level 1:

Y = β 0 + e

Level 2:

β 0 = β 0 0+e0

方程式整理後,把β 0 0+e0帶入β 0j

Y = β 0 0 + e+e0


計算範例

在 R 語言中,data("sleepstudy") 命令會載入 lme4 套件中的 sleepstudy 資料集。sleepstudy 資料集包含睡眠剝奪研究中受試者的平均反應時間資料。

資料集有 180 個觀察值和 3 個變量:

  • Reaction: 平均反應時間 (毫秒)
  • Days: 睡眠剝奪天數
  • Subject: 受試者 ID

要載入 sleepstudy 資料集,可以使用以下命令:

library(lme4) #MLM
library(performance) #ICC
data("sleepstudy")

這將將資料集載入 R 工作區。您可以使用 sleepstudy 變數名稱來存取資料集。

要查看資料集的前 10 行或全部,可以使用以下命令:

head(sleepstudy, 10)#前 10 行
sleepstudy#看全部

從下面輸出可以看出,同個受試者睡眠剝奪從0到9天,每天都會測一次反應時間,所以資料是嵌套的:


Reaction Days Subject
1 249.5600 0 308
2 258.7047 1 308
3 250.8006 2 308
4 321.4398 3 308
5 356.8519 4 308
6 414.6901 5 308
7 382.2038 6 308
8 290.1486 7 308
9 430.5853 8 308
10 466.3535 9 308
11 222.7339 0 309
12 205.2658 1 309
13 202.9778 2 309
14 204.7070 3 309
15 207.7161 4 309
16 215.9618 5 309
17 213.6303 6 309

接下來我們使用 sleepstudy 資料集進行多層次分析,先計算隨機效果的ANOVA,層次2是Days,層次1為Subject,依變項為Reaction:

summary(lmer(Reaction ~ (1| sleepstudy$Days), data = sleepstudy))

根據先前的公式可以寫成這樣:

Level 1:Subject

Reaction = β 0j + e

Level 2:Days

β 0 = β 0 0+e0

部分結果如下,τ00代表層次2的變異量,這裡是894.9;σ2代表層次1的變異量,這裡是2363.1,全部變異量為894.9+2363.1 = 3258;所有天數的Reaction平均為298.51,p ***顯著代表該數值顯著不等於0。

Random effects:
Groups Name Variance Std.Dev.
sleepstudy$Days (Intercept) 894.9 29.91 #τ00 = 894.9
Residual 2363.1 48.61 #σ2 = 2363.1
Number of obs: 180, groups: sleepstudy$Days, 10 #10天(0~9)

Fixed effects:
Estimate Std. Error df t value Pr(>|t|)
(Intercept) 298.51 10.13 9.00 29.47 2.91e-10 ***
#Across all Days the overall average Days mean​ = 298.51
---

接下來我們開始手動計算ICC,看看層次2能解釋多少Reaction的整體變異量。ICC = 894.9/(894.9+2363.1) = 0.274。也可以用語法icc()幫我們檢查,結果是0.275,差不多,此係數代表層次2能解釋百分之27.4左右Reaction的整體變異量,換言之,Reaction的整體變異量中,有百分之27.4左右的變異量來自層次二(Days)的差異。

icc(lmer(Reaction ~ (1| sleepstudy$Days), data = sleepstudy))


您的研究遇到了統計分析的困難嗎?您需要專業的統計諮詢和代跑服務嗎?請點我看提供的服務
avatar-img
224會員
124內容數
文章內容以圖像式和步驟化方式,教您如何在各種統計軟體中(例如:SPSS、R和Mplus),執行多種統計方法。此外,我還會分享一些學術和科技新知,幫助您在學術之路上走得更順利。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
心理博士的筆記本 的其他內容
R語言是一種統計學與資料科學領域的程式語言,具有強大的統計分析和資料處理功能。本文介紹R語言在統計常見的基本語法,包含:安裝和執行套件、載入和查看資料、基本敘述統計函式、輸出資料、輸出檔案和遺失值。
R 語言是一個強大且免費的程式語言,可簡單使用各種套件,進行統計分析和資料清理和視覺化等相關工作。本文將介紹如何安裝R 語言和Rstudio,還有如何執行R語言和建立套件,最後說明如何自訂RStudio的界面顏色和字體 。
R語言是一種統計學與資料科學領域的程式語言,具有強大的統計分析和資料處理功能。本文介紹R語言在統計常見的基本語法,包含:安裝和執行套件、載入和查看資料、基本敘述統計函式、輸出資料、輸出檔案和遺失值。
R 語言是一個強大且免費的程式語言,可簡單使用各種套件,進行統計分析和資料清理和視覺化等相關工作。本文將介紹如何安裝R 語言和Rstudio,還有如何執行R語言和建立套件,最後說明如何自訂RStudio的界面顏色和字體 。
你可能也想看
Google News 追蹤
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
瞭解如何透過Regression實作Classification,使用one-hot vector表示不同的類別,並透過乘上不同的Weight和加上不同的bias來得到三個數值形成向量。同時通過softmax的方式得到最終的y'值,並探討使用Cross-entropy來計算類別的loss。
說明搭肩式社會計量的目標、一般性運用原則、延伸與提醒、問句舉例。
說明區域式社會計量的目標、一般性運用原則、延伸與提醒、問句舉例。
Thumbnail
這篇文章以簡單易懂的文字和圖片介紹線性混和效應模型,包含其中的元素和意義。除此之外也透過 R 的實作具體呈現操作時的情況。
Thumbnail
透過探討指數級增長、常態分布與冪律分布在選擇行業時的應用,強調了分析邊際成本和市場分布特性的重要性。作者挑戰傳統追隨者思維,提倡創新和尋找獨特優勢,並透過服務業例子展示如何應用這些底層邏輯進行前瞻性決策,幫助讀者識別增長機會,制定成功策略。
社會計量測試最基本的功能在揭示團體成員及帶領者自己的資訊,尤其關注成員間的連結及連結的理由。社會計量測試通常而言,會經歷暖身、行動、分享、分析、未來計畫與處遇等階段
Thumbnail
SUMIF是EXCEL中一個超級實用的統計函數,他可以依據指定的關鍵字進行加總。 SUMIF有條件加總 函數說明=SUMIF(條件範圍,條件,加總範圍) 但如果遇到很多個資料範圍,大多數的人就會使用很多個SUMIF計算後再相加,如下範例所示。 其實這樣多範圍的資料不需要3個SUMIF,
Thumbnail
我們常把研究分成量化與質性兩種不同的方法(當然不止這兩種方法),其中量化分析主要在討論變數與變數的關係,而質性分析則在變數間在的互動過程與事件。因此通常在進行質性研究時,我們需要收集大量田野調查或訪談資料。做過訪談的人都知道,訪談後需要反覆的聆聽訪談錄音並將其轉化為訪談逐字稿,這是一個大工程,還好現
Thumbnail
第一堂學生創新團隊的點評 我們的統計在社會科學裡面,它到底是怎麼樣產生的,我們今天要算這個統計學,要送統計,他們本身要有Raw data,這樣才有辦法進行運用,如:我們要怎麼算平均身高如下是:   「全部身高」除以「人數」等於 每個人幾公分  所以我們要設計如何用電腦計算 ,要「input」
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
瞭解如何透過Regression實作Classification,使用one-hot vector表示不同的類別,並透過乘上不同的Weight和加上不同的bias來得到三個數值形成向量。同時通過softmax的方式得到最終的y'值,並探討使用Cross-entropy來計算類別的loss。
說明搭肩式社會計量的目標、一般性運用原則、延伸與提醒、問句舉例。
說明區域式社會計量的目標、一般性運用原則、延伸與提醒、問句舉例。
Thumbnail
這篇文章以簡單易懂的文字和圖片介紹線性混和效應模型,包含其中的元素和意義。除此之外也透過 R 的實作具體呈現操作時的情況。
Thumbnail
透過探討指數級增長、常態分布與冪律分布在選擇行業時的應用,強調了分析邊際成本和市場分布特性的重要性。作者挑戰傳統追隨者思維,提倡創新和尋找獨特優勢,並透過服務業例子展示如何應用這些底層邏輯進行前瞻性決策,幫助讀者識別增長機會,制定成功策略。
社會計量測試最基本的功能在揭示團體成員及帶領者自己的資訊,尤其關注成員間的連結及連結的理由。社會計量測試通常而言,會經歷暖身、行動、分享、分析、未來計畫與處遇等階段
Thumbnail
SUMIF是EXCEL中一個超級實用的統計函數,他可以依據指定的關鍵字進行加總。 SUMIF有條件加總 函數說明=SUMIF(條件範圍,條件,加總範圍) 但如果遇到很多個資料範圍,大多數的人就會使用很多個SUMIF計算後再相加,如下範例所示。 其實這樣多範圍的資料不需要3個SUMIF,
Thumbnail
我們常把研究分成量化與質性兩種不同的方法(當然不止這兩種方法),其中量化分析主要在討論變數與變數的關係,而質性分析則在變數間在的互動過程與事件。因此通常在進行質性研究時,我們需要收集大量田野調查或訪談資料。做過訪談的人都知道,訪談後需要反覆的聆聽訪談錄音並將其轉化為訪談逐字稿,這是一個大工程,還好現
Thumbnail
第一堂學生創新團隊的點評 我們的統計在社會科學裡面,它到底是怎麼樣產生的,我們今天要算這個統計學,要送統計,他們本身要有Raw data,這樣才有辦法進行運用,如:我們要怎麼算平均身高如下是:   「全部身高」除以「人數」等於 每個人幾公分  所以我們要設計如何用電腦計算 ,要「input」