這是一月迷你學期裡的三週密集課程,
使用統計分析常用的 R 語言作為工具,
處理時間、空間、時間-空間等的數據資料。
內容提及不少統計學理論,
又有大量的練習題,艱難但非常有成就感。
舉一些例子來解釋課程裡我們做了什麼:
1. Maximum Likelihood Estimation
測高衛星不斷的繞行地球,
每天都對高山湖泊的湖面作多次的高程測量,
測量數據可能因為雜訊干擾有高有低,
但我們用常態分布模型回歸這些每日測量數據,
繪製湖面高度隨日期、月份、年份的變遷,
觀察湖面高度與全球暖化的關係。
-
2. Maximum Likelihood Estimation
Covid-19 的病例數量會受傳染力 R0 值與康復速率左右,
在模型裡,我們將丹麥實時 R0 值套入系統,
繪製病例人數與康復人數的折線變化。
-
3. Gaussian Markov Random Fields
假設保險公司想向一個城市推出住宅竊盜險方案,
他們需要發問卷調查一個區域的 “竊盜率”、”家戶財產”
才知道該區域的 “遭竊成本”,
提出有獲利效益的保險費率。
他們把回收問卷的地點用數個圖釘標示在地圖上,
並假設這些圖釘之間的數值都是多變數常態分佈 (GMRF),
進一步圖像化這個區域的
“竊盜率分布圖”、”家戶財產分布圖”、”遭竊成本分布圖”。
對我來說這堂密集課相當有難度,
一方面我對統計學沒太多概念,
一方面要摸索嶄新陌生的 R 語言,
課程之間也不像春季、秋季學期裡有充足的消化時間;
但每次繪製出回歸模型時都有令人振奮的成就感,
好像我真的學了什麼,能實際用在某個地方。
-
主題涵蓋:
Maximum Likelihood Estimation,
Negative log likelihood function,
Template Model Builder in R (RTMB)
Automatic Differentiation by RTMB,
Random effect model (state-space model),
Laplace approimation in RTMB,
Spatial model,
Variogram and semi-variogram,
Gaussian Markov Random Fields (GMRF),
Autoregressive process of order 1 (AR1),
Pearson residuals, Quantile residuals,
Time sapce model