問題 1 (中級)
------------------------------
題目: 一位AI應用規劃師正在評估一個新的AI推薦模型相較於舊模型是否能顯著提升用戶的平均停留時間。他在新舊模型各抽樣了50位用戶,並記錄了他們的停留時間數據。經過檢定,P值為0.035,顯著水準設定為0.05。請問下列哪項決策是最適切的?選項:
A) P值小於0.05,因此無法拒絕虛無假設,新模型沒有顯著提升。
B) P值小於0.05,因此有足夠證據拒絕虛無假設,新模型有顯著提升。
C) P值大於0.05,因此有足夠證據拒絕虛無假設,新模型有顯著提升。
D) 無法判斷,因為停留時間數據可能不服從常態分佈,需要先進行常態性檢定。
答案: B) P值小於0.05,因此有足夠證據拒絕虛無假設,新模型有顯著提升。
解析: 當P值小於預設的顯著水準(α=0.05)時,表示在虛無假設為真的前提下,觀察到這種結果的機率很小,因此我們有足夠的統計證據拒絕虛無假設,即認為新模型確實有顯著提升。選項D雖然提出了數據分佈的考量,但在P值已給出的情況下,應先基於P值與顯著水準的比較做出判斷。若數據分佈異常,則應考慮使用非參數檢定,但題目已給出P值,暗示已完成檢定。
問題 2 (中級)
------------------------------
題目: 在進行A/B測試以比較兩個AI模型在用戶點擊率上的差異時,若研究者錯誤地拒絕了實際上並沒有差異的虛無假設,這屬於哪種統計錯誤?其英文代號為何?
選項:
A) 型一錯誤 (Type I Error),α
B) 型一錯誤 (Type I Error),β
C) 型二錯誤 (Type II Error),α
D) 型二錯誤 (Type II Error),β
答案: A) 型一錯誤 (Type I Error),α
解析: 型一錯誤 (Type I Error) 發生在當虛無假設實際上為真,但我們卻錯誤地拒絕了它。這在統計學中通常用顯著水準 α 來表示。在本例中,即兩個AI模型實際無差異,但研究者卻判斷有差異。
問題 3 (中級)
------------------------------
題目: 一位AI數據分析師想檢定一個新的聊天機器人模型在「回應準確度」上,是否與預期的80%準確度存在顯著差異。他隨機抽取了200個對話樣本進行測試,發現準確度為85%。請問該分析師最適合使用下列哪種檢定方法?
選項:
A) 獨立樣本T檢定
B) 卡方獨立性檢定
C) 單一樣本比例Z檢定
D) Pearson相關係數分析
答案: C) 單一樣本比例Z檢定
解析: 題目目標是檢定單一總體比例(回應準確度)是否與一個已知比例(預期的80%)存在顯著差異,且樣本數足夠大(200個樣本)。單一樣本比例Z檢定是處理此類問題的標準方法。
問題 4 (中級)
------------------------------
題目: 一家新創公司開發了一款AI推薦系統,希望了解用戶年齡層與他們點擊特定商品類別(例如:電子產品、服飾、書籍)之間是否存在關聯。為了分析這兩個變數,他們應使用哪種統計檢定?
選項:
A) Pearson相關係數
B) T檢定
C) 卡方獨立性檢定
D) Spearman等級相關係數
答案: C) 卡方獨立性檢定
解析: 用戶年齡層(類別變數)和點擊特定商品類別(類別變數)都是類別型數據。要檢定兩個類別變數之間是否存在關聯性,最適合的統計方法是卡方獨立性檢定。Pearson和Spearman用於連續或序位數據間的相關性,T檢定用於比較平均數差異。
問題 5 (中級)
------------------------------
題目: 當AI應用規劃師在評估一個模型時,如果數據明顯不服從常態分佈,且樣本量較小,他應該優先考慮使用哪種類型的檢定?
選項:
A) 參數檢定,因為其統計效力較高。
B) 非參數檢定,因為它們對分佈假設較少。
C) T檢定,因為它對小樣本表現良好。
D) Z檢定,因為它在大數據場景下更高效。
答案: B) 非參數檢定,因為它們對分佈假設較少。
解析: 當數據不符合常態分佈且樣本量較小時,參數檢定(如T檢定和Z檢定)的假設條件不成立,可能導致錯誤結論。非參數檢定則不需要嚴格的數據分佈假設,因此在這種情況下是更穩健的選擇。
問題 6 (中級)
------------------------------
題目: 在AI模型的特徵工程階段,一位數據科學家發現兩個特徵X和Y之間存在高度的負相關(Pearson相關係數接近-0.9)。這可能對AI模型訓練產生什麼影響?
選項:
A) 負相關表示兩個特徵無關,可以同時保留。
B) 負相關表示兩個特徵可能存在共線性,可能導致模型過度擬合或係數解釋困難。
C) 負相關表示兩個特徵互相抵消,對模型沒有任何影響。
D) 負相關表示其中一個特徵必須取平方後才能使用,以消除負面影響。
答案: B) 負相關表示兩個特徵可能存在共線性,可能導致模型過度擬合或係數解釋困難。
解析: 高度相關的特徵(無論正負)會導致共線性問題。在某些AI模型(尤其是線性模型)中,共線性會使模型參數的估計變得不穩定,難以解釋每個特徵的獨立貢獻,並可能導致模型過度擬合訓練數據,進而影響泛化能力。因此,通常需要考慮保留其中一個或進行降維處理。
問題 7 (中級)
------------------------------
題目: AI規劃師利用相關性分析發現,某應用程式的「每日使用時長」與「用戶月訂閱率」之間呈現顯著的正相關。下列哪項說法最能體現「相關不等於因果」的原則?
選項:
A) 提高每日使用時長必然會直接導致月訂閱率上升。
B) 月訂閱率上升是因為每日使用時長增加,這是因果關係。
C) 兩者之間可能存在一個共同的潛在因素(如「應用程式內容品質」)同時影響兩者,而非直接因果。
D) 正相關表示這種關係是隨機的,沒有實際意義。
答案: C) 兩者之間可能存在一個共同的潛在因素(如「應用程式內容品質」)同時影響兩者,而非直接因果。
解析: 相關性僅表示兩個變數之間存在某種共同變動趨勢,但無法證明一個變數的變化直接導致另一個變數的變化。在許多情況下,存在第三個未被觀察到的潛在變數(交絡因子)同時影響這兩個變數,造成它們看似相關。選項C正確地解釋了「相關不等於因果」的常見情況。
問題 8 (中級)
------------------------------
題目: 在一個評估AI醫療診斷模型準確度的實驗中,研究人員進行了假設檢定,並得到了P值為0.08。如果顯著水準設定為0.05,下列哪一個結論是正確的?
選項:
A) 拒絕虛無假設,因為P值足夠大。
B) 不拒絕虛無假設,因為P值大於0.05。
C) 接受對立假設,因為P值表示有顯著差異。
D) 無法得出任何結論,因為P值不夠小。
答案: B) 不拒絕虛無假設,因為P值大於0.05。
解析: 當P值(0.08)大於預設的顯著水準(0.05)時,我們沒有足夠的統計證據來拒絕虛無假設。這並不意味著虛無假設為真,只是說我們沒有足夠的證據證明其為假。
問題 9 (中級)
------------------------------
題目: 一個AI專案經理希望比較兩個不同機器學習模型的預測錯誤率(MAE, 平均絕對誤差)。他收集了兩個模型在相同測試集上的預測結果,並計算了MAE。他應該選擇哪種統計檢定來判斷兩個模型的MAE是否有顯著差異?
選項:
A) 卡方獨立性檢定
B) Pearson相關係數
C) 配對樣本T檢定(如果同一筆資料被兩個模型預測)或獨立樣本T檢定
D) 適合度檢定
答案: C) 配對樣本T檢定(如果同一筆資料被兩個模型預測)或獨立樣本T檢定
解析: MAE是連續型數據,用來比較兩個模型的平均誤差。如果兩個模型在相同的測試資料點上進行預測,則這些誤差是配對的,應使用配對樣本T檢定。如果模型的誤差是來自不同且獨立的測試集,則使用獨立樣本T檢定。卡方檢定用於類別變數,Pearson相關係數用於衡量變數間的線性關係,適合度檢定用於單一類別變數分佈。
問題 10 (中級)
------------------------------
題目: 當AI應用規劃師在進行A/B測試時,設定了顯著水準α=0.01。如果最終檢定結果為P值=0.005,這代表什麼?
選項:
A) 存在非常顯著的差異,但犯型一錯誤的機率是0.995。
B) 不存在顯著差異,因為P值非常小。
C) 存在顯著差異,且在虛無假設為真時,觀察到這種結果的機率僅為0.5%。
D) 存在顯著差異,但犯型二錯誤的機率是0.005。
答案: C) 存在顯著差異,且在虛無假設為真時,觀察到這種結果的機率僅為0.5%。
解析: P值(0.005)小於顯著水準(0.01),表示有足夠證據拒絕虛無假設,存在顯著差異。P值本身就是「在虛無假設為真」的前提下,觀察到目前數據或更極端數據的機率。因此,P值為0.005代表在虛無假設為真時,這種結果發生的機率只有0.5%。
















