[假設檢定與統計推論2]模擬考題

更新 發佈閱讀 10 分鐘

問題 1 (中級)

------------------------------

題目: 一位AI應用規劃師正在評估一個新的AI推薦模型相較於舊模型是否能顯著提升用戶的平均停留時間。他在新舊模型各抽樣了50位用戶,並記錄了他們的停留時間數據。經過檢定,P值為0.035,顯著水準設定為0.05。請問下列哪項決策是最適切的?

選項:

A) P值小於0.05,因此無法拒絕虛無假設,新模型沒有顯著提升。

B) P值小於0.05,因此有足夠證據拒絕虛無假設,新模型有顯著提升。

C) P值大於0.05,因此有足夠證據拒絕虛無假設,新模型有顯著提升。

D) 無法判斷,因為停留時間數據可能不服從常態分佈,需要先進行常態性檢定。


答案: B) P值小於0.05,因此有足夠證據拒絕虛無假設,新模型有顯著提升。

解析: 當P值小於預設的顯著水準(α=0.05)時,表示在虛無假設為真的前提下,觀察到這種結果的機率很小,因此我們有足夠的統計證據拒絕虛無假設,即認為新模型確實有顯著提升。選項D雖然提出了數據分佈的考量,但在P值已給出的情況下,應先基於P值與顯著水準的比較做出判斷。若數據分佈異常,則應考慮使用非參數檢定,但題目已給出P值,暗示已完成檢定。


問題 2 (中級)

------------------------------

題目: 在進行A/B測試以比較兩個AI模型在用戶點擊率上的差異時,若研究者錯誤地拒絕了實際上並沒有差異的虛無假設,這屬於哪種統計錯誤?其英文代號為何?

選項:

A) 型一錯誤 (Type I Error),α

B) 型一錯誤 (Type I Error),β

C) 型二錯誤 (Type II Error),α

D) 型二錯誤 (Type II Error),β


答案: A) 型一錯誤 (Type I Error),α

解析: 型一錯誤 (Type I Error) 發生在當虛無假設實際上為真,但我們卻錯誤地拒絕了它。這在統計學中通常用顯著水準 α 來表示。在本例中,即兩個AI模型實際無差異,但研究者卻判斷有差異。


問題 3 (中級)

------------------------------

題目: 一位AI數據分析師想檢定一個新的聊天機器人模型在「回應準確度」上,是否與預期的80%準確度存在顯著差異。他隨機抽取了200個對話樣本進行測試,發現準確度為85%。請問該分析師最適合使用下列哪種檢定方法?

選項:

A) 獨立樣本T檢定

B) 卡方獨立性檢定

C) 單一樣本比例Z檢定

D) Pearson相關係數分析


答案: C) 單一樣本比例Z檢定

解析: 題目目標是檢定單一總體比例(回應準確度)是否與一個已知比例(預期的80%)存在顯著差異,且樣本數足夠大(200個樣本)。單一樣本比例Z檢定是處理此類問題的標準方法。


問題 4 (中級)

------------------------------

題目: 一家新創公司開發了一款AI推薦系統,希望了解用戶年齡層與他們點擊特定商品類別(例如:電子產品、服飾、書籍)之間是否存在關聯。為了分析這兩個變數,他們應使用哪種統計檢定?

選項:

A) Pearson相關係數

B) T檢定

C) 卡方獨立性檢定

D) Spearman等級相關係數


答案: C) 卡方獨立性檢定

解析: 用戶年齡層(類別變數)和點擊特定商品類別(類別變數)都是類別型數據。要檢定兩個類別變數之間是否存在關聯性,最適合的統計方法是卡方獨立性檢定。Pearson和Spearman用於連續或序位數據間的相關性,T檢定用於比較平均數差異。


問題 5 (中級)

------------------------------

題目: 當AI應用規劃師在評估一個模型時,如果數據明顯不服從常態分佈,且樣本量較小,他應該優先考慮使用哪種類型的檢定?

選項:

A) 參數檢定,因為其統計效力較高。

B) 非參數檢定,因為它們對分佈假設較少。

C) T檢定,因為它對小樣本表現良好。

D) Z檢定,因為它在大數據場景下更高效。


答案: B) 非參數檢定,因為它們對分佈假設較少。

解析: 當數據不符合常態分佈且樣本量較小時,參數檢定(如T檢定和Z檢定)的假設條件不成立,可能導致錯誤結論。非參數檢定則不需要嚴格的數據分佈假設,因此在這種情況下是更穩健的選擇。


問題 6 (中級)

------------------------------

題目: 在AI模型的特徵工程階段,一位數據科學家發現兩個特徵X和Y之間存在高度的負相關(Pearson相關係數接近-0.9)。這可能對AI模型訓練產生什麼影響?

選項:

A) 負相關表示兩個特徵無關,可以同時保留。

B) 負相關表示兩個特徵可能存在共線性,可能導致模型過度擬合或係數解釋困難。

C) 負相關表示兩個特徵互相抵消,對模型沒有任何影響。

D) 負相關表示其中一個特徵必須取平方後才能使用,以消除負面影響。


答案: B) 負相關表示兩個特徵可能存在共線性,可能導致模型過度擬合或係數解釋困難。

解析: 高度相關的特徵(無論正負)會導致共線性問題。在某些AI模型(尤其是線性模型)中,共線性會使模型參數的估計變得不穩定,難以解釋每個特徵的獨立貢獻,並可能導致模型過度擬合訓練數據,進而影響泛化能力。因此,通常需要考慮保留其中一個或進行降維處理。


問題 7 (中級)

------------------------------

題目: AI規劃師利用相關性分析發現,某應用程式的「每日使用時長」與「用戶月訂閱率」之間呈現顯著的正相關。下列哪項說法最能體現「相關不等於因果」的原則?

選項:

A) 提高每日使用時長必然會直接導致月訂閱率上升。

B) 月訂閱率上升是因為每日使用時長增加,這是因果關係。

C) 兩者之間可能存在一個共同的潛在因素(如「應用程式內容品質」)同時影響兩者,而非直接因果。

D) 正相關表示這種關係是隨機的,沒有實際意義。


答案: C) 兩者之間可能存在一個共同的潛在因素(如「應用程式內容品質」)同時影響兩者,而非直接因果。

解析: 相關性僅表示兩個變數之間存在某種共同變動趨勢,但無法證明一個變數的變化直接導致另一個變數的變化。在許多情況下,存在第三個未被觀察到的潛在變數(交絡因子)同時影響這兩個變數,造成它們看似相關。選項C正確地解釋了「相關不等於因果」的常見情況。


問題 8 (中級)

------------------------------

題目: 在一個評估AI醫療診斷模型準確度的實驗中,研究人員進行了假設檢定,並得到了P值為0.08。如果顯著水準設定為0.05,下列哪一個結論是正確的?

選項:

A) 拒絕虛無假設,因為P值足夠大。

B) 不拒絕虛無假設,因為P值大於0.05。

C) 接受對立假設,因為P值表示有顯著差異。

D) 無法得出任何結論,因為P值不夠小。


答案: B) 不拒絕虛無假設,因為P值大於0.05。

解析: 當P值(0.08)大於預設的顯著水準(0.05)時,我們沒有足夠的統計證據來拒絕虛無假設。這並不意味著虛無假設為真,只是說我們沒有足夠的證據證明其為假。


問題 9 (中級)

------------------------------

題目: 一個AI專案經理希望比較兩個不同機器學習模型的預測錯誤率(MAE, 平均絕對誤差)。他收集了兩個模型在相同測試集上的預測結果,並計算了MAE。他應該選擇哪種統計檢定來判斷兩個模型的MAE是否有顯著差異?

選項:

A) 卡方獨立性檢定

B) Pearson相關係數

C) 配對樣本T檢定(如果同一筆資料被兩個模型預測)或獨立樣本T檢定

D) 適合度檢定


答案: C) 配對樣本T檢定(如果同一筆資料被兩個模型預測)或獨立樣本T檢定

解析: MAE是連續型數據,用來比較兩個模型的平均誤差。如果兩個模型在相同的測試資料點上進行預測,則這些誤差是配對的,應使用配對樣本T檢定。如果模型的誤差是來自不同且獨立的測試集,則使用獨立樣本T檢定。卡方檢定用於類別變數,Pearson相關係數用於衡量變數間的線性關係,適合度檢定用於單一類別變數分佈。


問題 10 (中級)

------------------------------

題目: 當AI應用規劃師在進行A/B測試時,設定了顯著水準α=0.01。如果最終檢定結果為P值=0.005,這代表什麼?

選項:

A) 存在非常顯著的差異,但犯型一錯誤的機率是0.995。

B) 不存在顯著差異,因為P值非常小。

C) 存在顯著差異,且在虛無假設為真時,觀察到這種結果的機率僅為0.5%。

D) 存在顯著差異,但犯型二錯誤的機率是0.005。


答案: C) 存在顯著差異,且在虛無假設為真時,觀察到這種結果的機率僅為0.5%。

解析: P值(0.005)小於顯著水準(0.01),表示有足夠證據拒絕虛無假設,存在顯著差異。P值本身就是「在虛無假設為真」的前提下,觀察到目前數據或更極端數據的機率。因此,P值為0.005代表在虛無假設為真時,這種結果發生的機率只有0.5%。

留言
avatar-img
留言分享你的想法!
avatar-img
iPAS AI 自學路
10會員
46內容數
我是一位正在追求職涯升級的 40 歲非本科系上班族。我會將自己摸索出的高效白話筆記與聽覺學習法無私分享,助你:克服術語障礙、利用零碎時間學習、系統化整理考點。 也歡迎到我的頻道逛逛https://www.youtube.com/@ipasstudybuddy
iPAS AI 自學路的其他內容
2025/10/27
先衝影片!再戰模考!考前這一步,讓你的努力更有方向 👉 🎓 iPAS自學路:https://youtu.be/VYrbdgxnEQg
2025/10/27
先衝影片!再戰模考!考前這一步,讓你的努力更有方向 👉 🎓 iPAS自學路:https://youtu.be/VYrbdgxnEQg
2025/10/26
📺 先看影片,再挑戰模擬考! 理解比死背更重要,看完影片再測驗,效果直接翻倍! 👉 https://www.youtube.com/@ipasstudybuddy
2025/10/26
📺 先看影片,再挑戰模擬考! 理解比死背更重要,看完影片再測驗,效果直接翻倍! 👉 https://www.youtube.com/@ipasstudybuddy
2025/10/25
問題 1 (中級) ------------------------------ 題目: 一家AI新創公司正在開發一個模型,旨在預測客戶在收到促銷郵件後是否會點擊連結。若要對單一客戶的點擊行為進行建模,下列哪一種機率分佈最為適合? 選項: A) 泊松分佈 B) 二項分佈 C) 伯努利分佈
2025/10/25
問題 1 (中級) ------------------------------ 題目: 一家AI新創公司正在開發一個模型,旨在預測客戶在收到促銷郵件後是否會點擊連結。若要對單一客戶的點擊行為進行建模,下列哪一種機率分佈最為適合? 選項: A) 泊松分佈 B) 二項分佈 C) 伯努利分佈
看更多
你可能也想看
Thumbnail
雙11於許多人而言,不只是單純的折扣狂歡,更是行事曆裡預定的,對美好生活的憧憬。 錢錢沒有不見,它變成了快樂,跟讓臥房、辦公桌、每天早晨的咖啡香升級的樣子! 這次格編突擊辦公室,也邀請 vocus「野格團」創作者分享掀開蝦皮購物車的簾幕,「加入購物車」的瞬間,藏著哪些靈感,或是對美好生活的想像?
Thumbnail
雙11於許多人而言,不只是單純的折扣狂歡,更是行事曆裡預定的,對美好生活的憧憬。 錢錢沒有不見,它變成了快樂,跟讓臥房、辦公桌、每天早晨的咖啡香升級的樣子! 這次格編突擊辦公室,也邀請 vocus「野格團」創作者分享掀開蝦皮購物車的簾幕,「加入購物車」的瞬間,藏著哪些靈感,或是對美好生活的想像?
Thumbnail
雙11購物節準備開跑,蝦皮推出超多優惠,與你分享實際入手的收納好物,包括貨櫃收納箱、真空收納袋、可站立筆袋等,並分享如何利用蝦皮分潤計畫,一邊購物一邊賺取額外收入,讓你買得開心、賺得也開心!
Thumbnail
雙11購物節準備開跑,蝦皮推出超多優惠,與你分享實際入手的收納好物,包括貨櫃收納箱、真空收納袋、可站立筆袋等,並分享如何利用蝦皮分潤計畫,一邊購物一邊賺取額外收入,讓你買得開心、賺得也開心!
Thumbnail
分享個人在新家裝潢後,精選 5 款蝦皮上的實用家居好物,包含客製化層架、MIT 地毯、沙發邊桌、分類垃圾桶及寵物碗架,從尺寸、功能到價格都符合需求,並提供詳細開箱心得與購買建議。
Thumbnail
分享個人在新家裝潢後,精選 5 款蝦皮上的實用家居好物,包含客製化層架、MIT 地毯、沙發邊桌、分類垃圾桶及寵物碗架,從尺寸、功能到價格都符合需求,並提供詳細開箱心得與購買建議。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 xxx 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式: MCC: 首先介紹 True (T) Positive (
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 xxx 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式: MCC: 首先介紹 True (T) Positive (
Thumbnail
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
Thumbnail
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
Thumbnail
最近有新的訂閱者加入, 想趁這個機會再分享一次學習心法與建議給第一次練習的讀者、同學們。 如果你本身已經很熟練演算法,那隨機挑題目練習ok,可以測試觀念是否正確,並且驗證寫code的效率與正確程度。 如果是剛畢業或還在學,以前沒有打過程式競賽。 想開始有系統地增強演算法&資料結構的能力
Thumbnail
最近有新的訂閱者加入, 想趁這個機會再分享一次學習心法與建議給第一次練習的讀者、同學們。 如果你本身已經很熟練演算法,那隨機挑題目練習ok,可以測試觀念是否正確,並且驗證寫code的效率與正確程度。 如果是剛畢業或還在學,以前沒有打過程式競賽。 想開始有系統地增強演算法&資料結構的能力
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News