問題 1 (中級)
------------------------------
題目: 在一個電商平台分析用戶行為時,研究團隊僅從參與「滿額贈禮」活動的用戶中收集滿意度數據。這種做法最可能導致哪種數據偏誤?選項:
A) 測量偏誤 (Measurement Bias)
B) 選擇偏誤 (Selection Bias)
C) 觀察者偏誤 (Observer Bias)
D) 確認偏誤 (Confirmation Bias)
答案: B) 選擇偏誤 (Selection Bias)
解析: 選擇偏誤發生在樣本未能隨機或代表整體母體時。此案例中,只從參與特定活動的用戶中收集數據,使得樣本無法代表所有用戶的滿意度。
問題 2 (中級)
------------------------------
題目: 某教育機構統計大學錄取率,發現個別學院中女生的錄取率均高於男生。然而,當合併所有學院數據時,男生的總體錄取率卻高於女生。這種現象最符合以下哪種統計概念?
選項:
A) 大數法則 (Law of Large Numbers)
B) 中心極限定理 (Central Limit Theorem)
C) 辛普森悖論 (Simpson's Paradox)
D) 多重比較問題 (Multiple Comparisons Problem)
答案: C) 辛普森悖論 (Simpson's Paradox)
解析: 辛普森悖論指分組數據中的趨勢在合併後可能反轉,通常是因存在未被考慮的混淆因子(如不同學院的申請難度)。
問題 3 (中級)
------------------------------
題目: 一位數據分析師在研究某新藥物的多個副作用時,對每個副作用都獨立進行了統計顯著性檢定。如果沒有進行適當的校正,他最可能面臨以下哪種問題?
選項:
A) 降低了檢定力 (Power)
B) 增加了第一型錯誤 (Type I Error) 的機率
C) 增加了第二型錯誤 (Type II Error) 的機率
D) 導致辛普森悖論
答案: B) 增加了第一型錯誤 (Type I Error) 的機率
解析: 進行多重比較時,如果沒有校正,會增加至少一次錯誤地拒絕虛無假設(第一型錯誤)的機率,即發現假陽性結果。
問題 4 (中級)
------------------------------
題目: 在大數據環境下,即使數據量極大,也不能盲目假設它必然符合「大數法則」或「中心極限定理」的條件。主要原因是什麼?
選項:
A) 大數據處理速度過快,導致計算誤差
B) 大數據往往是非結構化的,無法直接應用這些法則
C) 大數據的採集和處理過程可能存在系統性偏誤,導致樣本非獨立同分佈
D) 大數據通常涉及高維度特徵,傳統統計法則不適用
答案: C) 大數據的採集和處理過程可能存在系統性偏誤,導致樣本非獨立同分佈
解析: 大數法則和中心極限定理的前提是數據樣本需要是獨立同分佈的。如果大數據的採集本身就存在偏誤,即使數據量再大,也只會放大這些偏誤,而無法趨近真實母體。
問題 5 (中級)
------------------------------
題目: 數據稀疏性對描述性統計分析可能造成什麼影響?
選項:
A) 提高數據的完整性
B) 讓數據聚合指標失去代表性
C) 簡化數據分析的複雜度
D) 自動消除數據偏誤
答案: B) 讓數據聚合指標失去代表性
解析: 數據稀疏性表示數據集中大部分數值為零或缺失。當數據點過少時,一些聚合指標(如平均值)可能因數據不足而無法有效代表其群體,導致分析結果失真。
問題 6 (中級)
------------------------------
題目: 在一個AI推薦系統的案例中,數據分析師小陳發現歷史購買紀錄存在大量缺失值,且商品標籤被錯誤分類。針對這個問題,以下哪項策略最能有效提升特徵工程的有效性並減少偏誤?
選項:
A) 直接將缺失值填補為零,並忽略錯誤標籤
B) 立即部署模型,並在運行中收集更多數據來修正
C) 進行數據清洗和補齊,重新審核商品標籤,並考慮使用矩陣分解等技術處理稀疏數據
D) 增加模型的複雜度,使其能自動處理低品質數據
答案: C) 進行數據清洗和補齊,重新審核商品標籤,並考慮使用矩陣分解等技術處理稀疏數據
解析: 低品質的數據會嚴重影響特徵工程的效果。數據清洗、補齊、正確標籤是基礎。對於稀疏數據,矩陣分解等進階技術比簡單填補零值更能有效處理,避免傳遞偏誤。
問題 7 (中級)
------------------------------
題目: 關於數據品質的衡量,以下哪個選項不是其通常考量的關鍵維度?
選項:
A) 準確性 (Accuracy)
B) 完整性 (Completeness)
C) 視覺化程度 (Visualization Level)
D) 一致性 (Consistency)
答案: C) 視覺化程度 (Visualization Level)
解析: 數據品質主要衡量數據能否滿足預期用途,通常考量準確性、完整性、一致性、時效性和相關性。視覺化程度是數據呈現方式,而非數據本身品質的衡量維度。
問題 8 (中級)
------------------------------
題目: 在規劃AI專案時,若數據來源本身存在嚴重的選擇偏誤,即使收集了再大的數據量,最終模型也很可能無法準確反映真實世界。這是因為大數法則的哪個前提條件可能被違反?
選項:
A) 數據必須是時間序列數據
B) 樣本必須足夠小
C) 樣本必須是獨立同分佈的 (Independent and Identically Distributed, I.I.D.)
D) 數據必須是高維度的
答案: C) 樣本必須是獨立同分佈的 (Independent and Identically Distributed, I.I.D.)
解析: 大數法則的一個關鍵前提是樣本必須是獨立同分佈的。如果數據存在嚴重的選擇偏誤,則樣本無法代表整體母體,即不滿足I.I.D.條件,因此再大的數據量也只會放大偏誤而非趨近真實。
問題 9 (中級)
------------------------------
題目: 在大數據背景下,由於樣本量巨大,許多微小的效應都可能導致P值極小,從而達到統計顯著。這最容易導致哪種錯誤?
選項:
A) 忽略了實務顯著性 (Practical Significance)
B) 增加了第二型錯誤 (Type II Error)
C) 提高了信賴區間的寬度
D) 降低了模型複雜度
答案: A) 忽略了實務顯著性 (Practical Significance)
解析: P值極小只說明觀察到的效應不太可能是隨機產生,並不代表該效應在實際業務中具有重要價值。在大數據中,小效應也能統計顯著,因此需要同時考量實務顯著性。
問題 10 (中級)
------------------------------
題目: 某AI診斷模型在判斷癌症時,如果將一名健康人錯誤地診斷為癌症患者,這屬於哪種統計錯誤?
選項:
A) 第一型錯誤 (Type I Error)
B) 第二型錯誤 (Type II Error)
C) 混淆矩陣 (Confusion Matrix)
D) 過度擬合 (Overfitting)
答案: A) 第一型錯誤 (Type I Error)
解析: 第一型錯誤是指錯誤地拒絕了真實的虛無假設。在此情境中,虛無假設是「患者沒有癌症」,錯誤地拒絕它就是「判斷為有癌症但實際上沒有」,即假陽性。
問題 11 (中級)
------------------------------
題目: 在金融詐欺檢測模型中,以下哪種情況最能說明「第二型錯誤」的發生,且其業務成本可能最高?
選項:
A) 將一筆合法交易錯誤標記為詐欺
B) 將一筆詐欺交易錯誤地識別為合法
C) 模型無法處理高維數據
D) 模型訓練時間過長
答案: B) 將一筆詐欺交易錯誤地識別為合法
解析: 第二型錯誤是未能拒絕虛假的虛無假設(即「漏報」)。在詐欺檢測中,將詐欺交易誤判為合法(假陰性)會直接導致財務損失,其業務成本通常遠高於將合法交易誤判為詐欺(假陽性)。
問題 12 (中級)
------------------------------
題目: 貝葉斯推論相對於頻率學派的假設檢定,在哪種情況下顯示出較大的優勢?
選項:
A) 處理樣本量極大的數據時
B) 需要將先驗知識或主觀信念整合到模型中時
C) 追求極低的計算複雜度時
D) 只需判斷統計顯著性時
答案: B) 需要將先驗知識或主觀信念整合到模型中時
解析: 貝葉斯推論的核心是利用貝葉斯定理,結合先驗機率(對假設的初始信念)和數據來更新後驗機率,因此在需要整合先驗知識或主觀信念的場景中特別有效。
問題 13 (中級)
------------------------------
題目: 小陳在電商平台新產品銷售預測模型中,調整閾值使其傾向於保守預測,以降低高估銷售量的風險。這種策略主要是為了降低哪種錯誤的發生機率?
選項:
A) 降低模型過度擬合的風險
B) 降低第一型錯誤 (Type I Error)
C) 降低第二型錯誤 (Type II Error)
D) 降低數據稀疏性
答案: B) 降低第一型錯誤 (Type I Error)
解析: 高估銷售量意味著錯誤地判斷產品會「大賣」(拒絕了產品不會大賣的虛無假設),這正是第一型錯誤(假陽性)。為了避免庫存積壓的更高成本,小陳選擇降低第一型錯誤。
問題 14 (中級)
------------------------------
題目: 在大數據背景下,如果模型的信賴區間非常窄,以下哪種說法是**不正確**的?
選項:
A) 這可能表示樣本量非常大
B) 這意味著估計值非常精確
C) 如果數據存在系統性偏誤,即使信賴區間很窄,它也可能不包含真實的母體參數
D) 信賴區間的寬度與第一型錯誤機率無關
答案: D) 信賴區間的寬度與第一型錯誤機率無關
解析: 信賴區間的寬度與信賴水準有關,而信賴水準(1-alpha)與第一型錯誤機率(alpha)是直接相關的。信賴水準越高,信賴區間通常越寬,反之亦然。選項C是正確的,因為信賴區間反映的是抽樣變異性,不解決系統性偏誤。
問題 15 (中級)
------------------------------
題目: 針對模型在訓練數據上表現良好,但在新的、未見過的數據上表現糟糕的現象,我們稱之為?
選項:
A) 欠擬合 (Underfitting)
B) 過度擬合 (Overfitting)
C) 數據漂移 (Data Drift)
D) 概念漂移 (Concept Drift)
答案: B) 過度擬合 (Overfitting)
解析: 過度擬合指模型過於複雜,記住了訓練數據中的噪音和特定模式,導致泛化能力差,在未見數據上表現不佳。
問題 16 (中級)
------------------------------
題目: 某電商公司希望測試兩種不同的網頁佈局對用戶轉換率的影響,他們將用戶隨機分成兩組,分別展示不同佈局,並比較最終轉換率。這種實驗設計屬於哪種統計應用?
選項:
A) 時間序列分析 (Time Series Analysis)
B) 集群分析 (Cluster Analysis)
C) A/B測試 (A/B Testing)
D) 地理空間統計 (Geospatial Statistics)
答案: C) A/B測試 (A/B Testing)
解析: A/B測試是一種隨機對照實驗,用於比較兩種或多種版本(A和B)的表現,以確定哪個版本在特定指標上更優,常見於網頁優化、廣告測試等。
問題 17 (中級)
------------------------------
題目: 在金融領域,若要預測股票的未來走勢或分析市場的季節性模式,最常使用的統計應用技術是?
選項:
A) 集群分析 (Cluster Analysis)
B) 自然語言處理 (Natural Language Processing)
C) 時間序列分析 (Time Series Analysis)
D) 圖神經網絡 (Graph Neural Networks)
答案: C) 時間序列分析 (Time Series Analysis)
解析: 時間序列分析專門用於分析隨時間順序排列的數據點,以理解其模式、趨勢、週期性,並進行預測,非常適用於金融市場的預測。
問題 18 (中級)
------------------------------
題目: 某電信公司希望識別出具有相似消費行為和服務使用習慣的用戶群體,以便進行精準行銷和差異化服務。最適合採用以下哪種統計應用?
選項:
A) A/B測試 (A/B Testing)
B) 迴歸分析 (Regression Analysis)
C) 集群分析 (Cluster Analysis)
D) 假設檢定 (Hypothesis Testing)
答案: C) 集群分析 (Cluster Analysis)
解析: 集群分析是一種無監督學習方法,旨在將數據點分組,使得同一組內的數據點彼此相似,而不同組之間的數據點則差異較大,非常適合用戶分群。
問題 19 (中級)
------------------------------
題目: 在醫療領域,若要從海量的電子病歷文本中提取關鍵症狀、診斷結果和治療方案,最核心的技術應用是?
選項:
A) 地理空間統計 (Geospatial Statistics)
B) 圖神經網絡 (Graph Neural Networks)
C) 自然語言處理 (Natural Language Processing, NLP)
D) 預測性維護 (Predictive Maintenance)
答案: C) 自然語言處理 (Natural Language Processing, NLP)
解析: NLP專門處理人類語言,能夠讓電腦理解、解釋和操縱文本信息,是從非結構化病歷文本中提取關鍵資訊的理想技術。
問題 20 (中級)
------------------------------
題目: 若要分析社交網絡中用戶之間的關係、社區結構或信息傳播路徑,以下哪種模型技術最為適用?
選項:
A) 時間序列分析
B) 集群分析
C) 圖神經網絡 (Graph Neural Networks, GNN)
D) 邏輯迴歸
答案: C) 圖神經網絡 (Graph Neural Networks, GNN)
解析: GNN專門處理圖結構數據,能夠捕捉節點之間的關係和結構信息,非常適合分析社交網絡等複雜關係網。
問題 21 (中級)
------------------------------
題目: 在智能製造場景中,利用機器感測器數據(如溫度、震動)來預測設備何時可能發生故障,以便提前進行維護,這種應用稱為?
選項:
A) 描述性分析 (Descriptive Analytics)
B) 預測性維護 (Predictive Maintenance)
C) 規範性分析 (Prescriptive Analytics)
D) 診斷性分析 (Diagnostic Analytics)
答案: B) 預測性維護 (Predictive Maintenance)
解析: 預測性維護利用數據分析預測設備故障時間,以便在故障發生前進行維護,從而減少停機時間和維護成本。
問題 22 (中級)
------------------------------
題目: 醫療專案中,張醫師為了應對患者健康狀況隨時間變化可能導致的模型性能衰退,設計了持續監測機制並計畫觸發重新訓練。這種策略最主要用於應對哪兩種現象?
選項:
A) 辛普森悖論與多重比較問題
B) 數據偏誤與選擇偏誤
C) 數據稀疏性與過度擬合
D) 數據漂移 (Data Drift) 與概念漂移 (Concept Drift)
答案: D) 數據漂移 (Data Drift) 與概念漂移 (Concept Drift)
解析: 數據漂移和概念漂移是指數據分佈或數據與目標變數關係隨時間變化,導致模型性能衰退。持續監測和重新訓練是應對這兩種現象的關鍵策略。
問題 23 (中級)
------------------------------
題目: 在金融業進行信用風險評估時,需要構建模型來量化和預測客戶違約的機率。這種模型屬於哪一類?
選項:
A) 敘述性模型
B) 診斷性模型
C) 風險模型
D) 視覺化模型
答案: C) 風險模型
解析: 風險模型利用統計和機器學習技術,量化和預測特定事件(如信用違約、疾病發作、詐欺行為)發生的機率或嚴重性。
問題 24 (中級)
------------------------------
題目: 在AI專案生命週期中,將「提升產品良率」這樣的商業目標轉化為「將AI檢測系統的誤檢率控制在2%以下,漏檢率控制在0.5%以下」的具體量化指標,這個步驟最主要發生在哪個階段?
選項:
A) 模型開發 (Model Development)
B) 問題定義 (Problem Definition)
C) 部署與監測 (Deployment and Monitoring)
D) 數據採集與準備 (Data Collection and Preparation)
答案: B) 問題定義 (Problem Definition)
解析: 在AI專案的問題定義階段,核心任務就是將模糊的業務問題轉化為清晰、可量化、可衡量的統計或機器學習目標。
問題 25 (中級)
------------------------------
題目: 關於「數據治理 (Data Governance)」,以下哪項描述是**錯誤**的?
選項:
A) 它確保了數據的可用性、完整性和安全性
B) 它主要負責數據的視覺化呈現
C) 它是實現責任AI的關鍵基礎
D) 它有助於降低數據品質問題和合規性風險
答案: B) 它主要負責數據的視覺化呈現
解析: 數據治理主要關注管理數據的可用性、可用性、完整性、安全性和使用,以及相關的政策和標準,而不是數據的視覺化呈現。視覺化是數據應用的工具,而非治理本身。
問題 26 (中級)
------------------------------
題目: 在一個AI圖像識別模型中,為了滿足「責任AI」的「透明度」原則,專案經理要求模型不僅要給出預測結果,還要能顯示模型是基於圖像的哪些區域做出判斷。這主要涉及到以下哪個概念?
選項:
A) 模型可擴展性 (Model Scalability)
B) 模型穩健性 (Model Robustness)
C) 模型可解釋性 (Model Interpretability/Explainability)
D) 模型效率 (Model Efficiency)
答案: C) 模型可解釋性 (Model Interpretability/Explainability)
解析: 模型可解釋性是指模型做出決策的透明度以及人類理解其內部運作機制的容易程度。顯示注意力圖是提升模型可解釋性的常見方法,這對於滿足責任AI的透明度原則至關重要。
問題 27 (中級)
------------------------------
題目: 某AI推薦系統在部署後,發現隨著時間推移,用戶的興趣點和消費習慣發生了顯著變化,導致模型推薦效果下降。這種現象最符合以下哪種概念?
選項:
A) 數據稀疏性 (Data Sparsity)
B) 過度擬合 (Overfitting)
C) 概念漂移 (Concept Drift)
D) 選擇偏誤 (Selection Bias)
答案: C) 概念漂移 (Concept Drift)
解析: 概念漂移是指數據與目標變數之間的關係隨時間變化。用戶興趣點和消費習慣的變化,導致模型原有的「推薦規則」失效,屬於概念漂移。
問題 28 (中級)
------------------------------
題目: 為了確保部署後的AI模型能夠持續適應生產環境的變化並保持性能,專案經理王經理規劃了實時監測儀表板,並建立了半自動化的模型重訓練流程。這種策略的核心是什麼?
選項:
A) 僅依賴人工審核來調整模型
B) 執行一次性模型部署,不再進行更新
C) MRE (Model Retraining and Evaluation)
D) 避免任何數據增強策略
答案: C) MRE (Model Retraining and Evaluation)
解析: MRE(模型重訓練與評估)是應對數據漂移和概念漂移的有效策略,透過定期或在特定條件下對模型進行重新訓練和評估,確保模型性能。
問題 29 (中級)
------------------------------
題目: 一個成功的AI專案,其核心要素不僅限於先進的演算法和龐大的數據量,還需要多方專業人士的協同合作。以下哪項最佳地描述了這種協作模式?
選項:
A) 單一技術專家領導所有環節
B) 跨職能團隊協作 (Cross-functional Team Collaboration)
C) 業務團隊獨立負責數據處理
D) 僅限於數據科學家之間的內部討論
答案: B) 跨職能團隊協作 (Cross-functional Team Collaboration)
解析: AI專案複雜且涉及多個領域,需要數據科學家、工程師、業務分析師、領域專家等不同職能的成員共同工作,才能確保技術解決方案符合業務需求並成功落地。
問題 30 (中級)
------------------------------
題目: 在AI專案的初期階段,明確定義專案的目標、交付物、資源、時間表和限制,這是指哪一項關鍵活動?
選項:
A) 模型驗證 (Model Validation)
B) 特徵工程 (Feature Engineering)
C) 專案範圍界定 (Project Scoping)
D) 模型部署 (Model Deployment)
答案: C) 專案範圍界定 (Project Scoping)
解析: 專案範圍界定是明確定義專案目標、交付物、資源、時間表和限制的過程,這對於AI專案的成功至關重要,可以避免範圍蔓延和資源浪費。





















