問題 1 (中級)
------------------------------
題目: 一家大型零售集團希望建立一個統一的顧客360度視圖,以提升精準行銷與顧客體驗。其顧客數據分散於線上交易系統、社群媒體監測平台、實體POS系統及客服記錄等多個異構來源,且數據模態包含結構化、半結構化和非結構化。在這種複雜的數據環境下,若集團追求在不物理移動所有原始數據的前提下,快速集成並提供統一訪問介面,應優先考慮哪種數據整合架構?選項:
A) 傳統的ETL流程搭配數據倉儲 (Data Warehouse)
B) 大規模的ELT流程搭配數據湖 (Data Lake)
C) 導入數據織網 (Data Fabric) 解決方案
D) 僅依靠數據虛擬化 (Data Virtualization) 技術
答案: C) 導入數據織網 (Data Fabric) 解決方案
解析: 正確答案是 C) 導入數據織網 (Data Fabric) 解決方案。Data Fabric 的核心優勢在於其能夠在不物理移動數據的前提下,提供對分佈式和異構數據源的即時訪問和集成,符合題幹中「不物理移動所有原始數據」和「快速集成並提供統一訪問介面」的需求。它旨在簡化複雜數據環境中的數據管理和集成,特別適合多模態和跨來源數據的場景。A) 傳統的ETL流程搭配數據倉儲雖然能提供結構化數據的高效分析,但其嚴格的Schema-on-write模式和物理移動數據的特性,對於非結構化和半結構化數據的快速整合、以及「不物理移動」的要求,彈性不足。B) 大規模的ELT流程搭配數據湖雖然能處理原始和異構數據,且有較好的擴展性,但其通常仍涉及數據的集中儲存(物理移動)和後期的轉換管理,不完全符合「不物理移動」的核心訴求。D) 僅依靠數據虛擬化 (Data Virtualization) 技術雖然也提供邏輯整合,但Data Fabric是一個更全面的概念,它不僅提供虛擬化,還包含了數據治理、安全和元數據管理等更廣泛的集成能力,能更好地滿足大型零售集團的複雜需求。
問題 2 (中級)
------------------------------
題目: 某AI專案團隊正在為一個全新的客服語音辨識系統進行數據標註。由於該系統需要處理大量口語化表達、地方方言和特定行業術語,團隊發現人工標註的成本極高,且不同標註員之間的一致性難以維持。為了解決標註效率與品質問題,團隊希望優先選用一種能在模型訓練過程中主動識別「最具信息量」的未標註數據,並將其提交給人工專家進行標註的策略。請問這是哪種標註策略,以及其核心機制是什麼?
選項:
A) 半監督學習 (Semi-supervised Learning),通過自訓練生成偽標籤
B) 弱監督學習 (Weak Supervision),通過編程規則生成帶雜訊標籤
C) 主動學習 (Active Learning),通過查詢策略選擇樣本
D) 資料增強 (Data Augmentation),通過變換擴充數據集
答案: C) 主動學習 (Active Learning),通過查詢策略選擇樣本
解析: 正確答案是 C) 主動學習 (Active Learning),通過查詢策略選擇樣本。主動學習的核心思想是讓模型在訓練過程中主動挑選那些對模型學習最有幫助的未標註數據,提交給人工專家進行標註,從而以最少的人工成本達到最佳的模型性能。其關鍵在於「查詢策略」,例如不確定性採樣(選擇模型預測信心最低的樣本)或多樣性採樣。A) 半監督學習是利用少量有標籤數據和大量無標籤數據進行訓練,通常透過模型自訓練等方式為無標籤數據生成「偽標籤」,不涉及人工主動選擇。B) 弱監督學習是通過編程規則、啟發式方法或多個弱標註器來生成「帶有雜訊的標籤」,減少對人工標註的依賴,但標籤品質可能不如人工。D) 資料增強是通過對已有數據進行變換來增加訓練數據量,以緩解數據稀缺問題,但它不涉及主動選擇未標註數據或生成新標籤。
問題 3 (中級)
------------------------------
題目: 在開發一個銀行金融詐欺偵測模型時,數據分析師面臨挑戰:實際詐欺交易數量僅佔總交易量的0.01%,數據集極度不平衡。初始模型在測試集上顯示高達99.9%的準確率(Accuracy),但業務部門反映仍有大量實際詐欺交易未能被偵測到。請問,在這種高度不平衡數據的詐欺偵測場景中,除了準確率,數據分析師還應優先關注哪個或哪些評估指標來改進模型?
選項:
A) 精準率 (Precision) 和 特異度 (Specificity)
B) 召回率 (Recall) 和 F1 分數 (F1-score)
C) 負預測值 (Negative Predictive Value) 和 假陽性率 (False Positive Rate)
D) ROC 曲線下的面積 (AUC-ROC) 和 訓練時間
答案: B) 召回率 (Recall) 和 F1 分數 (F1-score)
解析: 正確答案是 B) 召回率 (Recall) 和 F1 分數 (F1-score)。在高度不平衡的數據集中,特別是像詐欺偵測這種少數類(詐欺交易)至關重要的場景,單純的高準確率可能具有誤導性。一個模型即便將所有交易都預測為正常(多數類),也能達到極高的準確率,但卻會錯過所有詐欺交易。業務部門反映「大量實際詐欺交易未能被偵測到」直接指向了模型召回詐欺交易的能力不足。
* **召回率 (Recall)**:衡量模型在所有實際正例(詐欺交易)中,正確識別出的比例。對於詐欺偵測而言,高召回率意味著能捕捉到更多的詐欺行為,減少漏報。
* **F1 分數 (F1-score)**:是精準率 (Precision) 和召回率的調和平均值,它在兩者之間取得平衡。當數據不平衡時,F1分數能夠更全面地反映模型的性能,避免單獨追求高精準率或高召回率而導致另一方過低。
A) 精準率 (Precision) 衡量模型預測為正例(詐欺)中有多少是真的正例。特異度 (Specificity) 衡量模型在所有實際負例(正常交易)中,正確識別出的比例。雖然這些指標也重要,但在漏報詐欺是主要問題時,召回率和F1分數更具優先級。C) 負預測值和假陽性率在某些情況下有用,但不是解決「大量漏報詐欺」核心問題的首選。D) AUC-ROC在不平衡數據下是一個較穩健的整體模型評估指標,但它描述的是模型在不同閾值下的整體分類能力,無法直接指導如何提高對少數類別的捕獲能力。訓練時間是工程考量,與模型性能評估無直接關聯。
問題 4 (中級)
------------------------------
題目: 某大型醫院希望導入智能輔助診斷系統,利用AI從CT和MRI影像中自動檢測並精確分割腫瘤區域。醫院在模型選型時,特別強調需要一個能有效保留影像空間細節,並在醫學影像分割任務中表現卓越的深度學習架構。考量到這些需求,應優先選擇以下哪種CNN架構?
選項:
A) ResNet (殘差網路)
B) U-Net
C) VGGNet (牛津視覺幾何組網路)
D) AlexNet
答案: B) U-Net
解析: 正確答案是 B) U-Net。U-Net因其獨特的編碼器-解碼器結構和跳躍連接(skip connections)在醫學影像分割領域表現卓越。它的U形結構允許在解碼階段將編碼階段學習到的高層次語義信息與低層次的空間細節信息結合起來,這對於需要像素級精確預測的圖像分割任務至關重要,能有效保留影像空間細節,精確檢測並分割腫瘤邊界。A) ResNet (殘差網路) 主要解決深度網路訓練中的梯度消失問題,擅長圖像分類,但在像素級分割任務上不如U-Net。C) VGGNet以其深度和使用小卷積核的特性而聞名,主要用於圖像分類,但計算量大,且不擅長分割任務。D) AlexNet是早期深度學習的里程碑,用於圖像分類,其架構相對簡單,在分割任務上無法達到所需的精度和細節保留。
問題 5 (中級)
------------------------------
題目: 一家跨境電商公司希望針對其VIP客戶推出更精準的個性化商品推薦服務,以提升轉換率。目前,該公司擁有客戶過去的購買記錄、瀏覽行為日誌以及客戶填寫的詳細商品偏好問卷數據。若希望開發一個推薦系統,能夠同時利用用戶和物品之間的相似性以及商品自身的屬性信息進行推薦,以下哪種推薦系統類型最能滿足其需求?
選項:
A) 僅使用協同過濾 (Collaborative Filtering) 的推薦系統
B) 僅使用內容推薦 (Content-Based Recommendation) 的推薦系統
C) 結合協同過濾與內容推薦的混合推薦 (Hybrid Recommendation) 系統
D) 基於規則 (Rule-Based) 的推薦系統
答案: C) 結合協同過濾與內容推薦的混合推薦 (Hybrid Recommendation) 系統
解析: 正確答案是 C) 結合協同過濾與內容推薦的混合推薦 (Hybrid Recommendation) 系統。題幹中提到公司希望「同時利用用戶和物品之間的相似性」以及「商品自身的屬性信息」進行推薦。
* **協同過濾 (Collaborative Filtering)**:主要基於用戶或物品之間的相似性進行推薦(如購買過相似商品用戶的偏好)。這部分對應了「用戶和物品之間的相似性」。
* **內容推薦 (Content-Based Recommendation)**:主要基於物品自身的屬性(如商品的類別、品牌、描述)與用戶過去的偏好進行匹配。這部分對應了「商品自身的屬性信息」。
因此,結合兩者的**混合推薦系統**能夠充分利用兩種方法的優勢,克服各自的局限性(例如協同過濾的冷啟動問題、內容推薦的過度專業化),提供更全面、精準的個性化推薦。
A) 僅使用協同過濾會忽略商品自身的詳細屬性,可能在冷啟動問題或推薦多樣性上表現不佳。B) 僅使用內容推薦會忽略其他用戶的群體智慧,可能導致推薦過於單一,無法發現用戶未曾表達興趣但可能喜歡的商品。D) 基於規則的推薦系統缺乏學習能力和彈性,無法適應不斷變化的用戶行為和商品趨勢,難以實現高度的個性化和精準度。
問題 6 (中級)
------------------------------
題目: 某銀行在部署AI信用評分模型後,發現雖然模型預測準確率很高,但當客戶申請貸款被拒絕時,銀行員工無法有效解釋被拒絕的原因,導致客戶滿意度下降並引發監管機構對「黑箱決策」的擔憂。為了解決這個問題,AI專案經理決定引入模型可解釋性 (XAI) 工具。在眾多XAI工具中,若希望提供針對單一預測結果的「局部解釋」,並顯示每個特徵對該次預測的貢獻度,以下哪種工具最為適用?
選項:
A) 全局特徵重要性 (Global Feature Importance)
B) SHAP (SHapley Additive exPlanations)
C) LIME (Local Interpretable Model-agnostic Explanations)
D) B與C皆是,且皆能提供有效的局部解釋
答案: D) B與C皆是,且皆能提供有效的局部解釋
解析: 正確答案是 D) B與C皆是,且皆能提供有效的局部解釋。題幹明確指出需要提供「針對單一預測結果的局部解釋」和「顯示每個特徵對該次預測的貢獻度」。
* **SHAP (SHapley Additive exPlanations)** 是一種基於合作博弈論的XAI方法,它能為每個特徵分配一個SHAP值,該值表示該特徵對模型輸出(例如貸款批准或拒絕)的貢獻。SHAP值可以清楚地展示每個特徵如何推動模型做出特定預測,無論是正向推動還是負向推動,非常適合解釋單一預測的局部貢獻度,且具備理論上的堅實基礎。
* **LIME (Local Interpretable Model-agnostic Explanations)** 旨在通過在被解釋的實例周圍創建一個局部可解釋的模型(如線性模型或決策樹)來解釋任何分類器或回歸器的預測。它透過對單一實例周圍的數據點進行微擾,觀察模型的輸出變化,從而構建一個簡單的模型來局部解釋原始複雜模型的決策。因此,LIME也能提供有效的局部解釋。
A) 全局特徵重要性(如基於模型的Permutation Importance或Tree-based Feature Importance)提供的是模型在整個數據集上的平均特徵影響力,而非針對單一預測的局部解釋,因此不符合題幹要求。故選項D最為準確。
問題 7 (中級)
------------------------------
題目: 某科技公司開發了一款智能合約審核AI,能夠從法律文本中識別潛在的風險條款和法律實體。該公司希望在資源有限且沒有大量人工標註數據的情況下,快速啟動AI專案。為此,他們考慮採用一種策略,通過編程規則、啟發式方法和多個弱標註器來生成「帶有雜訊的標籤」,以此來訓練模型。請問這符合哪種學習範式?
選項:
A) 監督學習 (Supervised Learning)
B) 非監督學習 (Unsupervised Learning)
C) 弱監督學習 (Weak Supervision)
D) 強化學習 (Reinforcement Learning)
答案: C) 弱監督學習 (Weak Supervision)
解析: 正確答案是 C) 弱監督學習 (Weak Supervision)。題幹中描述的策略是「通過編程規則、啟發式方法和多個弱標註器來生成『帶有雜訊的標籤』,以此來訓練模型」。這正是弱監督學習的核心思想。它旨在利用非精確或成本較低的標籤信息來訓練模型,以減少對大量高質量人工標註數據的依賴。
A) 監督學習需要大量精確的人工標註數據才能進行有效訓練,這與題幹中「沒有大量人工標註數據」的情況不符。B) 非監督學習處理的是完全沒有標籤的數據,通過挖掘數據本身的結構和模式(如聚類、降維),不涉及生成任何形式的標籤。D) 強化學習是通過智能體與環境互動、試錯來學習如何採取行動以最大化累積獎勵,其學習範式與數據標註無直接關係。因此,弱監督學習是符合題幹情境的最佳選項。
問題 8 (中級)
------------------------------
題目: 在處理多模態數據整合時,數據分析師需要選擇合適的數據融合策略。如果應用場景要求模型對各模態數據的缺失具有較好的魯棒性,並且希望模型在未來可以獨立更換或優化單一模態的模型,而不影響其他模態的處理,則應優先考慮以下哪種融合策略?
選項:
A) 早期融合 (Early Fusion)
B) 晚期融合 (Late Fusion)
C) 混合融合 (Hybrid Fusion)
D) 不進行數據融合
答案: B) 晚期融合 (Late Fusion)
解析: 正確答案是 B) 晚期融合 (Late Fusion)。晚期融合的核心思想是先對各模態數據分別訓練獨立的模型,然後在模型的預測層或決策層將各個獨立模型的輸出結果進行融合。這種方式的優勢在於:1. 對於模態數據的缺失具有較好的魯棒性,因為即使某一模態數據缺失,其他模態的模型仍可獨立工作。2. 模型更具彈性,可以獨立開發、優化或更換單一模態的模型,而無需重新訓練整個系統,符合題幹中「希望模型在未來可以獨立更換或優化單一模態的模型,而不影響其他模態的處理」的需求。A) 早期融合是在輸入模型之前,將所有模態的原始數據或低級特徵拼接在一起。它要求各模態數據高度對齊,且一旦某一模態數據缺失,會對整個模型產生較大影響,彈性較差。C) 混合融合結合了早期和晚期融合的優點,通常在中間層進行融合,雖然在某些情況下表現更好,但相較於純粹的晚期融合,在彈性和魯棒性上可能會有一定程度的妥協,且實施複雜度更高。D) 不進行數據融合會失去多模態數據的協同優勢,可能導致模型性能不佳,不符合應用需求。
問題 9 (中級)
------------------------------
題目: 一家網路安全公司正在開發一個智能系統,用於從海量的網路流量日誌中即時檢測未知的網路入侵行為。這種入侵行為往往表現為與正常流量模式顯著不同的「異常」。考慮到攻擊模式不斷變化,系統需要具備發現「從未見過」或「非常規」威脅的能力。以下哪種機器學習模型或方法最適合用於這種非監督式的異常行為檢測任務?
選項:
A) 邏輯斯迴歸 (Logistic Regression)
B) 支持向量機 (Support Vector Machine, SVM) 的監督分類
C) 隔離森林 (Isolation Forest) 或 單類支持向量機 (One-Class SVM)
D) 梯度提升機 (Gradient Boosting Machine, GBM)
答案: C) 隔離森林 (Isolation Forest) 或 單類支持向量機 (One-Class SVM)
解析: 正確答案是 C) 隔離森林 (Isolation Forest) 或 單類支持向量機 (One-Class SVM)。題幹強調「即時檢測未知的網路入侵行為」和「發現從未見過或非常規威脅」,這明確指向了**非監督式異常檢測**任務。在這種任務中,我們通常只有大量正常數據,而異常數據稀少或根本未知,因此無法進行監督學習。
* **隔離森林 (Isolation Forest)** 是一種高效的異常檢測算法,它通過隨機選擇特徵並隨機切分數據,將異常點隔離出來。異常點通常會更快地被隔離,因此可以用更少的切分步驟來識別,非常適合處理高維數據和大規模數據集。
* **單類支持向量機 (One-Class SVM)** 是一種專門用於異常檢測的SVM變體,它學習數據中的正常模式,將所有其他偏離正常模式的數據點視為異常。它特別適用於訓練數據只包含正常樣本的情況。
A) 邏輯斯迴歸是一種線性分類模型,需要有明確的正負樣本標籤進行監督訓練,不適用於未知異常的檢測。B) 支持向量機 (SVM) 在監督分類任務中表現出色,但同樣需要有標籤的正負樣本,不符合非監督式異常檢測的需求。D) 梯度提升機 (GBM) 是一種強大的集成學習模型,主要用於監督學習任務,需要標籤數據來訓練分類或回歸。因此,隔離森林或單類支持向量機是解決此類問題的合適選擇。
問題 10 (中級)
------------------------------
題目: 一家大型銀行導入AI智能風控系統,用以偵測高風險交易。由於金融數據往往具有時間序列特性且包含許多用戶行為模式。在設計即時預測系統架構時,為確保數據從產生到模型預測的端到端延遲在毫秒級,以下哪組技術組合最能有效支持這種高吞吐量、低延遲的即時數據處理與模型推斷?
選項:
A) HDFS (Hadoop Distributed File System) 搭配 MapReduce 進行批次處理
B) Kafka 搭配 Flink 或 Spark Streaming 進行串流處理,並以 TensorFlow Serving 部署模型
C) MySQL 關係型資料庫搭配定時批次腳本更新預測結果
D) Excel 表格搭配人工審閱,並手動執行模型推理
答案: B) Kafka 搭配 Flink 或 Spark Streaming 進行串流處理,並以 TensorFlow Serving 部署模型
解析: 正確答案是 B) Kafka 搭配 Flink 或 Spark Streaming 進行串流處理,並以 TensorFlow Serving 部署模型。題幹要求「即時預測系統架構」、「端到端延遲在毫秒級」和「高吞吐量、低延遲的即時數據處理與模型推斷」。
* **Kafka** 是一個高吞吐量的分散式串流平台,非常適合作為即時數據的入口和緩衝區,能夠高效地接收和傳輸交易數據。
* **Flink** 或 **Spark Streaming** 是領先的串流處理框架,能夠在數據抵達時即時進行特徵工程、數據轉換和聚合,滿足毫秒級延遲的需求。
* **TensorFlow Serving** 是一個用於機器學習模型部署的高性能服務系統,能夠以低延遲提供模型推斷服務。
這三者的組合是現代即時預測系統的典型架構,能夠有效滿足高吞吐量、低延遲的要求。
A) HDFS 搭配 MapReduce 屬於典型的批次處理架構,其設計目標是處理大量歷史數據,延遲通常在分鐘或小時級,不符合即時性要求。C) MySQL 雖然是一種資料庫,但其設計目標並非高吞吐量串流處理,且定時批次腳本更新無法達到毫秒級延遲。D) Excel 表格和人工審閱是完全手動的流程,效率極低,根本無法滿足「智能系統」和「毫秒級延遲」的需求。
問題 11 (中級)
------------------------------
題目: 在醫療領域應用AI時,醫學影像分析模型(如用於腫瘤檢測)的準確率達到99%看似令人滿意。然而,在實際部署到醫院時,醫生卻對AI模型的判斷結果持懷疑態度,不願意完全信任。為了解決這個問題,AI專案經理需要提升模型的透明度和可信度。以下哪種方法對於提升醫學影像AI模型的可解釋性、幫助醫生理解AI的判斷依據最有效?
選項:
A) 僅提供模型在大量測試集上的整體準確率報告
B) 重新訓練一個更簡單、更容易理解的線性模型來代替原有的複雜模型
C) 引入CAM (Class Activation Mapping) 或 SHAP 等XAI工具,視覺化模型關注的影像區域或解釋特徵貢獻
D) 增加模型的深度和複雜度,以進一步提升準確率,並認為醫生最終會信任更高準確率的模型
答案: C) 引入CAM (Class Activation Mapping) 或 SHAP 等XAI工具,視覺化模型關注的影像區域或解釋特徵貢獻
解析: 正確答案是 C) 引入CAM (Class Activation Mapping) 或 SHAP 等XAI工具,視覺化模型關注的影像區域或解釋特徵貢獻。在醫療等高風險領域,僅有高準確率是不足夠的,模型的可解釋性(XAI)對於建立信任和合規性至關重要。醫生需要了解AI做出判斷的「理由」,才能決定是否採納其建議。
* **CAM (Class Activation Mapping)** 可以視覺化模型在圖像中激活(即關注)的特定區域,讓醫生直觀地看到AI認為是病灶的部位,這對於醫學影像分析非常有用。
* **SHAP** 工具則能解釋每個像素區域或圖像特徵對模型預測的貢獻度,提供更精細的解釋。這些XAI工具能夠將「黑箱」模型的部分內部邏輯透明化,幫助醫生理解AI的判斷依據,從而建立信任。
A) 僅提供整體準確率報告無法解決醫生對單一病例「為何如此判斷」的疑問,缺乏解釋性。B) 重新訓練一個更簡單的線性模型可能犧牲模型性能,無法達到醫學診斷所需的準確度,且即使是線性模型,當特徵數量多時,解釋其決策過程仍然複雜。D) 增加模型的深度和複雜度可能會進一步降低模型的可解釋性,與解決「信任問題」的目標背道而馳,並非提升透明度的正確方法。醫生並不會因為模型準確率更高就盲目信任,尤其在關乎生命健康的決策中。
問題 12 (中級)
------------------------------
題目: 某大型製造企業在進行數據整合時,需要處理來自不同生產線傳感器、ERP系統、SCADA系統及供應鏈合作夥伴的多種異構數據。企業希望建立一個統一的數據存取層,讓各部門可以查詢和分析這些數據,而無需將數據物理移動到一個新的儲存庫,以滿足即時數據訪問和法規限制數據移動的要求。這種策略最符合以下哪種數據管理模式?
選項:
A) 數據倉儲 (Data












