[L22201 數據收集清理]模擬考題

更新 發佈閱讀 34 分鐘

問題 1 (中級)

------------------------------

題目: 在設計企業級數據儲存架構時,若需儲存大量的原始、多樣化數據(包括結構化、半結構化和非結構化數據),並主要用於探索性分析和機器學習模型訓練,同時也需要支持傳統商業智慧報表,哪種架構模式最能平衡這些需求?

選項:

A) 僅使用傳統的數據倉儲 (Data Warehouse)

B) 僅使用分散式檔案系統 (HDFS)

C) 採用數據湖屋 (Data Lakehouse) 架構

D) 僅使用關聯式資料庫 (RDBMS)


答案: C) 採用數據湖屋 (Data Lakehouse) 架構

解析: 數據湖屋架構結合了數據湖的靈活性(儲存原始多樣數據,Schema-on-read)和數據倉儲的結構化、優化查詢能力(Schema-on-write),最能平衡探索性分析、機器學習訓練與傳統BI報表的多樣化需求。選項A只適用於結構化BI;選項B主要用於原始數據儲存,分析能力較弱;選項D不適合非結構化或半結構化大數據。


問題 2 (中級)

------------------------------

題目: 一家金融科技公司需要為其風險控制系統即時監測交易異常,同時也需每日生成批次報表進行綜合分析。在數據處理模式的選擇上,哪種策略最為合理且具備技術優勢?

選項:

A) 所有數據均採用批次處理,夜間統一處理

B) 所有數據均採用串流處理,確保絕對即時性

C) 採用混合架構,即時監測使用串流處理,報表使用批次處理

D) 僅使用 NoSQL 資料庫的 MapReduce 功能處理


答案: C) 採用混合架構,即時監測使用串流處理,報表使用批次處理

解析: 針對即時監測交易異常這種低延遲需求,串流數據處理(如 Flink, Kafka Streams)是最佳選擇。而對於每日報表這種可容忍較高延遲且需要複雜聚合分析的任務,批次處理(如 Spark Batch, Hadoop MapReduce)則更具成本效益和穩定性。因此,採用混合架構能夠兼顧兩種不同業務需求。


問題 3 (中級)

------------------------------

題目: 某電商平台需要追溯用戶從點擊商品到最終完成購買的整個行為路徑,以便進行歸因分析和優化推薦系統。在技術選型上,哪項知識點對於實現此目標最為關鍵?

選項:

A) HDFS 的 NameNode 容錯機制

B) NoSQL 資料庫的水平擴展性

C) 數據血緣 (Data Lineage) 的追溯能力

D) 數據虛擬化 (Data Virtualization) 的整合介面


答案: C) 數據血緣 (Data Lineage) 的追溯能力

解析: 數據血緣提供數據從其創建、轉換到最終使用的完整路徑追溯。對於追溯用戶點擊到購買的複雜行為路徑,理解數據在各個系統(如網站日誌、交易數據庫、推薦系統)之間的流動和轉換至關重要,數據血緣正是提供這種透明度和可追溯性的工具。其他選項雖與大數據相關,但並非直接解決行為路徑追溯的核心問題。


問題 4 (中級)

------------------------------

題目: 一家跨國企業需要將其在不同國家、不同業務系統中的客戶數據進行整合,建立一個統一的客戶360視圖。這些系統多樣,且不希望進行大量的數據複製和移動。哪種技術能有效解決異構數據整合的挑戰,同時降低數據移動成本?

選項:

A) 部署多個 HDFS 叢集

B) 使用數據虛擬化 (Data Virtualization) 技術

C) 實施大量的 ETL 全量載入任務

D) 將所有數據庫轉換為同一種 NoSQL 類型


答案: B) 使用數據虛擬化 (Data Virtualization) 技術

解析: 數據虛擬化技術創建一個抽象層,允許用戶透過單一介面存取和查詢多個異構數據源,而無需實際複製或移動數據。這對於需要整合多個異構系統且不希望進行大量數據移動的場景非常適合,能有效降低成本並提高數據的即時性。其他選項無法直接解決異構整合且不移動數據的需求。


問題 5 (中級)

------------------------------

題目: 在 Web Scraping 任務中,若經常遭遇 IP 被網站封鎖、驗證碼或動態內容加載問題,這主要反映了以下哪種挑戰?

選項:

A) 數據隱私法規的限制

B) 網站的反爬蟲機制

C) API 集成的複雜性

D) 數據轉換的效率問題


答案: B) 網站的反爬蟲機制

解析: IP封鎖、驗證碼和動態內容加載是網站為了防止惡意爬蟲或過度負載而採用的典型反爬蟲機制。這些機制旨在限制自動化數據採集行為,而非數據隱私法規或API集成相關問題。


問題 6 (中級)

------------------------------

題目: 一家公司需要從其核心業務數據庫中提取關鍵數據到數據倉儲。為了避免對來源數據庫造成過大負擔,並實現近乎即時的數據同步,最佳的數據採集策略是什麼?

選項:

A) 定期執行全量採集 (Full Load)

B) 部署基於時間戳的增量採集 (Incremental Load)

C) 採用變更數據捕獲 (Change Data Capture, CDC) 技術

D) 僅使用傳統的 ETL 批次處理


答案: C) 採用變更數據捕獲 (Change Data Capture, CDC) 技術

解析: CDC 技術能夠追蹤數據庫中數據的變更,只捕獲和傳播那些已發生變更的數據,從而實現近乎即時的增量同步,同時大幅減少對來源系統的負擔。基於時間戳的增量採集也屬於增量,但CDC更為精確且能捕捉刪除操作;全量採集效率低;ETL批次處理延遲高。


問題 7 (中級)

------------------------------

題目: 以下哪項不是實施 ELT (Extract, Load, Transform) 架構相對於 ETL (Extract, Transform, Load) 的主要優勢?

選項:

A) 能夠處理更多樣的原始數據格式

B) 充分利用目標數據平台(如數據湖)的彈性計算能力

C) 數據轉換過程對來源系統的負載更輕

D) 數據轉換的靈活性更高,Schema-on-read 特性突出


答案: C) 數據轉換過程對來源系統的負載更輕

解析: ELT模式下,轉換是在目標系統(如數據湖或具備強大算力的數據倉儲)中進行的,因此數據轉換的計算負載是由目標系統承擔,而非來源系統。ETL 和 ELT 都不應對來源系統的轉換負載直接影響,而是對中間轉換層或目標層有影響。其他選項 A, B, D 均為 ELT 相較於 ETL 的顯著優勢,例如其能夠處理多樣的原始數據格式並利用目標系統的強大算力進行靈活的轉換,實現 Schema-on-read。


問題 8 (中級)

------------------------------

題目: 在歐洲經營的電商平台採集用戶購物行為數據時,面臨歐盟 GDPR (通用數據保護條例) 的嚴格規定。為確保合規,以下哪項策略不是GDPR要求下的關鍵考量?

選項:

A) 獲得用戶明確同意 (Consent)

B) 實施數據最小化原則 (Data Minimization)

C) 告知用戶數據採集目的與用途

D) 僅使用傳統 SQL 查詢數據


答案: D) 僅使用傳統 SQL 查詢數據

解析: GDPR強調個人數據處理的透明性、目的限制、最小化原則、存儲限制等,並賦予個人數據權利。因此,獲得用戶明確同意、實施數據最小化、告知數據用途是GDPR合規的關鍵要素。而「僅使用傳統 SQL 查詢數據」是一種技術操作方式,與GDPR的合規要求本身無直接關聯,不能作為合規策略。


問題 9 (中級)

------------------------------

題目: 對於需要追蹤用戶在不同時間段內行為模式,但又想同時保護用戶身份隱私的場景,以下哪種數據保護技術最為適用,且仍保留了數據的連結性?

選項:

A) 徹底的數據匿名化 (Anonymization)

B) 數據假名化 (Pseudonymization)

C) 數據加密 (Encryption)

D) 數據刪除 (Data Deletion)


答案: B) 數據假名化 (Pseudonymization)

解析: 假名化是將個人身份識別資訊替換為化名或代碼,使其在沒有額外資訊的情況下無法直接識別個人,但仍保留了數據的連結性(即可以追蹤同一個假名下的行為)。匿名化則徹底去識別化,無法追溯;加密主要用於數據傳輸和儲存安全,而非去識別化;數據刪除則直接移除數據,不符合保留行為模式的需求。


問題 10 (中級)

------------------------------

題目: 一家健康醫療公司需要整合來自多個醫院系統的患者數據,以建立一個大數據平台進行疾病預測模型的訓練。數據源包括電子病歷系統、實驗室數據庫和影像歸檔系統,它們的數據格式和結構各不相同。哪種數據品質維度在這種整合場景下最容易出現問題,且影響模型訓練?

選項:

A) 數據時效性 (Timeliness)

B) 數據準確性 (Accuracy)

C) 數據一致性 (Consistency)

D) 數據唯一性 (Uniqueness)


答案: C) 數據一致性 (Consistency)

解析: 在整合來自多個異構系統的數據時,由於各系統對同一概念的定義、格式或編碼可能不同(例如,同一個患者在不同系統中有不同的識別碼或疾病診斷碼),數據一致性問題最為突出。這會導致數據整合後的資訊衝突和矛盾,嚴重影響模型的訓練效果和可信度。


問題 11 (中級)

------------------------------

題目: 一位數據科學家正在分析一個包含客戶年齡、收入和購買頻率的數據集,發現「收入」欄位有少量極端值(遠高於其他數據點)。這些異常值可能是數據輸入錯誤,也可能是真實的富裕客戶。在不確定其來源的情況下,以下哪種修正策略在初次處理時最為穩妥,以避免過度干預?

選項:

A) 直接將這些異常值刪除

B) 使用數據集的均值替換這些異常值

C) 對「收入」欄位進行對數轉換 (Log Transformation)

D) 將這些異常值強制設定為數據集的最大值


答案: C) 對「收入」欄位進行對數轉換 (Log Transformation)

解析: 對數轉換是一種常用的數據轉換技術,可以壓縮大範圍的數據值,使其分佈更趨近於正態分佈,從而減輕異常值對模型訓練的影響,同時保留了數據的相對關係。直接刪除可能損失信息;均值替換會改變分佈;強制設定為最大值會扭曲數據。對數轉換在不確定異常值性質時,是一種相對穩妥且常用的處理方式,能夠平滑極端值影響而不徹底改變數據的本質或丟失數據點。


問題 12 (中級)

------------------------------

題目: 一家製造業公司需要定期收集設備運行數據用於預測性維護。數據工程師在對感測器數據進行數據剖析 (Data Profiling) 時,發現某個關鍵溫濕度感測器數據的空值率在過去一個月內從正常的1%飆升至20%。這種情況最可能代表以下哪種數據品質問題?

選項:

A) 數據的準確性問題

B) 數據的時效性問題

C) 數據的完整性問題

D) 數據的唯一性問題


答案: C) 數據的完整性問題

解析: 空值率異常增高直接表明數據存在大量遺漏,這屬於數據完整性 (Completeness) 的範疇。數據完整性是指所有必要的資訊都已存在,無遺漏。準確性是數據是否真實;時效性是數據是否即時;唯一性是數據是否重複。這些與空值率飆升的描述不符。


問題 13 (中級)

------------------------------

題目: 在機器學習模型訓練中,若數據集中的數值特徵量綱差異巨大(例如,年齡介於0-100,收入介於數萬到數百萬),這可能會對梯度下降類演算法(如線性迴歸、神經網絡)的訓練過程產生不利影響。以下哪種數據清理技術主要用於解決此類問題?

選項:

A) 數據填充 (Data Imputation)

B) 重複值處理 (Duplicate Handling)

C) 數據正規化 (Normalization) 或標準化 (Standardization)

D) 異常值修正 (Outlier Treatment)


答案: C) 數據正規化 (Normalization) 或標準化 (Standardization)

解析: 數據正規化(如Min-Max Scaling)或標準化(如Z-score Standardization)旨在將不同量綱的數值特徵縮放到統一的範圍或使其符合某種分佈,從而消除量綱上的差異。這對於梯度下降類演算法尤為重要,因為它可以避免梯度因量綱差異過大而在某些維度上震盪,加速模型收斂。其他選項處理的是缺失值、重複值或異常值問題,而非量綱差異。


問題 14 (中級)

------------------------------

題目: 一家銀行風控團隊正在使用 Isolation Forest 演算法檢測信用卡詐欺交易。 Isolation Forest 在此情境下屬於哪種數據品質/異常檢測方法?

選項:

A) 統計方法

B) 密度基方法

C) 機器學習方法

D) 距離基方法


答案: C) 機器學習方法

解析: Isolation Forest (孤立森林) 是一種基於決策樹的非監督式機器學習演算法,專為異常檢測而設計。它通過隨機選擇特徵和分割點來隔離異常點,與傳統統計方法、密度基或距離基方法有所不同,屬於機器學習範疇的異常檢測演算法。


問題 15 (中級)

------------------------------

題目: 某公司部署的客戶流失預測模型,其預測準確度在過去半年內持續下降,但數據科學家確認模型本身未被修改。初步分析發現,近期進入模型的客戶數據在統計分佈上與訓練時的數據有所差異。這種現象被稱為?

選項:

A) 數據清洗不足

B) 數據過擬合

C) 數據漂移 (Data Drift)

D) 特徵工程錯誤


答案: C) 數據漂移 (Data Drift)

解析: 數據漂移 (Data Drift) 是指數據的統計特性(如分佈、均值、方差)隨著時間的推移而發生變化。這種變化會導致已部署的機器學習模型的性能下降,因為模型是在舊的數據分佈上訓練的,而現在面對的是新的分佈。這也是模型漂移 (Model Drift) 的主要原因之一。


問題 16 (中級)

------------------------------

題目: 為了建立一個可靠的企業級數據品質保障體系,除了技術工具外,最需要解決的挑戰是什麼?

選項:

A) 選擇最先進的數據儲存技術

B) 確保高層具備數據分析能力

C) 跨部門協作、建立數據責任制與持續資源投入

D) 大幅增加數據科學家人數


答案: C) 跨部門協作、建立數據責任制與持續資源投入

解析: 數據品質管理是一個組織級的挑戰,不僅涉及技術,更涉及流程和人員。建立數據品質保障體系需要數據所有者、業務部門、IT部門等跨部門的緊密協作,明確各方責任,並確保有足夠的資源進行持續的投入和改進。單純依靠技術或某個部門的力量難以實現。


問題 17 (中級)

------------------------------

題目: 一家零售商希望為其客戶建立一個統一的360度視圖,整合來自多個系統(如CRM、ERP、電商平台)的客戶資訊。但由於各系統對客戶資料的定義和識別方式不同,導致存在大量客戶資料不一致和重複。為解決此問題,哪項數據治理的核心技術最為關鍵?

選項:

A) 數據虛擬化 (Data Virtualization)

B) 數據血緣 (Data Lineage)

C) 主數據管理 (Master Data Management, MDM)

D) 數據匿名化 (Anonymization)


答案: C) 主數據管理 (Master Data Management, MDM)

解析: MDM 專注於建立、維護和管理企業最關鍵、共享的數據資產(即主數據),如客戶、產品等,確保在整個企業內使用單一、權威、一致的主數據視圖。這正是解決客戶資料不一致和重複問題,建立客戶360視圖的核心方案。數據虛擬化側重整合,數據血緣側重追溯,匿名化側重隱私保護,都不是直接解決一致性問題的核心方案。


問題 18 (中級)

------------------------------

題目: 在進行數據清理時,若發現某個關鍵數值型欄位存在少量的、明顯超出正常範圍的極端值(如訂單金額為負數),且根據業務判斷這類值極可能為錯誤數據。為確保模型的可靠性,最直接且安全的處理方式是?

選項:

A) 使用該欄位的均值進行填充

B) 使用該欄位的中位數進行填充

C) 將這些錯誤數據直接從數據集中刪除

D) 進行數據正規化處理


答案: C) 將這些錯誤數據直接從數據集中刪除

解析: 當異常值被明確判斷為錯誤數據,且數據量足夠大,刪除這些錯誤數據是確保數據品質和模型可靠性的最直接且安全的策略。使用均值或中位數填充可能會引入新的偏差;數據正規化無法修正錯誤的數據值;若數據量不足以刪除,則需評估其他更複雜的修正或替換策略,但本題情境偏向直接錯誤,刪除為首選。


問題 19 (中級)

------------------------------

題目: 某公司正在將其數據平台從本地遷移到雲端,並希望最大限度地利用雲端計算資源的彈性。在數據轉換流程上,他們應該優先考慮從傳統 ETL 轉向哪種架構?

選項:

A) 繼續使用傳統的 ETL 模式,但在雲端部署 ETL 工具

B) 轉向 ELT (Extract, Load, Transform) 模式,利用雲端數據湖的計算能力

C) 僅使用 API 集成進行數據轉換

D) 將所有數據庫轉換為 NoSQL


答案: B) 轉向 ELT (Extract, Load, Transform) 模式,利用雲端數據湖的計算能力

解析: ELT 模式更適應雲端大數據環境。它將原始數據直接加載到雲端數據湖中,然後在數據湖內部利用雲端數據平台的強大彈性計算能力(如Spark SQL、Snowflake等)進行數據轉換。這能充分利用雲端資源,提高處理效率和靈活性,與雲端遷移的目標高度契合。


問題 20 (中級)

------------------------------

題目: 在處理客戶地址資訊時,發現存在多種表達方式(如「臺北市信義區」和「台北市信義區」)。為統一這些數據以便進行地理分析,應採取的數據清理策略是?

選項:

A) 數據填充 (Data Imputation)

B) 重複值處理 (Duplicate Handling)

C) 數據標準化 (Data Standardization)

D) 異常值修正 (Outlier Treatment)


答案: C) 數據標準化 (Data Standardization)

解析: 數據標準化旨在將數據轉換為統一的格式、單位或表達方式。對於地址信息不一致的問題,通過建立標準化的詞典或規則,將不同的表達方式(如「臺」和「台」)統一,就是數據標準化的一個典型應用。這有助於提高數據的一致性和可分析性。


問題 21 (中級)

------------------------------

題目: 在實施自動化數據清理管道時,哪項工具或技術主要用於定義、管理和執行數據品質規則,以確保數據符合預設的業務和技術要求?

選項:

A) HDFS 分散式檔案系統

B) NoSQL 資料庫

C) 數據品質規則引擎 (Data Quality Rules Engine)

D) Web Scraping 框架


答案: C) 數據品質規則引擎 (Data Quality Rules Engine)

解析: 數據品質規則引擎是一個專門的軟體組件,用於定義、管理和自動執行數據品質規則。它能夠檢查數據是否符合既定的格式、範圍、參考完整性等條件,並根據結果觸發相應的動作。HDFS是儲存;NoSQL是數據庫類型;Web Scraping是採集技術,均非規則定義與執行工具。


問題 22 (中級)

------------------------------

題目: 某數據工程師在處理用戶評論數據時,需要將所有評論中的表情符號和HTML標籤移除,並將文字轉換為小寫。這屬於哪種數據處理步驟?

選項:

A) 數據填充

B) 數據正規化

C) 數據轉換/清理

D) 特徵工程


答案: C) 數據轉換/清理

解析: 移除表情符號、HTML標籤以及轉換大小寫,這些操作都屬於數據轉換和清理的範疇,旨在使數據格式統一,去除雜質,便於後續分析。雖然這可能是特徵工程的前置步驟,但其本質屬於數據清理和轉換的動作。


問題 23 (中級)

------------------------------

題目: 一家保險公司正在開發新的AI模型來預測保單的續保率。數據科學家在對數據進行探索性分析時,發現大部分客戶年齡分佈在30-50歲之間,但有極少數記錄顯示客戶年齡為150歲,這被判斷為數據輸入錯誤。為處理這些異常值,以下哪種修正策略最能確保模型訓練的數據品質,同時最大程度地保留其他數據的真實性?

選項:

A) 將150歲的記錄直接替換為客戶年齡的平均值

B) 將150歲的記錄直接替換為客戶年齡的中位數

C) 將這些明顯錯誤的記錄從數據集中刪除

D) 進行 Min-Max 正規化處理


答案: C) 將這些明顯錯誤的記錄從數據集中刪除

解析: 當異常值被明確判斷為數據輸入錯誤,且其數值遠超出合理範圍(如150歲),最安全的處理方式是將這些錯誤記錄從數據集中刪除。若用平均值或中位數替換,會引入錯誤的數據點,導致數據失真;Min-Max正規化雖然會縮放數據,但不會修正錯誤的數值本身,錯誤的150歲仍然會對數據分佈造成不當影響。前提是數據量足夠大,刪除少量錯誤數據不會對整體分析造成顯著影響。


問題 24 (中級)

------------------------------

題目: 在評估數據品質時,若發現相同客戶在不同系統中的聯絡電話記錄存在不一致,這最能反映出數據品質的哪個維度存在問題?

選項:

A) 完整性

B) 時效性

C) 唯一性

D) 一致性


答案: D) 一致性

解析: 數據一致性是指相同數據在不同系統或不同時間點是否保持一致。不同系統中同一客戶的聯絡電話不一致,是典型的一致性問題。完整性是是否有遺漏;時效性是數據是否最新;唯一性是是否有重複記錄。


問題 25 (中級)

------------------------------

題目: 一個數據集中的「客戶ID」欄位,在經過數據剖析後發現存在重複值。若數據工程師的目標是確保每個客戶只有一條記錄,以避免重複計算,應採取的數據清理策略是?

選項:

A) 數據填充 (Data Imputation)

B) 重複值處理 (Duplicate Handling)

C) 異常值修正 (Outlier Treatment)

D) 數據標準化 (Data Standardization)


答案: B) 重複值處理 (Duplicate Handling)

解析: 重複值處理的核心目標是識別並消除數據集中相同或高度相似的記錄,以確保數據的唯一性。對於「客戶ID」存在重複的情況,透過去重操作可以確保每個客戶只有一條記錄,符合避免重複計算的需求。其他選項處理的是缺失值、異常值或格式統一問題。


問題 26 (中級)

------------------------------

題目: 為提升機器學習模型在處理多維度數據時的收斂速度與性能,數據科學家通常會對數值型特徵進行 Min-Max Scaling。這個操作屬於哪種數據清理或準備技術?

選項:

A) 數據填充

B) 數據標準化或正規化

C) 異常值修正

D) 數據轉換/特徵工程中的離散化


答案: B) 數據標準化或正規化

解析: Min-Max Scaling 是一種數據正規化技術,它將數值特徵縮放到一個特定範圍(通常是0-1),以消除數據在量綱上的差異。這有助於梯度下降類演算法的收斂,提升模型性能。因此,它屬於數據標準化或正規化的範疇。


問題 27 (中級)

------------------------------

題目: 一家大型零售商希望建立一個客戶價值分析模型。在數據準備階段,數據工程師發現客戶年齡數據存在少量缺失值,且分佈呈現偏態。以下哪種數據填充方法在處理此類情況時,相較於簡單的均值填充,更為合適?

選項:

A) 直接刪除含有缺失值的記錄

B) 使用該欄位的眾數進行填充

C) 使用基於機器學習模型(如MICE或MissForest)的填充方法

D) 將所有缺失值替換為0


答案: C) 使用基於機器學習模型(如MICE或MissForest)的填充方法

解析: 當缺失值數量不多,且數據分佈偏態,簡單的均值或眾數填充可能會引入偏差,影響模型的準確性。基於機器學習模型的填充方法(如 MICE - Multivariate Imputation by Chained Equations 或 MissForest - 基於隨機森林的缺失值填充)能夠利用數據集中其他特徵的關係來更精確地估計缺失值,減少偏差,在複雜數據情況下表現更優。直接刪除可能損失信息,替換為0則可能引入新的錯誤。


問題 28 (中級)

------------------------------

題目: 以下關於數據可觀察性 (Data Observability) 與傳統數據監控 (Data Monitoring) 的說法,哪項最能體現數據可觀察性的核心優勢?

選項:

A) 數據可觀察性主要關注數據是否被正確儲存

B) 數據可觀察性更專注於數據的「健康狀況」和「行為模式」,從而實現主動預防問題

C) 傳統數據監控比數據可觀察性更注重數據的即時性

D) 數據可觀察性僅適用於結構化數據


答案: B) 數據可觀察性更專注於數據的「健康狀況」和「行為模式」,從而實現主動預防問題

解析: 數據可觀察性超越了傳統的數據監控,它不僅是看見數據的狀態,更能理解數據的行為模式、預測潛在問題並實現主動預防。它關注數據的血緣、新鮮度、分佈、Schema變化和錯誤率等,旨在讓數據團隊能更迅速地識別、診斷並解決數據品質問題。選項A, C, D 並不準確反映其核心優勢或應用範圍。


問題 29 (中級)

------------------------------

題目: 某電商平台在數據清理後發現,經過處理的客戶地址數據仍然存在部分地理位置資訊不準確的問題。例如,某個城市的郵遞區號與其街道名稱不匹配。這主要屬於數據品質六大維度中的哪一類問題?

選項:

A) 完整性 (Completeness)

B) 時效性 (Timeliness)

C) 有效性 (Validity)

D) 唯一性 (Uniqueness)


答案: C) 有效性 (Validity)

解析: 數據有效性是指數據是否符合既定的格式、類型、範圍或業務規則。郵遞區號與街道名稱不匹配,意味著數據違反了地理資訊的邏輯規則,使其成為無效數據。這不是數據遺漏(完整性)、數據過時(時效性)或數據重複(唯一性)問題。


問題 30 (中級)

------------------------------

題目: 一家科技公司希望建立一套機制,確保其企業內部所有系統和應用程式都使用單一、權威、一致的客戶主數據視圖。此需求應優先導入哪項數據治理的核心技術?

選項:

A) 數據血緣 (Data Lineage)

B) 數據可觀察性 (Data Observability)

C) 主數據管理 (Master Data Management, MDM)

D) 數據服務化 (Data As A Service, DaaS)


答案: C) 主數據管理 (Master Data Management, MDM)

解析: MDM的核心目標就是建立、維護和管理企業最關鍵、共享的數據資產,如客戶、產品等,確保在整個企業內,所有系統和應用程式都使用單一、權威、一致的主數據視圖。這正是解決「單一、權威、一致的客戶主數據視圖」的關鍵技術。其他選項是不同的數據治理或技術解決方案。


問題 31 (中級)

------------------------------

題目: 在機器學習的特徵工程中,對分類特徵進行 One-Hot Encoding (獨熱編碼) 的目的是什麼?

選項:

A) 處理缺失值

B) 減少特徵維度

C) 將分類特徵轉換為數值形式,消除序數關係,避免模型誤解其數值大小的意義

D) 縮放數值特徵到特定範圍


答案: C) 將分類特徵轉換為數值形式,消除序數關係,避免模型誤解其數值大小的意義

解析: One-Hot Encoding 是一種將分類變量轉換為多個二元(0或1)特徵的技術。它的主要目的是將名義型分類數據(無序關係)轉換為機器學習模型可以理解的數值形式,同時避免模型錯誤地將類別的數值賦予序數關係。例如,如果將'紅'編碼為1,'綠'編碼為2,'藍'編碼為3,模型可能會誤認為'藍'比'紅'「更大」,One-Hot Encoding則可避免此問題。


問題 32 (中級)

------------------------------

題目: 某數據團隊正在設計一個自動化數據清理管道,其中包含了數據填充、重複值處理、異常值修正和數據標準化等多個步驟。為確保這些步驟能夠按照預設順序執行,並在每一步驟完成後觸發下一個步驟,最核心的工具或技術是什麼?

選項:

A) 數據可觀察性工具

B) 數據湖儲存

C) 數據流管理工具(如 Apache Airflow 或 NiFi)

D) 傳統關聯式資料庫


答案: C) 數據流管理工具(如 Apache Airflow 或 NiFi)

解析: 數據流管理工具如 Apache Airflow 或 NiFi 提供了一個平台來設計、執行和監控複雜的數據管道和工作流。它們允許數據工程師將一系列的數據處理步驟編排成一個有向無環圖 (DAG),確保各步驟按正確順序執行,並提供任務調度、監控和錯誤處理功能,正是實現自動化數據清理管道的核心。數據可觀察性用於監控,數據湖用於儲存,關聯式資料庫不適合複雜數據流編排。

留言
avatar-img
留言分享你的想法!
avatar-img
iPAS AI 自學路
10會員
44內容數
我是一位正在追求職涯升級的 40 歲非本科系上班族。我會將自己摸索出的高效白話筆記與聽覺學習法無私分享,助你:克服術語障礙、利用零碎時間學習、系統化整理考點。 也歡迎到我的頻道逛逛https://www.youtube.com/@ipasstudybuddy
iPAS AI 自學路的其他內容
2025/10/28
📺 先看影片,再挑戰模擬考! 理解比死背更重要,看完影片再測驗,效果直接翻倍! 👉 https://www.youtube.com/@ipasstudybuddy
2025/10/28
📺 先看影片,再挑戰模擬考! 理解比死背更重要,看完影片再測驗,效果直接翻倍! 👉 https://www.youtube.com/@ipasstudybuddy
2025/10/27
先衝影片!再戰模考!考前這一步,讓你的努力更有方向 👉 🎓 iPAS自學路:https://youtu.be/VYrbdgxnEQg
2025/10/27
先衝影片!再戰模考!考前這一步,讓你的努力更有方向 👉 🎓 iPAS自學路:https://youtu.be/VYrbdgxnEQg
2025/10/26
📺 先看影片,再挑戰模擬考! 理解比死背更重要,看完影片再測驗,效果直接翻倍! 👉 https://www.youtube.com/@ipasstudybuddy
2025/10/26
📺 先看影片,再挑戰模擬考! 理解比死背更重要,看完影片再測驗,效果直接翻倍! 👉 https://www.youtube.com/@ipasstudybuddy
看更多
你可能也想看
Thumbnail
雙11於許多人而言,不只是單純的折扣狂歡,更是行事曆裡預定的,對美好生活的憧憬。 錢錢沒有不見,它變成了快樂,跟讓臥房、辦公桌、每天早晨的咖啡香升級的樣子! 這次格編突擊辦公室,也邀請 vocus「野格團」創作者分享掀開蝦皮購物車的簾幕,「加入購物車」的瞬間,藏著哪些靈感,或是對美好生活的想像?
Thumbnail
雙11於許多人而言,不只是單純的折扣狂歡,更是行事曆裡預定的,對美好生活的憧憬。 錢錢沒有不見,它變成了快樂,跟讓臥房、辦公桌、每天早晨的咖啡香升級的樣子! 這次格編突擊辦公室,也邀請 vocus「野格團」創作者分享掀開蝦皮購物車的簾幕,「加入購物車」的瞬間,藏著哪些靈感,或是對美好生活的想像?
Thumbnail
商業簡報不僅僅是呈現數據,更需要深入瞭解數據分析及有效的工具運用。本文探討於Excel中使用不同函數來改善數據處理效率,包括IF、IFS、VLOOKUP、XLOOKUP及INDEX與MATCH的結合,幫助商業人士更好地從數據中提取洞見,助力業務增值,學習優化數據分析過程,讓您的商業簡報更具影響力。
Thumbnail
商業簡報不僅僅是呈現數據,更需要深入瞭解數據分析及有效的工具運用。本文探討於Excel中使用不同函數來改善數據處理效率,包括IF、IFS、VLOOKUP、XLOOKUP及INDEX與MATCH的結合,幫助商業人士更好地從數據中提取洞見,助力業務增值,學習優化數據分析過程,讓您的商業簡報更具影響力。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
Python資料視覺化在數據分析中扮演關鍵角色,透過視覺化捕捉數據模式、趨勢和異常,透過Matplotlib等工具創建專業圖表變相對簡單和高效。
Thumbnail
Python資料視覺化在數據分析中扮演關鍵角色,透過視覺化捕捉數據模式、趨勢和異常,透過Matplotlib等工具創建專業圖表變相對簡單和高效。
Thumbnail
本文介紹了在進行資料分析時,將類別欄位轉換為數值欄位的方法,包括Label Encoding、One-Hot Encoding、Binary Encoding、Target Encoding和Frequency Encoding。每種方法的應用範例、優缺點和適用場景都有詳細說明。
Thumbnail
本文介紹了在進行資料分析時,將類別欄位轉換為數值欄位的方法,包括Label Encoding、One-Hot Encoding、Binary Encoding、Target Encoding和Frequency Encoding。每種方法的應用範例、優缺點和適用場景都有詳細說明。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News