[L22202 數據儲存管理]模擬考題

iPAS AI自學路

發佈於iPAS模擬考題(中級)

2025/10/30 更新2025/10/30 發佈閱讀 63 分鐘

問題 1 (中級)

------------------------------

題目: 在處理大規模異構數據時，一個數據架構師正在評估將傳統關聯式資料庫中的交易數據（結構化）與物聯網感測器日誌（半結構化）整合到單一儲存平台。下列哪一種儲存技術組合最能有效應對這兩種數據類型的儲存與查詢需求，並支持未來的AI應用？

選項:

A) 僅使用傳統的關聯式資料庫系統（RDBMS）進行分庫分表。

B) 將所有數據儲存至物件儲存（Object Storage），並搭配Apache Hive進行Schema管理。

C) 結構化數據繼續使用RDBMS，半結構化數據則導入HDFS，並在數據湖之上構建統一查詢。

D) 採用湖倉一體（Lakehouse）架構，利用物件儲存作為底層，並透過開放表格式如Delta Lake管理數據。

答案: D) 採用湖倉一體（Lakehouse）架構，利用物件儲存作為底層，並透過開放表格式如Delta Lake管理數據。

解析: 選項D的湖倉一體架構（Lakehouse）結合了資料湖的靈活性（能處理多樣性數據）和資料倉儲的可靠性與性能（透過Delta Lake提供ACID事務和Schema管理），最能有效應對異構數據的整合與AI應用需求。選項A無法處理半結構化數據和大規模擴展。選項B雖然物件儲存彈性高，但缺乏數據管理能力。選項C的HDFS主要用於批次處理，且未提及如何統一查詢與管理不同類型數據。

問題 2 (中級)

------------------------------

題目: 一家電商公司希望透過分析用戶的點擊流日誌（JSON格式）來優化推薦系統。這些日誌數據量巨大且持續生成。若要為數據科學家提供彈性且高效的數據處理和儲存環境，下列哪個策略組合最為合適？

選項:

A) 將所有JSON日誌導入傳統OLTP資料庫，並建立複雜索引。

B) 使用物件儲存（如S3）作為原始數據層，並利用ELT而非ETL策略處理數據。

C) 將JSON日誌轉換為結構化數據後再儲存於資料倉儲中，嚴格定義Schema。

D) 採用分散式檔案系統如HDFS儲存，並使用批次處理每週更新一次推薦模型。

答案: B) 使用物件儲存（如S3）作為原始數據層，並利用ELT而非ETL策略處理數據。

解析: JSON日誌為半結構化數據，量大且持續生成。選項B的物件儲存提供高擴展性和低成本，適合儲存原始半結構化數據。ELT（Extract, Load, Transform）策略比ETL更具彈性，允許數據科學家在數據湖中以原始格式或輕微轉換的格式進行探索和模式定義，符合彈性高效的需求。選項A不適合半結構化數據。選項C過早的Schema定義會降低靈活性。選項D的批次處理無法滿足持續生成的數據和推薦系統對新鮮度的要求。

問題 3 (中級)

------------------------------

題目: 在數據生命週期管理（DLM）中，一家公司正在規劃敏感客戶數據的儲存策略。根據GDPR和CCPA法規，下列哪一項措施在數據的『歸檔』和『銷毀』階段最為關鍵？

選項:

A) 僅將數據加密儲存於高性能SSD中，以確保快速存取。

B) 制定明確的數據保留政策，並實施不可逆的數據匿名化或假名化處理，確保數據銷毀後的不可復原性。

C) 將數據備份至多個地理位置不同的資料中心，提高容災能力。

D) 確保數據在活躍使用期間的強一致性，避免數據衝突。

答案: B) 制定明確的數據保留政策，並實施不可逆的數據匿名化或假名化處理，確保數據銷毀後的不可復原性。

解析: 在GDPR和CCPA法規下，數據歸檔和銷毀階段的關鍵在於數據的不可復原性（Right to be forgotten）和合規性。制定明確的數據保留政策，並對敏感數據進行匿名化或假名化處理，能確保數據不再具有識別性，並符合法律規範。其他選項雖然也是數據管理的最佳實踐，但並非針對歸檔和銷毀階段的隱私合規關鍵。

問題 4 (中級)

------------------------------

題目: 一家製造業公司正從傳統ERP系統遷移數據至新的雲端數據平台。數據治理團隊發現，不同部門的數據在定義和品質標準上存在差異。作為數據架構師，你會建議優先實施下列哪項數據治理措施來解決此問題，以確保AI專案能獲取高品質且一致的數據？

選項:

A) 立即導入最先進的AI模型，透過機器學習自動清洗數據。

B) 建立數據治理委員會，制定統一的數據標準、數據字典，並引入元數據管理工具。

C) 將所有數據強制轉換為非結構化格式，存入物件儲存以提升靈活性。

D) 專注於提升數據儲存的性能，以加速問題數據的識別速度。

答案: B) 建立數據治理委員會，制定統一的數據標準、數據字典，並引入元數據管理工具。

解析: 解決數據定義和品質差異，核心在於數據治理。選項B從組織和技術層面建立了數據治理框架，透過委員會制定標準，數據字典統一術語，元數據管理工具提供數據可視性，是確保數據高品質和一致性的根本方法。其他選項要麼是捨本逐末，要麼是為時尚早或方向不符。

問題 5 (中級)

------------------------------

題目: 在評估針對大規模非結構化數據（如圖片、音頻）的儲存方案時，相較於傳統關係型資料庫和分散式檔案系統（如HDFS），物件儲存（Object Storage）具備哪些獨特優勢，使其成為AI模型訓練數據集的首選？

選項:

A) 提供強一致性和複雜的ACID事務保證。

B) 支持隨機讀寫操作，對小文件的讀寫效率極高。

C) 提供近乎無限的擴展性、高持久性和更低的儲存成本，且支持大規模並行存取。

D) 具備內建的Schema定義和數據關係建模能力。

答案: C) 提供近乎無限的擴展性、高持久性和更低的儲存成本，且支持大規模並行存取。

解析: 物件儲存如Amazon S3或Google Cloud Storage，其設計理念是為大規模非結構化數據提供極致的擴展性、持久性和成本效益。AI模型訓練通常需要存取海量圖片、音頻文件，這些文件通常較大且讀取模式以一次性完整讀取為主，物件儲存非常適合這種場景。選項A是RDBMS的特性。選項B是高性能檔案系統或特定數據庫的特性。選項D是RDBMS或資料倉儲的特性。

問題 6 (中級)

------------------------------

題目: 某公司正在設計一個數據湖，用於收集來自全球各地的用戶行為日誌。這些日誌以JSON格式呈現，且模式（schema）會頻繁更新。針對這種場景，下列哪種數據湖的設計考量和儲存特性最關鍵？

選項:

A) 採用Schema-on-Write策略，嚴格限制日誌格式，確保數據品質。

B) 使用HDFS作為唯一的儲存層，並確保強一致性。

C) 利用物件儲存的Schema-on-Read特性，儲存原始JSON數據以保持彈性，並支持動態Schema演變。

D) 優先將所有JSON轉換為結構化SQL表格，以利後續BI分析。

答案: C) 利用物件儲存的Schema-on-Read特性，儲存原始JSON數據以保持彈性，並支持動態Schema演變。

解析: 用戶行為日誌為半結構化數據，模式頻繁更新，數據量大。Schema-on-Read是資料湖的核心特性，允許數據以原始格式儲存，將模式定義延後到讀取時，極大增加了靈活性，適合模式頻繁變化的場景。物件儲存提供高擴展性和成本效益。選項A會導致數據攝取困難。選項B的HDFS缺乏對Schema的彈性。選項D會犧牲原始數據的靈活性和成本。

問題 7 (中級)

------------------------------

題目: 一位數據工程師正在為一個需要實時數據分析的AI應用設計數據管道。該應用要求數據從來源到分析系統的端到端延遲最低。下列哪個技術組合在數據攝取和處理階段最能滿足此嚴格的實時性要求？

選項:

A) 數據來源直接寫入HDFS，並使用Apache Hive進行批次查詢。

B) 使用Apache Kafka進行串流數據攝取，並透過Apache Flink進行實時轉換和處理。

C) 透過定時批次ETL任務，將數據從關聯式資料庫載入Redshift資料倉儲。

D) 將所有數據手動導入物件儲存，並使用Spark SQL進行批次處理。

答案: B) 使用Apache Kafka進行串流數據攝取，並透過Apache Flink進行實時轉換和處理。

解析: 對於實時數據分析，需要低延遲的數據攝取和處理能力。Apache Kafka是一個高吞吐量的分散式串流平台，非常適合數據攝取。Apache Flink則是專為有狀態的實時串流處理設計，能夠提供極低的延遲。這個組合是滿足嚴格實時性要求的理想方案。其他選項主要面向批次處理或延遲較高。

問題 8 (中級)

------------------------------

題目: 在分散式儲存系統中，CAP定理（Consistency, Availability, Partition Tolerance）是設計時的重要權衡考量。如果一個系統在面對網路分割（Partition Tolerance）時，必須優先保證數據的可用性（Availability），但可以接受在短時間內數據可能不一致。這種選擇最符合下列哪種系統設計原則？

選項:

A) 強一致性（ACID）

B) 最終一致性（BASE）

C) 兩階段提交（2PC）

D) 物件儲存的強持久性

答案: B) 最終一致性（BASE）

解析: CAP定理指出，在分散式系統中，Consistency（一致性）、Availability（可用性）、Partition Tolerance（分區容錯性）三者只能取其二。當系統必須保證Partition Tolerance和Availability時，就必須犧牲Consistency，接受最終一致性。BASE模型（Basically Available, Soft State, Eventual Consistency）正是這種選擇的體現。ACID和2PC強調強一致性。物件儲存的持久性與此概念不同。

問題 9 (中級)

------------------------------

題目: 某公司正在將其數據基礎設施從傳統資料倉儲（Data Warehouse）遷移至湖倉一體（Lakehouse）架構。下列哪一項是Lakehouse相較於純粹資料湖和傳統資料倉儲的關鍵優勢？

選項:

A) Lakehouse僅能儲存結構化數據，且不具備ACID事務特性。

B) Lakehouse提供了資料湖的靈活性與成本效益，同時具備資料倉儲的ACID事務、Schema Enforcement和數據版本控制等能力。

C) Lakehouse主要用於實時交易處理（OLTP），而非分析工作負載。

D) Lakehouse需要將所有原始數據預先轉換為高度結構化格式才能儲存。

答案: B) Lakehouse提供了資料湖的靈活性與成本效益，同時具備資料倉儲的ACID事務、Schema Enforcement和數據版本控制等能力。

解析: Lakehouse架構的目標是結合資料湖的優勢（原始數據儲存、靈活性、低成本）和資料倉儲的優勢（數據品質、ACID事務、Schema管理、版本控制）。它透過Delta Lake、Apache Iceberg等開放表格式實現這些功能，解決了純粹資料湖可能面臨的數據品質和治理挑戰。選項A、C、D描述的特性與Lakehouse不符或為其缺點。

問題 10 (中級)

------------------------------

題目: 在設計數據湖的原始數據區（Raw Zone）時，工程師選擇將日誌數據以其原始的JSON格式儲存於物件儲存（如S3）中。這樣做的主要考慮因素是什麼？

選項:

A) 為了提供快速的隨機讀寫性能，支持高併發事務。

B) 確保數據在載入前經過嚴格的Schema驗證和轉換，以符合資料倉儲標準。

C) 延遲Schema定義，保持數據的原始性和靈活性，便於日後多種分析需求和動態Schema演變。

D) 降低儲存成本，但會顯著增加數據品質問題和查詢複雜度。

答案: C) 延遲Schema定義，保持數據的原始性和靈活性，便於日後多種分析需求和動態Schema演變。

解析: 數據湖的原始數據區（Raw Zone）旨在以最原始的格式儲存數據，體現了Schema-on-Read的特性。這樣做的好處是最大限度地保留了數據的原始性和靈活性，允許數據在未來用於各種未知用途，並且能應對源數據Schema的頻繁變化。選項A、B與Raw Zone的設計目標相反。選項D的後半部分不完全正確，雖然原始數據區的數據品質可能需要後續處理，但其本質不是為了增加複雜度。

問題 11 (中級)

------------------------------

題目: 一家大型互聯網公司需要分析其用戶實時行為數據，以驅動個性化推薦系統。這要求數據能夠以極低的延遲從數據源攝取並進行初步處理。下列哪項技術在數據攝取層面最適合用於此場景？

選項:

A) Apache Sqoop，用於從關聯式資料庫進行批次數據抽取。

B) HDFS，直接寫入日誌文件。

C) Apache Kafka，作為高吞吐量的分佈式消息佇列，用於實時數據流攝取。

D) 定期使用FTP將日誌文件傳輸至數據湖。

answer

C) Apache Kafka，作為高吞吐量的分佈式消息佇列，用於實時數據流攝取。

explanation

Apache Kafka是專為處理高吞吐量、低延遲的實時數據流設計的分佈式消息佇列，非常適合用於攝取持續生成的用戶行為數據，並為後續的實時處理提供數據源。Sqoop和FTP主要用於批次處理，HDFS直接寫入日誌會缺乏實時處理的能力。

答案: C) Apache Kafka，作為高吞吐量的分佈式消息佇列，用於實時數據流攝取。

解析: Apache Kafka是專為處理高吞吐量、低延遲的實時數據流設計的分佈式消息佇列，非常適合用於攝取持續生成的用戶行為數據，並為後續的實時處理提供數據源。Sqoop和FTP主要用於批次處理，HDFS直接寫入日誌會缺乏實時處理的能力。

問題 12 (中級)

------------------------------

題目: 在資料湖架構中，精煉數據區（Refined Zone）或整合層通常會將原始數據轉換為列式儲存格式，例如Parquet或ORC。這樣做的主要技術優勢是什麼？

選項:

A) 顯著提高數據的隨機寫入性能，適合頻繁更新的交易數據。

B) 提升數據壓縮效率，並在查詢時減少不必要的I/O，特別適合分析型查詢。

C) 允許數據以原始格式儲存，並延遲Schema定義，增加靈活性。

D) 提供強一致性保證，避免數據在不同節點間產生差異。

答案: B) 提升數據壓縮效率，並在查詢時減少不必要的I/O，特別適合分析型查詢。

解析: Parquet和ORC是列式儲存格式，其主要優勢在於：1. 相同列的數據類型相同，壓縮率高。2. 分析查詢通常只涉及部分列，列式儲存可以只讀取所需列，減少I/O開銷，顯著提升查詢性能。這非常適合資料湖中的分析型工作負載和AI模型訓練的數據準備。選項A不符，列式儲存通常不擅長頻繁寫入。選項C是原始數據區的特性。選項D與數據格式本身無直接關係。

問題 13 (中級)

------------------------------

題目: 一家金融服務公司正在開發一個新的數據分析平台，需要快速查詢和聚合來自數百個交易日誌文件中的特定欄位數據。若要實現秒級響應的交互式查詢，下列哪種查詢引擎是最佳選擇？

選項:

A) Apache Hive，主要用於批次處理和數據倉儲 ETL。

B) Apache Spark SQL，雖然通用但對於低延遲交互式查詢可能存在啟動延遲。

C) Apache Presto/Trino，專為低延遲、高併發的交互式SQL查詢設計，可連接多種數據源。

D) PostgreSQL，傳統關係型資料庫，不適用於大規模日誌文件分析。

答案: C) Apache Presto/Trino，專為低延遲、高併發的交互式SQL查詢設計，可連接多種數據源。

解析: Apache Presto（或Trino，其後繼者）專門為解決大規模數據集的低延遲交互式查詢而設計。它能夠直接查詢多種數據源，包括HDFS和物件儲存上的列式文件，並提供快速的查詢響應時間，非常適合BI儀表板和即席查詢。Hive是批次導向的，Spark SQL雖靈活但在啟動延遲上不如Presto/Trino。PostgreSQL不適合大規模分散式文件分析。

問題 14 (中級)

------------------------------

題目: 在數據湖中，數據分區（Data Partitioning）對於查詢效能至關重要。以下哪種分區策略在處理時序數據（例如，按日期生成的用戶行為日誌）時，能夠最大程度地減少查詢掃描的數據量，並提升查詢效率？

選項:

A) 按照用戶ID進行雜湊分區（Hash Partitioning）。

B) 按照數據載入時間戳（Timestamp）進行分區，例如按年/月/日建立目錄結構。

C) 將所有數據儲存在一個大的單一分區中，透過索引進行查詢。

D) 根據數據的檔案大小進行分區，確保每個分區的文件數量相同。

答案: B) 按照數據載入時間戳（Timestamp）進行分區，例如按年/月/日建立目錄結構。

解析: 對於時序數據，查詢通常會指定一個時間範圍。按照時間戳（例如年/月/日）進行分區，查詢引擎可以直接跳過不相關的時間分區，只掃描特定日期範圍內的數據，從而極大地減少I/O操作和查詢延遲，是提升查詢效率最有效的方法。選項A對於用戶級別查詢可能有用，但對時間範圍查詢無效。選項C會導致全表掃描。選項D的分區策略與查詢模式無關，效益不大。

問題 15 (中級)

------------------------------

題目: 一家公司希望優化其數據分析儀表板的響應時間，該儀表板頻繁地對資料湖中的歷史銷售數據執行複雜的聚合查詢。若要顯著提升這些固定模式查詢的效能，下列哪個優化策略最為有效？

選項:

A) 將所有原始數據從Parquet格式轉換為CSV格式，以減少解析開銷。

B) 移除所有數據分區，讓查詢引擎自行優化掃描路徑。

C) 為這些複雜查詢建立物化視圖（Materialized Views），預先計算並儲存聚合結果。

D) 僅依靠提高查詢引擎的計算資源（CPU/RAM），不改變儲存或查詢設計。

答案: C) 為這些複雜查詢建立物化視圖（Materialized Views），預先計算並儲存聚合結果。

解析: 物化視圖（Materialized Views）是針對頻繁執行且複雜的聚合查詢的有效優化策略。它會預先計算查詢結果並儲存起來，當儀表板再次請求時，可以直接讀取預計算的結果，而非重新執行複雜的查詢，從而大幅提升響應速度。選項A會降低效能，CSV效率低。選項B會導致全表掃描。選項D治標不治本，無法從根本上解決查詢複雜度帶來的延遲。

問題 16 (中級)

------------------------------

題目: 在數據儲存效能優化中，數據排序（Data Sorting）與列式儲存格式（如Parquet）結合使用時，可以帶來哪些顯著的優勢？

選項:

A) 允許在數據儲存後動態修改Schema，增加數據靈活性。

B) 提升數據壓縮率，並加速範圍查詢（Range Queries）的效能。

C) 增加數據的寫入吞吐量，特別是小文件寫入。

D) 確保數據的強一致性，適用於事務處理系統。

答案: B) 提升數據壓縮率，並加速範圍查詢（Range Queries）的效能。

解析: 數據排序與列式儲存結合，能將相似的數據值集中在一起，這不僅能提高數據壓縮算法的效率（因為重複值多），也能讓查詢引擎在執行範圍查詢時，利用排序特性快速定位到相關數據塊，跳過不相關的數據，從而顯著加速查詢。選項A是Schema演變的特性，與排序無關。選項C與寫入性能無關。選項D與事務一致性無關。

問題 17 (中級)

------------------------------

題目: 緩存機制在數據查詢加速中扮演重要角色。然而，在設計緩存策略時，必須權衡緩存一致性（Cache Coherence）和數據新鮮度（Data Freshness）。對於一個對數據新鮮度要求極高的實時風控系統，下列哪種緩存失效策略最為合適？

選項:

A) 僅使用時間驅動的緩存失效（TTL），固定時間後自動失效。

B) 採用基於事件的緩存失效（Event-Driven Invalidation），當源數據更新時立即通知緩存失效。

C) 實施手動緩存失效，由數據管理員定期手動清除緩存。

D) 忽略緩存失效，假定緩存數據永遠有效以最大化性能。

答案: B) 採用基於事件的緩存失效（Event-Driven Invalidation），當源數據更新時立即通知緩存失效。

解析: 對於對數據新鮮度要求極高的實時風控系統，必須確保緩存中的數據與源數據盡可能保持一致。基於事件的緩存失效策略，例如透過消息佇列通知緩存層進行更新或失效，能夠在源數據變更時立即響應，從而最大限度地保證數據新鮮度。TTL可能導致數據在失效前短暫過期。手動失效效率低下。忽略失效會導致嚴重的數據不一致問題。

問題 18 (中級)

------------------------------

題目: 在數據湖環境中，OLAP（Online Analytical Processing）數據模型在提供多維度分析能力方面扮演重要角色。下列關於OLAP的敘述，哪一項是錯誤的？

選項:

A) OLAP通常建構在資料倉儲之上，處理歷史數據以支援決策制定。

B) OLAP強調對數據進行實時的交易處理，確保高併發短事務的響應速度。

C) OLAP支持鑽取（Drill-down）、切片（Slice）和切塊（Dice）等多維分析操作。

D) OLAP數據模型常見為星狀模型（Star Schema）或雪花狀模型（Snowflake Schema）。

答案: B) OLAP強調對數據進行實時的交易處理，確保高併發短事務的響應速度。

解析: OLAP（Online Analytical Processing）是針對複雜的分析型查詢和多維度分析而設計的，主要用於處理歷史數據以支援決策，其特性是高複雜度、低並發。選項B描述的是OLTP（Online Transaction Processing）的特性，即強調實時交易處理和高併發短事務的響應速度。

問題 19 (中級)

------------------------------

題目: 一家大型互聯網公司正在評估在其數據湖中使用Delta Lake、Apache Iceberg或Apache Hudi作為數據湖表格式。若該公司特別關注於支持記錄級別的更新和刪除（Upsert/Delete），並且需要高效的CDC（Change Data Capture）增量處理能力，哪種表格式是最佳選擇？

選項:

A) Delta Lake，因其與Apache Spark的深度整合。

B) Apache Iceberg，因其靈活的Schema演變和隱藏分區細節。

C) Apache Hudi，因其專注於增量數據處理和CDC支持記錄級別操作。

D) 傳統的Parquet格式，搭配手動數據重寫實現更新刪除。

答案: C) Apache Hudi，因其專注於增量數據處理和CDC支持記錄級別操作。

解析: Apache Hudi是由Uber開發，其設計目標之一就是提供高效的增量數據處理能力，特別是支持記錄級別的更新（Upsert）和刪除（Delete），非常適合需要頻繁處理CDC數據的場景。Delta Lake和Iceberg也支持ACID和版本控制，但Hudi在增量處理和記錄級別操作方面有其獨特的優勢。選項D的傳統Parquet格式本身不提供ACID和記錄級別修改的能力，需要複雜的手動管理。

問題 20 (中級)

------------------------------

題目: 在分散式系統中，兩階段提交（Two-Phase Commit, 2PC）是一種確保多個節點數據一致性的協定。然而，2PC在實踐中常受到批評，其主要缺點包括下列哪一項？

選項:

A) 僅支持最終一致性，無法保證強一致性。

B) 性能開銷大，協調者可能成為單點故障，且存在阻塞（Blocking）問題。

C) 不支持數據回溯和版本控制功能。

D) 僅適用於非結構化數據的處理，無法用於關係型數據。

答案: B) 性能開銷大，協調者可能成為單點故障，且存在阻塞（Blocking）問題。

解析: 2PC雖然能夠保證分散式事務的強一致性（Atomicity, Consistency, Durability），但其缺點非常明顯：它需要多輪網絡通信導致性能開銷大；協調者（Coordinator）是單點，一旦協調者故障，可能導致事務掛起；並且在提交階段，如果任何參與者未能響應，整個事務會被阻塞，影響系統可用性。選項A錯誤，2PC旨在提供強一致性。選項C與2PC的核心功能無關。選項D錯誤，2PC主要用於分散式資料庫事務。

問題 21 (中級)

------------------------------

題目: 數據版本控制對於AI專案的成功至關重要。下列哪一項不是數據版本控制在AI模型開發與部署過程中提供的關鍵效益？

選項:

A) 確保模型訓練的可重現性，以便追蹤和複製實驗結果。

B) 允許數據科學家回溯到過去特定時間點的數據狀態，進行錯誤排查或模型迭代。

C) 支持Schema演變，使得數據模式的變化不會破壞現有模型或數據管道。

D) 提高數據的寫入吞吐量，加速數據湖中的數據載入效率。

答案: D) 提高數據的寫入吞吐量，加速數據湖中的數據載入效率。

解析: 數據版本控制（如透過Delta Lake, Iceberg, Hudi）主要提供ACID事務、可回溯性、Schema演變和數據治理能力，以確保數據的質量、可信度和可重現性，這對AI模型訓練和部署至關重要。它不直接作用於提高數據的寫入吞吐量，寫入吞吐量通常由底層儲存系統和數據管道設計決定。

問題 22 (中級)

------------------------------

題目: 一家製藥公司利用AI平台進行新藥研發，涉及大量患者基因數據。根據GDPR（通用數據保護條例）的規定，下列哪項數據處理措施在保護數據隱私方面是最嚴格且優先考量的？

選項:

A) 確保數據在靜態儲存（at rest）時進行加密。

B) 對所有個人身份識別資訊（PII）進行匿名化處理，使其無法與任何個人關聯。

C) 實施嚴格的角色基礎存取控制（RBAC），限制數據存取權限。

D) 建立端到端的數據血緣追蹤，確保數據來源可追溯。

答案: B) 對所有個人身份識別資訊（PII）進行匿名化處理，使其無法與任何個人關聯。

解析: 在GDPR等嚴格數據隱私法規下，匿名化（Anonymization）是保護個人數據的最強措施，因為它使數據無法再與任何特定個人關聯，從而使數據不再屬於「個人數據」。加密、RBAC和數據血緣雖然是重要的數據安全和治理措施，但匿名化是從根本上解除數據與個人關聯的手段，在隱私保護等級上最高。假名化（Pseudonymization）雖然也常用，但仍可能透過額外資訊重新識別個人。

問題 23 (中級)

------------------------------

題目: 元數據管理（Metadata Management）是數據治理的基石。下列哪一項不是元數據管理平台在支持AI專案中提供的關鍵價值？

選項:

A) 提供數據目錄和數據字典，幫助數據科學家快速發現和理解數據。

B) 自動追蹤數據的計算血緣（Data Lineage），理解數據轉換過程。

C) 直接對AI模型進行訓練和推斷，取代傳統的機器學習框架。

D) 監控數據品質指標，發現數據異常和偏見。

答案: C) 直接對AI模型進行訓練和推斷，取代傳統的機器學習框架。

解析: 元數據管理平台的核心功能是管理數據的數據，包括數據的定義、來源、品質、血緣等，旨在提升數據的可發現性、可理解性和可信度。它為AI專案提供了高質量的數據基礎，但本身不具備直接訓練和推斷AI模型的能力。AI模型的訓練和推斷仍需依賴專門的機器學習框架和平台。

問題 24 (中級)

------------------------------

題目: 一家大型零售商正在採用數據湖架構來整合其線上和線下銷售數據。為了實現精準行銷和個性化推薦，數據科學團隊需要能夠追溯每一個數據點的完整轉換路徑，以確保數據的正確性和模型的可靠性。這項需求最直接對應到哪種數據治理機制？

選項:

A) 數據加密（Data Encryption）

B) 數據分區（Data Partitioning）

C) 數據血緣（Data Lineage）

D) 數據緩存（Data Caching）

答案: C) 數據血緣（Data Lineage）

解析: 數據血緣（Data Lineage）是追溯數據從原始來源到最終應用（包括所有中間轉換和處理步驟）的完整路徑。這對於確保數據的正確性、進行問題排查、理解數據變化，以及在AI專案中驗證模型訓練數據的品質和來源至關重要。其他選項雖然也是數據管理的重要方面，但與追溯數據轉換路徑的核心需求不符。

問題 25 (中級)

------------------------------

題目: 在數據品質管理中，數據的『準確性（Accuracy）』、『完整性（Completeness）』和『一致性（Consistency）』是核心衡量標準。如果一個客戶數據庫中，部分客戶的年齡欄位是空值，這主要反映了哪種數據品質問題？

選項:

A) 準確性問題

B) 一致性問題

C) 完整性問題

D) 及時性問題

答案: C) 完整性問題

解析: 完整性問題（Completeness）是指數據的缺失或遺漏。當客戶的年齡欄位是空值時，表示該數據點不完整。準確性是指數據的正確性（例如年齡值是否與實際相符），一致性是指數據在不同系統或不同時間點是否保持相同（例如在兩個系統中同一個客戶的年齡值不同），及時性則是指數據是否及時更新。因此，空值主要反映了完整性問題。

問題 26 (中級)

------------------------------

題目: 在數據湖中，為了實現ACID事務、Schema演變和時間旅行（Time Travel）等功能，通常會採用哪一類技術？

選項:

A) 傳統的OLTP關係型資料庫。

B) 分散式檔案系統如HDFS，並搭配手動檔案版本管理。

C) 開放的數據湖表格式，例如Delta Lake, Apache Iceberg或Apache Hudi。

D) 記憶體數據庫如Redis，用於快速查詢緩存。

答案: C) 開放的數據湖表格式，例如Delta Lake, Apache Iceberg或Apache Hudi。

解析: Delta Lake、Apache Iceberg和Apache Hudi是專為數據湖設計的開放表格式，它們在物件儲存之上提供ACID事務、Schema Enforcement、數據版本控制和時間旅行等功能，將數據湖的靈活性與資料倉儲的可靠性結合。選項A和D不適用於數據湖。選項B的HDFS本身不提供這些高層次數據管理功能，需要額外工具。

問題 27 (中級)

------------------------------

題目: 一家跨國企業在整合多個國家和地區的客戶數據時，必須嚴格遵守各地的數據隱私法規，例如GDPR和CCPA。為確保數據合規性，下列哪項是數據安全與隱私規劃中的首要考量？

選項:

A) 僅使用傳統的防火牆來保護數據庫安全。

B) 實施數據在傳輸中和靜態儲存時的加密，並設計基於角色的存取控制（RBAC）。

C) 購買高階的數據儲存硬體，以提高物理安全。

D) 將所有客戶數據集中存儲到單一數據湖，以簡化管理。

答案: B) 實施數據在傳輸中和靜態儲存時的加密，並設計基於角色的存取控制（RBAC）。

解析: 數據安全與隱私合規性要求從多個層面保護數據。數據加密（靜態和傳輸中）能防止未經授權的讀取，而基於角色的存取控制（RBAC）則精細化了誰能存取哪些數據，這兩者是滿足GDPR、CCPA等法規的核心安全措施。選項A和C雖然是安全的一部分，但不夠全面。選項D將所有敏感數據集中存儲，如果缺乏適當的保護，會增加風險。

問題 28 (中級)

------------------------------

題目: 一個AI專案需要從數十個不同的內部系統和外部API獲取數據，這些數據格式多樣且更新頻率不一。為了有效地將這些數據導入數據湖，並為數據清洗和轉換提供穩定來源，下列哪項數據管道中的組件最關鍵？

選項:

A) 資料視覺化工具（如Tableau）。

B) 數據攝取（Data Ingestion）層，包含批次和串流攝取工具。

C) 僅使用一個大型的關聯式資料庫作為所有數據的最終儲存點。

D) 僅依靠數據分析師手動收集數據並匯入。

答案: B) 數據攝取（Data Ingestion）層，包含批次和串流攝取工具。

解析: 面對多源、多格式、不同更新頻率的數據，數據管道中的數據攝取（Data Ingestion）層是將數據有效引入數據湖的關鍵。它需要具備靈活性，能處理批次（如Sqoop）和串流（如Kafka）數據，並適應多種數據源。其他選項不是管道的核心組件，或不適用於這種複雜場景。

問題 29 (中級)

------------------------------

題目: 在分散式系統的設計中，通常需要在數據一致性模型上做出權衡。如果一個系統設計選擇優先保證高度的可用性和分區容錯性，並接受數據在短時間內可能存在不一致，但最終會達到一致狀態。這種設計哲學被稱為？

選項:

A) ACID

B) 兩階段提交 (2PC)

C) BASE

D) 強一致性事務

答案: C) BASE

解析: BASE（Basically Available, Soft State, Eventual Consistency）是與ACID相對應的一種分散式系統設計哲學。它優先保證系統的可用性（Availability）和分區容錯性（Partition Tolerance），但接受數據在網絡分區或瞬時狀態下的不一致性，相信數據最終會達到一致狀態。ACID和2PC則強調強一致性。

問題 30 (中級)

------------------------------

題目: 某電商平台正在對其推薦系統進行改版，要求對用戶行為日誌進行實時分析，並在幾秒內更新推薦結果。同時，也需要對歷史數據進行複雜的批次分析，以訓練新的推薦模型。為滿足這兩種不同的數據處理需求，應如何規劃數據處理模式？

選項:

A) 僅使用批次處理（Batch Processing），每24小時更新一次推薦模型和結果。

B) 僅使用串流處理（Stream Processing），但只處理最新的數據，放棄歷史數據分析。

C) 結合批次處理和串流處理，串流處理實時數據以更新推薦，批次處理歷史數據以訓練模型。

D) 採用傳統OLTP資料庫，利用其強事務性處理所有數據。

答案: C) 結合批次處理和串流處理，串流處理實時數據以更新推薦，批次處理歷史數據以訓練模型。

解析: 此場景同時需要實時性和歷史數據分析能力。串流處理（如Apache Flink）能滿足實時更新推薦的需求，而批次處理（如Apache Spark）則擅長對大規模歷史數據進行複雜分析和模型訓練。結合兩種處理模式（Lambda Architecture或Kappa Architecture的變體）是滿足這種複合需求的最佳方案。選項A和B只考慮單一需求，選項D不適用於大規模分析。

問題 31 (中級)

------------------------------

題目: 在進行數據儲存效能優化時，查詢優化器（Query Optimizer）是查詢引擎中的關鍵組件。它的核心職責是什麼？

選項:

A) 負責將原始數據從各類資料源抽取到目標儲存系統。

B) 根據數據的Schema和內容自動建立所有必要的索引。

C) 分析SQL查詢，生成一個高效的執行計畫，以最小化查詢時間和資源消耗。

D) 管理數據在分散式儲存中的複製和故障轉移，確保高可用性。

答案: C) 分析SQL查詢，生成一個高效的執行計畫，以最小化查詢時間和資源消耗。

解析: 查詢優化器是查詢引擎的核心，其主要職責是接收SQL查詢，分析其語義，然後根據數據統計信息（如數據分佈、索引存在與否）和可用的計算資源，生成一個或多個可能的執行計畫，並選擇其中成本最低（通常指執行時間或資源消耗最少）的一個。這個過程旨在確保查詢能夠以最有效的方式被執行。選項A是ETL或數據攝取的功能。選項B通常是數據管理員的職責。選項D是分散式儲存系統的底層功能。

問題 32 (中級)

------------------------------

題目: 資料湖架構中的聚合數據區（Curated Zone），其數據通常是經過高度結構化、清洗和聚合的。這樣設計的主要目的是什麼？

選項:

A) 作為原始數據的長期儲存庫，不做任何轉換。

B) 提供給業務分析師和BI工具使用，以及作為AI模型的直接訓練數據源，追求高性能查詢。

C) 僅用於存儲非結構化數據，例如圖片和視頻。

D) 作為數據備份，以應對災難恢復需求。

答案: B) 提供給業務分析師和BI工具使用，以及作為AI模型的直接訓練數據源，追求高性能查詢。

解析: 聚合數據區（Curated Zone）是數據湖中的服務層，其數據已經過深度處理，具備高品質和高結構化特點。這個區域的數據專門用於支持BI報表、數據分析和AI/ML模型訓練，旨在提供高性能、易於理解和可信賴的數據。選項A是原始數據區的特性。選項C是錯誤的。選項D是備份策略，而非聚合數據區的主要目的。

問題 33 (中級)

------------------------------

題目: 一家能源公司正在建立一個數據平台，需要整合來自數千個傳感器的實時數據。這些數據量大，更新頻繁，且要求低延遲處理以進行異常檢測。同時，數據平台也需要儲存多年的歷史數據以供趨勢分析。針對儲存層的技術選型，哪種方案最佳？

選項:

A) 所有數據都儲存於關聯式資料庫中，並進行垂直擴展。

B) 實時數據儲存於高性能NoSQL資料庫，歷史數據則歸檔至物件儲存，並構建統一查詢層。

C) 僅使用HDFS儲存所有數據，利用其高吞吐量批次處理。

D) 將所有數據儲存於傳統檔案伺服器，手動管理文件分區。

answer

B) 實時數據儲存於高性能NoSQL資料庫，歷史數據則歸檔至物件儲存，並構建統一查詢層。

explanation

此場景包含實時性和歷史數據兩種需求。高性能NoSQL資料庫（如Cassandra, MongoDB）擅長處理高吞吐量、低延遲的實時寫入和查詢。物件儲存（如S3）則提供極高的可擴展性和成本效益，適合長期儲存大量歷史數據。構建統一查詢層可以在兩種儲存之間提供無縫的數據存取。選項A無法處理大規模數據。選項C的HDFS不適合實時性要求。選項D缺乏擴展性和管理能力。

答案: B) 實時數據儲存於高性能NoSQL資料庫，歷史數據則歸檔至物件儲存，並構建統一查詢層。

解析: 此場景包含實時性和歷史數據兩種需求。高性能NoSQL資料庫（如Cassandra, MongoDB）擅長處理高吞吐量、低延遲的實時寫入和查詢。物件儲存（如S3）則提供極高的可擴展性和成本效益，適合長期儲存大量歷史數據。構建統一查詢層可以在兩種儲存之間提供無縫的數據存取。選項A無法處理大規模數據。選項C的HDFS不適合實時性要求。選項D缺乏擴展性和管理能力。

問題 34 (中級)

------------------------------

題目: 在數據湖效能優化中，除了將數據儲存為列式格式（如Parquet），並進行合理分區外，數據的『壓縮』也是一個重要手段。下列哪種壓縮算法在數據湖中既能提供良好的壓縮比，又能兼顧查詢性能，並被廣泛應用？

選項:

A) ZIP壓縮，適用於打包小型文件。

B) GZIP壓縮，通常用於網絡傳輸但解壓性能較慢。

C) Snappy或Zstd壓縮，提供高壓縮速度和合理的壓縮比，適合大數據處理。

D) RAR壓縮，專有格式且解壓複雜度高。

答案: C) Snappy或Zstd壓縮，提供高壓縮速度和合理的壓縮比，適合大數據處理。

解析: Snappy和Zstd（Zstandard）是為大數據場景優化的壓縮算法。它們的特點是壓縮速度非常快，解壓速度也很快，同時能提供合理的壓縮比。這對於數據湖中需要頻繁讀取和處理大量數據的工作負載（如Spark）來說，能夠顯著降低I/O開銷和提升整體性能。ZIP和RAR壓縮比可能更高但速度慢，GZIP雖然通用但解壓效率在大數據環境下不如Snappy/Zstd。

問題 35 (中級)

------------------------------

題目: 若要設計一個高度可擴展、容錯性強且能儲存PB級數據的檔案系統，用於支持Hadoop生態系統中的批次處理任務，下列哪種儲存系統是最佳選擇？

選項:

A) Network Attached Storage (NAS)，集中式檔案伺服器。

B) Storage Area Network (SAN)，塊級儲存網絡。

C) Hadoop Distributed File System (HDFS)，專為大數據設計的分散式檔案系統。

D) 傳統關聯式資料庫系統，儲存大型二進制對象（BLOB）。

答案: C) Hadoop Distributed File System (HDFS)，專為大數據設計的分散式檔案系統。

解析: HDFS（Hadoop Distributed File System）是Apache Hadoop生態系統的核心組件，專為儲存PB級數據而設計。它透過將數據分割成塊並複製到多個節點來實現高容錯性、高吞吐量和可擴展性，非常適合批次處理。NAS和SAN是傳統儲存，不具備HDFS的分散式特性和擴展性。RDBMS不適合儲存PB級的大文件。

問題 36 (中級)

------------------------------

題目: 一家公司正在從傳統數據倉儲向數據湖（Data Lake）過渡。在數據遷移過程中，需要將數據從多個關聯式資料庫抽取出來。為避免對生產資料庫造成過大負擔，並實現數據的增量同步，下列哪種技術最為適用？

選項:

A) 定期執行全量數據備份和恢復。

B) 手動導出CSV文件並上傳至數據湖。

C) 使用Change Data Capture (CDC) 技術，實時捕捉資料庫的變更事件。

D) 直接從資料庫的應用層進行數據提取。

答案: C) 使用Change Data Capture (CDC) 技術，實時捕捉資料庫的變更事件。

解析: Change Data Capture (CDC) 技術能夠監控並捕捉源資料庫中數據的實時變更（插入、更新、刪除），然後將這些變更事件傳輸到目標系統。這對於從生產資料庫進行增量同步至數據湖非常高效，不僅減少對源系統的影響，還能確保數據的新鮮度。全量備份和手動導出效率低下且無法實時。從應用層提取數據可能增加應用負擔且不易統一管理。

問題 37 (中級)

------------------------------

題目: 在數據湖中，元數據（Metadata）管理對於數據的可用性、可信賴性和治理至關重要。下列哪一項不是元數據在數據湖中提供的關鍵功能？

選項:

A) 描述數據的Schema、格式和位置。

B) 記錄數據的生命週期，包括數據的來源、轉換和處理過程（數據血緣）。

C) 儲存原始業務數據，例如客戶交易記錄或用戶日誌。

D) 協助數據使用者發現相關數據，並理解其業務含義。

答案: C) 儲存原始業務數據，例如客戶交易記錄或用戶日誌。

解析: 元數據是「關於數據的數據」，它描述了數據的各種屬性，但它本身不儲存原始的業務數據。原始業務數據儲存在數據湖的底層儲存（如物件儲存或HDFS）中。選項A、B、D都是元數據管理的核心功能。

問題 38 (中級)

------------------------------

題目: 一家保險公司正在建立一個數據平台來處理客戶索賠數據。這些數據量大，包含結構化、半結構化和非結構化內容（如索賠照片、錄音）。由於法規要求，數據必須長期儲存且可追溯，並且需要能夠回溯到任意歷史時間點的數據版本。下列哪種技術組合最能滿足這些要求？

選項:

A) 傳統關係型資料庫加上手動備份，用於長期儲存和版本追溯。

B) HDFS結合Apache Hive進行數據儲存和查詢，但缺乏時間旅行功能。

C) 雲端物件儲存作為底層，並利用Delta Lake或Apache Iceberg等數據湖表格式實現ACID事務和時間旅行。

D) 僅使用高性能NoSQL資料庫，犧牲部分數據追溯能力以換取速度。

答案: C) 雲端物件儲存作為底層，並利用Delta Lake或Apache Iceberg等數據湖表格式實現ACID事務和時間旅行。

解析: 此場景對數據量、多樣性、長期儲存、可追溯性和時間旅行功能都有要求。雲端物件儲存（如S3）提供極致的擴展性和持久性。Delta Lake或Apache Iceberg等數據湖表格式則在物件儲存之上提供ACID事務、Schema演變和時間旅行（回溯歷史版本）功能，完美符合所有要求。選項A、B、D均無法全面滿足所有條件，尤其是在版本追溯和多樣性數據處理方面有顯著缺陷。

問題 39 (中級)

------------------------------

題目: 在數據治理框架中，數據血緣（Data Lineage）被視為一個關鍵組件。下列哪個場景最能體現數據血緣的實踐價值？

選項:

A) 加密靜態儲存的敏感數據，防止未經授權的存取。

B) 在數據湖中對原始數據進行分區和排序，以提高查詢性能。

C) 當AI模型輸出異常結果時，透過追溯數據血緣，快速定位數據來源或轉換過程中的問題。

D) 建立數據字典，統一業務術語和數據定義。

答案: C) 當AI模型輸出異常結果時，透過追溯數據血緣，快速定位數據來源或轉換過程中的問題。

解析: 數據血緣提供數據從源頭到最終使用的完整路徑和所有轉換步驟的可視化。在AI專案中，如果模型產生了不可預期的結果或錯誤，數據血緣能夠幫助數據科學家和工程師迅速追溯到問題數據的來源、數據管道中的哪個環節發生了錯誤，或數據在哪些轉換中引入了問題，從而加速問題排查和解決。選項A是數據安全。選項B是效能優化。選項D是元數據管理。

問題 40 (中級)

------------------------------

題目: 一家公司正在部署一個新的數據湖，其中包含了大量的客戶個人信息。為了確保數據隱私合規性（如GDPR、CCPA），並在不影響分析需求的條件下最大化保護用戶隱私，下列哪個數據處理技術最為合適？

選項:

A) 僅使用基於角色的存取控制（RBAC），對所有客戶數據開放存取。

B) 將所有客戶個人信息從數據庫中徹底刪除，以避免任何隱私風險。

C) 對原始客戶數據進行假名化（Pseudonymization）處理，並將去識別化的數據用於分析。

D) 將客戶數據儲存在加密文件中，但不限制任何人的存取。

答案: C) 對原始客戶數據進行假名化（Pseudonymization）處理，並將去識別化的數據用於分析。

解析: 假名化（Pseudonymization）是一種在保護個人隱私與數據實用性之間取得平衡的技術。它用替代標識符替換個人身份識別資訊（PII），使得數據在沒有額外資訊的情況下無法直接識別個人，但理論上仍可透過這些額外資訊重新識別。這使得數據仍可用於分析，同時提供了一層隱私保護，符合GDPR等法規的要求，尤其是當數據無法完全匿名化時。選項A風險極高。選項B會導致數據無法用於任何分析。選項D僅加密而不限制存取，安全不足。

問題 41 (中級)

------------------------------

題目: 在數據一致性模型中，ACID事務提供強一致性保證，但其在分散式系統中可能導致性能瓶頸。下列哪項是ACID事務在保證數據一致性方面的核心特性？

選項:

A) 優先保證可用性，允許數據短期不一致。

B) 事務是不可分割的最小操作單元，要麼全部成功，要麼全部失敗（原子性）。

C) 數據僅最終達到一致狀態，不保證即時一致。

D) 透過犧牲一致性來提升系統的擴展性。

答案: B) 事務是不可分割的最小操作單元，要麼全部成功，要麼全部失敗（原子性）。

解析: ACID是關係型資料庫事務的四大特性：原子性（Atomicity）、一致性（Consistency）、隔離性（Isolation）、持久性（Durability）。原子性（Atomicity）確保事務作為一個單一邏輯工作單元，要麼完全執行，要麼完全不執行，沒有中間狀態，這是其保證強一致性的核心機制之一。選項A和C描述的是BASE模型或最終一致性。選項D與ACID的設計目標相反。

問題 42 (中級)

------------------------------

題目: 數據品質的『及時性（Timeliness）』是指數據在其被使用時是否足夠新穎和最新。對於一個金融業的實時反詐欺系統，對數據及時性的要求會達到什麼程度？

選項:

A) 每月更新一次即可滿足需求。

B) 接受數小時的數據延遲，因為歷史數據也重要。

C) 必須在數秒甚至毫秒內處理並反映最新的交易數據，以識別潛在詐欺。

D) 數據及時性無關緊要，只需保證數據的準確性。

答案: C) 必須在數秒甚至毫秒內處理並反映最新的交易數據，以識別潛在詐欺。

解析: 實時反詐欺系統對數據及時性有著極為嚴格的要求。詐欺行為通常發生在極短的時間內，如果數據反映不夠及時，系統將無法有效識別和阻止詐欺。因此，系統必須能夠在數秒甚至毫秒內處理並響應最新的交易數據。每月或數小時的延遲對於反詐欺系統來說是不可接受的。選項D完全錯誤。

問題 43 (中級)

------------------------------

題目: 在大型數據湖中，數據質量問題是一個持續的挑戰。為了持續監控數據品質並自動識別數據異常，下列哪個數據治理工具或策略組合最為有效？

選項:

A) 僅依靠人工定期檢查少量數據樣本。

B) 導入自動化的數據剖析（Data Profiling）工具，並在數據管道中嵌入數據品質驗證規則。

C) 將所有數據儲存為非結構化格式，以避免Schema問題。

D) 禁用所有數據轉換，直接使用原始數據。

答案: B) 導入自動化的數據剖析（Data Profiling）工具，並在數據管道中嵌入數據品質驗證規則。

解析: 自動化的數據剖析工具能夠掃描數據，生成數據分佈、缺失值、異常值等統計報告，幫助識別潛在的品質問題。在數據管道中嵌入數據品質驗證規則，可以在數據進入下一階段之前自動檢測並處理不符合標準的數據，這是持續保障數據品質最有效的方法。選項A效率低下且不全面。選項C和D會引入其他數據管理和分析問題。

問題 44 (中級)

------------------------------

題目: 若一個數據庫系統設計要求在高併發、大規模讀寫操作下，仍能優先保證系統的可用性（Availability），即使在短暫的網絡分區時，數據一致性可能會有延遲，但最終會達到一致。這樣的系統最符合下列哪個分類？

選項:

A) OLTP資料庫

B) NoSQL資料庫（如Cassandra）

C) 傳統的單機關聯式資料庫

D) 專為強一致性設計的金融交易系統

答案: B) NoSQL資料庫（如Cassandra）

解析: 強調高可用性和最終一致性是許多NoSQL資料庫（尤其是基於列族或鍵值模型的資料庫，如Cassandra）的設計核心。它們在CAP定理中選擇了Availability和Partition Tolerance，而犧牲了即時Consistency。OLTP資料庫和傳統單機關聯式資料庫通常強調強一致性（ACID）。專為強一致性設計的金融交易系統也會優先ACID。

問題 45 (中級)

------------------------------

題目: 一個數據架構師正在評估將一個舊有數據倉儲的數據遷移到一個新的雲端數據湖，該數據倉儲包含了大量的歷史銷售數據，且定期會有新的銷售數據生成。為了確保數據能被持續、高效地導入數據湖，並保持數據新鮮度，哪種數據攝取策略最為適合？

選項:

A) 每年一次手動全量數據導出和導入。

B) 僅使用實時串流攝取，忽略所有歷史數據。

C) 結合批次攝取歷史數據和增量（CDC）攝取新生成數據。

D) 將數據倉儲直接連接到數據湖，並執行每日全表複製。

答案: C) 結合批次攝取歷史數據和增量（CDC）攝取新生成數據。

解析: 對於包含大量歷史數據且持續有新數據生成的場景，最佳策略是結合批次處理和增量處理。批次攝取（如使用Apache Sqoop）適合一次性導入大量的歷史數據。增量攝取，特別是Change Data Capture (CDC) 技術，則能高效地捕捉和同步資料庫中新生成或變更的數據，確保數據湖的數據新鮮度。選項A和D效率低且無法保持新鮮度。選項B會丟失重要的歷史數據。

問題 46 (中級)

------------------------------

題目: 在數據湖架構中，如果數據在精煉數據區（Refined Zone）被轉換並優化為列式儲存格式（如Parquet），並進行分區和排序。當數據科學家需要對某個特定時間範圍內的特定用戶數據進行查詢和分析時，哪個查詢引擎的組件負責決定如何最有效地利用這些優化措施？

選項:

A) 數據攝取代理（Data Ingestion Agent）。

B) 元數據存儲（Metadata Store），如Hive Metastore。

C) 查詢優化器（Query Optimizer）。

D) 數據緩存服務（Data Caching Service）。

答案: C) 查詢優化器（Query Optimizer）。

解析: 查詢優化器（Query Optimizer）是查詢引擎的核心組件，它負責解析SQL查詢，並根據元數據存儲中的信息（如數據分區、排序、統計信息等）來判斷最優的查詢執行計畫。它會利用列式儲存只讀取所需列、利用分區裁剪不相關數據、利用排序特性加速範圍查詢。數據攝取代理負責數據流入。元數據存儲提供信息，但不做決策。數據緩存服務用於加速結果，但不是規劃查詢路徑的組件。

問題 47 (中級)

------------------------------

題目: 一家媒體公司正在其數據湖中儲存大量的圖片和視頻內容，這些內容將用於AI的圖像識別和視頻分析模型訓練。為確保這些非結構化數據的長期持久性、高可用性及成本效益，哪種雲端儲存服務是最佳選擇？

選項:

A) 雲端關聯式資料庫服務（如AWS RDS）。

B) 雲端區塊儲存服務（如AWS EBS）。

C) 雲端物件儲存服務（如AWS S3或Google Cloud Storage）。

D) 雲端檔案儲存服務（如AWS EFS）。

答案: C) 雲端物件儲存服務（如AWS S3或Google Cloud Storage）。

解析: 雲端物件儲存服務（如AWS S3或Google Cloud Storage）專為儲存海量非結構化數據（圖片、視頻、文件等）而設計，提供極高的持久性、可用性、可擴展性和低成本，非常適合作為數據湖中原始非結構化數據的底層儲存。關聯式資料庫和區塊儲存更適用於結構化或需要高性能隨機讀寫的場景。檔案儲存則更適合共享文件系統或傳統應用。

問題 48 (中級)

------------------------------

題目: 為了提高數據湖中歷史數據的查詢性能，除了採用列式儲存格式（如Parquet）和進行分區外，數據管理員還實施了Z-Ordering或Clustering等技術。這些技術的主要目的是什麼？

選項:

A) 加密數據，提高數據安全。

B) 在數據塊內部對多個維度進行聯合排序，優化多維度查詢性能。

C) 確保數據的強一致性，特別是針對事務操作。

D) 增加數據冗餘，提高數據的可用性。

答案: B) 在數據塊內部對多個維度進行聯合排序，優化多維度查詢性能。

解析: Z-Ordering或Clustering（如Delta Lake中的Z-Ordering）是一種對數據進行多維度排序的技術。它通過將多個查詢頻繁的欄位聯合起來進行排序，使得在這些維度上進行過濾或範圍查詢時，相關數據在儲存上更加緊密，從而減少掃描的數據量和I/O操作，顯著提升多維度查詢的性能。這是一種高級的數據佈局優化技術。選項A、C、D與其核心功能不符。

iPAS AI 自學路iPAS模擬考題(中級)

留言