問題 1 (中級)
------------------------------
題目: 在處理大規模電商交易數據時,若需快速取得每日各產品類別的近似總銷售額,且對微小誤差有一定容忍度,以下哪種近似計算技術最合適?選項:
A) 精確的SQL GROUP BY查詢
B) 使用Count-Min Sketch估計頻率
C) 建立完整的OLAP Cube
D) 執行全數據的 MapReduce Job
答案: B) 使用Count-Min Sketch估計頻率
解析: Count-Min Sketch是一種用於估計數據流中元素頻率的Sketching算法,它可以在有限記憶體和極短時間內提供近似結果,非常適合在大數據環境下快速獲取頻率相關的統計量,如總銷售額的近似值,且對微小誤差有容忍度。
問題 2 (中級)
------------------------------
題目: 某能源公司需預測未來一月的電力消耗,數據具有明顯的日、週、年季節性。若考慮模型的靈活性和處理多重季節性、假日效應的能力,以下哪種模型可能是最佳選擇,並且可以容易地納入外部回歸變數?
選項:
A) 基本ARIMA(p,d,q)模型
B) 簡單線性回歸模型
C) Facebook Prophet模型
D) 樸素預測 (Naive Forecast)
答案: C) Facebook Prophet模型
解析: Facebook Prophet專為處理具有強烈季節性、多重季節性、假日效應和趨勢變化的業務時序數據而設計,且易於納入外部回歸變數,具有高度的靈活性和實用性。ARIMA難以直接處理多重季節性,線性回歸和樸素預測則無法捕捉複雜的時序模式。
問題 3 (中級)
------------------------------
題目: 一位數據分析師正在分析大型社交媒體平台上的用戶互動網絡。他希望識別出那些在不同用戶群體之間扮演「橋樑」角色的關鍵意見領袖,以促進信息跨群體傳播。他應該優先使用哪種中心性測量?
選項:
A) 度中心性 (Degree Centrality)
B) 介數中心性 (Betweenness Centrality)
C) 接近中心性 (Closeness Centrality)
D) 特徵向量中心性 (Eigenvector Centrality)
答案: B) 介數中心性 (Betweenness Centrality)
解析: 介數中心性衡量一個節點位於其他兩個節點之間最短路徑上的次數。高介數中心性意味著該節點在網絡中扮演著關鍵的中介角色,是信息跨群體流動的「橋樑」,符合識別關鍵意見領袖的需求。
問題 4 (中級)
------------------------------
題目: 在偵測物流車輛的異常行為時,若要識別出「多輛車輛在特定偏遠區域同時長時間靜止」這種集體異常現象,並判斷該區域是否形成異常熱點,以下哪種地理空間統計方法最適用?
選項:
A) Kriging空間插值
B) Moran's I全球空間自相關
C) Getis-Ord Gi*局部空間熱點分析
D) DBSCAN聚類
答案: C) Getis-Ord Gi*局部空間熱點分析
解析: Getis-Ord Gi*統計專用於識別局部區域內的熱點(高值聚集)和冷點(低值聚集)。它能精確定位特定區域是否出現異常聚集的行為,非常適合偵測集體異常的空間熱點。
問題 5 (中級)
------------------------------
題目: 某公司正在分析用戶評論,發現「amazing」和「fantastic」都表達了積極的情緒。若要將這些詞語轉換為能夠捕捉其語義相似性的數值表示,以下哪種文本表示方法最能達成此目的?
選項:
A) 詞袋模型 (Bag-of-Words)
B) TF-IDF (Term Frequency-Inverse Document Frequency)
C) 詞嵌入 (Word Embeddings,如Word2Vec)
D) 獨熱編碼 (One-Hot Encoding)
答案: C) 詞嵌入 (Word Embeddings,如Word2Vec)
解析: 詞嵌入(Word Embeddings)技術,如Word2Vec、GloVe等,能夠將詞語映射到一個低維度的向量空間中,其中語義相似的詞語在向量空間中的距離也更近。這使其能夠捕捉詞語之間的語義關係,而詞袋模型、TF-IDF和獨熱編碼則主要側重於詞語的頻率或存在性,無法有效表達語義相似性。
問題 6 (中級)
------------------------------
題目: 一個電商平台需要快速匯總每個地區和每個產品類別的總銷售額,包括所有可能的組合(例如,所有地區的總銷售額,所有產品類別的總銷售額,以及單個產品類別在單個地區的總銷售額)。在SQL中,哪種聚合操作最能實現這種多維度的匯總報告?
選項:
A) GROUP BY
B) ORDER BY
C) ROLLUP
D) CUBE
答案: D) CUBE
解析: CUBE是SQL擴展,用於生成所有可能組合的匯總報告。它會針對指定列的所有可能組合(包括子總計和總總計)生成匯總,這與問題中描述的多維度匯總需求完全吻合。ROLLUP只生成指定列層次的匯總。
問題 7 (中級)
------------------------------
題目: 在時序數據預測中,為了避免數據洩漏 (Data Leakage) 和更準確地評估模型在實際應用中的表現,當訓練集和測試集之間存在時間依賴性時,應該採用哪種驗證策略?
選項:
A) 隨機交叉驗證 (Random Cross-Validation)
B) k-折交叉驗證 (k-Fold Cross-Validation)
C) 留一法交叉驗證 (Leave-One-Out Cross-Validation)
D) 步進驗證 (Walk-forward Validation)
答案: D) 步進驗證 (Walk-forward Validation)
解析: 步進驗證(Walk-forward Validation)是一種專為時間序列數據設計的驗證策略。它模擬了模型在實際應用中按時間順序進行預測的過程,即用過去的數據訓練模型,然後預測未來的一個或多個時間步,並不斷滾動前進。這避免了數據洩漏,並提供了更真實的模型性能評估。
問題 8 (中級)
------------------------------
題目: 當我們從大規模數據流中估計不重複元素的數量(基數,Cardinality)時,傳統的精確計數方法可能由於記憶體限制而不可行。以下哪種Sketching算法可以在極小記憶體佔用下,提供非常精確的基數估計?
選項:
A) Count-Min Sketch
B) Bloom Filter
C) HyperLogLog
D) Top-K Sketch
答案: C) HyperLogLog
解析: HyperLogLog是一種高效的基數估計算法,它能在極小記憶體佔用下提供非常精確的不重複元素計數。Count-Min Sketch主要用於頻率估計,Bloom Filter用於判斷元素是否存在,Top-K Sketch用於估計頻率最高的前K個元素。
問題 9 (中級)
------------------------------
題目: 某公司需要分析社交媒體上關於其新產品的評論,以判斷用戶的整體情感傾向。在文字探勘的NLP管線中,哪一步驟主要負責將「非常喜歡」、「有點喜歡」、「不喜歡」等文本情緒判斷為正向、中性或負向?
選項:
A) 分詞 (Tokenization)
B) 詞性標註 (Part-of-Speech Tagging)
C) 命名實體識別 (Named Entity Recognition, NER)
D) 情感分析 (Sentiment Analysis)
答案: D) 情感分析 (Sentiment Analysis)
解析: 情感分析(Sentiment Analysis)是NLP的一個子領域,旨在從文本中識別和提取主觀情感資訊,並將其分類為正向、負向或中性。其他選項中的步驟則處理文本的不同方面,不直接涉及情感判斷。
問題 10 (中級)
------------------------------
題目: 以下哪種時序數據檢定方法的主要原假設 (Null Hypothesis) 是「序列為定態」?
選項:
A) Augmented Dickey-Fuller (ADF) Test
B) Kwiatkowski-Phillips-Schmidt-Shin (KPSS) Test
C) Ljung-Box Test
D) Durbin-Watson Test
答案: B) Kwiatkowski-Phillips-Schmidt-Shin (KPSS) Test
解析: KPSS檢定的原假設是序列為定態 (stationary)。而ADF檢定的原假設是序列存在單位根,即為非定態。Ljung-Box Test用於檢定殘差是否為白噪音,Durbin-Watson Test用於檢定回歸模型殘差是否存在一階自相關。
問題 11 (中級)
------------------------------
題目: 某地理資訊系統(GIS)專案需要將客戶的街道地址轉換為精確的經緯度坐標,以便在地圖上進行可視化和空間分析。這個過程稱為什麼?
選項:
A) 空間插值 (Spatial Interpolation)
B) 地理編碼 (Geocoding)
C) 坐標轉換 (Coordinate Transformation)
D) 空間自相關 (Spatial Autocorrelation)
答案: B) 地理編碼 (Geocoding)
解析: 地理編碼(Geocoding)是將地址或地點名稱轉換為地理坐標(經緯度)的過程。空間插值是估計未知點的數據值,坐標轉換是在不同坐標系統之間轉換,空間自相關是衡量空間鄰近事物的屬性相似性。
問題 12 (中級)
------------------------------
題目: 在網路分析中,若一個節點在不同社區或群組之間扮演著關鍵的連接作用,即使它自身的連接數量不多,但卻是信息流動不可或缺的節點。這個節點最可能具有較高的哪種中心性?
選項:
A) 度中心性
B) 介數中心性
C) 接近中心性
D) 特徵向量中心性
答案: B) 介數中心性
解析: 介數中心性衡量一個節點在網絡中充當「橋樑」或「中介」的程度。即使一個節點的度中心性不高,如果它位於許多其他節點之間的最短路徑上,其介數中心性也會很高,這使其成為信息流的關鍵節點。
問題 13 (中級)
------------------------------
題目: 在處理高維度、大規模數據流中的異常偵測問題時,若需要一種不基於距離計算、對數據分佈假設少、且能高效隔離異常點的算法,以下哪種方法是優選?
選項:
A) Local Outlier Factor (LOF)
B) One-Class SVM
C) Isolation Forest
D) Z-score 檢測
答案: C) Isolation Forest
解析: Isolation Forest(隔離森林)是一種基於樹的異常偵測算法,它通過隨機選擇特徵和隨機切分點來隔離異常點。異常點通常需要更少的切分步驟就能被隔離,因此該算法效率高,對數據分佈假設少,且不依賴距離計算,非常適合高維大規模數據。
問題 14 (中級)
------------------------------
題目: 一個電信公司正在監測其網絡流量,發現某個基站的流量在夜間突然出現持續小幅上漲,但單看每個小時的流量增量並未超過正常波動範圍。這種異常最可能屬於哪種類型?
選項:
A) 點異常 (Point Anomaly)
B) 上下文異常 (Contextual Anomaly)
C) 集體異常 (Collective Anomaly)
D) 季節性異常 (Seasonal Anomaly)
答案: C) 集體異常 (Collective Anomaly)
解析: 集體異常(Collective Anomaly)是指一系列數據點集體表現出異常行為,但單個數據點可能不異常。問題中的「持續小幅上漲」雖然單個小時不明顯,但整體趨勢是異常的,這正是集體異常的特徵。
問題 15 (中級)
------------------------------
題目: 在時序數據預測中,ARIMA模型的核心參數 (p, d, q) 分別代表什麼?
選項:
A) 自相關階數、季節性階數、移動平均階數
B) 自回歸階數、差分階數、移動平均階數
C) 季節性階數、差分階數、自相關階數
D) 自回歸階數、趨勢階數、季節性階數
答案: B) 自回歸階數、差分階數、移動平均階數
解析: ARIMA模型的參數p代表自回歸(AutoRegressive, AR)部分的階數,d代表差分(Integrated, I)的階數,q代表移動平均(Moving Average, MA)部分的階數。
問題 16 (中級)
------------------------------
題目: 要訓練一個模型來辨識文本中的人名、地名、組織名等特定實體,以下哪種NLP任務是核心?
選項:
A) 情感分析 (Sentiment Analysis)
B) 主題建模 (Topic Modeling)
C) 命名實體識別 (Named Entity Recognition, NER)
D) 文本摘要 (Text Summarization)
答案: C) 命名實體識別 (Named Entity Recognition, NER)
解析: 命名實體識別(NER)是NLP中的一項任務,其目標是從文本中識別和分類命名實體,例如人名、組織、地點、時間表達等。情感分析判斷情緒,主題建模發現主題,文本摘要生成簡短摘要。
問題 17 (中級)
------------------------------
題目: 一個數據團隊正在處理一份包含大量商品銷售數據的表格。為了快速獲取每個產品在每個月份的銷售總額,以及每個產品的年度總銷售額,和每個月份的所有產品總銷售額,最有效率的 SQL 聚合函數是什麼?
選項:
A) SUM() 與 GROUP BY Product, Month
B) AVG() 與 GROUP BY Product
C) SUM() 與 ROLLUP(Product, Month)
D) COUNT() 與 GROUP BY Month
答案: C) SUM() 與 ROLLUP(Product, Month)
解析: ROLLUP操作會生成指定列層次的匯總。ROLLUP(Product, Month)會生成以下三種匯總:(Product, Month)的總計、(Product)的總計(即每個產品的年度總銷售額)、以及()的總計(即所有產品的總銷售額)。這正好滿足了題目的需求。
問題 18 (中級)
------------------------------
題目: 在處理稀疏圖(大部分節點之間沒有直接連接)的網絡分析時,與鄰接矩陣相比,鄰接列表的優點是什麼?
選項:
A) 更快的邊存在性檢查
B) 更低的空間複雜度
C) 更易於實現圖的遍歷算法
D) 支持加權邊的效率更高
答案: B) 更低的空間複雜度
解析: 鄰接列表對於稀疏圖來說,空間複雜度是O(V+E),其中V是節點數,E是邊數。而鄰接矩陣的空間複雜度是O(V^2),無論圖是否稀疏都會佔用大量空間。因此,對於稀疏圖,鄰接列表在空間效率上更優。邊存在性檢查通常鄰接矩陣更快,圖遍歷則兩者皆可高效實現,加權邊也均支持。
問題 19 (中級)
------------------------------
題目: 某地理分析專案需要根據有限的氣象站數據,估計整個區域的連續溫度分佈圖。考慮到溫度數據通常具有空間自相關性,以下哪種空間插值方法最能捕捉這種空間依賴性並提供預測誤差?
選項:
A) 反距離加權法 (IDW)
B) 最近鄰插值 (Nearest Neighbor Interpolation)
C) 克里金法 (Kriging)
D) 樣條插值 (Spline Interpolation)
答案: C) 克里金法 (Kriging)
解析: 克里金法是一種基於地統計學的空間插值方法,它明確考慮了數據的空間自相關性(通過變異函數),並能提供插值結果的預測誤差或不確定性。IDW和最近鄰插值則較為簡單,不考慮空間自相關性或無法提供誤差估計。
問題 20 (中級)
------------------------------
題目: 在時序數據中,若一個數據點在特定時間點或情境下被視為異常,但在其他情況下則屬於正常範圍。例如,深夜的信用卡大額交易。這種異常屬於哪種類型?
選項:
A) 點異常 (Point Anomaly)
B) 上下文異常 (Contextual Anomaly)
C) 集體異常 (Collective Anomaly)
D) 結構異常 (Structural Anomaly)
答案: B) 上下文異常 (Contextual Anomaly)
解析: 上下文異常(Contextual Anomaly)是指一個數據點在特定上下文(如時間、地點、其他屬性組合)下顯示異常行為,但如果脫離這個上下文,它本身可能是正常的。深夜信用卡大額交易正符合這種情況。
問題 21 (中級)
------------------------------
題目: 以下哪個Python Scikit-learn函式的執行順序必須在機器學習模型的訓練 (.fit()) 之前完成,以確保數據的正確縮放或轉換?
選項:
A) `model.predict()`
B) `model.score()`
C) `scaler.fit_transform()`
D) `metrics.accuracy_score()`
答案: C) `scaler.fit_transform()`
解析: `scaler.fit_transform()` 用於對數據進行標準化或正規化,它會先計算訓練數據的統計量(如均值、標準差),然後應用這些統計量來轉換數據。這個步驟必須在模型訓練之前完成,因為模型訓練需要處理已經轉換的數據。而`predict()`、`score()`和`accuracy_score()`都是在模型訓練之後用於預測或評估模型性能的。
問題 22 (中級)
------------------------------
題目: 要將非定態時間序列(如具有明顯增長趨勢的銷售數據)轉換為定態序列以便應用ARIMA模型,最常見且有效的技術是什麼?
選項:
A) 數據平滑 (Data Smoothing)
B) 差分 (Differencing)
C) 指數加權移動平均 (Exponentially Weighted Moving Average)
D) 季節性分解 (Seasonal Decomposition)
答案: B) 差分 (Differencing)
解析: 差分(Differencing)是將時間序列的當前值減去前一個或前幾個時間步的值,以消除趨勢和季節性,使序列達到定態。這是應用ARIMA模型的重要預處理步驟。
問題 23 (中級)
------------------------------
題目: 在文本預處理中,若需要將單詞「running」、「ran」、「runs」都還原成其共同的詞根「run」,並考慮到詞的語法形式,以下哪種方法更為精確?
選項:
A) 詞幹提取 (Stemming)
B) 詞形還原 (Lemmatization)
C) 分詞 (Tokenization)
D) 停用詞移除 (Stop Word Removal)
答案: B) 詞形還原 (Lemmatization)
解析: 詞形還原(Lemmatization)會將單詞還原為其基本詞形或字典形式,並考慮詞的詞性,因此它比詞幹提取更精確,結果也更有意義。詞幹提取通常只截斷詞尾,可能產生無意義的詞幹。
問題 24 (中級)
------------------------------
題目: 某物聯網(IoT)公司需要在大數據流中,實時偵測可能導致設備故障的「單點異常」(例如,某個傳感器瞬間回傳了極端異常的溫度讀數)。若數據分佈接近正態分佈,以下哪種統計方法最能快速簡便地識別這種異常?
選項:
A) Local Outlier Factor (LOF)
B) One-Class SVM
C) Z-score 檢測
D) DBSCAN 聚類
答案: C) Z-score 檢測
解析: Z-score檢測是一種簡單且高效的統計方法,用於偵測數據點偏離平均值多少個標準差。對於接近正態分佈的數據,Z-score能快速識別出極端異常值(點異常),其計算量小,適合實時處理。
問題 25 (中級)
------------------------------
題目: 在時序數據的自相關函數 (ACF) 和偏自相關函數 (PACF) 圖中,如果ACF在幾個滯後後逐漸衰減,而PACF在第一個滯後後突然截斷(即第一個滯後顯著,但之後的滯後不顯著),這通常表明哪種ARIMA模型結構最合適?
選項:
A) MA(q) 模型 (Moving Average)
B) AR(p) 模型 (AutoRegressive)
C) ARMA(p,q) 模型 (AutoRegressive Moving Average)
D) 隨機漫步模型 (Random Walk)
答案: B) AR(p) 模型 (AutoRegressive)
解析: 當ACF圖呈現拖尾(逐漸衰減)而PACF圖呈現截尾(在某個滯後後突然降至不顯著)時,這通常表明數據適合使用自回歸(AR)模型。PACF的截尾點即為AR模型階數p的估計。
問題 26 (中級)
------------------------------
題目: 在社群網絡分析中,PageRank算法與特徵向量中心性 (Eigenvector Centrality) 之間的主要區別是什麼?
選項:
A) PageRank只適用於無向圖,特徵向量中心性適用於有向圖。
B) PageRank考慮了出度,特徵向量中心性只考慮入度。
C) PageRank引入了「隨機漫步」概念和阻尼因子,更適用於網頁排名;特徵向量中心性更側重於節點在網絡中的影響力擴散。
D) PageRank計算速度更快,特徵向量中心性計算複雜度更高。
答案: C) PageRank引入了「隨機漫步」概念和阻尼因子,更適用於網頁排名;特徵向量中心性更側重於節點在網絡中的影響力擴散。
解析: PageRank是Google基於特徵向量中心性發展而來,其核心區別在於PageRank引入了「隨機漫步」模型和阻尼因子(Damping Factor),以避免死循環和排名偏向,更適合於超鏈接網絡的排名。特徵向量中心性則更廣泛地用於評估節點在網絡中的影響力擴散能力,即與高影響力節點相連的節點也具有較高影響力。
問題 27 (中級)
----









