【L23203】深度學習原理與框架｜CNN、LSTM、Transformer、注意力機制模擬考題

2026/04/02 更新2026/04/01 發佈閱讀 13 分鐘

建議先看完對應教學影片再作答，效果加倍。 👉 YouTube 教學頻道

第 1 題

某智慧工廠導入 CNN 影像分類系統，輸入影像尺寸為 128×128×3，第一層卷積使用 32 個 3×3 濾波器、stride=1、padding=same。工程師需要計算此層的可學習參數數量，以評估模型複雜度與記憶體需求。下列何者為正確的參數量計算結果？

(A) 每個濾波器參數量為 3×3×3=27，加上 1 個偏置項共 28，乘以 32 個濾波器，總參數量為 896

(B) 每個濾波器參數量為 3×3=9，不考慮輸入通道數，加上 1 個偏置項共 10，乘以 32 個濾波器，總參數量為 320

(D) 每個濾波器參數量為 3×3×3=27，不含偏置項，乘以 32 個濾波器，總參數量為 864

答案：A

深度導讀解析

正確答案：A

核心技術點：CNN 卷積層可學習參數量的計算邏輯

中級理論拆解：卷積層的參數量由濾波器大小、輸入通道數、輸出濾波器數與偏置項共同決定。公式是：(kernel_H × kernel_W × 輸入通道數 + 1) × 濾波器數量。本題：(3×3×3 + 1) × 32 = 28 × 32 = 896。輸入通道數 3（RGB）必須納入計算，因為每個濾波器需要對三個通道同時做卷積；偏置項每個濾波器一個，不可省略。

選項坑洞掃描：B 忽略輸入通道數，把濾波器當成只處理單通道，計算少了 3 倍。C 把輸出特徵圖尺寸當成參數量，特徵圖尺寸是激活值的數量，不是可學習參數。D 計算濾波器參數正確但遺漏了偏置項，32 個偏置項漏計。

破題反射字：卷積層參數量 → (kernel × kernel × 輸入通道 + 1) × 濾波器數／偏置項 → 每個濾波器一個／輸入通道數 → 不可省略

第 2 題

某金融機構建立股價時序預測模型，輸入為過去 60 天的收盤價、成交量、技術指標共 12 個特徵。工程師比較傳統 RNN 與 LSTM，最終選擇 LSTM。下列何者最能正確描述 LSTM 解決傳統 RNN 長期依賴問題的核心機制？

(A) LSTM 透過遺忘門、輸入門、輸出門三個可學習門控機制，選擇性地保留或丟棄時間步的資訊，讓梯度有捷徑路徑傳遞而不依賴逐步連乘

(B) LSTM 透過增加隱藏層數量，讓每一層分別負責不同時間尺度的依賴關係，淺層處理短期依賴、深層處理長期趨勢

(D) LSTM 透過雙向處理輸入序列，同時從過去到未來與從未來到過去兩個方向學習，讓模型能捕捉任意距離的時序依賴關係

答案：A

深度導讀解析

正確答案：A

核心技術點：LSTM 三個門控機制的功能分工與梯度流動路徑

中級理論拆解：傳統 RNN 梯度需逐時間步連乘，60 步後梯度幾乎歸零。LSTM 引入細胞狀態（Cell State）作為長期記憶的傳遞路徑，並設計三個門控：遺忘門決定細胞狀態哪些要丟棄、輸入門決定哪些新資訊要寫入、輸出門決定當前時間步要輸出多少細胞狀態。梯度可透過細胞狀態這條「高速公路」直接傳回早期時間步，不再完全依賴逐步連乘。

選項坑洞掃描：B 說增加層數解決長期依賴，這是深層 RNN 的思路，不是 LSTM 的核心創新，增加層數解決的是表達能力，不是梯度消失。C 說每步重置隱藏狀態，這反而讓模型完全失去記憶，是反向操作。D 描述的是雙向 LSTM（Bi-LSTM）的架構，不是基礎 LSTM 解決長期依賴的機制。

破題反射字：梯度消失 → LSTM 細胞狀態捷徑／三個門控 → 遺忘門、輸入門、輸出門／長期記憶 → Cell State

第 3 題

某 NLP 團隊將 Transformer 應用於法律文件摘要任務，模型輸入一份 512 個 token 的合約，需要輸出 50 個 token 的摘要。工程師在分析 Self-Attention 的計算複雜度時，發現隨著輸入序列長度增加，計算成本急劇上升。下列何者最能正確描述 Self-Attention 的時間複雜度，以及這對長文件處理的實際影響？

(A) Self-Attention 的時間複雜度為 O(n²× d)，n 為序列長度、d 為向量維度，序列長度加倍則計算量變為四倍，長文件處理成本呈平方級成長

(B) Self-Attention 的時間複雜度為 O(n × d)，與 RNN 相同，差異只在於 Transformer 可並行計算而 RNN 必須序列處理，速度更快但複雜度相當

(D) Self-Attention 的時間複雜度為 O(n × d²)，主要瓶頸在於 Q、K、V 矩陣的維度投影計算，序列長度對計算量的影響相對次要

答案：A

深度導讀解析

正確答案：A

核心技術點：Self-Attention 的 O(n²) 複雜度與長文件處理的瓶頸

中級理論拆解：Self-Attention 計算每個 token 的 Query 與所有 token 的 Key 的點積，對 n 個 token 來說需要計算 n×n 個注意力分數，時間複雜度為 O(n²× d)。512 個 token 需要 262,144 次點積運算，若輸入拉長到 2048 個 token 則變成 4,194,304 次，增加 16 倍。這是 Longformer、Sparse Attention 等長文件優化架構出現的根本原因。

選項坑洞掃描：B 說 Self-Attention 複雜度與 RNN 相同為 O(n × d)，RNN 確實是 O(n × d²)，但 Self-Attention 是 O(n²× d)，兩者不同，且 n 較大時 Transformer 的計算成本遠高於 RNN。C 說 O(log n) 是稀疏注意力的優化後複雜度，不是標準 Self-Attention 的複雜度。D 說主要瓶頸在維度投影，QKV 的投影複雜度是 O(n × d²)，但注意力矩陣計算 O(n²× d) 在序列長時才是真正瓶頸。

破題反射字：Self-Attention 複雜度 → O(n²× d) ／序列長度加倍 → 計算量四倍／長文件優化 → Longformer、Sparse Attention

第 4 題

某搜尋引擎公司使用 Transformer 的多頭注意力機制（Multi-Head Attention）改善查詢理解。工程師解釋，多頭注意力相比單頭注意力的核心優勢在於能夠同時捕捉不同類型的語義關係。下列何者最能正確描述多頭注意力的運作邏輯與設計動機？

(A) 將 Q、K、V 分別投影至 h 個低維子空間，每個頭獨立學習不同的注意力模式，最後將 h 個頭的輸出拼接後再投影，讓模型同時捕捉語法、語義、共指等多種關係

(B) 多頭注意力將輸入序列切割為 h 個不重疊的片段，每個頭負責一個片段的局部注意力計算，再將各片段結果拼接還原完整序列的表示

(D) 多頭注意力對同一組 Q、K、V 重複計算 h 次相同的注意力分數，透過集成多次計算結果的平均值降低單次注意力計算的隨機性與雜訊

答案：A

深度導讀解析

正確答案：A

核心技術點：多頭注意力的並行子空間投影機制與捕捉多樣語義關係的能力

中級理論拆解：Multi-Head Attention 把原始的 d 維 Q、K、V 各自投影到 h 個 d/h 維的子空間，每個頭在自己的子空間裡獨立計算注意力，學習到不同類型的關係——某個頭可能專注語法依存、另一個頭捕捉語義相似性、第三個頭處理共指關係。h 個頭的輸出拼接後再經過線性投影，合併各頭學到的多樣資訊。總計算量與單頭相當（因維度縮小了 h 倍），但表達能力更豐富。

選項坑洞掃描：B 說切割序列為片段，這是局部注意力（Local Attention）的設計，不是多頭注意力的機制，多頭注意力每個頭仍看全序列。C 說 h 層堆疊，堆疊是 Transformer 層數的概念，多頭注意力是在同一層內並行的多個頭，不是串接堆疊。D 說重複計算 h 次相同的注意力再平均，若計算相同則完全沒有多頭的意義，多頭的核心是每個頭有獨立的投影矩陣學習不同模式。

破題反射字：多頭注意力 → 並行子空間投影／每個頭 → 學習不同語義關係／拼接後投影 → 合併多頭輸出

第 5 題

某電商公司比較 LSTM 與 Transformer 用於用戶購買行為序列建模，序列長度平均為 200 個互動事件。技術主管在評估兩者時，要求團隊說明 Transformer 在此場景相較於 LSTM 的結構性優勢與限制。下列何者最能正確描述兩者在序列建模上的核心差異？

(A) Transformer 透過 Self-Attention 直接計算序列中任意兩個位置的關係，支援並行訓練且不受序列長度的記憶衰減影響；但計算複雜度為 O(n²)，序列極長時記憶體成本高

(B) LSTM 透過門控機制可完美記憶任意長度序列的所有歷史資訊而無任何衰減；Transformer 則因位置編碼的限制，只能有效處理長度不超過 512 個 token 的序列

(D) LSTM 在長序列建模中比 Transformer 更有優勢，因為 LSTM 的參數量隨序列長度線性增長，能為每個位置分配更多專屬參數學習位置特定的特徵

答案：A

深度導讀解析

正確答案：A

核心技術點：Transformer vs. LSTM 的結構性差異——直接位置關係計算 vs. 序列遞迴的記憶衰減

中級理論拆解：LSTM 透過隱藏狀態逐步傳遞資訊，200 個事件前的購買記錄到輸出時已經過大量壓縮與衰減，長期依賴仍受限。Transformer 的 Self-Attention 讓第 1 個 token 和第 200 個 token 直接計算關聯分數，路徑長度恆為 1，不存在記憶衰減問題；且所有位置可並行計算，訓練速度遠快於 LSTM 的序列計算。代價是 200² = 40,000 個注意力分數的記憶體需求。

選項坑洞掃描：B 說 LSTM 可完美記憶任意長度序列，這誇大了 LSTM 的能力，LSTM 雖緩解了梯度消失，但仍有長序列記憶衰減的問題，並非完美。且 Transformer 的序列長度限制是工程實作問題而非架構限制，可透過 Longformer 等方式擴展。C 說兩者效果等價，Transformer 在大多數 NLP 任務上已超越 LSTM，效果並不等價。D 說 LSTM 參數量隨序列長度增長，LSTM 的參數量固定，不隨序列長度增加，這是 RNN 架構的特性之一。

破題反射字：任意位置直接關聯 → Self-Attention ／記憶衰減 → LSTM 的長序列限制／ O(n²) 記憶體 → Transformer 的長序列成本

還在用零散筆記備考？

這份《iPAS 中級白話備考筆記》把三科考綱重點全部用人話整理好，考點速記、實戰場景、常見陷阱一次收錄。適合非本科、時間有限、想快速抓住考試方向的自學者。

iPAS自學路｜AI應用規劃師備考筆記與考點解析模擬題庫 & 詳解

留言

iPAS自學路｜AI應用規劃師備考筆記與考點解析

369會員

97內容數

職場資深管理職，非資訊本科，一次通過 iPAS AI 應用規劃師初級與中級雙證照。頻道累積 200+ 集影片、80+ 篇備考文章、沙龍會員 300+ 人。白話考點解析搭配 YouTube 影音導航，專為非本科上班族設計的通勤時間備考工具。

你可能也想看

CCChen的AI學習分享

iPAS AI應用規劃師-初級–合格取證的學習分享~階段二 (了解AI)CCChen

嗨我是CCChen 已參加經濟部iPAS AI應用規劃師-初級評鑑考試預計2025年舉辦4場考試,已執行2場考試, 我都有參加也都合格. 也已報名8/16第三場初級考試目的是持續收集考試題目與題型趨勢順便為11月份第二場AI中級考試暖身與複習基礎知識相關考試成績如下

#分享#學習#iPASAI應用規劃師

2025/06/16

CCChen的AI學習分享

iPAS AI應用規劃師-初級–合格取證的學習分享~階段二 (了解AI)CCChen

#分享#學習#iPASAI應用規劃師

2025/06/16

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

《轉轉生》（Re:INCARNATION）為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，結合拉各斯街頭節奏、Afrobeat／Afrobeats、以及約魯巴宇宙觀的非線性時間，建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發，解析其去殖民的身體政治。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

碼農大叔的沙龍

我的iPAS AI應用規劃師證照考試經驗分享（初級與機器學習中級）

公司鼓勵大家去考iPAS AI應用規劃師這張證照，因為自己也是做AI這方面的，去年也就想說去考考看。年中先考了初級，年底又去考了機器學習中級，雖然不知道這張證照有甚麼用，不過既然考過了，就留個紀錄吧。我初級是參加去年的第二場，考完平均90分。中級也是參加去年的第二場，考完平均86分，及格分數是7

#iPAS#AI應用規劃師#機器學習

2026/02/13

碼農大叔的沙龍

我的iPAS AI應用規劃師證照考試經驗分享（初級與機器學習中級）

#iPAS#AI應用規劃師#機器學習

2026/02/13

Bruce Chen的沙龍

iPAS AI應用規劃師能力鑑定備考心得

經濟部舉辦114年度AI應用規劃師初級能力鑑定，整理考試心得、官網簡章、能力指標、鑑定範圍、樣題。此外提供作者備考期間用到的工具及Prompt，供大家參考。

2025/04/15

2025/04/15

iPAS AI應用規劃師中級考試資料整理(一)CCChen

嗨我是CCChen 已通過3/22 iPAS AI應用規劃師初級第一場測試預計參加5/17 iPAS AI應用規劃師中級第一場測試先將相關考試資料確認清楚

#分享#學習#iPASAI應用規劃師

2025/04/16

CCChen的AI學習分享

iPAS AI應用規劃師中級考試資料整理(一)CCChen

嗨我是CCChen 已通過3/22 iPAS AI應用規劃師初級第一場測試預計參加5/17 iPAS AI應用規劃師中級第一場測試先將相關考試資料確認清楚

#分享#學習#iPASAI應用規劃師

2025/04/16

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News