建議先看完影片再考,成效更好https://youtu.be/LeaacbEw6Fc
問題 1 (中級)
------------------------------題目: 關於詞嵌入 (Word Embedding) 技術,下列哪一項敘述最能體現其在捕捉詞彙語義關係上的優勢,而非簡單的詞彙標識?
選項:
A) One-Hot Encoding 給每個詞彙一個獨特的二進位向量,以區分不同詞彙。
B) 詞嵌入向量可以透過數學運算(例如「國王 - 男人 + 女人 = 女王」)來展示詞彙之間的類比關係。
C) Word2Vec 模型的 Skip-gram 架構透過將目標詞彙作為輸入,並預測其上下文詞彙。
D) GloVe 模型透過分析詞彙的共現矩陣來學習詞彙表示。
答案: B) 詞嵌入向量可以透過數學運算(例如「國王 - 男人 + 女人 = 女王」)來展示詞彙之間的類比關係。
解析: 選項 B 直接描述了詞嵌入(特別是 Word2Vec 或 GloVe)捕捉語義關係的關鍵特性,即透過向量運算展現詞彙的類比性和語義相似性。其他選項雖然與詞嵌入相關,但 A 描述的是一種簡單的詞彙標識方式而非語義關係捕捉,C 和 D 描述的是模型運作方式,而非其「優勢」的直接體現。
問題 2 (中級)
------------------------------
題目: 在規劃一個金融詐欺交易偵測系統時,AI 規劃師小陳希望利用文本數據中的詞彙來識別潛在的詐欺模式。若他需要一個能夠捕捉詞彙之間細微語義差異、且能應用於長文本的詞表示方法,下列哪種方法在效能與彈性上最具優勢?
選項:
A) 使用傳統的 One-Hot Encoding 搭配 TF-IDF 權重。
B) 僅使用 Word2Vec 預訓練模型,不做任何微調。
C) 選擇 GloVe 模型,並在公司內部大量的金融文本數據上進行預訓練或微調。
D) 將每個詞彙轉換為固定長度的 Hash 值。
答案: C) 選擇 GloVe 模型,並在公司內部大量的金融文本數據上進行預訓練或微調。
解析: One-Hot Encoding 產生稀疏向量且無法捕捉語義。Word2Vec 未經微調可能無法完全適應金融領域的特定語義。將詞彙轉換為 Hash 值會導致信息丟失。GloVe 透過全局共現信息學習,並結合預訓練與微調,能更好地適應特定領域的語義,提供更優的性能和彈性。
問題 3 (中級)
------------------------------
題目: 一家新聞媒體公司希望開發一個自動摘要系統,能夠精確地從長篇新聞報導中提取關鍵信息。他們發現基於傳統 RNN 的模型在處理超過 200 字的文章時摘要效果顯著下降。請問下列哪一項是傳統 RNN 在此類任務中表現不佳的核心技術原因?
選項:
A) RNN 模型無法處理變長序列輸入。
B) 傳統 RNN 存在梯度消失或梯度爆炸問題,導致難以捕捉長期依賴關係。
C) RNN 的計算效率低於卷積神經網絡 (CNN)。
D) RNN 需要大量標註數據才能訓練。
答案: B) 傳統 RNN 存在梯度消失或梯度爆炸問題,導致難以捕捉長期依賴關係。
解析: 傳統 RNN 在處理長序列時,由於梯度消失或爆炸問題,會導致無法有效地將早期時間步的信息傳遞到後期時間步,即難以捕捉長期依賴關係。這正是導致長篇文章摘要效果下降的主要原因。LSTM 和 GRU 就是為了解決這個問題而提出的。
問題 4 (中級)
------------------------------
題目: 針對機器翻譯任務,與傳統的 Seq2Seq (Encoder-Decoder) 搭配 RNN/LSTM 架構相比,採用 Transformer 模型的主要技術優勢在於哪些方面?
選項:
A) Transformer 模型更容易過擬合 (overfitting)。
B) Transformer 模型能夠更好地捕捉局部特徵,類似於卷積網絡。
C) Transformer 利用自注意力機制 (Self-Attention) 實現并行計算,並能有效處理長距離依賴,解決了 RNN 序列處理的瓶頸。
D) Transformer 不需要任何預訓練即可達到 SOTA (State-of-the-Art) 性能。
答案: C) Transformer 利用自注意力機制 (Self-Attention) 實現并行計算,並能有效處理長距離依賴,解決了 RNN 序列處理的瓶頸。
解析: Transformer 模型最大的優勢在於其基於自注意力機制的并行計算能力,這克服了 RNN 必須按序列逐步計算的限制,大大提高了處理速度。同時,注意力機制也使其能有效捕捉序列中的長距離依賴,避免了 RNN 長期記憶問題。
問題 5 (中級)
------------------------------
題目: 在 Transformer 模型中,如果輸入序列中的詞彙沒有位置信息,那麼模型將如何處理?
選項:
A) 模型會自動學習詞彙的相對位置關係,無需額外處理。
B) 模型無法區分詞彙的順序,因為自注意力機制是無序的。
C) 模型會將所有詞彙的語義混淆,導致無法理解句子。
D) 模型會通過在詞嵌入中添加「位置編碼」(Positional Encoding) 來引入詞彙的位置信息。
答案: D) 模型會通過在詞嵌入中添加「位置編碼」(Positional Encoding) 來引入詞彙的位置信息。
解析: Transformer 的自注意力機制是無序的,這意味著它對序列中詞彙的絕對位置不敏感。為了彌補這一點,Transformer 引入了位置編碼,將詞彙在序列中的位置信息編碼並添加到其詞嵌入中,從而讓模型能夠利用位置信息。
問題 6 (中級)
------------------------------
題目: 預訓練模型 BERT 和 GPT 在預訓練目標和模型架構上存在顯著差異。下列哪項陳述正確地概括了這些差異?
選項:
A) BERT 主要用於文本生成任務,而 GPT 主要用於文本理解任務。
B) BERT 基於 Transformer 的解碼器,而 GPT 基於 Transformer 的編碼器。
C) BERT 採用雙向上下文學習 (通過 MLM 和 NSP),而 GPT 採用單向上下文學習 (從左到右預測下一個詞)。
D) BERT 和 GPT 都只在大型的無標註數據集上進行了預訓練,不涉及微調。
答案: C) BERT 採用雙向上下文學習 (通過 MLM 和 NSP),而 GPT 採用單向上下文學習 (從左到右預測下一個詞)。
解析: BERT 透過 Masked Language Model (MLM) 和 Next Sentence Prediction (NSP) 任務,學習雙向上下文信息,更擅長理解。GPT 則是從左到右生成文本,是單向的,更擅長生成。BERT 基於 Transformer 的編碼器,GPT 基於解碼器。
問題 7 (中級)
------------------------------
題目: 一位 AI 應用規劃師正在設計一個智能客服系統。對於「根據用戶問題從公司知識庫中檢索最相關答案」這項任務,他應該優先考慮哪種類型的預訓練模型,並說明理由?
選項:
A) GPT 模型,因為它具有強大的文本生成能力。
B) BERT 模型,因為它擅長雙向理解文本語義,適合問答匹配。
C) RNN 模型,因為它能處理序列數據。
D) Word2Vec 模型,因為它能將詞彙轉換為向量。
答案: B) BERT 模型,因為它擅長雙向理解文本語義,適合問答匹配。
解析: 檢索答案的任務本質上是一個語義匹配或理解任務,需要模型深入理解用戶問題和知識庫內容之間的關係。BERT 透過雙向上下文學習,能更好地捕捉文本的語義表示,因此更適合這類問答匹配任務。GPT 雖然強大,但其主要優勢在於文本生成。
問題 8 (中級)
------------------------------
題目: 提示工程 (Prompt Engineering) 在大型語言模型 (LLM) 的應用中變得越來越重要。下列哪項陳述最能解釋為什麼規劃師需要投入時間在提示工程上,即使模型已經非常強大?
選項:
A) 提示工程是微調模型的替代方案,可以完全取代數據標註。
B) 提示工程能夠精準地控制模型輸出的格式、風格和內容,以滿足特定應用需求。
C) 提示工程主要用於提高模型訓練效率,而非影響模型輸出質量。
D) 提示工程是為了繞過版權問題,讓模型生成原創內容。
答案: B) 提示工程能夠精準地控制模型輸出的格式、風格和內容,以滿足特定應用需求。
解析: 即使 LLM 強大,沒有明確、精準的提示,模型可能生成不符合預期或不相關的內容。提示工程的目的是透過優化輸入提示,引導模型產出特定格式、風格或內容的輸出,以適應不同的應用場景,提高實用性。它並非完全替代微調,也非主要用於訓練效率或版權問題。
問題 9 (中級)
------------------------------
題目: 某公司希望開發一個自動化客服系統,該系統需要具備兩項核心功能:一是根據用戶輸入的複雜問題(如「我上個月訂的藍色 T-shirt 什麼時候會到?」)精準地理解意圖並檢索答案;二是能夠針對用戶提出的特定需求(如「請幫我寫一封關於產品延遲的道歉信」)生成定制化的回覆。在選擇預訓練模型時,該 AI 規劃師應如何考量?
選項:
A) 僅使用一個大型 GPT 模型,因為它能同時處理理解和生成任務。
B) 僅使用一個大型 BERT 模型,因為它在理解方面表現優異。
C) 結合使用 BERT 模型進行用戶問題意圖理解和答案檢索,再搭配 GPT 模型進行定制化文本生成。
D) 使用傳統的 TF-IDF 結合規則引擎,因為這兩種任務都過於複雜,LLM 無法勝任。
答案: C) 結合使用 BERT 模型進行用戶問題意圖理解和答案檢索,再搭配 GPT 模型進行定制化文本生成。
解析: 這個問題考驗了對 BERT 和 GPT 各自優勢的理解與整合應用。意圖理解和答案檢索是 BERT 的強項(雙向理解),而定制化文本生成則是 GPT 的強項(生成能力)。結合兩者可以發揮各自模型在不同子任務上的最大效能。
問題 10 (中級)
------------------------------
題目: 在 Transformer 模型中,自注意力機制 (Self-Attention) 的計算是基於 Query (Q)、Key (K) 和 Value (V) 三個向量。如果一個詞彙的 Query 向量與另一個詞彙的 Key 向量相似度很高,這在模型內部意味著什麼?
選項:
A) 這兩個詞彙的語義在詞嵌入空間中距離很遠。
B) 模型在處理 Query 對應的詞彙時,會給予 Key 對應的詞彙較高的注意力權重。
C) 這兩個詞彙在 Transformer 的最終輸出中會被合併成一個單一的詞彙。
D) 這兩個詞彙必須在輸入序列中是相鄰的。
答案: B) 模型在處理 Query 對應的詞彙時,會給予 Key 對應的詞彙較高的注意力權重。
解析: 自注意力機制的核心就是計算 Query 向量與所有 Key 向量的相似度(通常是點積),然後通過 softmax 轉換為注意力權重。相似度越高,分配的權重就越高,表示模型在考慮 Query 詞時,會更「關注」或「參考」Key 詞的信息。這是 Transformer 捕捉長距離依賴和語義關係的關鍵。














