[自然語言2] 模擬考題

更新 發佈閱讀 13 分鐘

建議先看完影片再考,成效更好https://youtu.be/LeaacbEw6Fc

問題 1 (中級)

------------------------------

題目: 關於詞嵌入 (Word Embedding) 技術,下列哪一項敘述最能體現其在捕捉詞彙語義關係上的優勢,而非簡單的詞彙標識?

選項:

A) One-Hot Encoding 給每個詞彙一個獨特的二進位向量,以區分不同詞彙。

B) 詞嵌入向量可以透過數學運算(例如「國王 - 男人 + 女人 = 女王」)來展示詞彙之間的類比關係。

C) Word2Vec 模型的 Skip-gram 架構透過將目標詞彙作為輸入,並預測其上下文詞彙。

D) GloVe 模型透過分析詞彙的共現矩陣來學習詞彙表示。


答案: B) 詞嵌入向量可以透過數學運算(例如「國王 - 男人 + 女人 = 女王」)來展示詞彙之間的類比關係。

解析: 選項 B 直接描述了詞嵌入(特別是 Word2Vec 或 GloVe)捕捉語義關係的關鍵特性,即透過向量運算展現詞彙的類比性和語義相似性。其他選項雖然與詞嵌入相關,但 A 描述的是一種簡單的詞彙標識方式而非語義關係捕捉,C 和 D 描述的是模型運作方式,而非其「優勢」的直接體現。


問題 2 (中級)

------------------------------

題目: 在規劃一個金融詐欺交易偵測系統時,AI 規劃師小陳希望利用文本數據中的詞彙來識別潛在的詐欺模式。若他需要一個能夠捕捉詞彙之間細微語義差異、且能應用於長文本的詞表示方法,下列哪種方法在效能與彈性上最具優勢?

選項:

A) 使用傳統的 One-Hot Encoding 搭配 TF-IDF 權重。

B) 僅使用 Word2Vec 預訓練模型,不做任何微調。

C) 選擇 GloVe 模型,並在公司內部大量的金融文本數據上進行預訓練或微調。

D) 將每個詞彙轉換為固定長度的 Hash 值。


答案: C) 選擇 GloVe 模型,並在公司內部大量的金融文本數據上進行預訓練或微調。

解析: One-Hot Encoding 產生稀疏向量且無法捕捉語義。Word2Vec 未經微調可能無法完全適應金融領域的特定語義。將詞彙轉換為 Hash 值會導致信息丟失。GloVe 透過全局共現信息學習,並結合預訓練與微調,能更好地適應特定領域的語義,提供更優的性能和彈性。


問題 3 (中級)

------------------------------

題目: 一家新聞媒體公司希望開發一個自動摘要系統,能夠精確地從長篇新聞報導中提取關鍵信息。他們發現基於傳統 RNN 的模型在處理超過 200 字的文章時摘要效果顯著下降。請問下列哪一項是傳統 RNN 在此類任務中表現不佳的核心技術原因?

選項:

A) RNN 模型無法處理變長序列輸入。

B) 傳統 RNN 存在梯度消失或梯度爆炸問題,導致難以捕捉長期依賴關係。

C) RNN 的計算效率低於卷積神經網絡 (CNN)。

D) RNN 需要大量標註數據才能訓練。


答案: B) 傳統 RNN 存在梯度消失或梯度爆炸問題,導致難以捕捉長期依賴關係。

解析: 傳統 RNN 在處理長序列時,由於梯度消失或爆炸問題,會導致無法有效地將早期時間步的信息傳遞到後期時間步,即難以捕捉長期依賴關係。這正是導致長篇文章摘要效果下降的主要原因。LSTM 和 GRU 就是為了解決這個問題而提出的。


問題 4 (中級)

------------------------------

題目: 針對機器翻譯任務,與傳統的 Seq2Seq (Encoder-Decoder) 搭配 RNN/LSTM 架構相比,採用 Transformer 模型的主要技術優勢在於哪些方面?

選項:

A) Transformer 模型更容易過擬合 (overfitting)。

B) Transformer 模型能夠更好地捕捉局部特徵,類似於卷積網絡。

C) Transformer 利用自注意力機制 (Self-Attention) 實現并行計算,並能有效處理長距離依賴,解決了 RNN 序列處理的瓶頸。

D) Transformer 不需要任何預訓練即可達到 SOTA (State-of-the-Art) 性能。


答案: C) Transformer 利用自注意力機制 (Self-Attention) 實現并行計算,並能有效處理長距離依賴,解決了 RNN 序列處理的瓶頸。

解析: Transformer 模型最大的優勢在於其基於自注意力機制的并行計算能力,這克服了 RNN 必須按序列逐步計算的限制,大大提高了處理速度。同時,注意力機制也使其能有效捕捉序列中的長距離依賴,避免了 RNN 長期記憶問題。


問題 5 (中級)

------------------------------

題目: 在 Transformer 模型中,如果輸入序列中的詞彙沒有位置信息,那麼模型將如何處理?

選項:

A) 模型會自動學習詞彙的相對位置關係,無需額外處理。

B) 模型無法區分詞彙的順序,因為自注意力機制是無序的。

C) 模型會將所有詞彙的語義混淆,導致無法理解句子。

D) 模型會通過在詞嵌入中添加「位置編碼」(Positional Encoding) 來引入詞彙的位置信息。


答案: D) 模型會通過在詞嵌入中添加「位置編碼」(Positional Encoding) 來引入詞彙的位置信息。

解析: Transformer 的自注意力機制是無序的,這意味著它對序列中詞彙的絕對位置不敏感。為了彌補這一點,Transformer 引入了位置編碼,將詞彙在序列中的位置信息編碼並添加到其詞嵌入中,從而讓模型能夠利用位置信息。


問題 6 (中級)

------------------------------

題目: 預訓練模型 BERT 和 GPT 在預訓練目標和模型架構上存在顯著差異。下列哪項陳述正確地概括了這些差異?

選項:

A) BERT 主要用於文本生成任務,而 GPT 主要用於文本理解任務。

B) BERT 基於 Transformer 的解碼器,而 GPT 基於 Transformer 的編碼器。

C) BERT 採用雙向上下文學習 (通過 MLM 和 NSP),而 GPT 採用單向上下文學習 (從左到右預測下一個詞)。

D) BERT 和 GPT 都只在大型的無標註數據集上進行了預訓練,不涉及微調。


答案: C) BERT 採用雙向上下文學習 (通過 MLM 和 NSP),而 GPT 採用單向上下文學習 (從左到右預測下一個詞)。

解析: BERT 透過 Masked Language Model (MLM) 和 Next Sentence Prediction (NSP) 任務,學習雙向上下文信息,更擅長理解。GPT 則是從左到右生成文本,是單向的,更擅長生成。BERT 基於 Transformer 的編碼器,GPT 基於解碼器。


問題 7 (中級)

------------------------------

題目: 一位 AI 應用規劃師正在設計一個智能客服系統。對於「根據用戶問題從公司知識庫中檢索最相關答案」這項任務,他應該優先考慮哪種類型的預訓練模型,並說明理由?

選項:

A) GPT 模型,因為它具有強大的文本生成能力。

B) BERT 模型,因為它擅長雙向理解文本語義,適合問答匹配。

C) RNN 模型,因為它能處理序列數據。

D) Word2Vec 模型,因為它能將詞彙轉換為向量。


答案: B) BERT 模型,因為它擅長雙向理解文本語義,適合問答匹配。

解析: 檢索答案的任務本質上是一個語義匹配或理解任務,需要模型深入理解用戶問題和知識庫內容之間的關係。BERT 透過雙向上下文學習,能更好地捕捉文本的語義表示,因此更適合這類問答匹配任務。GPT 雖然強大,但其主要優勢在於文本生成。


問題 8 (中級)

------------------------------

題目: 提示工程 (Prompt Engineering) 在大型語言模型 (LLM) 的應用中變得越來越重要。下列哪項陳述最能解釋為什麼規劃師需要投入時間在提示工程上,即使模型已經非常強大?

選項:

A) 提示工程是微調模型的替代方案,可以完全取代數據標註。

B) 提示工程能夠精準地控制模型輸出的格式、風格和內容,以滿足特定應用需求。

C) 提示工程主要用於提高模型訓練效率,而非影響模型輸出質量。

D) 提示工程是為了繞過版權問題,讓模型生成原創內容。


答案: B) 提示工程能夠精準地控制模型輸出的格式、風格和內容,以滿足特定應用需求。

解析: 即使 LLM 強大,沒有明確、精準的提示,模型可能生成不符合預期或不相關的內容。提示工程的目的是透過優化輸入提示,引導模型產出特定格式、風格或內容的輸出,以適應不同的應用場景,提高實用性。它並非完全替代微調,也非主要用於訓練效率或版權問題。


問題 9 (中級)

------------------------------

題目: 某公司希望開發一個自動化客服系統,該系統需要具備兩項核心功能:一是根據用戶輸入的複雜問題(如「我上個月訂的藍色 T-shirt 什麼時候會到?」)精準地理解意圖並檢索答案;二是能夠針對用戶提出的特定需求(如「請幫我寫一封關於產品延遲的道歉信」)生成定制化的回覆。在選擇預訓練模型時,該 AI 規劃師應如何考量?

選項:

A) 僅使用一個大型 GPT 模型,因為它能同時處理理解和生成任務。

B) 僅使用一個大型 BERT 模型,因為它在理解方面表現優異。

C) 結合使用 BERT 模型進行用戶問題意圖理解和答案檢索,再搭配 GPT 模型進行定制化文本生成。

D) 使用傳統的 TF-IDF 結合規則引擎,因為這兩種任務都過於複雜,LLM 無法勝任。


答案: C) 結合使用 BERT 模型進行用戶問題意圖理解和答案檢索,再搭配 GPT 模型進行定制化文本生成。

解析: 這個問題考驗了對 BERT 和 GPT 各自優勢的理解與整合應用。意圖理解和答案檢索是 BERT 的強項(雙向理解),而定制化文本生成則是 GPT 的強項(生成能力)。結合兩者可以發揮各自模型在不同子任務上的最大效能。


問題 10 (中級)

------------------------------

題目: 在 Transformer 模型中,自注意力機制 (Self-Attention) 的計算是基於 Query (Q)、Key (K) 和 Value (V) 三個向量。如果一個詞彙的 Query 向量與另一個詞彙的 Key 向量相似度很高,這在模型內部意味著什麼?

選項:

A) 這兩個詞彙的語義在詞嵌入空間中距離很遠。

B) 模型在處理 Query 對應的詞彙時,會給予 Key 對應的詞彙較高的注意力權重。

C) 這兩個詞彙在 Transformer 的最終輸出中會被合併成一個單一的詞彙。

D) 這兩個詞彙必須在輸入序列中是相鄰的。


答案: B) 模型在處理 Query 對應的詞彙時,會給予 Key 對應的詞彙較高的注意力權重。

解析: 自注意力機制的核心就是計算 Query 向量與所有 Key 向量的相似度(通常是點積),然後通過 softmax 轉換為注意力權重。相似度越高,分配的權重就越高,表示模型在考慮 Query 詞時,會更「關注」或「參考」Key 詞的信息。這是 Transformer 捕捉長距離依賴和語義關係的關鍵。

留言
avatar-img
留言分享你的想法!
avatar-img
iPAS AI 自學路
10會員
44內容數
我是一位正在追求職涯升級的 40 歲非本科系上班族。我會將自己摸索出的高效白話筆記與聽覺學習法無私分享,助你:克服術語障礙、利用零碎時間學習、系統化整理考點。 也歡迎到我的頻道逛逛https://www.youtube.com/@ipasstudybuddy
你可能也想看
Thumbnail
雙11於許多人而言,不只是單純的折扣狂歡,更是行事曆裡預定的,對美好生活的憧憬。 錢錢沒有不見,它變成了快樂,跟讓臥房、辦公桌、每天早晨的咖啡香升級的樣子! 這次格編突擊辦公室,也邀請 vocus「野格團」創作者分享掀開蝦皮購物車的簾幕,「加入購物車」的瞬間,藏著哪些靈感,或是對美好生活的想像?
Thumbnail
雙11於許多人而言,不只是單純的折扣狂歡,更是行事曆裡預定的,對美好生活的憧憬。 錢錢沒有不見,它變成了快樂,跟讓臥房、辦公桌、每天早晨的咖啡香升級的樣子! 這次格編突擊辦公室,也邀請 vocus「野格團」創作者分享掀開蝦皮購物車的簾幕,「加入購物車」的瞬間,藏著哪些靈感,或是對美好生活的想像?
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
Thumbnail
上回我們講到 Word Embedding 能夠將字詞表示從使用字典索引改成詞向量表示,且這個詞向量能夠包含一定程度上的語義訊息,今天就讓我們探討 Word Embedding 到底是如何訓練成的。
Thumbnail
上回我們講到 Word Embedding 能夠將字詞表示從使用字典索引改成詞向量表示,且這個詞向量能夠包含一定程度上的語義訊息,今天就讓我們探討 Word Embedding 到底是如何訓練成的。
Thumbnail
本篇文章分享了對創意和靈感來源的深入思考,以及如何將其轉化為實際的成果或解決方案的過程。透過學習、資料收集、練習、創新等方法,提出了將創意落實的思路和技巧。同時介紹了AI在外顯知識的自動化應用,以及對其潛在發展方向的討論。最後探討了傳統機器學習技術在模擬中的應用案例和對AI世界的影響。
Thumbnail
本篇文章分享了對創意和靈感來源的深入思考,以及如何將其轉化為實際的成果或解決方案的過程。透過學習、資料收集、練習、創新等方法,提出了將創意落實的思路和技巧。同時介紹了AI在外顯知識的自動化應用,以及對其潛在發展方向的討論。最後探討了傳統機器學習技術在模擬中的應用案例和對AI世界的影響。
Thumbnail
在學習描寫文的過程中,將思維視覺化是一個重要的教學策略。通過使用AI生成圖片功能,教師能夠幫助學生將抽象的描述轉化為具體的圖像。
Thumbnail
在學習描寫文的過程中,將思維視覺化是一個重要的教學策略。通過使用AI生成圖片功能,教師能夠幫助學生將抽象的描述轉化為具體的圖像。
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News