建議看完影片再考,成效更好 https://youtu.be/ACY1IswFOJU
問題 1 (中級)
------------------------------
題目: 在規劃一個客戶服務的智能對話系統時,為了能快速識別客戶問題中的關鍵資訊(如產品名稱、訂單號碼),並將其結構化以供後續處理,AI 應用規劃師最應優先考慮哪種 NLP 技術?
選項:
A) 情感分析 (Sentiment Analysis)
B) 文本摘要 (Text Summarization)
C) 命名實體識別 (Named Entity Recognition, NER)
D) 機器翻譯 (Machine Translation)
答案: C) 命名實體識別 (Named Entity Recognition, NER)
解析: 命名實體識別 (NER) 的主要功能就是從非結構化文本中識別和提取出具有特定類別的實體,例如人名、地名、組織名、產品名、訂單號碼等。這對於將客戶問題中的關鍵資訊結構化,以便後續的自動化處理至關重要。
問題 2 (中級)
------------------------------
題目: 一家金融機構希望透過分析大量的客戶留言和社群媒體討論,來監測市場對其產品和服務的正面或負面評價,以便及時調整策略。此時,哪項 NLP 技術最能直接幫助他們達成此目的?
選項:
A) 文本分類 (Text Classification)
B) 情感分析 (Sentiment Analysis)
C) 語音辨識 (Speech Recognition)
D) 關鍵字提取 (Keyword Extraction)
答案: B) 情感分析 (Sentiment Analysis)
解析: 情感分析的核心功能就是判斷文本所表達的情緒極性(正面、負面、中性),直接符合了監測市場評價、了解客戶情緒的需求。
問題 3 (中級)
------------------------------
題目: 在對英文文本進行 NLP 前處理時,"running" 和 "runs" 這兩個詞都需要被統一處理為 "run"。如果希望這個轉換過程能夠考慮詞的上下文語義和詞性,確保結果是具有實際詞義的單字,應該優先選擇哪種技術?
選項:
A) 詞幹提取 (Stemming)
B) 分詞 (Tokenization)
C) 詞形還原 (Lemmatization)
D) 停用詞移除 (Stop Word Removal)
答案: C) 詞形還原 (Lemmatization)
解析: 詞形還原 (Lemmatization) 會將詞語還原到其原始字典形式(詞元),並且通常會考慮詞性與上下文,確保還原後的詞語是具有語義的實際單字。詞幹提取 (Stemming) 則是簡單地去除詞綴,結果不一定具有詞義。
問題 4 (中級)
------------------------------
題目: 某新聞網站需要分析讀者留言,但發現留言中充斥著大量的連接詞、介系詞等常用詞彙(如「的」、「是」、「a」、「the」),這些詞對判斷留言的核心意義幫助不大,反而增加了處理負擔。AI 應用規劃師應該執行哪項前處理步驟來解決這個問題?
選項:
A) 正規化 (Normalization)
B) 詞幹提取 (Stemming)
C) 停用詞移除 (Stop Word Removal)
D) 命名實體識別 (NER)
答案: C) 停用詞移除 (Stop Word Removal)
解析: 停用詞移除 (Stop Word Removal) 的目的是刪除文本中常見但對語義理解貢獻不大的詞語,這些詞通常在文本分析中被視為噪音。
問題 5 (中級)
------------------------------
題目: 一家企業在分析客服對話紀錄時,發現由於輸入習慣不同,「人工智能」、「人工智慧」和「AI」三個詞被用於表達相同的概念。為了讓模型能將這些詞語視為同義並進行準確的統計分析,最適合的前處理策略是什麼?
選項:
A) 分詞 (Tokenization) 後進行詞幹提取 (Stemming)
B) 執行停用詞移除 (Stop Word Removal)
C) 應用文本正規化 (Text Normalization) 與同義詞替換
D) 增加更多的訓練數據來覆蓋這些變體
答案: C) 應用文本正規化 (Text Normalization) 與同義詞替換
解析: 文本正規化包含將不同形式的詞語轉換為統一的標準形式,而同義詞替換更是直接處理不同詞表達相同概念的情況,確保模型能將這些詞語視為同義詞處理。詞幹提取或停用詞移除無法處理這種語義上的等價。
問題 6 (中級)
------------------------------
題目: 在一個文本分類任務中,我們使用 Bag-of-Words (BoW) 模型將文檔轉換為向量。假設詞彙表大小為 V,則每個文檔最終會被表示成一個維度為多少的向量?
選項:
A) 文檔中的詞數
B) 詞彙表中唯一詞的數量 (V)
C) 文檔的平均長度
D) 詞彙表中出現頻率最高的詞的數量
答案: B) 詞彙表中唯一詞的數量 (V)
解析: Bag-of-Words 模型將每個文檔表示為一個向量,其維度等於整個語料庫中唯一詞彙的數量(即詞彙表的大小 V)。向量的每個元素代表詞彙表中對應詞語在該文檔中出現的頻率。
問題 7 (中級)
------------------------------
題目: TF-IDF (Term Frequency-Inverse Document Frequency) 權重計算中,IDF 的主要作用是為了解決 Bag-of-Words 模型的哪一個缺點?
選項:
A) 無法處理詞語的順序性
B) 無法捕捉詞語的語義關聯
C) 無法區分常見詞與稀有詞對文檔的重要性
D) 無法處理不同文檔長度造成的影響
答案: C) 無法區分常見詞與稀有詞對文檔的重要性
解析: Bag-of-Words 僅計算詞頻,導致像「的」、「是」等常見詞在所有文檔中都會有高頻次,但對區分文檔主題的貢獻卻很小。IDF 通過衡量詞語在整個語料庫中的稀有程度,降低了常見詞的權重,提升了稀有詞的重要性,從而解決了這個問題。
問題 8 (中級)
------------------------------
題目: 在利用 One-Hot Encoding 對詞彙進行數字化表示時,如果我們的詞彙表包含 10,000 個獨特的詞語,那麼每個詞語將被表示成一個什麼樣的向量?
選項:
A) 一個包含 10,000 個元素的向量,其中只有一個元素為 1,其餘為 0。
B) 一個包含文檔中該詞出現次數的單一數字。
C) 一個包含 10,000 個元素,每個元素都是 0 或 1,代表該詞的特徵。
D) 一個長度不固定的向量,取決於該詞的複雜度。
答案: A) 一個包含 10,000 個元素的向量,其中只有一個元素為 1,其餘為 0。
解析: One-Hot Encoding 的核心是為每個詞創建一個獨特的二進制向量。向量的長度等於詞彙表的總大小。對於詞彙表中的每一個詞,只有在該詞對應的位置上是 1,其他位置都是 0。
問題 9 (中級)
------------------------------
題目: 考慮以下兩個文檔:文檔 A: "我喜歡蘋果,因為蘋果很甜。" 文檔 B: "他買了蘋果,蘋果是紅色的。" 若使用 Bag-of-Words 模型,且詞彙表為 {"我", "喜歡", "蘋果", "因為", "很", "甜", "他", "買了", "是", "紅色"},請問文檔 A 的向量表示應為何? (假設忽略標點符號,且詞語已進行分詞)
選項:
A) [1, 1, 2, 1, 1, 1, 0, 0, 0, 0]
B) [1, 1, 1, 1, 1, 1, 0, 0, 0, 0]
C) [0, 0, 2, 0, 0, 0, 1, 1, 1, 1]
D) [1, 1, 2, 1, 1, 1, 1, 1, 1, 1]
答案: A) [1, 1, 2, 1, 1, 1, 0, 0, 0, 0]
解析: 詞彙表順序:我, 喜歡, 蘋果, 因為, 很, 甜, 他, 買了, 是, 紅色。
文檔 A: "我喜歡蘋果,因為蘋果很甜。"
"我": 1次, "喜歡": 1次, "蘋果": 2次, "因為": 1次, "很": 1次, "甜": 1次。其他詞在文檔 A 中出現 0 次。所以向量為 [1, 1, 2, 1, 1, 1, 0, 0, 0, 0]。
問題 10 (中級)
------------------------------
題目: 在一個文本分類專案中,AI 應用規劃師在對原始文本進行前處理時,需要決定是使用「詞幹提取 (Stemming)」還是「詞形還原 (Lemmatization)」。如果專案對語義精確度要求較高,且模型需要區分不同詞形所帶來的細微語義差異,那麼在資源允許的情況下,哪種方法通常更為推薦,理由為何?
選項:
A) 詞幹提取 (Stemming),因為其處理速度更快,且能有效減少詞彙量。
B) 詞形還原 (Lemmatization),因為它能將詞語還原到有意義的字典形式,且考慮詞性。
C) 詞幹提取 (Stemming),因為它能保留更多的原始文本資訊。
D) 詞形還原 (Lemmatization),因為它能完全消除同義詞。
答案: B) 詞形還原 (Lemmatization),因為它能將詞語還原到有意義的字典形式,且考慮詞性。
解析: 詞形還原 (Lemmatization) 會考慮詞語的詞性和上下文,將其還原為具有實際語義的字典形式 (lemma)。這比詞幹提取 (Stemming) 更精確,後者只是機械地去除詞綴,可能產生不具實際語義的詞幹。對於需要高語義精確度的專案,詞形還原是更優的選擇,儘管計算成本通常較高。