[自然語言1] 模擬考題

更新 發佈閱讀 11 分鐘

建議看完影片再考,成效更好 https://youtu.be/ACY1IswFOJU

問題 1 (中級)

------------------------------

題目: 在規劃一個客戶服務的智能對話系統時,為了能快速識別客戶問題中的關鍵資訊(如產品名稱、訂單號碼),並將其結構化以供後續處理,AI 應用規劃師最應優先考慮哪種 NLP 技術?

選項:

A) 情感分析 (Sentiment Analysis)

B) 文本摘要 (Text Summarization)

C) 命名實體識別 (Named Entity Recognition, NER)

D) 機器翻譯 (Machine Translation)


答案: C) 命名實體識別 (Named Entity Recognition, NER)

解析: 命名實體識別 (NER) 的主要功能就是從非結構化文本中識別和提取出具有特定類別的實體,例如人名、地名、組織名、產品名、訂單號碼等。這對於將客戶問題中的關鍵資訊結構化,以便後續的自動化處理至關重要。


問題 2 (中級)

------------------------------

題目: 一家金融機構希望透過分析大量的客戶留言和社群媒體討論,來監測市場對其產品和服務的正面或負面評價,以便及時調整策略。此時,哪項 NLP 技術最能直接幫助他們達成此目的?

選項:

A) 文本分類 (Text Classification)

B) 情感分析 (Sentiment Analysis)

C) 語音辨識 (Speech Recognition)

D) 關鍵字提取 (Keyword Extraction)


答案: B) 情感分析 (Sentiment Analysis)

解析: 情感分析的核心功能就是判斷文本所表達的情緒極性(正面、負面、中性),直接符合了監測市場評價、了解客戶情緒的需求。


問題 3 (中級)

------------------------------

題目: 在對英文文本進行 NLP 前處理時,"running" 和 "runs" 這兩個詞都需要被統一處理為 "run"。如果希望這個轉換過程能夠考慮詞的上下文語義和詞性,確保結果是具有實際詞義的單字,應該優先選擇哪種技術?

選項:

A) 詞幹提取 (Stemming)

B) 分詞 (Tokenization)

C) 詞形還原 (Lemmatization)

D) 停用詞移除 (Stop Word Removal)


答案: C) 詞形還原 (Lemmatization)

解析: 詞形還原 (Lemmatization) 會將詞語還原到其原始字典形式(詞元),並且通常會考慮詞性與上下文,確保還原後的詞語是具有語義的實際單字。詞幹提取 (Stemming) 則是簡單地去除詞綴,結果不一定具有詞義。


問題 4 (中級)

------------------------------

題目: 某新聞網站需要分析讀者留言,但發現留言中充斥著大量的連接詞、介系詞等常用詞彙(如「的」、「是」、「a」、「the」),這些詞對判斷留言的核心意義幫助不大,反而增加了處理負擔。AI 應用規劃師應該執行哪項前處理步驟來解決這個問題?

選項:

A) 正規化 (Normalization)

B) 詞幹提取 (Stemming)

C) 停用詞移除 (Stop Word Removal)

D) 命名實體識別 (NER)


答案: C) 停用詞移除 (Stop Word Removal)

解析: 停用詞移除 (Stop Word Removal) 的目的是刪除文本中常見但對語義理解貢獻不大的詞語,這些詞通常在文本分析中被視為噪音。


問題 5 (中級)

------------------------------

題目: 一家企業在分析客服對話紀錄時,發現由於輸入習慣不同,「人工智能」、「人工智慧」和「AI」三個詞被用於表達相同的概念。為了讓模型能將這些詞語視為同義並進行準確的統計分析,最適合的前處理策略是什麼?

選項:

A) 分詞 (Tokenization) 後進行詞幹提取 (Stemming)

B) 執行停用詞移除 (Stop Word Removal)

C) 應用文本正規化 (Text Normalization) 與同義詞替換

D) 增加更多的訓練數據來覆蓋這些變體


答案: C) 應用文本正規化 (Text Normalization) 與同義詞替換

解析: 文本正規化包含將不同形式的詞語轉換為統一的標準形式,而同義詞替換更是直接處理不同詞表達相同概念的情況,確保模型能將這些詞語視為同義詞處理。詞幹提取或停用詞移除無法處理這種語義上的等價。


問題 6 (中級)

------------------------------

題目: 在一個文本分類任務中,我們使用 Bag-of-Words (BoW) 模型將文檔轉換為向量。假設詞彙表大小為 V,則每個文檔最終會被表示成一個維度為多少的向量?

選項:

A) 文檔中的詞數

B) 詞彙表中唯一詞的數量 (V)

C) 文檔的平均長度

D) 詞彙表中出現頻率最高的詞的數量


答案: B) 詞彙表中唯一詞的數量 (V)

解析: Bag-of-Words 模型將每個文檔表示為一個向量,其維度等於整個語料庫中唯一詞彙的數量(即詞彙表的大小 V)。向量的每個元素代表詞彙表中對應詞語在該文檔中出現的頻率。


問題 7 (中級)

------------------------------

題目: TF-IDF (Term Frequency-Inverse Document Frequency) 權重計算中,IDF 的主要作用是為了解決 Bag-of-Words 模型的哪一個缺點?

選項:

A) 無法處理詞語的順序性

B) 無法捕捉詞語的語義關聯

C) 無法區分常見詞與稀有詞對文檔的重要性

D) 無法處理不同文檔長度造成的影響


答案: C) 無法區分常見詞與稀有詞對文檔的重要性

解析: Bag-of-Words 僅計算詞頻,導致像「的」、「是」等常見詞在所有文檔中都會有高頻次,但對區分文檔主題的貢獻卻很小。IDF 通過衡量詞語在整個語料庫中的稀有程度,降低了常見詞的權重,提升了稀有詞的重要性,從而解決了這個問題。


問題 8 (中級)

------------------------------

題目: 在利用 One-Hot Encoding 對詞彙進行數字化表示時,如果我們的詞彙表包含 10,000 個獨特的詞語,那麼每個詞語將被表示成一個什麼樣的向量?

選項:

A) 一個包含 10,000 個元素的向量,其中只有一個元素為 1,其餘為 0。

B) 一個包含文檔中該詞出現次數的單一數字。

C) 一個包含 10,000 個元素,每個元素都是 0 或 1,代表該詞的特徵。

D) 一個長度不固定的向量,取決於該詞的複雜度。


答案: A) 一個包含 10,000 個元素的向量,其中只有一個元素為 1,其餘為 0。

解析: One-Hot Encoding 的核心是為每個詞創建一個獨特的二進制向量。向量的長度等於詞彙表的總大小。對於詞彙表中的每一個詞,只有在該詞對應的位置上是 1,其他位置都是 0。


問題 9 (中級)

------------------------------

題目: 考慮以下兩個文檔:文檔 A: "我喜歡蘋果,因為蘋果很甜。" 文檔 B: "他買了蘋果,蘋果是紅色的。" 若使用 Bag-of-Words 模型,且詞彙表為 {"我", "喜歡", "蘋果", "因為", "很", "甜", "他", "買了", "是", "紅色"},請問文檔 A 的向量表示應為何? (假設忽略標點符號,且詞語已進行分詞)

選項:

A) [1, 1, 2, 1, 1, 1, 0, 0, 0, 0]

B) [1, 1, 1, 1, 1, 1, 0, 0, 0, 0]

C) [0, 0, 2, 0, 0, 0, 1, 1, 1, 1]

D) [1, 1, 2, 1, 1, 1, 1, 1, 1, 1]


答案: A) [1, 1, 2, 1, 1, 1, 0, 0, 0, 0]

解析: 詞彙表順序:我, 喜歡, 蘋果, 因為, 很, 甜, 他, 買了, 是, 紅色。

文檔 A: "我喜歡蘋果,因為蘋果很甜。"

"我": 1次, "喜歡": 1次, "蘋果": 2次, "因為": 1次, "很": 1次, "甜": 1次。其他詞在文檔 A 中出現 0 次。所以向量為 [1, 1, 2, 1, 1, 1, 0, 0, 0, 0]。


問題 10 (中級)

------------------------------

題目: 在一個文本分類專案中,AI 應用規劃師在對原始文本進行前處理時,需要決定是使用「詞幹提取 (Stemming)」還是「詞形還原 (Lemmatization)」。如果專案對語義精確度要求較高,且模型需要區分不同詞形所帶來的細微語義差異,那麼在資源允許的情況下,哪種方法通常更為推薦,理由為何?

選項:

A) 詞幹提取 (Stemming),因為其處理速度更快,且能有效減少詞彙量。

B) 詞形還原 (Lemmatization),因為它能將詞語還原到有意義的字典形式,且考慮詞性。

C) 詞幹提取 (Stemming),因為它能保留更多的原始文本資訊。

D) 詞形還原 (Lemmatization),因為它能完全消除同義詞。


答案: B) 詞形還原 (Lemmatization),因為它能將詞語還原到有意義的字典形式,且考慮詞性。

解析: 詞形還原 (Lemmatization) 會考慮詞語的詞性和上下文,將其還原為具有實際語義的字典形式 (lemma)。這比詞幹提取 (Stemming) 更精確,後者只是機械地去除詞綴,可能產生不具實際語義的詞幹。對於需要高語義精確度的專案,詞形還原是更優的選擇,儘管計算成本通常較高。

留言
avatar-img
留言分享你的想法!
avatar-img
iPAS AI 自學路
0會員
18內容數
我是一位正在追求職涯升級的 40 歲非本科系上班族。我會將自己摸索出的高效白話筆記與聽覺學習法無私分享,助你:克服術語障礙、利用零碎時間學習、系統化整理考點。 也歡迎到我的頻道逛逛https://www.youtube.com/@ipasstudybuddy
你可能也想看
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
本文介紹瞭如何運用反問方式進行有效對話,並利用 GPT 開啟對話方式,達到更有效的溝通。探討了在專案進行中,希望透過問答的方式刺激思考,引導規劃產品導入的思考流程。並提供了實際案例和選定不同專業腳色時的發現。
Thumbnail
本文介紹瞭如何運用反問方式進行有效對話,並利用 GPT 開啟對話方式,達到更有效的溝通。探討了在專案進行中,希望透過問答的方式刺激思考,引導規劃產品導入的思考流程。並提供了實際案例和選定不同專業腳色時的發現。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
為了充分發揮AI的潛力,我們必須深入瞭解其運作模式和思考邏輯,並學會與AI對話的技巧。《ChatGPT提問課,做個懂AI的高效工作者》這本書提供了豐富的實例,讓讀者更容易學會如何提出精準的問題,並享有提問課程的閱讀回饋。這對於想成為懂AI的高效工作者的人來說,是一本值得一看的書。
Thumbnail
為了充分發揮AI的潛力,我們必須深入瞭解其運作模式和思考邏輯,並學會與AI對話的技巧。《ChatGPT提問課,做個懂AI的高效工作者》這本書提供了豐富的實例,讓讀者更容易學會如何提出精準的問題,並享有提問課程的閱讀回饋。這對於想成為懂AI的高效工作者的人來說,是一本值得一看的書。
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
Thumbnail
本篇文章分享了對創意和靈感來源的深入思考,以及如何將其轉化為實際的成果或解決方案的過程。透過學習、資料收集、練習、創新等方法,提出了將創意落實的思路和技巧。同時介紹了AI在外顯知識的自動化應用,以及對其潛在發展方向的討論。最後探討了傳統機器學習技術在模擬中的應用案例和對AI世界的影響。
Thumbnail
本篇文章分享了對創意和靈感來源的深入思考,以及如何將其轉化為實際的成果或解決方案的過程。透過學習、資料收集、練習、創新等方法,提出了將創意落實的思路和技巧。同時介紹了AI在外顯知識的自動化應用,以及對其潛在發展方向的討論。最後探討了傳統機器學習技術在模擬中的應用案例和對AI世界的影響。
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
這陣子使用AI模型,還有參考國內外一些喜歡玩語言模型的同好發文,一個很有趣的結論就是,有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通,會得到比較好的結果,這的確是非常反直覺的,也就是說很多時候ChatGPT耍懶不肯工作的時候,你用加油打氣,或是情緒勒索的方法,確實是可以得到比較好的結果。
Thumbnail
這陣子使用AI模型,還有參考國內外一些喜歡玩語言模型的同好發文,一個很有趣的結論就是,有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通,會得到比較好的結果,這的確是非常反直覺的,也就是說很多時候ChatGPT耍懶不肯工作的時候,你用加油打氣,或是情緒勒索的方法,確實是可以得到比較好的結果。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News