方格子 vocus

語料庫 (Corpus / Corpora)

2025/08/08 更新2025/05/25 發佈閱讀 4 分鐘

「語料庫 (Corpus / Corpora)」是自然語言處理 (NLP) 領域中的一個核心概念，指的是一個結構化的、較大的文本集合，通常用於進行語言研究、模型訓練和評估。單數形式是「語料 (Corpus)」，複數形式是「語料庫 (Corpora)」。

你可以將語料庫想像成一個大型的圖書館或檔案館，裡面收集了大量的文本資料，並且這些資料通常會被組織和標註以便於研究和使用。

語料庫的主要特點：

大量文本： 語料庫通常包含大量的文本數據，從幾千詞到數十億甚至數萬億詞不等。
結構化： 語料庫通常會被組織和編排，例如按照來源、主題、語言、時間等進行分類。
標註 (Annotation)： 許多語料庫會包含各種語言學標註信息，例如：
- 詞性標註 (Part-of-Speech Tagging): 標示每個詞語的詞性（例如名詞、動詞、形容詞）。句法分析 (Syntactic Parsing): 提供句子的句法結構信息。語義標註 (Semantic Annotation): 標示詞語的意義或語義關係。命名實體標註 (Named Entity Annotation): 標示文本中的人名、地名、組織機構名等。情感標註 (Sentiment Annotation): 標示文本的情感傾向（例如正面、負面、中性）。共指消解標註 (Coreference Annotation): 標示文本中指向同一實體的不同表達。
真實語料： 語料庫通常包含真實世界中產生的文本，例如新聞文章、書籍、網頁內容、社交媒體帖子、對話記錄等。
代表性： 一個好的語料庫應該能夠代表目標語言或特定領域的語言使用情況。

語料庫的種類：

根據不同的標準，語料庫可以分為多種類型：

通用語料庫 (General-purpose Corpora): 包含各種主題和來源的文本，旨在代表一般語言的使用情況，例如英文的 British National Corpus (BNC) 和 Corpus of Contemporary American English (COCA)。
領域語料庫 (Domain-specific Corpora): 專注於特定領域或主題的文本，例如醫學語料庫、法律語料庫、金融語料庫等。
平行語料庫 (Parallel Corpora): 包含同一內容在兩種或多種語言的翻譯版本，用於機器翻譯研究和訓練。例如，Europarl 語料庫。
單語語料庫 (Monolingual Corpora): 只包含一種語言的文本。
多語語料庫 (Multilingual Corpora): 包含多種語言的文本。
標註語料庫 (Annotated Corpora): 包含各種語言學標註信息的語料庫。
未標註語料庫 (Raw Corpora): 只有原始文本，沒有額外的標註信息。
口語語料庫 (Spoken Corpora): 包含口語轉錄文本，例如電話對話、演講記錄等。

語料庫在 NLP 中的重要性：

語料庫是 NLP 研究和應用中不可或缺的資源，它們被廣泛用於：

語言學研究： 分析語言的結構、用法和演變。
模型訓練： 用於訓練各種 NLP 模型，例如語言模型、詞嵌入模型、分類模型等。
模型評估： 作為評估 NLP 模型性能的基準數據集。
知識獲取： 從語料庫中提取知識和信息。
開發和測試 NLP 工具和算法。

總之，語料庫是 NLP 領域的基石，它們為我們提供了真實的語言數據，幫助我們理解語言的規律，開發有效的 NLP 技術，並評估這些技術的性能。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記自然語言處理與應用NLP基本概念與定義

留言

郝信華 iPAS AI應用規劃師學習筆記

43會員

572內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他：富邦美術館志工

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/05/25

句子向量 / 句子嵌入 (Sentence Embedding)

「句子向量 (Sentence Embedding)」或「句子嵌入」是自然語言處理 (NLP) 中將整個句子表示為一個稠密的低維向量的技術。它旨在捕捉句子的整體語義信息，使得語義上相似的句子在向量空間中也更接近。你可以將句子向量想像成將一個完整的句子壓縮成一個數字列表，這個列表能夠代表句子的含義

2025/05/25

句子向量 / 句子嵌入 (Sentence Embedding)

2025/05/25

字符級模型 (Character-level Models)

「字符級模型 (Character-level Models)」是自然語言處理 (NLP) 中處理文本數據的一種方法。與常見的詞語級模型 (Word-level Models) 不同，字符級模型直接將文本視為一個字符序列進行處理，而不是將文本首先分割成詞語。你可以將詞語級模型想像成以單詞為單位來

2025/05/25

字符級模型 (Character-level Models)

2025/05/25

知識圖譜 (Knowledge Graph, KG)

「知識圖譜 (Knowledge Graph, KG)」是一種用於表示現實世界中實體（例如，人、地點、事物、概念）及其相互關係的結構化知識庫。它以圖的形式組織信息，其中節點 (Nodes) 代表實體，邊 (Edges) 代表實體之間的關係，並且邊通常帶有標籤 (Labels) 來描述關係的類型。

2025/05/25

知識圖譜 (Knowledge Graph, KG)

看更多

你可能也想看

喜特先生官方沙龍

QUERY 函式大解析，系列文索引

這邊統整了所有過去發表過關於 QUERY 函式的教學分享，希望可以方便你按照順序閱讀和練習。 QUERY 可以用來查詢、篩選、聚集、排序資料，還可以做張簡易的資料透視表，是我在 Google 試算表上做數據分析、製作報告、製作儀表板時最常用的函式之一，既方便又好用，誠心推薦！

2024/01/30

2024/01/30

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

A.H.科普(pScience)

🌳腦霧知識樹

根據ICD 11、MeSH以及HPO知識本體等所描述的腦霧知識結構。

#新冠#新冠肺炎#新冠病毒

2024/03/22

A.H.科普(pScience)

🌳腦霧知識樹

根據ICD 11、MeSH以及HPO知識本體等所描述的腦霧知識結構。

#新冠#新冠肺炎#新冠病毒

2024/03/22

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11