Target Encoding（目標編碼）

iPAS AI應用規劃師學習筆記

發佈於數據準備與模型選擇

2025/09/10 更新2025/09/10 發佈閱讀 2 分鐘

Target Encoding（目標編碼）是一種用於機器學習中處理類別變數的編碼技術，特別適合高基數（高種數量）類別特徵。它通過將類別值替換成該類別在目標變量上的統計值（通常是目標的均值），使模型能夠有效利用類別與目標之間的關聯信息。

Target Encoding原理

對於分類或回歸問題，計算每個類別對應目標變量的平均值（或條件概率）；
用這些平均值替換原始類別特徵值；
這樣類別特徵轉化為數值特徵，同時保留了與目標變量的關聯信息。

優點

不像One-Hot Encoding會擴增特徵維度，Target Encoding不會增加維度，適合高基數類別。
捕捉類別與目標的關聯，提升模型預測能力。
適用於迴歸和分類任務。

風險與注意事項

過擬合風險：因為編碼使用了目標變量信息，可能會引入數據洩漏，特別是少樣本類別上。
平滑技巧：引入全局均值與類別均值加權融合，減少稀有類別影響。
交叉驗證策略：避免在訓練和測試數據同時使用目標信息，防止目標洩漏。

總結：Target Encoding將類別特徵替換為目標統計值，有助於提高模型對高基數類別的處理效率，但需注意避免過擬合與數據洩漏問題，透過平滑和交叉驗證可緩解風險。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記數據準備與模型選擇

留言

留言分享你的想法！

郝信華 iPAS AI應用規劃師學習筆記

21會員

495內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/09/10

Ordinal Encoding（序數編碼）

Ordinal Encoding（序數編碼）是一種將**有序類別型變數**（ordinal categorical variables）轉換為數值型變數的編碼方法。它依據類別之間的固有順序，將每個類別分配一個整數，以保留類別間的大小或等級關係，常用於機器學習的數據預處理階段。 Ordinal En

2025/09/10

Ordinal Encoding（序數編碼）

2025/09/10

支持向量機（SVM）的核技巧（Kernel Trick）

支持向量機（SVM）的核技巧（Kernel Trick）是一種用來解決非線性分類問題的有效方法。它的核心思想是將原本不可線性分離的數據，透過一個非線性映射函數，投射到高維度的特徵空間中，使數據在高維空間可線性分割，然後再在該空間中運用線性支持向量機進行分類。核技巧優點能有效解決高維非線性

2025/09/10

支持向量機（SVM）的核技巧（Kernel Trick）

2025/09/10

分層抽樣（Stratified Sampling）

分層抽樣（Stratified Sampling）是一種統計抽樣方法，將總體按特定特徵或規則劃分為若干個同質的子群組（稱為層），然後對每個層內獨立進行隨機抽樣。這種方法結合了分組與隨機抽樣的優點，提高了樣本的代表性和估計的精度。分層抽樣的原理與步驟劃分層次：根據變量（如年齡、性別、地區）將

2025/09/10

分層抽樣（Stratified Sampling）

看更多

你可能也想看

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

#AI#ai#PromptEngineering

2024/08/13

🍋🗻檸檬富士山

質性研究要「編碼」？│研究入門：編碼是什麼🤔

「蛤！？到底什麼是編碼？網路上都查不到一個簡單的定義！」剛進研究室的你，被教授指派了許多任務，其中一件是要把質性資料給「編碼」，你是不是也像我一樣霧煞煞QQ 快點進來看看，我幫你統整了一篇簡單易懂的說明，讓你快速了解編碼是什麼！！

#質性研究#編碼#研究生

2024/08/13

🍋🗻檸檬富士山

質性研究要「編碼」？│研究入門：編碼是什麼🤔

#質性研究#編碼#研究生

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 67

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder

#AI#ai#PromptEngineering

2024/06/30

Learn AI 不 BI

AI說書 - 從0開始 - 67

#AI#ai#PromptEngineering

2024/06/30

Learn AI 不 BI

AI說書 - 從0開始 - 51

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分，現在進入 Multi-Head Att

#AI#ai#PromptEngineering

2024/06/26

Learn AI 不 BI

AI說書 - 從0開始 - 51

#AI#ai#PromptEngineering

2024/06/26

Learn AI 不 BI

AI說書 - 從0開始 - 49

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。再度回到 Transformer 架構中的 Encoder 部分，如下圖所示：我現在手上有的素材如下： Embedding 訓練方式：AI說書 - 從0開始

#AI#ai#PromptEngineering

2024/06/25

Learn AI 不 BI

AI說書 - 從0開始 - 49

#AI#ai#PromptEngineering

2024/06/25

Learn AI 不 BI

AI說書 - 從0開始 - 42

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在AI說書 - 從0開始 - 41中，我們提及 Transformer 的 Encoder 架構如下圖所示，同時我們羅列幾個要點於圖示右邊：原始 Transform

#AI#ai#PromptEngineering

2024/06/23

Learn AI 不 BI

AI說書 - 從0開始 - 42

#AI#ai#PromptEngineering

2024/06/23

貓貓學習筆記

TextToSpeech-神經網路如何理解文字

上篇我們簡單的了解了 TTS 想要達到的目標，但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚，這篇將針對訓練資料處理中的文字部分進行詳細說明，讓我們開始吧。

#AI#TextToSpeech#Pytorch

2024/05/27

貓貓學習筆記

TextToSpeech-神經網路如何理解文字

#AI#TextToSpeech#Pytorch

2024/05/27

小松鼠的演算法樂園

前綴和應用: 指定目標值的子陣列數目 Binary Subarrays With Sum_Leetcode #930

題目會給定一個陣列nums和一個目標值goal。計算子陣列總和=goal的數目有多少。演算法包含前綴和和字典的技巧，時間複雜度為O(n)，空間複雜度為O(n)。

#leetcode#python#algorithm

2024/03/14

小松鼠的演算法樂園

前綴和應用: 指定目標值的子陣列數目 Binary Subarrays With Sum_Leetcode #930

題目會給定一個陣列nums和一個目標值goal。計算子陣列總和=goal的數目有多少。演算法包含前綴和和字典的技巧，時間複雜度為O(n)，空間複雜度為O(n)。

#leetcode#python#algorithm

2024/03/14

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News