標籤編碼(Label Encoding)

更新於 發佈於 閱讀時間約 2 分鐘

Label Encoding是機器學習中用來將非數值型的類別資料(categorical data)轉換成數值型資料的一種基本技術。它的原理是將每個類別標籤映射成一個獨特的整數值,使得機器學習算法能夠處理這些資料。例如,顏色"red"、"blue"、"green"可分別映射成0、1、2。

Label Encoding的步驟包括:

  1. 識別非數值型的類別變數。 對每個不同類別分配一個唯一的數值標籤,通常從0或1開始編號。 用這些數值標籤替換原有類別資料。

Label Encoding適用於有序類別(ordinal data),如教育程度(高中、大學、碩士)因為這些標籤間有自然順序,但對無序類別(nominal data)使用時可能引入錯誤的順序關係,影響模型效果,這時需考慮用One-Hot Encoding。

例如Python中使用sklearn的LabelEncoder簡單示範:

python

from sklearn.preprocessing 
import LabelEncoder colors = ['red', 'blue', 'green', 'red', 'green']
encoder = LabelEncoder()
encoded_colors = encoder.fit_transform(colors)
print(encoded_colors) # 輸出:[2 0 1 2 1]

Label Encoding節省記憶體,適合樹模型等不介意標籤順序的演算法,但線性回歸、神經網絡等數值敏感模型則須謹慎使用。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
19會員
495內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)
2025/09/04
Z-Score(標準分數)是衡量一個觀察值距離整體平均值多少個標準差的指標。其基本計算公式為: 其中,X 是原始數據值,μ 是母體或樣本平均值,σ 是母體或樣本標準差。透過此計算,可以知道該數值高於或低於平均數多少個標準差。例如,Z分數為1表示該數值高於平均值一個標準差,為-1表示低於平均值一個標
Thumbnail
2025/09/04
Z-Score(標準分數)是衡量一個觀察值距離整體平均值多少個標準差的指標。其基本計算公式為: 其中,X 是原始數據值,μ 是母體或樣本平均值,σ 是母體或樣本標準差。透過此計算,可以知道該數值高於或低於平均數多少個標準差。例如,Z分數為1表示該數值高於平均值一個標準差,為-1表示低於平均值一個標
Thumbnail
2025/09/03
Feature Hashing(特徵哈希)又稱為哈希技巧(Hashing Trick),是一種用於將大量、尤其是類別型或文本特徵快速且節省記憶體地轉換為固定長度數值向量的方法。 Feature Hashing的原理: • 對每個特徵名稱或特徵值應用哈希函數,將其映射為一個固定維度向量中的索引位
2025/09/03
Feature Hashing(特徵哈希)又稱為哈希技巧(Hashing Trick),是一種用於將大量、尤其是類別型或文本特徵快速且節省記憶體地轉換為固定長度數值向量的方法。 Feature Hashing的原理: • 對每個特徵名稱或特徵值應用哈希函數,將其映射為一個固定維度向量中的索引位
2025/09/03
偏差(Deviation)、方差(Variance)、誤差(Error)三者的定義與差異如下: 偏差是指每一個數據值與其平均值之間的差異,是個別數據點距離中心的距離,會有正負值且總和必為零。為了衡量數據的離散程度,不直接用偏差而用偏差平方的平均值即方差。 方差是偏差平方的平均值,代表數據分布的變
2025/09/03
偏差(Deviation)、方差(Variance)、誤差(Error)三者的定義與差異如下: 偏差是指每一個數據值與其平均值之間的差異,是個別數據點距離中心的距離,會有正負值且總和必為零。為了衡量數據的離散程度,不直接用偏差而用偏差平方的平均值即方差。 方差是偏差平方的平均值,代表數據分布的變
看更多
你可能也想看
Thumbnail
透過蝦皮分潤計畫,輕鬆賺取零用金!本文分享5-6月實測心得,包含數據流程、實際收入、平臺優點及注意事項,並推薦高分潤商品,教你如何運用空閒時間創造被動收入。
Thumbnail
透過蝦皮分潤計畫,輕鬆賺取零用金!本文分享5-6月實測心得,包含數據流程、實際收入、平臺優點及注意事項,並推薦高分潤商品,教你如何運用空閒時間創造被動收入。
Thumbnail
單身的人有些會養寵物,而我養植物。畢竟寵物離世會傷心,植物沒養好再接再厲就好了~(笑)
Thumbnail
單身的人有些會養寵物,而我養植物。畢竟寵物離世會傷心,植物沒養好再接再厲就好了~(笑)
Thumbnail
不知你有沒有過這種經驗?衛生紙只剩最後一包、洗衣精倒不出來,或電池突然沒電。這次一次補貨,從電池、衛生紙到洗衣精,還順便分享使用心得。更棒的是,搭配蝦皮分潤計畫,愛用品不僅自己用得安心,分享給朋友還能賺回饋。立即使用推薦碼 X5Q344E,輕鬆上手,隨時隨地賺取分潤!
Thumbnail
不知你有沒有過這種經驗?衛生紙只剩最後一包、洗衣精倒不出來,或電池突然沒電。這次一次補貨,從電池、衛生紙到洗衣精,還順便分享使用心得。更棒的是,搭配蝦皮分潤計畫,愛用品不僅自己用得安心,分享給朋友還能賺回饋。立即使用推薦碼 X5Q344E,輕鬆上手,隨時隨地賺取分潤!
Thumbnail
身為一個典型的社畜,上班時間被會議、進度、KPI 塞得滿滿,下班後只想要找一個能夠安靜喘口氣的小角落。對我來說,畫畫就是那個屬於自己的小樹洞。無論是胡亂塗鴉,還是慢慢描繪喜歡的插畫人物,那個專注在筆觸和色彩的過程,就像在幫心靈按摩一樣,讓緊繃的神經慢慢鬆開。
Thumbnail
身為一個典型的社畜,上班時間被會議、進度、KPI 塞得滿滿,下班後只想要找一個能夠安靜喘口氣的小角落。對我來說,畫畫就是那個屬於自己的小樹洞。無論是胡亂塗鴉,還是慢慢描繪喜歡的插畫人物,那個專注在筆觸和色彩的過程,就像在幫心靈按摩一樣,讓緊繃的神經慢慢鬆開。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
「蛤!?到底什麼是編碼?網路上都查不到一個簡單的定義!」 剛進研究室的你,被教授指派了許多任務,其中一件是要把質性資料給「編碼」,你是不是也像我一樣霧煞煞QQ 快點進來看看,我幫你統整了一篇簡單易懂的說明,讓你快速了解編碼是什麼!!
Thumbnail
「蛤!?到底什麼是編碼?網路上都查不到一個簡單的定義!」 剛進研究室的你,被教授指派了許多任務,其中一件是要把質性資料給「編碼」,你是不是也像我一樣霧煞煞QQ 快點進來看看,我幫你統整了一篇簡單易懂的說明,讓你快速了解編碼是什麼!!
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分,現在進入 Multi-Head Att
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分,現在進入 Multi-Head Att
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 再度回到 Transformer 架構中的 Encoder 部分,如下圖所示: 我現在手上有的素材如下: Embedding 訓練方式:AI說書 - 從0開始
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 再度回到 Transformer 架構中的 Encoder 部分,如下圖所示: 我現在手上有的素材如下: Embedding 訓練方式:AI說書 - 從0開始
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在AI說書 - 從0開始 - 41中,我們提及 Transformer 的 Encoder 架構如下圖所示,同時我們羅列幾個要點於圖示右邊: 原始 Transform
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在AI說書 - 從0開始 - 41中,我們提及 Transformer 的 Encoder 架構如下圖所示,同時我們羅列幾個要點於圖示右邊: 原始 Transform
Thumbnail
承繼上一篇我所提到的劇本,我今天意識到「標籤」,其實就是一個簡化版、濃縮版的劇本 什麼是標籤? 像 MBTI、XX症、XX學校畢業的,都是一個標籤 他的詞彙很短,但背後蘊含了大量的價值觀 (應該說,蘊含了大量言談者所「認為」的價值觀)
Thumbnail
承繼上一篇我所提到的劇本,我今天意識到「標籤」,其實就是一個簡化版、濃縮版的劇本 什麼是標籤? 像 MBTI、XX症、XX學校畢業的,都是一個標籤 他的詞彙很短,但背後蘊含了大量的價值觀 (應該說,蘊含了大量言談者所「認為」的價值觀)
Thumbnail
我捨棄了編號系統,解放三倍大腦思考能量
Thumbnail
我捨棄了編號系統,解放三倍大腦思考能量
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News