Hashing Encoding （雜湊編號）又稱 Feature Hashing（特徵哈希）

iPAS AI應用規劃師學習筆記

發佈於數據準備與模型選擇

2025/09/10 更新2025/09/03 發佈閱讀 2 分鐘

Feature Hashing（特徵哈希）又稱為哈希技巧（Hashing Trick），是一種用於將大量、尤其是類別型或文本特徵快速且節省記憶體地轉換為固定長度數值向量的方法。

Feature Hashing的原理：

• 對每個特徵名稱或特徵值應用哈希函數，將其映射為一個固定維度向量中的索引位置。

• 在得到的索引位置上對向量值進行累加（可用+1或+/-1進行碰撞抵消）。

• 這樣避免了維護完整的大字典，節省記憶體，且能處理非常大且稀疏的特徵空間。

• 缺點是會發生哈希碰撞，不同特徵可能映射到相同索引，但通常碰撞對性能影響有限。

Feature Hashing的應用：

• 常用於自然語言處理（NLP）的文字特徵向量化。

• 大規模數據流或在線學習，因為無需維護全字典。

• 也用於多任務學習、稀疏矩陣壓縮、深度學習的嵌入向量初始化等。

優點

• 快速且節省記憶體。

• 無需手動管理詞彙表或特徵字典。

• 適合大規模和動態特徵空間。

簡單比喻：

Feature Hashing就像用定長的信箱收信，所有郵件（特徵）按地址（哈希）被放到固定數量的信箱中，部分不同信件可能放在同一信箱（碰撞），但整體有效管理郵件。

總結：

Feature Hashing是一種利用哈希函數將大規模、高維類別或文本特徵映射成固定長度數值向量的技巧，實現快速、節省記憶體並適用於大數據場景。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記數據準備與模型選擇

留言

留言分享你的想法！

郝信華 iPAS AI應用規劃師學習筆記

29會員

495內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/09/03

偏差（Deviation）、方差（Variance）、誤差（Error）

偏差（Deviation）、方差（Variance）、誤差（Error）三者的定義與差異如下：偏差是指每一個數據值與其平均值之間的差異，是個別數據點距離中心的距離，會有正負值且總和必為零。為了衡量數據的離散程度，不直接用偏差而用偏差平方的平均值即方差。方差是偏差平方的平均值，代表數據分布的變

2025/09/03

偏差（Deviation）、方差（Variance）、誤差（Error）

2025/09/03

超參數調優

超參數調優是指在機器學習中，通過尋找最佳組合的超參數值來提升模型性能的過程。超參數是指在訓練前需設定，且不通過模型訓練自動學習的參數，如學習率、批次大小、樹的深度等。常用的超參數調優方法： 1. 網格搜尋（Grid Search） • 對預定的超參數範圍進行系統遍歷，嘗試所有組合，找到表

2025/09/03

超參數調優

2025/09/03

交叉驗證（Cross-Validation）方法

交叉驗證（Cross-Validation）是一種評估和選擇機器學習模型的重要方法，透過將數據集分割成多個子集，多次訓練和驗證模型，來獲得對模型泛化能力更可靠的估計。常見交叉驗證方法： 1. k折交叉驗證（k-Fold Cross-Validation） • 將數據分成k個大小相近的子集

2025/09/03

交叉驗證（Cross-Validation）方法

看更多

你可能也想看

方格子 vocus 官方沙龍

線上街訪直擊！雙 11 購物車大公開！

雙11於許多人而言，不只是單純的折扣狂歡，更是行事曆裡預定的，對美好生活的憧憬。錢錢沒有不見，它變成了快樂，跟讓臥房、辦公桌、每天早晨的咖啡香升級的樣子！這次格編突擊辦公室，也邀請 vocus「野格團」創作者分享掀開蝦皮購物車的簾幕，「加入購物車」的瞬間，藏著哪些靈感，或是對美好生活的想像？

#vocusforBusiness#雙11#蝦皮分潤計畫

2025/10/28

方格子 vocus 官方沙龍

線上街訪直擊！雙 11 購物車大公開！

#vocusforBusiness#雙11#蝦皮分潤計畫

2025/10/28

Chloe小窩

租屋整理控必看 | 雙11收納好物開箱 × 蝦皮分潤計畫

雙11購物節準備開跑，蝦皮推出超多優惠，與你分享實際入手的收納好物，包括貨櫃收納箱、真空收納袋、可站立筆袋等，並分享如何利用蝦皮分潤計畫，一邊購物一邊賺取額外收入，讓你買得開心、賺得也開心！

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

Chloe小窩

租屋整理控必看 | 雙11收納好物開箱 × 蝦皮分潤計畫

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

邊境牧羊犬的觀察筆記

開箱｜我為新家買的 5 樣家居好物！蝦皮購物實用選品

分享個人在新家裝潢後，精選 5 款蝦皮上的實用家居好物，包含客製化層架、MIT 地毯、沙發邊桌、分類垃圾桶及寵物碗架，從尺寸、功能到價格都符合需求，並提供詳細開箱心得與購買建議。

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

邊境牧羊犬的觀察筆記

開箱｜我為新家買的 5 樣家居好物！蝦皮購物實用選品

2025/11/05

高中數學主題練習—對數方程式

2024/06/26

高中數學主題練習—對數方程式

2024/06/26

解答：

2024/06/26

解答：

2024/06/26

高中數學主題練習—根式化簡

2024/06/25

高中數學主題練習—根式化簡

2024/06/25

高中數學主題練習—根式化簡

2024/06/25

高中數學主題練習—根式化簡

2024/06/25

承繼上一篇我所提到的劇本，我今天意識到「標籤」，其實就是一個簡化版、濃縮版的劇本什麼是標籤？像 MBTI、ＸＸ症、ＸＸ學校畢業的，都是一個標籤他的詞彙很短，但背後蘊含了大量的價值觀（應該說，蘊含了大量言談者所「認為」的價值觀）

2024/06/16

2024/06/16

物以類聚尋找共同的字元_字典應用_Leetcode #1002

給定一個字串陣列，請把它們所共有的字元伴隨著出現次數輸出。這篇文章介紹如何使用字典統計出現次數，和字典取交集的方法來解決此問題。並提供了複雜度分析和關鍵知識點。

#python#leetcode#algorithm

2024/06/05

小松鼠的演算法樂園

物以類聚尋找共同的字元_字典應用_Leetcode #1002

#python#leetcode#algorithm

2024/06/05

sen的沙龍

上古漢語的邏輯結構 000

目錄序導論: 一個西方觀點的評述 1.0 從函數到函數算法 ......1.1 句子成份

#上古漢語#邏輯結構#哲學

2024/05/09

sen的沙龍

上古漢語的邏輯結構 000

目錄序導論: 一個西方觀點的評述 1.0 從函數到函數算法 ......1.1 句子成份

#上古漢語#邏輯結構#哲學

2024/05/09

貓貓學習筆記

圖像風格轉換(一)-風格轉換初探

　　最近遇到一些人想做音訊的合成，我回答他或許可以從圖像風格轉換中找到些靈感，我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何，對於內部訓練邏輯及結構並沒有認真的去了解，現在剛好趁此機會好好的學習一下。

#AI#StyleTransfer#Pytorch

2024/05/06

貓貓學習筆記

圖像風格轉換(一)-風格轉換初探

#AI#StyleTransfer#Pytorch

2024/05/06

小松鼠的演算法樂園

化繁為簡: 映射化簡的演算法技巧

演算法映射化簡的核心觀念在面對新題目的時候，除了重頭想一個新的演算法之外；還有另一個方法，想看看有沒有核心觀念彼此相同的問題與演算法，如果有，就可以把新的題目映射化簡到已知解法的問題，用已知的演算法去解開。接著，我們會介紹幾個範例，並且使用映射化簡的技巧來解題，透過化

#leetcode#python#algorithm

2024/04/30

小松鼠的演算法樂園

化繁為簡: 映射化簡的演算法技巧

#leetcode#python#algorithm

2024/04/30

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News