Hashing Encoding (雜湊編號)又稱 Feature Hashing(特徵哈希)

更新 發佈閱讀 2 分鐘

Feature Hashing(特徵哈希)又稱為哈希技巧(Hashing Trick),是一種用於將大量、尤其是類別型或文本特徵快速且節省記憶體地轉換為固定長度數值向量的方法。

Feature Hashing的原理:

對每個特徵名稱或特徵值應用哈希函數,將其映射為一個固定維度向量中的索引位置。

在得到的索引位置上對向量值進行累加(可用+1或+/-1進行碰撞抵消)。

這樣避免了維護完整的大字典,節省記憶體,且能處理非常大且稀疏的特徵空間。

缺點是會發生哈希碰撞,不同特徵可能映射到相同索引,但通常碰撞對性能影響有限。

Feature Hashing的應用:

常用於自然語言處理(NLP)的文字特徵向量化。

大規模數據流或在線學習,因為無需維護全字典。

也用於多任務學習、稀疏矩陣壓縮、深度學習的嵌入向量初始化等。

優點

快速且節省記憶體。

無需手動管理詞彙表或特徵字典。

適合大規模和動態特徵空間。

簡單比喻:

Feature Hashing就像用定長的信箱收信,所有郵件(特徵)按地址(哈希)被放到固定數量的信箱中,部分不同信件可能放在同一信箱(碰撞),但整體有效管理郵件。

總結:

Feature Hashing是一種利用哈希函數將大規模、高維類別或文本特徵映射成固定長度數值向量的技巧,實現快速、節省記憶體並適用於大數據場景。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
29會員
495內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)
2025/09/03
偏差(Deviation)、方差(Variance)、誤差(Error)三者的定義與差異如下: 偏差是指每一個數據值與其平均值之間的差異,是個別數據點距離中心的距離,會有正負值且總和必為零。為了衡量數據的離散程度,不直接用偏差而用偏差平方的平均值即方差。 方差是偏差平方的平均值,代表數據分布的變
2025/09/03
偏差(Deviation)、方差(Variance)、誤差(Error)三者的定義與差異如下: 偏差是指每一個數據值與其平均值之間的差異,是個別數據點距離中心的距離,會有正負值且總和必為零。為了衡量數據的離散程度,不直接用偏差而用偏差平方的平均值即方差。 方差是偏差平方的平均值,代表數據分布的變
2025/09/03
超參數調優是指在機器學習中,通過尋找最佳組合的超參數值來提升模型性能的過程。超參數是指在訓練前需設定,且不通過模型訓練自動學習的參數,如學習率、批次大小、樹的深度等。 常用的超參數調優方法: 1. 網格搜尋(Grid Search) • 對預定的超參數範圍進行系統遍歷,嘗試所有組合,找到表
2025/09/03
超參數調優是指在機器學習中,通過尋找最佳組合的超參數值來提升模型性能的過程。超參數是指在訓練前需設定,且不通過模型訓練自動學習的參數,如學習率、批次大小、樹的深度等。 常用的超參數調優方法: 1. 網格搜尋(Grid Search) • 對預定的超參數範圍進行系統遍歷,嘗試所有組合,找到表
2025/09/03
交叉驗證(Cross-Validation)是一種評估和選擇機器學習模型的重要方法,透過將數據集分割成多個子集,多次訓練和驗證模型,來獲得對模型泛化能力更可靠的估計。 常見交叉驗證方法: 1. k折交叉驗證(k-Fold Cross-Validation) • 將數據分成k個大小相近的子集
2025/09/03
交叉驗證(Cross-Validation)是一種評估和選擇機器學習模型的重要方法,透過將數據集分割成多個子集,多次訓練和驗證模型,來獲得對模型泛化能力更可靠的估計。 常見交叉驗證方法: 1. k折交叉驗證(k-Fold Cross-Validation) • 將數據分成k個大小相近的子集
看更多
你可能也想看
Thumbnail
雙11於許多人而言,不只是單純的折扣狂歡,更是行事曆裡預定的,對美好生活的憧憬。 錢錢沒有不見,它變成了快樂,跟讓臥房、辦公桌、每天早晨的咖啡香升級的樣子! 這次格編突擊辦公室,也邀請 vocus「野格團」創作者分享掀開蝦皮購物車的簾幕,「加入購物車」的瞬間,藏著哪些靈感,或是對美好生活的想像?
Thumbnail
雙11於許多人而言,不只是單純的折扣狂歡,更是行事曆裡預定的,對美好生活的憧憬。 錢錢沒有不見,它變成了快樂,跟讓臥房、辦公桌、每天早晨的咖啡香升級的樣子! 這次格編突擊辦公室,也邀請 vocus「野格團」創作者分享掀開蝦皮購物車的簾幕,「加入購物車」的瞬間,藏著哪些靈感,或是對美好生活的想像?
Thumbnail
雙11購物節準備開跑,蝦皮推出超多優惠,與你分享實際入手的收納好物,包括貨櫃收納箱、真空收納袋、可站立筆袋等,並分享如何利用蝦皮分潤計畫,一邊購物一邊賺取額外收入,讓你買得開心、賺得也開心!
Thumbnail
雙11購物節準備開跑,蝦皮推出超多優惠,與你分享實際入手的收納好物,包括貨櫃收納箱、真空收納袋、可站立筆袋等,並分享如何利用蝦皮分潤計畫,一邊購物一邊賺取額外收入,讓你買得開心、賺得也開心!
Thumbnail
分享個人在新家裝潢後,精選 5 款蝦皮上的實用家居好物,包含客製化層架、MIT 地毯、沙發邊桌、分類垃圾桶及寵物碗架,從尺寸、功能到價格都符合需求,並提供詳細開箱心得與購買建議。
Thumbnail
分享個人在新家裝潢後,精選 5 款蝦皮上的實用家居好物,包含客製化層架、MIT 地毯、沙發邊桌、分類垃圾桶及寵物碗架,從尺寸、功能到價格都符合需求,並提供詳細開箱心得與購買建議。
Thumbnail
高中數學主題練習—對數方程式
Thumbnail
高中數學主題練習—對數方程式
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
承繼上一篇我所提到的劇本,我今天意識到「標籤」,其實就是一個簡化版、濃縮版的劇本 什麼是標籤? 像 MBTI、XX症、XX學校畢業的,都是一個標籤 他的詞彙很短,但背後蘊含了大量的價值觀 (應該說,蘊含了大量言談者所「認為」的價值觀)
Thumbnail
承繼上一篇我所提到的劇本,我今天意識到「標籤」,其實就是一個簡化版、濃縮版的劇本 什麼是標籤? 像 MBTI、XX症、XX學校畢業的,都是一個標籤 他的詞彙很短,但背後蘊含了大量的價值觀 (應該說,蘊含了大量言談者所「認為」的價值觀)
Thumbnail
給定一個字串陣列,請把它們所共有的字元伴隨著出現次數輸出。這篇文章介紹如何使用字典統計出現次數,和字典取交集的方法來解決此問題。並提供了複雜度分析和關鍵知識點。
Thumbnail
給定一個字串陣列,請把它們所共有的字元伴隨著出現次數輸出。這篇文章介紹如何使用字典統計出現次數,和字典取交集的方法來解決此問題。並提供了複雜度分析和關鍵知識點。
Thumbnail
目錄 序 導論: 一個西方觀點的評述 1.0 從函數到函數算法 ......1.1 句子成份
Thumbnail
目錄 序 導論: 一個西方觀點的評述 1.0 從函數到函數算法 ......1.1 句子成份
Thumbnail
  最近遇到一些人想做音訊的合成,我回答他或許可以從圖像風格轉換中找到些靈感,我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何,對於內部訓練邏輯及結構並沒有認真的去了解,現在剛好趁此機會好好的學習一下。
Thumbnail
  最近遇到一些人想做音訊的合成,我回答他或許可以從圖像風格轉換中找到些靈感,我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何,對於內部訓練邏輯及結構並沒有認真的去了解,現在剛好趁此機會好好的學習一下。
Thumbnail
演算法映射化簡的核心觀念 在面對新題目的時候,除了重頭想一個新的演算法之外; 還有另一個方法,想看看有沒有核心觀念彼此相同的問題與演算法, 如果有,就可以把新的題目映射化簡到已知解法的問題,用已知的演算法去解開。 接著,我們會介紹幾個範例,並且使用映射化簡的技巧來解題,透過化
Thumbnail
演算法映射化簡的核心觀念 在面對新題目的時候,除了重頭想一個新的演算法之外; 還有另一個方法,想看看有沒有核心觀念彼此相同的問題與演算法, 如果有,就可以把新的題目映射化簡到已知解法的問題,用已知的演算法去解開。 接著,我們會介紹幾個範例,並且使用映射化簡的技巧來解題,透過化
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News