Hashing Encoding (雜湊編號)又稱 Feature Hashing(特徵哈希)

更新於 發佈於 閱讀時間約 2 分鐘

Feature Hashing(特徵哈希)又稱為哈希技巧(Hashing Trick),是一種用於將大量、尤其是類別型或文本特徵快速且節省記憶體地轉換為固定長度數值向量的方法。

Feature Hashing的原理:

對每個特徵名稱或特徵值應用哈希函數,將其映射為一個固定維度向量中的索引位置。

在得到的索引位置上對向量值進行累加(可用+1或+/-1進行碰撞抵消)。

這樣避免了維護完整的大字典,節省記憶體,且能處理非常大且稀疏的特徵空間。

缺點是會發生哈希碰撞,不同特徵可能映射到相同索引,但通常碰撞對性能影響有限。

Feature Hashing的應用:

常用於自然語言處理(NLP)的文字特徵向量化。

大規模數據流或在線學習,因為無需維護全字典。

也用於多任務學習、稀疏矩陣壓縮、深度學習的嵌入向量初始化等。

優點

快速且節省記憶體。

無需手動管理詞彙表或特徵字典。

適合大規模和動態特徵空間。

簡單比喻:

Feature Hashing就像用定長的信箱收信,所有郵件(特徵)按地址(哈希)被放到固定數量的信箱中,部分不同信件可能放在同一信箱(碰撞),但整體有效管理郵件。

總結:

Feature Hashing是一種利用哈希函數將大規模、高維類別或文本特徵映射成固定長度數值向量的技巧,實現快速、節省記憶體並適用於大數據場景。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
18會員
478內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)
2025/09/03
偏差(Deviation)、方差(Variance)、誤差(Error)三者的定義與差異如下: 偏差是指每一個數據值與其平均值之間的差異,是個別數據點距離中心的距離,會有正負值且總和必為零。為了衡量數據的離散程度,不直接用偏差而用偏差平方的平均值即方差。 方差是偏差平方的平均值,代表數據分布的變
2025/09/03
偏差(Deviation)、方差(Variance)、誤差(Error)三者的定義與差異如下: 偏差是指每一個數據值與其平均值之間的差異,是個別數據點距離中心的距離,會有正負值且總和必為零。為了衡量數據的離散程度,不直接用偏差而用偏差平方的平均值即方差。 方差是偏差平方的平均值,代表數據分布的變
2025/09/03
超參數調優是指在機器學習中,通過尋找最佳組合的超參數值來提升模型性能的過程。超參數是指在訓練前需設定,且不通過模型訓練自動學習的參數,如學習率、批次大小、樹的深度等。 常用的超參數調優方法: 1. 網格搜尋(Grid Search) • 對預定的超參數範圍進行系統遍歷,嘗試所有組合,找到表
2025/09/03
超參數調優是指在機器學習中,通過尋找最佳組合的超參數值來提升模型性能的過程。超參數是指在訓練前需設定,且不通過模型訓練自動學習的參數,如學習率、批次大小、樹的深度等。 常用的超參數調優方法: 1. 網格搜尋(Grid Search) • 對預定的超參數範圍進行系統遍歷,嘗試所有組合,找到表
2025/09/03
交叉驗證(Cross-Validation)是一種評估和選擇機器學習模型的重要方法,透過將數據集分割成多個子集,多次訓練和驗證模型,來獲得對模型泛化能力更可靠的估計。 常見交叉驗證方法: 1. k折交叉驗證(k-Fold Cross-Validation) • 將數據分成k個大小相近的子集
2025/09/03
交叉驗證(Cross-Validation)是一種評估和選擇機器學習模型的重要方法,透過將數據集分割成多個子集,多次訓練和驗證模型,來獲得對模型泛化能力更可靠的估計。 常見交叉驗證方法: 1. k折交叉驗證(k-Fold Cross-Validation) • 將數據分成k個大小相近的子集
看更多
你可能也想看
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
高中數學主題練習—對數方程式
Thumbnail
高中數學主題練習—對數方程式
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
承繼上一篇我所提到的劇本,我今天意識到「標籤」,其實就是一個簡化版、濃縮版的劇本 什麼是標籤? 像 MBTI、XX症、XX學校畢業的,都是一個標籤 他的詞彙很短,但背後蘊含了大量的價值觀 (應該說,蘊含了大量言談者所「認為」的價值觀)
Thumbnail
承繼上一篇我所提到的劇本,我今天意識到「標籤」,其實就是一個簡化版、濃縮版的劇本 什麼是標籤? 像 MBTI、XX症、XX學校畢業的,都是一個標籤 他的詞彙很短,但背後蘊含了大量的價值觀 (應該說,蘊含了大量言談者所「認為」的價值觀)
Thumbnail
給定一個字串陣列,請把它們所共有的字元伴隨著出現次數輸出。這篇文章介紹如何使用字典統計出現次數,和字典取交集的方法來解決此問題。並提供了複雜度分析和關鍵知識點。
Thumbnail
給定一個字串陣列,請把它們所共有的字元伴隨著出現次數輸出。這篇文章介紹如何使用字典統計出現次數,和字典取交集的方法來解決此問題。並提供了複雜度分析和關鍵知識點。
Thumbnail
目錄 序 導論: 一個西方觀點的評述 1.0 從函數到函數算法 ......1.1 句子成份
Thumbnail
目錄 序 導論: 一個西方觀點的評述 1.0 從函數到函數算法 ......1.1 句子成份
Thumbnail
  最近遇到一些人想做音訊的合成,我回答他或許可以從圖像風格轉換中找到些靈感,我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何,對於內部訓練邏輯及結構並沒有認真的去了解,現在剛好趁此機會好好的學習一下。
Thumbnail
  最近遇到一些人想做音訊的合成,我回答他或許可以從圖像風格轉換中找到些靈感,我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何,對於內部訓練邏輯及結構並沒有認真的去了解,現在剛好趁此機會好好的學習一下。
Thumbnail
演算法映射化簡的核心觀念 在面對新題目的時候,除了重頭想一個新的演算法之外; 還有另一個方法,想看看有沒有核心觀念彼此相同的問題與演算法, 如果有,就可以把新的題目映射化簡到已知解法的問題,用已知的演算法去解開。 接著,我們會介紹幾個範例,並且使用映射化簡的技巧來解題,透過化
Thumbnail
演算法映射化簡的核心觀念 在面對新題目的時候,除了重頭想一個新的演算法之外; 還有另一個方法,想看看有沒有核心觀念彼此相同的問題與演算法, 如果有,就可以把新的題目映射化簡到已知解法的問題,用已知的演算法去解開。 接著,我們會介紹幾個範例,並且使用映射化簡的技巧來解題,透過化
Thumbnail
瞭解人生決策過程中的關鍵能力,包括把握人生精度、看透世界本質、提升決策品質、思維進化與重啟、領導/管理智慧鑑識以及精進商業模式。學習在判斷力、思考維度、槓桿和深度思考方面提高自己的能力,同時改變思維模式和成功經營模式,挑戰自我,在市場競逐中找到關鍵的能力。
Thumbnail
瞭解人生決策過程中的關鍵能力,包括把握人生精度、看透世界本質、提升決策品質、思維進化與重啟、領導/管理智慧鑑識以及精進商業模式。學習在判斷力、思考維度、槓桿和深度思考方面提高自己的能力,同時改變思維模式和成功經營模式,挑戰自我,在市場競逐中找到關鍵的能力。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News