異常值的檢測方法

更新於 發佈於 閱讀時間約 2 分鐘

異常值的檢測方法主要可分為統計方法、機器學習方法和基於距離或密度的方法,這些方法能幫助識別數據中偏離正常模式的點,常用於資料清理、風險控制及異常事件偵測。

常見異常值檢測方法:

1. 統計方法

Z-Score標準化:計算數據點距離平均值的標準差距離,通常超過3倍標準差的被視為異常。

四分位數範圍法(IQR):計算上四分位數(Q3)和下四分位數(Q1)之間的距離,凡超過 或 的數據點視為異常。

假設檢驗:基於特定分布假設檢驗數據點是否符合該分布。

2. 距離和密度方法

最近鄰距離(k-NN):計算數據點與其最近鄰的距離,距離大者判定為異常。

局部離群因子(LOF):評估點密度相對於其鄰居的密度,密度明顯較低的為異常值。

3. 機器學習方法

孤立森林(Isolation Forest):透過隨機切割數據以孤立異常點,異常點被孤立的平均步驟較少。

支持向量機異常檢測(One-Class SVM):找出包圍正常數據的超平面,外部點為異常。

自編碼器(Autoencoder):利用神經網絡重建數據,重建誤差高的點被視為異常。

時間序列異常檢測:對於時序數據,利用趨勢、季節性分解及預測誤差來識別異常。

檢測異常值的挑戰:

特徵選取難題,異常值的表現形式多樣。

正常與異常邊界不明確。

標記資料缺乏,異常資料稀少。

資料噪聲和動態變化影響檢測準確度。

簡單比喻:

異常檢測就像是在一大群人中找出不合群的那幾個特別的“奇葩”,方法多樣且各有側重。

總結:

異常值檢測方法包括統計指標、距離密度評估與多種機器學習技術,根據特定應用與數據類型選擇合適方法,以精準識別與處理異常數據。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
17會員
455內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
Thumbnail
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
Thumbnail
選舉民調是預測選舉結果的重要工具。然而,如果我們不了解樣本和母體的概念,就很容易被民調結果誤導。 在本文中,我們將介紹樣本和母體的概念,以及它們對民調結果的影響。我們還將提供一些在閱讀民調報告時的注意事項。
Thumbnail
選舉民調是預測選舉結果的重要工具。然而,如果我們不了解樣本和母體的概念,就很容易被民調結果誤導。 在本文中,我們將介紹樣本和母體的概念,以及它們對民調結果的影響。我們還將提供一些在閱讀民調報告時的注意事項。
Thumbnail
接續上一篇,繼續來講如何從常態分布的機率進行假設檢定,進而推論母體的平均數吧! 這篇會提到否證的邏輯、魔法數字0.5以及統計檢定到底是什麼這三個主題。
Thumbnail
接續上一篇,繼續來講如何從常態分布的機率進行假設檢定,進而推論母體的平均數吧! 這篇會提到否證的邏輯、魔法數字0.5以及統計檢定到底是什麼這三個主題。
Thumbnail
 當開啟試算表(EXCEL等)的累加(SUM)及離散度,標準差(STDEV)的運算功能後,逐一統計的累進報票式選票統計表就可以退休了,而且全國一萬七千多所的數據不待一所所列出,就可以用較小選區(例如嘉義市198所,宜蘭縣431所等)的統計過程證明統計結果都是正確的,尤其是將計算式列出(隱藏前面的
Thumbnail
 當開啟試算表(EXCEL等)的累加(SUM)及離散度,標準差(STDEV)的運算功能後,逐一統計的累進報票式選票統計表就可以退休了,而且全國一萬七千多所的數據不待一所所列出,就可以用較小選區(例如嘉義市198所,宜蘭縣431所等)的統計過程證明統計結果都是正確的,尤其是將計算式列出(隱藏前面的
Thumbnail
  在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率,而更之前也看過了抽樣分布是如何形成常態分布的過程,現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。
Thumbnail
  在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率,而更之前也看過了抽樣分布是如何形成常態分布的過程,現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。
Thumbnail
依照中央極限定理,我們可以得知(獨立且隨機樣本的)抽樣分布最終會形成常態分佈,那麼這件事情到底為什麼很重要呢? 這篇文章就來介紹一些常態分布的基本特性,以及最重要的──常態分布怎麼幫助我們計算機率。
Thumbnail
依照中央極限定理,我們可以得知(獨立且隨機樣本的)抽樣分布最終會形成常態分佈,那麼這件事情到底為什麼很重要呢? 這篇文章就來介紹一些常態分布的基本特性,以及最重要的──常態分布怎麼幫助我們計算機率。
Thumbnail
由 醜媳婦總是要見公婆-績效報表 的最佳化報表可知,無論我們將連續創高或創低的K棒數如何改變,均不可能讓淨利變正,代表我們不可能靠單一個指標值來獲利,此時改善方式只能再回到觀察圖表,由圖表中的訊號觀察是否有什麼改善方式。 由圖表中可發現當標示的紅點或綠點離均線越遠,則進場的時機點越好,如果可以增加
Thumbnail
由 醜媳婦總是要見公婆-績效報表 的最佳化報表可知,無論我們將連續創高或創低的K棒數如何改變,均不可能讓淨利變正,代表我們不可能靠單一個指標值來獲利,此時改善方式只能再回到觀察圖表,由圖表中的訊號觀察是否有什麼改善方式。 由圖表中可發現當標示的紅點或綠點離均線越遠,則進場的時機點越好,如果可以增加
Thumbnail
承續前篇內容,另外使用第二種隨機性檢定方式,來判斷價格是否處於盤整盤,假若為盤整盤,價格應集中在均線位置附近或是前後相鄰的數值差異很小,數據計算方法如下
Thumbnail
承續前篇內容,另外使用第二種隨機性檢定方式,來判斷價格是否處於盤整盤,假若為盤整盤,價格應集中在均線位置附近或是前後相鄰的數值差異很小,數據計算方法如下
Thumbnail
假設你有一串時間數列資料,資料時間長度可以是Tick、分鐘K,也可以是日K的等級,請問有甚麼方法可以評估是否為盤整盤 ?
Thumbnail
假設你有一串時間數列資料,資料時間長度可以是Tick、分鐘K,也可以是日K的等級,請問有甚麼方法可以評估是否為盤整盤 ?
Thumbnail
小心「誘導統計數據」的陷阱。問題不在於指標本身,而在於過度執著於指標——也就是過度評估和不適當的評估方式。
Thumbnail
小心「誘導統計數據」的陷阱。問題不在於指標本身,而在於過度執著於指標——也就是過度評估和不適當的評估方式。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News