SIFT(Scale-Invariant Feature Transformer)

更新於 發佈於 閱讀時間約 5 分鐘

「SIFT (Scale-Invariant Feature Transform)」是一種電腦視覺算法,用於從數位圖像中提取局部特徵點 (keypoints),這些特徵點在圖像縮放、旋轉、亮度變化甚至一定程度的視角變化下都具有高度的不變性 (invariance)

你可以將 SIFT 想像成在圖像中尋找一些非常獨特的「地標」,即使你從不同的角度、不同的距離或者在不同的光線條件下觀察這個物體,這些地標仍然可以被可靠地找到和識別。

SIFT 算法的主要目標:

  • 提取關鍵點 (Keypoint Detection): 在圖像中找到一些具有獨特性的位置,這些位置通常位於物體的角點、邊緣、紋理豐富的區域等。
  • 計算描述子 (Descriptor Computation): 為每個檢測到的關鍵點生成一個描述子向量。這個描述子向量包含了關鍵點周圍區域的局部梯度信息,能夠唯一地表示該關鍵點的特徵。
  • 實現尺度不變性 (Scale Invariance): 確保在圖像縮放時,相同的關鍵點仍然可以被檢測到,並且具有相似的描述子。
  • 實現旋轉不變性 (Rotation Invariance): 確保在圖像旋轉時,相同的關鍵點仍然可以被檢測到,並且描述子能夠被調整以保持一致性。
  • 對光照變化和一定程度的視角變化具有魯棒性 (Robustness to Illumination and Minor Viewpoint Changes): 算法設計考慮了這些因素的影響,使得提取的特徵點在這些條件下仍然可靠。

SIFT 算法的主要步驟:

  1. 尺度空間極值檢測 (Scale-space Extrema Detection):
    • 該步驟旨在在不同的尺度下尋找圖像中的「興趣點」。通過對原始圖像進行不同程度的高斯模糊,創建一個尺度空間。 然後,在每個尺度下,檢測圖像中的局部極值點(與其周圍的像素點以及相鄰尺度上的像素點進行比較)。這些極值點被認為是潛在的關鍵點。
  2. 關鍵點定位 (Keypoint Localization):
    • 對檢測到的潛在關鍵點進行精確的定位,並去除不穩定的關鍵點(例如位於邊緣上的或對噪聲敏感的關鍵點)。
  3. 方向分配 (Orientation Assignment):
    • 為每個關鍵點分配一個或多個主要的梯度方向。通過計算關鍵點周圍區域的梯度幅值和方向,並找到梯度方向的峰值來實現。這個步驟賦予了 SIFT 特徵旋轉不變性。
  4. 關鍵點描述子生成 (Keypoint Descriptor Generation):
    • 對於每個已確定位置和方向的關鍵點,在其周圍的一個鄰域內(通常是 16x16 的像素區域),計算局部梯度方向的直方圖。 這個鄰域被劃分為若干個子區域(例如 4x4 個子區域),每個子區域計算一個 8 方向的梯度直方圖。 將所有子區域的直方圖組合起來,形成一個固定長度的特徵向量(通常是 128 維),這個向量就是該關鍵點的描述子。

SIFT 的應用:

SIFT 特徵由於其獨特性和不變性,被廣泛應用於許多電腦視覺任務中,包括:

  • 圖像匹配 (Image Matching): 在不同的圖像中尋找相同的物體或場景。
  • 目標識別 (Object Recognition): 通過匹配圖像中的 SIFT 特徵與已知物體的 SIFT 特徵庫來識別物體。
  • 圖像拼接 (Image Stitching): 將多張圖像拼接成一張全景圖。
  • 三維重建 (3D Reconstruction): 從多個視角的圖像中重建三維模型。
  • 物體追蹤 (Object Tracking): 在影片序列中追蹤特定物體的運動。
  • 圖像檢索 (Image Retrieval): 根據圖像的內容檢索相似的圖像。

總結來說,SIFT 是一種強大的局部特徵提取算法,它能夠在圖像發生尺度、旋轉、光照和一定程度視角變化時,可靠地提取出具有獨特性的關鍵點和描述子,是電腦視覺領域非常經典和重要的技術之一。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
4會員
164內容數
現職 : 富邦建設資訊副理 經濟部 iPAS AI應用規劃師
2025/05/26
電腦圖學(Computer Graphics)是一門利用電腦生成和處理圖像的學科。簡單來說,它涉及使用電腦軟硬體來創造、修改和呈現視覺內容,例如照片、動畫、3D模型、使用者介面等等。 從您的搜尋紀錄來看,您似乎對科技和應用程式開發有一定的興趣(例如搜尋了 "iPas AI應用規劃師", "goog
2025/05/26
電腦圖學(Computer Graphics)是一門利用電腦生成和處理圖像的學科。簡單來說,它涉及使用電腦軟硬體來創造、修改和呈現視覺內容,例如照片、動畫、3D模型、使用者介面等等。 從您的搜尋紀錄來看,您似乎對科技和應用程式開發有一定的興趣(例如搜尋了 "iPas AI應用規劃師", "goog
2025/05/26
「圖像標準化 (Image Normalization)」是指在將圖像數據用於機器學習模型或其他分析之前,對圖像的像素值進行調整,使其落入一個特定的範圍或具有特定的統計特性(例如,零均值和單位方差)。這個過程旨在提高模型的性能、穩定性和泛化能力。 你可以將圖像標準化想像成調整不同照片的光線和色彩,
2025/05/26
「圖像標準化 (Image Normalization)」是指在將圖像數據用於機器學習模型或其他分析之前,對圖像的像素值進行調整,使其落入一個特定的範圍或具有特定的統計特性(例如,零均值和單位方差)。這個過程旨在提高模型的性能、穩定性和泛化能力。 你可以將圖像標準化想像成調整不同照片的光線和色彩,
2025/05/26
「圖像尺寸調整 (Image Resizing)」是指改變數位圖像的寬度和高度的過程。這可以用來縮小圖像以減小文件大小、放大圖像以查看更多細節,或者將圖像調整到特定的顯示尺寸或比例。 圖像尺寸調整的方法主要可以分為以下幾類: 1. 基於像素抽樣的方法 (Pixel Sampling Method
2025/05/26
「圖像尺寸調整 (Image Resizing)」是指改變數位圖像的寬度和高度的過程。這可以用來縮小圖像以減小文件大小、放大圖像以查看更多細節,或者將圖像調整到特定的顯示尺寸或比例。 圖像尺寸調整的方法主要可以分為以下幾類: 1. 基於像素抽樣的方法 (Pixel Sampling Method
看更多
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
  最近遇到一些人想做音訊的合成,我回答他或許可以從圖像風格轉換中找到些靈感,我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何,對於內部訓練邏輯及結構並沒有認真的去了解,現在剛好趁此機會好好的學習一下。
Thumbnail
  最近遇到一些人想做音訊的合成,我回答他或許可以從圖像風格轉換中找到些靈感,我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何,對於內部訓練邏輯及結構並沒有認真的去了解,現在剛好趁此機會好好的學習一下。
Thumbnail
直方圖是對圖像中像素強度分布的圖形表示。通過分析直方圖,我們可以獲得有關圖像對比度、亮度和色彩分佈的有用信息。
Thumbnail
直方圖是對圖像中像素強度分布的圖形表示。通過分析直方圖,我們可以獲得有關圖像對比度、亮度和色彩分佈的有用信息。
Thumbnail
點陣圖 點陣圖是由許多方格像素組成的圖片, 因此我們常常在將圖片放大時會呈現像是馬賽克的狀況, 假設期望圖片越清晰那所需要的像素會較多個, 因此空間耗用量也相對較大。 常見的格式有: .JPG .PNG .GIF .BMP .TIFF等格式。 繪製程式碼: 向量圖 向量
Thumbnail
點陣圖 點陣圖是由許多方格像素組成的圖片, 因此我們常常在將圖片放大時會呈現像是馬賽克的狀況, 假設期望圖片越清晰那所需要的像素會較多個, 因此空間耗用量也相對較大。 常見的格式有: .JPG .PNG .GIF .BMP .TIFF等格式。 繪製程式碼: 向量圖 向量
Thumbnail
涉及圖像處理和計算機視覺時,色彩空間轉換是一個常見操作,應用如下: 降維: 將一張彩色圖像轉換為灰度圖像可以減少數據的維度,簡化處理過程,同時在某些情況下保留重要的視覺信息。 突顯特徵: 在某些情況下,某些色彩通道可能包含冗餘或不必要的信息,通過轉換到其他色彩空間,可以更好地突顯圖像中的重要特徵
Thumbnail
涉及圖像處理和計算機視覺時,色彩空間轉換是一個常見操作,應用如下: 降維: 將一張彩色圖像轉換為灰度圖像可以減少數據的維度,簡化處理過程,同時在某些情況下保留重要的視覺信息。 突顯特徵: 在某些情況下,某些色彩通道可能包含冗餘或不必要的信息,通過轉換到其他色彩空間,可以更好地突顯圖像中的重要特徵
Thumbnail
下面使用一些關鍵字,來看看是否能嘗試控制鏡頭角度。不過,請注意,Stable Diffusion 派的 AI 生圖系統能否看懂提示詞?能看懂多少?是要看模型的,所以...
Thumbnail
下面使用一些關鍵字,來看看是否能嘗試控制鏡頭角度。不過,請注意,Stable Diffusion 派的 AI 生圖系統能否看懂提示詞?能看懂多少?是要看模型的,所以...
Thumbnail
形態學操作在影像處理中有多種應用,特別是在處理二值化影像(黑白影像)。 在影像處理應用上,基本上都由侵蝕,膨脹這兩種方法,組合搭配而成。 常見應用場景 物體檢測與分割: 形態學操作可以用於增強或改善二值化影像中的物體邊界,使得物體的檢測和分割更加準確。
Thumbnail
形態學操作在影像處理中有多種應用,特別是在處理二值化影像(黑白影像)。 在影像處理應用上,基本上都由侵蝕,膨脹這兩種方法,組合搭配而成。 常見應用場景 物體檢測與分割: 形態學操作可以用於增強或改善二值化影像中的物體邊界,使得物體的檢測和分割更加準確。
Thumbnail
前篇測試如何把提示詞生成的圖像細節提高,這篇要測試的工作流是把任意圖像載入後經由放大模型放大,同時測試放大後重繪看看效果如何。
Thumbnail
前篇測試如何把提示詞生成的圖像細節提高,這篇要測試的工作流是把任意圖像載入後經由放大模型放大,同時測試放大後重繪看看效果如何。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News