SIFT(Scale-Invariant Feature Transformer)

2025/08/08 更新2025/05/26 發佈閱讀 5 分鐘

「SIFT (Scale-Invariant Feature Transform)」是一種電腦視覺算法，用於從數位圖像中提取局部特徵點 (keypoints)，這些特徵點在圖像縮放、旋轉、亮度變化甚至一定程度的視角變化下都具有高度的不變性 (invariance)。

你可以將 SIFT 想像成在圖像中尋找一些非常獨特的「地標」，即使你從不同的角度、不同的距離或者在不同的光線條件下觀察這個物體，這些地標仍然可以被可靠地找到和識別。

SIFT 算法的主要目標：

提取關鍵點 (Keypoint Detection): 在圖像中找到一些具有獨特性的位置，這些位置通常位於物體的角點、邊緣、紋理豐富的區域等。
計算描述子 (Descriptor Computation): 為每個檢測到的關鍵點生成一個描述子向量。這個描述子向量包含了關鍵點周圍區域的局部梯度信息，能夠唯一地表示該關鍵點的特徵。
實現尺度不變性 (Scale Invariance): 確保在圖像縮放時，相同的關鍵點仍然可以被檢測到，並且具有相似的描述子。
實現旋轉不變性 (Rotation Invariance): 確保在圖像旋轉時，相同的關鍵點仍然可以被檢測到，並且描述子能夠被調整以保持一致性。
對光照變化和一定程度的視角變化具有魯棒性 (Robustness to Illumination and Minor Viewpoint Changes): 算法設計考慮了這些因素的影響，使得提取的特徵點在這些條件下仍然可靠。

SIFT 算法的主要步驟：

尺度空間極值檢測 (Scale-space Extrema Detection):
- 該步驟旨在在不同的尺度下尋找圖像中的「興趣點」。通過對原始圖像進行不同程度的高斯模糊，創建一個尺度空間。然後，在每個尺度下，檢測圖像中的局部極值點（與其周圍的像素點以及相鄰尺度上的像素點進行比較）。這些極值點被認為是潛在的關鍵點。
關鍵點定位 (Keypoint Localization):
- 對檢測到的潛在關鍵點進行精確的定位，並去除不穩定的關鍵點（例如位於邊緣上的或對噪聲敏感的關鍵點）。
方向分配 (Orientation Assignment):
- 為每個關鍵點分配一個或多個主要的梯度方向。通過計算關鍵點周圍區域的梯度幅值和方向，並找到梯度方向的峰值來實現。這個步驟賦予了 SIFT 特徵旋轉不變性。
關鍵點描述子生成 (Keypoint Descriptor Generation):
- 對於每個已確定位置和方向的關鍵點，在其周圍的一個鄰域內（通常是 16x16 的像素區域），計算局部梯度方向的直方圖。這個鄰域被劃分為若干個子區域（例如 4x4 個子區域），每個子區域計算一個 8 方向的梯度直方圖。將所有子區域的直方圖組合起來，形成一個固定長度的特徵向量（通常是 128 維），這個向量就是該關鍵點的描述子。

SIFT 的應用：

SIFT 特徵由於其獨特性和不變性，被廣泛應用於許多電腦視覺任務中，包括：