FID(Fréchet Inception Distance)是一種用來評估生成式模型(如GAN或擴散模型)所產生圖像品質的指標。其核心目標是比較生成圖像與真實圖像的分布差異,以量化生成圖像的真實性和多樣性。
FID 的工作原理
• 使用預訓練的 Inception-v3 網路提取生成圖像和真實圖像的高維特徵向量(通常取最後池化層的2048維特徵)。• 假設這兩組特徵符合多維高斯分布,計算兩個高斯分布的均值和協方差矩陣。
• 利用 Fréchet 距離(或稱 Wasserstein-2 距離)衡量這兩個分布間的差距。
• FID 值越小代表生成圖像的質量和多樣性越接近真實圖像,分數為 0 表示完美匹配。
FID的優點與應用
• 比較整體分布而不是單張圖片,能有效捕捉圖像質量和樣本多樣性。
• 是目前生成式模型(如 StyleGAN、Stable Diffusion)評估的標準指標之一。
• 能對模糊、噪聲等圖像質量下降敏感。
限制和改進
• FID 假設特徵服從高斯分布,可能影響精準度。
• 需要大量圖像樣本才能穩定估計。
• 研究者提出使用CLIP特徵或其他指標來改進評估準確性。
總結:
FID 是一種基於深度特徵分布差異衡量生成圖像質量的指標,數值越小代表生成結果越真實和多樣化,是現今圖像生成模型效果最重要的量化評估工具。