直覺來說注意力機制是我們如何對圖像的不同區域進行視覺關注或如何關聯句子中的詞語。人類的視覺注意力允許我們以「高解析度」聚焦於特定區域(例如,看黃色框中的尖角),同時以「低解析度」感知周圍的圖像(例如,現在雪地背景和服裝如何?),然後相應地調整焦點或進行推理。給定圖像的一小塊區域,其餘像素提供了那裡應該顯示什麼的線索。
以下研究[1],將注意力機制在圖像分類中作為預測的重要線索。左側是輸入圖像,右側的黑白圖像顯示了判斷中重要的部分(上面是現有方法,下面是提議的方法)。如果將此應用於病理診斷模型,就能揭示在診斷X光等圖像時關注了哪些部分。深度學習在圖像領域取得了巨大成果,而這種方法是理解其判斷過程的有效手段。
Reference