淺談注意力機制

更新於 發佈於 閱讀時間約 1 分鐘

直覺來說注意力機制是我們如何對圖像的不同區域進行視覺關注或如何關聯句子中的詞語。人類的視覺注意力允許我們以「高解析度」聚焦於特定區域(例如,看黃色框中的尖角),同時以「低解析度」感知周圍的圖像(例如,現在雪地背景和服裝如何?),然後相應地調整焦點或進行推理。給定圖像的一小塊區域,其餘像素提供了那裡應該顯示什麼的線索。


raw-image



以下研究[1],將注意力機制在圖像分類中作為預測的重要線索。左側是輸入圖像,右側的黑白圖像顯示了判斷中重要的部分(上面是現有方法,下面是提議的方法)。如果將此應用於病理診斷模型,就能揭示在診斷X光等圖像時關注了哪些部分。深度學習在圖像領域取得了巨大成果,而這種方法是理解其判斷過程的有效手段。


raw-image


Reference

  1. https://arxiv.org/abs/1502.03044
留言
avatar-img
留言分享你的想法!
avatar-img
Kiki的沙龍
3會員
45內容數
心繫正體中文的科學家,立志使用正體中文撰寫文章。 此沙龍預計涵蓋各項資訊科技知識分享與學習心得
Kiki的沙龍的其他內容
2025/04/27
Meta 推出了開源大型語言模型 Llama。這一代特別引人注目,因為 80 億參數的模型小到可以在家用電腦上運行,效能卻不輸比它大十倍的模型。在許多應用場景下,它給出的回應品質已經能媲美 GPT-4。在這篇文章裡,我會說明自架 Llama 3 的優缺點,並提供設定方式與資源,讓讀者也能輕鬆動手。
2025/04/27
Meta 推出了開源大型語言模型 Llama。這一代特別引人注目,因為 80 億參數的模型小到可以在家用電腦上運行,效能卻不輸比它大十倍的模型。在許多應用場景下,它給出的回應品質已經能媲美 GPT-4。在這篇文章裡,我會說明自架 Llama 3 的優缺點,並提供設定方式與資源,讓讀者也能輕鬆動手。
2025/04/20
這份實務指引旨在協助產品和工程團隊入門 大型語言模型(LLM)驅動的人工智慧代理人建構,它定義了代理的核心概念,例如獨立執行任務和利用 LLM 管理工作流程決策。本文闡述了何時應考慮建立代理,特別是在傳統自動化方法受限的複雜情境,並深入探討了代理設計的基礎要素,包括模型選擇、工具整合及指令設置。
2025/04/20
這份實務指引旨在協助產品和工程團隊入門 大型語言模型(LLM)驅動的人工智慧代理人建構,它定義了代理的核心概念,例如獨立執行任務和利用 LLM 管理工作流程決策。本文闡述了何時應考慮建立代理,特別是在傳統自動化方法受限的複雜情境,並深入探討了代理設計的基礎要素,包括模型選擇、工具整合及指令設置。
2025/04/06
這篇文章將搭配簡單的範例,介紹最近推出的 Docker Model Runner。內容比較隨意粗略,希望能成為讓讀者了解這項工具的契機!
2025/04/06
這篇文章將搭配簡單的範例,介紹最近推出的 Docker Model Runner。內容比較隨意粗略,希望能成為讓讀者了解這項工具的契機!
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
我們的腦部是高級處理器,簡要來說,左右大腦會各司其職、各自運作,並互相交流,得到結論與反應 「胼胝體」是連結左右兩邊大腦訊息的橋樑,是類似高品質的訊息傳輸線 一般來說(並非絕對)左腦有邏輯及語言,右腦為圖像理解及肢體語言,經由胼胝體交流,它們得以共享合而為一
Thumbnail
我們的腦部是高級處理器,簡要來說,左右大腦會各司其職、各自運作,並互相交流,得到結論與反應 「胼胝體」是連結左右兩邊大腦訊息的橋樑,是類似高品質的訊息傳輸線 一般來說(並非絕對)左腦有邏輯及語言,右腦為圖像理解及肢體語言,經由胼胝體交流,它們得以共享合而為一
Thumbnail
本篇你將學到:視網膜內的訊息傳遞、視神經(Optic Nerve: Cranial Nerve ll)、視交叉(Optic Chiasm)、視徑(Optic Tract)、外側膝狀核(Lateral Geniculate Nucleus)、視放射—膝狀體禽距徑(Optic Radiatio
Thumbnail
本篇你將學到:視網膜內的訊息傳遞、視神經(Optic Nerve: Cranial Nerve ll)、視交叉(Optic Chiasm)、視徑(Optic Tract)、外側膝狀核(Lateral Geniculate Nucleus)、視放射—膝狀體禽距徑(Optic Radiatio
Thumbnail
本篇你將學到:雙重視網膜、神經訊號(Neural Signals)、光轉化作用(光循環 Phototransduction)、訊息處理—垂直處理(Vertical Processing)、訊息處理—水平整合(Horizontal Integration)、訊息處理—接收區域(Recept
Thumbnail
本篇你將學到:雙重視網膜、神經訊號(Neural Signals)、光轉化作用(光循環 Phototransduction)、訊息處理—垂直處理(Vertical Processing)、訊息處理—水平整合(Horizontal Integration)、訊息處理—接收區域(Recept
Thumbnail
本篇你將學到:視網膜黃斑、視盤…的位置分部、視網膜的「重點功能」、不同細胞的數量多寡、視網膜相關眼球病變
Thumbnail
本篇你將學到:視網膜黃斑、視盤…的位置分部、視網膜的「重點功能」、不同細胞的數量多寡、視網膜相關眼球病變
Thumbnail
聲學觸控系統是一種感官轉換系統,透過將視覺轉換成聲音,進而讓視障者可以感知外在世界。例如將文字轉成聲音的文本朗讀系統等。目前全世界有約2.5億多名視障者,聲學觸控系統將有助於提升視障者日常生活的獨立性。本文將簡介澳洲雪梨科大所研發的新一代聲學觸控系統。
Thumbnail
聲學觸控系統是一種感官轉換系統,透過將視覺轉換成聲音,進而讓視障者可以感知外在世界。例如將文字轉成聲音的文本朗讀系統等。目前全世界有約2.5億多名視障者,聲學觸控系統將有助於提升視障者日常生活的獨立性。本文將簡介澳洲雪梨科大所研發的新一代聲學觸控系統。
Thumbnail
身為一名「驗光師」,不是只會驗度數而已,我們要懂得如何處理「雙眼視覺」的問題。 醫學是個無底洞,讓我們好好瞧瞧這「宇宙視界」。
Thumbnail
身為一名「驗光師」,不是只會驗度數而已,我們要懂得如何處理「雙眼視覺」的問題。 醫學是個無底洞,讓我們好好瞧瞧這「宇宙視界」。
Thumbnail
注意力網絡包含三個網絡,分別是警覺性網絡、導向性網絡、和執行功能網絡(Posner, & Petersen, 1990),由不同大腦區域協調合作發揮作用。
Thumbnail
注意力網絡包含三個網絡,分別是警覺性網絡、導向性網絡、和執行功能網絡(Posner, & Petersen, 1990),由不同大腦區域協調合作發揮作用。
Thumbnail
眼神追尋需要大腦不同區域運用乙醯膽鹼密切合作,以順利追尋空間中移動的物體。
Thumbnail
眼神追尋需要大腦不同區域運用乙醯膽鹼密切合作,以順利追尋空間中移動的物體。
Thumbnail
本專欄是圖解讀書會的文字版,此次書單是《設計師要懂心理學》,每周三與六與你一起共讀,分享書中100個與設計相關的心理知識,如果您喜歡或關注知識圖卡、知識圖解、圖卡設計、用戶體驗相關話題,歡迎追蹤本專欄。此篇分享人觀察的 7-12條準則,前面的 1-6條請點擊此處文字。
Thumbnail
本專欄是圖解讀書會的文字版,此次書單是《設計師要懂心理學》,每周三與六與你一起共讀,分享書中100個與設計相關的心理知識,如果您喜歡或關注知識圖卡、知識圖解、圖卡設計、用戶體驗相關話題,歡迎追蹤本專欄。此篇分享人觀察的 7-12條準則,前面的 1-6條請點擊此處文字。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News