AI 基礎 5/ 6 | AI 的圖像辨識與推薦系統

更新 發佈閱讀 5 分鐘
vocus|新世代的創作平台

找到路、做出預測,讓 AI 像個聰明的導航員。但如果它還能同時看懂眼前的景象並猜你下一步想接觸的內容呢? 這需要兩種核心能力:Convolutional Neural Network(CNN,卷積神經網路) 與 Collaborative Filtering(協同過濾)。一個是機器的視覺,支撐它的 image recognition(圖像辨識) 能力;另一個是它的直覺,決定 recommendation accuracy(推薦精準度) 的高低。


機器眼中的世界:亮度轉化為數字

我們看照片時會先注意顏色、形狀、距離感;而機器看圖片,看到的卻是一張龐大的數字表,每個像素的亮度與顏色,被拆解成紅、綠、藍三個通道的數值,範圍通常是 0 到 255。 一張 1920×1080 的彩色照片,對它來說就是一個三維陣列, 裡面有超過六百萬組數字。

CNN 的任務,就是從這些數字矩陣中,找到模式。卷積層(Convolutional Layer) 像在數字表上滑動小小的濾鏡(kernel),計算局部像素的加權和,以檢測垂直邊緣、斜線紋理或顏色漸變等特徵。 每個濾鏡都專注在不同的特徵,而這些濾鏡的權重,不是人手設定的, 而是透過訓練自動學得。卷積後,會接上激活函數(Activation Function),如 ReLU,將負值歸零,引入非線性(non-linearity), 讓模型能處理比直線關係更複雜的模式。 再經過池化層(Pooling Layer),如最大池化(Max Pooling),取區域最大值以保留關鍵特徵, 同時降低計算量、提升對位置變化的容忍度。

在醫療影像中,這樣的流程可以從 MRI 或 CT 影像的數值矩陣裡,層層萃取出器官輪廓與異常組織的形狀,最終讓模型自動圈出疑似腫瘤的位置。這就是 AI 的圖像辨識。


在行為矩陣中找相似:協同過濾

如果卷積神經網路是在看,那協同過濾就是在聽,聽取不同用戶的行為,找出潛在相似性。它的數據結構是用戶-物品矩陣(User-Item Matrix):行列分別代表使用者與內容,格子裡是評分、觀看紀錄或購買行為。 這張矩陣往往非常稀疏,因為沒有人看過所有影片或買過所有商品。協同過濾有兩種主要方法

  • 記憶型(Memory-based):直接計算用戶與用戶(User-User)或物品與物品(Item-Item)的相似度,常用餘弦相似度(cosine similarity)或皮爾森相關係數(Pearson correlation)。
  • 模型型(Model-based):透過矩陣分解(SVD、ALS)將用戶與物品映射到低維潛在空間,用隱向量(latent vector)預測缺失的評分。

Recommendation accuracy(推薦精準度) 取決於演算法的相似度計算是否抓對重點,以及資料的完整性。當資料不足時,系統常會結合內容特徵,而卷積神經網路可以在這裡提供幫助,從影片截圖或商品照片中抽取視覺特徵, 補足行為數據的不足。


當看懂與推薦融合

把卷積神經網路與協同過濾結合,意味著系統同時理解內容的結構與人的偏好

  • 在醫療系統中,卷積神經網路負責檢測影像病灶,協同過濾則比對相似病例的最佳治療方案與預後結果。
  • 在影音平台,卷積神經網路從影片封面與畫面截圖提取風格與類型特徵,協同過濾再基於相似觀影行為做最終排序。

這種結合讓推薦系統不只是根據別人的選擇,而是同時依據內容的本質,大幅提升推薦精準度。


走向靈活與公平

當 AI 既能像醫生一樣從影像數字中萃取關鍵細節,又能像老朋友一樣猜你喜好,它就不只是工具,而是決策夥伴。 但光有視覺與直覺還不夠, AI 的判斷過程還需要一個靈活的開關, 能在不同情境下調整反應,就像音樂中的調音旋鈕,或鏡子反射的亮暗變化。這就是激活函數(activation function) 的角色,它讓神經網路擺脫僵硬的直線關係(non-linearity), 學會處理複雜模式。然而,當這些開關被用在招聘、信貸等高影響力領域時, 若背後數據本身存在偏見(algorithmic bias), 模型輸出的結果也可能不公平。下一篇,拆解激活函數如何賦予 AI 靈活性, 反而放大了數據的偏見,我們該怎麼辦?


留言
avatar-img
紡知筆記|In Context
26會員
238內容數
一份關於科技、商業與世界變化的長期知識筆記。這裡把零散新聞、技術名詞與人物故事放回產業脈絡中理解,整理成看得懂的知識線索,陪你建立自己的理解地圖。
2025/08/14
AI從找路到預測,線性回歸將數據轉化為生活洞察。
Thumbnail
2025/08/14
AI從找路到預測,線性回歸將數據轉化為生活洞察。
Thumbnail
2025/08/13
AI 從推薦影集到導航路線,貼身預測並優化你的日常選擇。
Thumbnail
2025/08/13
AI 從推薦影集到導航路線,貼身預測並優化你的日常選擇。
Thumbnail
2025/08/12
AI 如數位偵探,透過演算法與資料集辨識模式,精準預測你的需求。
Thumbnail
2025/08/12
AI 如數位偵探,透過演算法與資料集辨識模式,精準預測你的需求。
Thumbnail
看更多
你可能也想看
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
本篇文章分享了對創意和靈感來源的深入思考,以及如何將其轉化為實際的成果或解決方案的過程。透過學習、資料收集、練習、創新等方法,提出了將創意落實的思路和技巧。同時介紹了AI在外顯知識的自動化應用,以及對其潛在發展方向的討論。最後探討了傳統機器學習技術在模擬中的應用案例和對AI世界的影響。
Thumbnail
本篇文章分享了對創意和靈感來源的深入思考,以及如何將其轉化為實際的成果或解決方案的過程。透過學習、資料收集、練習、創新等方法,提出了將創意落實的思路和技巧。同時介紹了AI在外顯知識的自動化應用,以及對其潛在發展方向的討論。最後探討了傳統機器學習技術在模擬中的應用案例和對AI世界的影響。
Thumbnail
沉浸式翻譯是一款多功能的瀏覽器插件和手機APP,專門為僅懂中文的使用者打造。它支援瀏覽器的擴充插件,也支援手機APP,並且提供多項功能,包括實時雙語字幕翻譯、PDF翻譯功能、雙語EPUB電子書,以及鼠標懸停翻譯等。欲瞭解更多請訪問官網。
Thumbnail
沉浸式翻譯是一款多功能的瀏覽器插件和手機APP,專門為僅懂中文的使用者打造。它支援瀏覽器的擴充插件,也支援手機APP,並且提供多項功能,包括實時雙語字幕翻譯、PDF翻譯功能、雙語EPUB電子書,以及鼠標懸停翻譯等。欲瞭解更多請訪問官網。
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
上圖是根據彩色故事腳本生成的照片與草圖。 運用圖生圖的原理,把AI視覺故事腳本的其中一個畫面。擷取出來。 輸入重新繪製這張圖片 AI 會自然根據草圖,重新繪製元素一樣的精細畫面。
Thumbnail
上圖是根據彩色故事腳本生成的照片與草圖。 運用圖生圖的原理,把AI視覺故事腳本的其中一個畫面。擷取出來。 輸入重新繪製這張圖片 AI 會自然根據草圖,重新繪製元素一樣的精細畫面。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
在學習描寫文的過程中,將思維視覺化是一個重要的教學策略。通過使用AI生成圖片功能,教師能夠幫助學生將抽象的描述轉化為具體的圖像。
Thumbnail
在學習描寫文的過程中,將思維視覺化是一個重要的教學策略。通過使用AI生成圖片功能,教師能夠幫助學生將抽象的描述轉化為具體的圖像。
Thumbnail
AnyText是一款先進的圖像AI工具,利用深度學習技術,根據你輸入的文字描述生成圖像,更棒的是,它能生成繁體中文,而且能指定文字生成的位置。
Thumbnail
AnyText是一款先進的圖像AI工具,利用深度學習技術,根據你輸入的文字描述生成圖像,更棒的是,它能生成繁體中文,而且能指定文字生成的位置。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
Thumbnail
AI繪圖要廣泛用於商用還有一大段路,還需要依賴人類的經驗判斷、調整,為什麼呢?
Thumbnail
AI繪圖要廣泛用於商用還有一大段路,還需要依賴人類的經驗判斷、調整,為什麼呢?
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News