AI 基礎 5/ 6 | AI 的圖像辨識與推薦系統

更新 發佈閱讀 5 分鐘
raw-image

找到路、做出預測,讓 AI 像個聰明的導航員。但如果它還能同時看懂眼前的景象並猜你下一步想接觸的內容呢? 這需要兩種核心能力:Convolutional Neural Network(CNN,卷積神經網路) 與 Collaborative Filtering(協同過濾)。一個是機器的視覺,支撐它的 image recognition(圖像辨識) 能力;另一個是它的直覺,決定 recommendation accuracy(推薦精準度) 的高低。


機器眼中的世界:亮度轉化為數字

我們看照片時會先注意顏色、形狀、距離感;而機器看圖片,看到的卻是一張龐大的數字表,每個像素的亮度與顏色,被拆解成紅、綠、藍三個通道的數值,範圍通常是 0 到 255。 一張 1920×1080 的彩色照片,對它來說就是一個三維陣列, 裡面有超過六百萬組數字。

CNN 的任務,就是從這些數字矩陣中,找到模式。卷積層(Convolutional Layer) 像在數字表上滑動小小的濾鏡(kernel),計算局部像素的加權和,以檢測垂直邊緣、斜線紋理或顏色漸變等特徵。 每個濾鏡都專注在不同的特徵,而這些濾鏡的權重,不是人手設定的, 而是透過訓練自動學得。卷積後,會接上激活函數(Activation Function),如 ReLU,將負值歸零,引入非線性(non-linearity), 讓模型能處理比直線關係更複雜的模式。 再經過池化層(Pooling Layer),如最大池化(Max Pooling),取區域最大值以保留關鍵特徵, 同時降低計算量、提升對位置變化的容忍度。

在醫療影像中,這樣的流程可以從 MRI 或 CT 影像的數值矩陣裡,層層萃取出器官輪廓與異常組織的形狀,最終讓模型自動圈出疑似腫瘤的位置。這就是 AI 的圖像辨識。


在行為矩陣中找相似:協同過濾

如果卷積神經網路是在看,那協同過濾就是在聽,聽取不同用戶的行為,找出潛在相似性。它的數據結構是用戶-物品矩陣(User-Item Matrix):行列分別代表使用者與內容,格子裡是評分、觀看紀錄或購買行為。 這張矩陣往往非常稀疏,因為沒有人看過所有影片或買過所有商品。協同過濾有兩種主要方法

  • 記憶型(Memory-based):直接計算用戶與用戶(User-User)或物品與物品(Item-Item)的相似度,常用餘弦相似度(cosine similarity)或皮爾森相關係數(Pearson correlation)。
  • 模型型(Model-based):透過矩陣分解(SVD、ALS)將用戶與物品映射到低維潛在空間,用隱向量(latent vector)預測缺失的評分。

Recommendation accuracy(推薦精準度) 取決於演算法的相似度計算是否抓對重點,以及資料的完整性。當資料不足時,系統常會結合內容特徵,而卷積神經網路可以在這裡提供幫助,從影片截圖或商品照片中抽取視覺特徵, 補足行為數據的不足。


當看懂與推薦融合

把卷積神經網路與協同過濾結合,意味著系統同時理解內容的結構與人的偏好

  • 在醫療系統中,卷積神經網路負責檢測影像病灶,協同過濾則比對相似病例的最佳治療方案與預後結果。
  • 在影音平台,卷積神經網路從影片封面與畫面截圖提取風格與類型特徵,協同過濾再基於相似觀影行為做最終排序。

這種結合讓推薦系統不只是根據別人的選擇,而是同時依據內容的本質,大幅提升推薦精準度。


走向靈活與公平

當 AI 既能像醫生一樣從影像數字中萃取關鍵細節,又能像老朋友一樣猜你喜好,它就不只是工具,而是決策夥伴。 但光有視覺與直覺還不夠, AI 的判斷過程還需要一個靈活的開關, 能在不同情境下調整反應,就像音樂中的調音旋鈕,或鏡子反射的亮暗變化。這就是激活函數(activation function) 的角色,它讓神經網路擺脫僵硬的直線關係(non-linearity), 學會處理複雜模式。然而,當這些開關被用在招聘、信貸等高影響力領域時, 若背後數據本身存在偏見(algorithmic bias), 模型輸出的結果也可能不公平。下一篇,拆解激活函數如何賦予 AI 靈活性, 反而放大了數據的偏見,我們該怎麼辦?


留言
avatar-img
想想
8會員
202內容數
Hi!歡迎來到想想。我們一起觀察趨勢,理解來龍去脈,聊聊科技如何改變生活。 在快速變動的世界裡,找回思考的節奏。
想想的其他內容
2025/08/14
AI從找路到預測,線性回歸將數據轉化為生活洞察。
Thumbnail
2025/08/14
AI從找路到預測,線性回歸將數據轉化為生活洞察。
Thumbnail
2025/08/13
AI 從推薦影集到導航路線,貼身預測並優化你的日常選擇。
Thumbnail
2025/08/13
AI 從推薦影集到導航路線,貼身預測並優化你的日常選擇。
Thumbnail
2025/08/12
AI 如數位偵探,透過演算法與資料集辨識模式,精準預測你的需求。
Thumbnail
2025/08/12
AI 如數位偵探,透過演算法與資料集辨識模式,精準預測你的需求。
Thumbnail
看更多
你可能也想看
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
沉浸式翻譯是一款多功能的瀏覽器插件和手機APP,專門為僅懂中文的使用者打造。它支援瀏覽器的擴充插件,也支援手機APP,並且提供多項功能,包括實時雙語字幕翻譯、PDF翻譯功能、雙語EPUB電子書,以及鼠標懸停翻譯等。欲瞭解更多請訪問官網。
Thumbnail
沉浸式翻譯是一款多功能的瀏覽器插件和手機APP,專門為僅懂中文的使用者打造。它支援瀏覽器的擴充插件,也支援手機APP,並且提供多項功能,包括實時雙語字幕翻譯、PDF翻譯功能、雙語EPUB電子書,以及鼠標懸停翻譯等。欲瞭解更多請訪問官網。
Thumbnail
AI繪圖要廣泛用於商用還有一大段路,還需要依賴人類的經驗判斷、調整,為什麼呢?
Thumbnail
AI繪圖要廣泛用於商用還有一大段路,還需要依賴人類的經驗判斷、調整,為什麼呢?
Thumbnail
AnyText是一款先進的圖像AI工具,利用深度學習技術,根據你輸入的文字描述生成圖像,更棒的是,它能生成繁體中文,而且能指定文字生成的位置。
Thumbnail
AnyText是一款先進的圖像AI工具,利用深度學習技術,根據你輸入的文字描述生成圖像,更棒的是,它能生成繁體中文,而且能指定文字生成的位置。
Thumbnail
上圖是根據彩色故事腳本生成的照片與草圖。 運用圖生圖的原理,把AI視覺故事腳本的其中一個畫面。擷取出來。 輸入重新繪製這張圖片 AI 會自然根據草圖,重新繪製元素一樣的精細畫面。
Thumbnail
上圖是根據彩色故事腳本生成的照片與草圖。 運用圖生圖的原理,把AI視覺故事腳本的其中一個畫面。擷取出來。 輸入重新繪製這張圖片 AI 會自然根據草圖,重新繪製元素一樣的精細畫面。
Thumbnail
本篇文章分享了對創意和靈感來源的深入思考,以及如何將其轉化為實際的成果或解決方案的過程。透過學習、資料收集、練習、創新等方法,提出了將創意落實的思路和技巧。同時介紹了AI在外顯知識的自動化應用,以及對其潛在發展方向的討論。最後探討了傳統機器學習技術在模擬中的應用案例和對AI世界的影響。
Thumbnail
本篇文章分享了對創意和靈感來源的深入思考,以及如何將其轉化為實際的成果或解決方案的過程。透過學習、資料收集、練習、創新等方法,提出了將創意落實的思路和技巧。同時介紹了AI在外顯知識的自動化應用,以及對其潛在發展方向的討論。最後探討了傳統機器學習技術在模擬中的應用案例和對AI世界的影響。
Thumbnail
在學習描寫文的過程中,將思維視覺化是一個重要的教學策略。通過使用AI生成圖片功能,教師能夠幫助學生將抽象的描述轉化為具體的圖像。
Thumbnail
在學習描寫文的過程中,將思維視覺化是一個重要的教學策略。通過使用AI生成圖片功能,教師能夠幫助學生將抽象的描述轉化為具體的圖像。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
Thumbnail
以​文字​建立​影像,有很多功能如下: 完成提示詞之後,選擇功能設定 1.模型版本:內有兩個模型 Image1屬於照片和插圖風格,Image2擬真人版風格,我還是喜歡Image2風格比較好看。 2.比例:3:4或4:3或1:1或16:9,這個有別於目前AI生圖都是1:1版型,這可以依據您想要使
Thumbnail
以​文字​建立​影像,有很多功能如下: 完成提示詞之後,選擇功能設定 1.模型版本:內有兩個模型 Image1屬於照片和插圖風格,Image2擬真人版風格,我還是喜歡Image2風格比較好看。 2.比例:3:4或4:3或1:1或16:9,這個有別於目前AI生圖都是1:1版型,這可以依據您想要使
Thumbnail
ChatGPT最擅長的就是文本處理,用來翻譯字幕應該也是一片蛋糕吧!但實際操作測試,卻發現沒那麼容易,原因是影片翻譯要考量的因素太多包括: ▪️時間戳記對齊 ▪️適合閱讀且中英文對照文句長度 ▪️貼合講者原意語氣風格 ▪️專業術語與專有名詞 還有GPT一次可以處理的資訊量有限,超過
Thumbnail
ChatGPT最擅長的就是文本處理,用來翻譯字幕應該也是一片蛋糕吧!但實際操作測試,卻發現沒那麼容易,原因是影片翻譯要考量的因素太多包括: ▪️時間戳記對齊 ▪️適合閱讀且中英文對照文句長度 ▪️貼合講者原意語氣風格 ▪️專業術語與專有名詞 還有GPT一次可以處理的資訊量有限,超過
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News