45/100 奇異值分解(SVD) 🎭 用於推薦系統與文本分析,擅長處理稀疏數據!

更新於 發佈於 閱讀時間約 7 分鐘

AI時代系列(3) 機器學習三部曲: 🔹 第一部:《機器學習 —— AI 智慧的啟航》


45/100 第五週:非監督學習


45. 奇異值分解(SVD) 🎭 用於推薦系統與文本分析,擅長處理稀疏數據!


🎭 奇異值分解(SVD)


用於推薦系統與文本分析,擅長處理稀疏數據!

________________________________________

🔎 一、什麼是 SVD(Singular Value Decomposition)?


SVD 是一種矩陣分解技術


能將任意大小的矩陣拆解為三個矩陣的乘積:


A=UΣ Vᵗ


✅ U(左奇異矩陣):代表原數據的特徵向量(行空間)

✅ Σ(奇異值對角矩陣):代表每個主成分的重要程度

✅ Vᵗ(右奇異矩陣):代表特徵向量(列空間)

________________________________________


🌟 二、SVD 的核心價值與用途


1. 降維 保留最重要的奇異值,達到資料壓縮效果

2. 特徵提取 抽取數據中最具代表性的資訊

3. 處理稀疏數據 對推薦系統中缺失值(0值)極為友善

4. 雜訊過濾 小奇異值常被視為雜訊,可過濾掉

5. 隱含結構挖掘 發現數據中潛在的隱含規律與關聯

________________________________________


📚 三、SVD 經典應用場景


✅ 推薦系統(Collaborative Filtering)

👉 例:Netflix、YouTube、Spotify 影片與歌曲推薦


✅ 文本與語意分析(LSA)

👉 潛在語意分析(Latent Semantic Analysis, LSA)發掘文本潛藏的主題


✅ 圖片壓縮

👉 用少量奇異值重建圖片,達到壓縮效果


✅ 降維與資料清理

________________________________________


📈 四、推薦系統中的應用範例(矩陣填空)


原始評分矩陣(User-Item Matrix)


使用者/物品 電影A 電影B 電影C 電影D

User1 5 3 0 1

User2 4 0 0 1

User3 1 1 0 5

User4 0 0 5 4

User5 0 1 5 4


✅ 利用 SVD 分解後填補 0 值,預測使用者可能喜歡的電影

________________________________________


🛠 五、Python 例子(scipy or numpy)


python


import numpy as np

from scipy.sparse.linalg import svds


# 假設評分矩陣

R = np.array([

[5, 3, 0, 1],

[4, 0, 0, 1],

[1, 1, 0, 5],

[0, 0, 5, 4],

[0, 1, 5, 4]

], dtype=float)


# SVD 分解

U, sigma, VT = svds(R, k=2)

sigma = np.diag(sigma)


# 預測填補缺失值

R_pred = np.dot(np.dot(U, sigma), VT)

print(np.round(R_pred, 2))



這段程式碼透過奇異值分解(SVD)將使用者對物品的評分矩陣降維,並重建出一個近似矩陣,以預測原本缺失(0)的評分值,是協同過濾式推薦系統的常用方法。它先對原始評分資料進行秩為2的稀疏SVD分解,取得使用者與物品的潛在特徵向量,再透過矩陣乘積重構預測評分矩陣,進而達到填補遺漏資料並實現個人化推薦的目的,廣泛應用於如 Netflix、Spotify 等平台的推薦系統中。



✅ 結果:預測出原本 0 的位置可能的評分值,提升推薦系統效果!

________________________________________


📊 六、SVD 與 PCA 的關聯


PCA SVD

基於共變異矩陣 直接分解原始矩陣

適合連續數值型數據 適合稀疏或缺失數據

強調數據最大變異方向 強調數據矩陣潛在結構

常用於可視化 更廣泛用於推薦與文本


👉 數學上,PCA 其實就是 SVD 的一種特殊應用!

________________________________________


📉 七、SVD 優缺點


優點 缺點

✅ 強大降維能力 ❌ 計算量大(大型矩陣耗資源)

✅ 能處理稀疏數據 ❌ 對異常值敏感

✅ 適合推薦系統與文本 ❌ 實務上常需截斷(Truncated SVD)以減少運算

________________________________________


🎯 八、總結與亮點


✔ SVD 是機器學習與數據科學中最重要的矩陣運算之一

✔ 能發掘潛在結構,讓「隱藏資訊」浮出水面

✔ 廣泛應用於推薦系統、自然語言處理、圖像處理與降維領域

________________________________________


📌 一句話精華


🎭 SVD = 用數學魔法解開稀疏數據背後的秘密,讓推薦更準、文本更懂你!

________________________________________





留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
2會員
106內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/05/28
PCA透過尋找資料最大變異方向,把多維特徵壓縮成少數互不相關的主成分,既保留關鍵資訊,又去除雜訊與冗餘。它大幅降低維度詛咒帶來的計算負擔,並將高維數據轉換成易於解釋的 2D/3D 視覺,協助後續聚類、分類或特徵選取。若先做標準化並利用解釋變異量挑選主成分,可在效率與資訊量之間取得最佳平衡。
Thumbnail
2025/05/28
PCA透過尋找資料最大變異方向,把多維特徵壓縮成少數互不相關的主成分,既保留關鍵資訊,又去除雜訊與冗餘。它大幅降低維度詛咒帶來的計算負擔,並將高維數據轉換成易於解釋的 2D/3D 視覺,協助後續聚類、分類或特徵選取。若先做標準化並利用解釋變異量挑選主成分,可在效率與資訊量之間取得最佳平衡。
Thumbnail
2025/05/28
DBSCAN 透過 ε 半徑與 MinPts 判斷密度,無須事先設定群數,可自動偵測任意形狀群集並標記離群點,對含雜訊或非線性分布的地理、天文、社群資料特別實用;但 ε、MinPts 需細調,且在高維度時距離計算衰減,效果有限。
Thumbnail
2025/05/28
DBSCAN 透過 ε 半徑與 MinPts 判斷密度,無須事先設定群數,可自動偵測任意形狀群集並標記離群點,對含雜訊或非線性分布的地理、天文、社群資料特別實用;但 ε、MinPts 需細調,且在高維度時距離計算衰減,效果有限。
Thumbnail
2025/05/28
階層式聚類以計算樣本距離,從「一點一群」逐步合併成樹狀結構;免先設定 K 值、能直觀呈現親疏遠近,適用基因分析、客戶分層與社群關係探索,但耗時、對離群值敏感且無法回溯合併。
Thumbnail
2025/05/28
階層式聚類以計算樣本距離,從「一點一群」逐步合併成樹狀結構;免先設定 K 值、能直觀呈現親疏遠近,適用基因分析、客戶分層與社群關係探索,但耗時、對離群值敏感且無法回溯合併。
Thumbnail
看更多
你可能也想看
Thumbnail
TOMICA第一波推出吉伊卡哇聯名小車車的時候馬上就被搶購一空,一直很扼腕當時沒有趕緊入手。前陣子閒來無事逛蝦皮,突然發現幾家商場都又開始重新上架,價格也都回到正常水準,估計是官方又再補了一批貨,想都沒想就立刻下單! 同文也跟大家分享近期蝦皮購物紀錄、好用推薦、蝦皮分潤計畫的聯盟行銷!
Thumbnail
TOMICA第一波推出吉伊卡哇聯名小車車的時候馬上就被搶購一空,一直很扼腕當時沒有趕緊入手。前陣子閒來無事逛蝦皮,突然發現幾家商場都又開始重新上架,價格也都回到正常水準,估計是官方又再補了一批貨,想都沒想就立刻下單! 同文也跟大家分享近期蝦皮購物紀錄、好用推薦、蝦皮分潤計畫的聯盟行銷!
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經有資料集在 AI說書 - 從0開始 - 103 ,必要的清理函數在 AI說書 - 從0開始 - 104 ,現在把它們湊在一起,如下: # load Eng
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經有資料集在 AI說書 - 從0開始 - 103 ,必要的清理函數在 AI說書 - 從0開始 - 104 ,現在把它們湊在一起,如下: # load Eng
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News