Regularization

閱讀時間約 1 分鐘

正規化(Regularization)是機器學習中用來防止模型過擬合的重要技術。

1️⃣L1 正規化(LASSO):加總參數絕對值,鼓勵稀疏性,適合特徵選擇。

2️⃣L2 正規化(Ridge):加總參數平方值,抑制大參數,提升穩定性。

甚至還有混合體 Elastic Net (L1+L2) 

raw-image


avatar-img
0會員
33內容數
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Princend的沙龍 的其他內容
Softmax 函數主要用於多分類問題,將輸出層的原始分數(logits)轉換為機率分佈。每個輸出的機率範圍在 0 到 1 之間,且所有輸出機率的總和為 1。 它的步驟包括: 1️⃣將每個輸出取指數化,放大差異。 2️⃣計算所有輸出的指數和(正規化因子)。 3️⃣ 將每個輸出的指數值除以
MSE vs. MAE 差異比較 MSE(均方誤差): 1️⃣ 對大誤差更敏感(平方放大效果)。 2️⃣ 更適合需要懲罰大誤差的應用,如醫療預測。 3️⃣ 單位是數據單位的平方,解釋性稍差。 MAE(平均絕對誤差): 1️⃣ 對大誤差不敏感,對異常值更穩健。 2️⃣ 單位與原始數據相同
MAE(Mean Absolute Error) 平均絕對誤差 又被稱為 L1 損失 常被用於 評估迴歸模型的準確性 對異常值穩定性比較好 數值越低代表模型越好
橫軸代表輸入值 (z) 縱軸代表輸出值 (J(z)) 當輸入值小於或等於閾值 κ 時,函數輸出為 0 當輸入值大於閾值 κ 時,函數輸出等於輸入值本身。 閾值 κ意味著只有超過閾值的輸入特徵才會被模型考慮,而其他特徵則會被忽略(稀疏性) google的gemma2模型有應用到此act
1.從提案分布 q(x) 中抽樣候選點 x。 2.隨機生成 y∼U(0,c⋅q(x))。 3.若 y ≤ p(x),接受點 x;否則拒絕。
1.計算其累積分布函數,使得 𝐹(𝑥)的範圍為 [0,1] 2.從均勻分布 𝑈(0,1) 中生成一個隨機數 𝑢(藍色的點) 3.計算反函數 4.從反函數中抽樣x(紅色的點)
Softmax 函數主要用於多分類問題,將輸出層的原始分數(logits)轉換為機率分佈。每個輸出的機率範圍在 0 到 1 之間,且所有輸出機率的總和為 1。 它的步驟包括: 1️⃣將每個輸出取指數化,放大差異。 2️⃣計算所有輸出的指數和(正規化因子)。 3️⃣ 將每個輸出的指數值除以
MSE vs. MAE 差異比較 MSE(均方誤差): 1️⃣ 對大誤差更敏感(平方放大效果)。 2️⃣ 更適合需要懲罰大誤差的應用,如醫療預測。 3️⃣ 單位是數據單位的平方,解釋性稍差。 MAE(平均絕對誤差): 1️⃣ 對大誤差不敏感,對異常值更穩健。 2️⃣ 單位與原始數據相同
MAE(Mean Absolute Error) 平均絕對誤差 又被稱為 L1 損失 常被用於 評估迴歸模型的準確性 對異常值穩定性比較好 數值越低代表模型越好
橫軸代表輸入值 (z) 縱軸代表輸出值 (J(z)) 當輸入值小於或等於閾值 κ 時,函數輸出為 0 當輸入值大於閾值 κ 時,函數輸出等於輸入值本身。 閾值 κ意味著只有超過閾值的輸入特徵才會被模型考慮,而其他特徵則會被忽略(稀疏性) google的gemma2模型有應用到此act
1.從提案分布 q(x) 中抽樣候選點 x。 2.隨機生成 y∼U(0,c⋅q(x))。 3.若 y ≤ p(x),接受點 x;否則拒絕。
1.計算其累積分布函數,使得 𝐹(𝑥)的範圍為 [0,1] 2.從均勻分布 𝑈(0,1) 中生成一個隨機數 𝑢(藍色的點) 3.計算反函數 4.從反函數中抽樣x(紅色的點)
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
相信大家現在都有在使用網銀的習慣 以前因為打工和工作的關係,我辦過的網銀少說也有5、6間,可以說在使用網銀App方面我可以算是個老手了。 最近受邀參加國泰世華CUBE App的使用測試 嘿嘿~殊不知我本身就有在使用他們的App,所以這次的受測根本可以說是得心應手
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在某些情況下,別人提供的 Pretrained Transformer Model 效果不盡人意,可能會想要自己做 Pretrained Model,但是這會耗費大量運
Thumbnail
本系列將討論 LLM 時代中,分散 ML workload 的各種方法。作為系列的第一篇,我們將提及 High-level 的概論,譬如分散式訓練的各種切法、Model Parallelism 的相依問題,以及改善 Network Topology 等課題。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在 AI說書 - 從0開始 - 110,介紹了 BLEU 使用方法與公式,現在我們再跑一個例子: #Example 3 reference = [['the
Thumbnail
長短期記憶(英語:Long Short-Term Memory,LSTM)是一種時間循環神經網路(RNN),論文首次發表於1997年。 LSTM(長短期記憶)是一種特定類型的遞歸神經網絡(RNN),在許多需要處理時間序列數據或順序數據的應用中非常有用。 以下是一些常見的 LSTM 應用:
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 下游任務是一個 Fine-Tuned 的 Transformer 任務,它從預先訓練的 Transformer 模型繼承模型和參數,故,下游任務是運行微調任務的預訓練模
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,文中介紹了殘差網路,並推薦了兩篇論文;因為在看了書後,對殘差網路的概念還是不很清楚,於是決定用ChatGPT翻譯這兩篇論文來增強理解,以下正文是第一篇論文:Deep Residual Learning for Image Re
Thumbnail
大語言模型(LLMs)對於任何對人工智能和自然語言處理感興趣的人來說都是一個令人興奮的領域。 這類模型,如GPT-4, 透過其龐大的數據集和複雜的參數設置, 提供了前所未有的語言理解和生成能力。 那麼,究竟是什麼讓這些模型「大」得如此不同呢?
Thumbnail
對於熱衷於語言科技的你, 大語言模型(LLMs)在自然語言處理(NLP)領域的發展無疑是一個革命性的進展。 從傳統的規則系統到基於深度學習的方法, LLMs展現了在理解、生成和翻譯人類語言方面的巨大突破。 這不僅是技術上的飛躍, 更是開啟了新的應用和可能性。 下面將介紹這一變革帶來的三大
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
相信大家現在都有在使用網銀的習慣 以前因為打工和工作的關係,我辦過的網銀少說也有5、6間,可以說在使用網銀App方面我可以算是個老手了。 最近受邀參加國泰世華CUBE App的使用測試 嘿嘿~殊不知我本身就有在使用他們的App,所以這次的受測根本可以說是得心應手
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在某些情況下,別人提供的 Pretrained Transformer Model 效果不盡人意,可能會想要自己做 Pretrained Model,但是這會耗費大量運
Thumbnail
本系列將討論 LLM 時代中,分散 ML workload 的各種方法。作為系列的第一篇,我們將提及 High-level 的概論,譬如分散式訓練的各種切法、Model Parallelism 的相依問題,以及改善 Network Topology 等課題。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在 AI說書 - 從0開始 - 110,介紹了 BLEU 使用方法與公式,現在我們再跑一個例子: #Example 3 reference = [['the
Thumbnail
長短期記憶(英語:Long Short-Term Memory,LSTM)是一種時間循環神經網路(RNN),論文首次發表於1997年。 LSTM(長短期記憶)是一種特定類型的遞歸神經網絡(RNN),在許多需要處理時間序列數據或順序數據的應用中非常有用。 以下是一些常見的 LSTM 應用:
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 下游任務是一個 Fine-Tuned 的 Transformer 任務,它從預先訓練的 Transformer 模型繼承模型和參數,故,下游任務是運行微調任務的預訓練模
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,文中介紹了殘差網路,並推薦了兩篇論文;因為在看了書後,對殘差網路的概念還是不很清楚,於是決定用ChatGPT翻譯這兩篇論文來增強理解,以下正文是第一篇論文:Deep Residual Learning for Image Re
Thumbnail
大語言模型(LLMs)對於任何對人工智能和自然語言處理感興趣的人來說都是一個令人興奮的領域。 這類模型,如GPT-4, 透過其龐大的數據集和複雜的參數設置, 提供了前所未有的語言理解和生成能力。 那麼,究竟是什麼讓這些模型「大」得如此不同呢?
Thumbnail
對於熱衷於語言科技的你, 大語言模型(LLMs)在自然語言處理(NLP)領域的發展無疑是一個革命性的進展。 從傳統的規則系統到基於深度學習的方法, LLMs展現了在理解、生成和翻譯人類語言方面的巨大突破。 這不僅是技術上的飛躍, 更是開啟了新的應用和可能性。 下面將介紹這一變革帶來的三大