機器學習模型訓練問題及解決策略

更新於 發佈於 閱讀時間約 2 分鐘

*本文章為參考李弘毅2021年機器學習課程後的筆記。


在訓練模型的時候,常常會遇到訓練上的問題,像是Loss值太大,或是Test出來的結果不如預期,但我們又不知道模型中到底發生了甚麼事,就跟黑盒子一樣。

因此,感謝李弘毅教授傳授了一套SOP來幫助我們判斷模型是哪裡出了問題,應該要怎麼解決!!!


訓練模型的策略:

raw-image

Loss on training data: 檢查training data的loss

1. Training data的Loss過大,代表模型在訓練資料時就沒訓練好,這有兩種可能性:

a. Model Bias: 這是model太過簡單的問題,也是指訓練出的function太簡單,導 致我們要的預測值,不在學習的function內。

解決方法 → 重新設計model。
(EX: 增加輸入的feature,或是使用別的activation function之類的)

b. Optimization Issue: 此時會發現Gradient Decent中的梯度為 0 。

這有兩種可能,saddle point 或是local minima,這就要透過Hessian矩陣
來判斷了。
解決方法 -> Momentum 動量。


c. 那要如何區分Model Bias還是Optimization問題?

我們可以比較不同的Stacked layer數。如果在20層的Model訓練出來的loss值,比50層的Model訓練出來的loss值還要好,那就代表是optimization issue。(50層相較於20層的Model更有彈性,還有多的30層可以做調整)。

所以當我們在訓練model時,可以先從較小的層數開始訓練看看。

  1. 如果training loss小,但testing loss大,那就是overfitting問題,過度擬合training data才會發生的問題。
    解決方法:
    a. 增加更多訓練資料,讓function越來越接近目標值。
    b. Data augmentation: 透過我們對於資料的理解增加不同的資料。
    c. 限制function: 像是減少神經元的參數、正則化技術Regularization...。
留言
avatar-img
留言分享你的想法!
avatar-img
dab戴伯的沙龍
1會員
37內容數
dab戴伯的沙龍的其他內容
2024/05/16
本文介紹自我監督學習的概念和訓練方式,以BERT和GPT為例,深入探討Masking Input及Fine-Tune的實際操作和可應用性。
Thumbnail
2024/05/16
本文介紹自我監督學習的概念和訓練方式,以BERT和GPT為例,深入探討Masking Input及Fine-Tune的實際操作和可應用性。
Thumbnail
2024/05/15
這篇文章探討了生成式對抗網路中機率分佈的使用與相關的訓練方式,包括Generator不同的點、Distriminator的訓練過程、生成圖片的條件設定等。此外,也提到了GAN訓練的困難與解決方式以及不同的learning方式。文章內容豐富且詳細,涵蓋了GAN的各個相關面向。
Thumbnail
2024/05/15
這篇文章探討了生成式對抗網路中機率分佈的使用與相關的訓練方式,包括Generator不同的點、Distriminator的訓練過程、生成圖片的條件設定等。此外,也提到了GAN訓練的困難與解決方式以及不同的learning方式。文章內容豐富且詳細,涵蓋了GAN的各個相關面向。
Thumbnail
2024/05/13
本文介紹了Transformer中的Encoder Decoder與Cross Attention的運作方式以及的應用。涉及self-attention、autoRegressive Decoder、Non-AutoRegressive Decoder、Cross Attention等概念。
2024/05/13
本文介紹了Transformer中的Encoder Decoder與Cross Attention的運作方式以及的應用。涉及self-attention、autoRegressive Decoder、Non-AutoRegressive Decoder、Cross Attention等概念。
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
加強媒體素養教育 : 教導學生如何辨識AI生成的資訊,培養批判性思維。 設計更有針對性的作業 : 要求學生提供思考過程,而不只是最終結果。 結合AI與傳統教學 : 善用AI優勢,同時保留人際互動和深度討論。 定期檢視AI工具 : 了解其局限性,並向學生說明可能的錯誤。 .....
Thumbnail
加強媒體素養教育 : 教導學生如何辨識AI生成的資訊,培養批判性思維。 設計更有針對性的作業 : 要求學生提供思考過程,而不只是最終結果。 結合AI與傳統教學 : 善用AI優勢,同時保留人際互動和深度討論。 定期檢視AI工具 : 了解其局限性,並向學生說明可能的錯誤。 .....
Thumbnail
為了充分發揮AI的潛力,我們必須深入瞭解其運作模式和思考邏輯,並學會與AI對話的技巧。《ChatGPT提問課,做個懂AI的高效工作者》這本書提供了豐富的實例,讓讀者更容易學會如何提出精準的問題,並享有提問課程的閱讀回饋。這對於想成為懂AI的高效工作者的人來說,是一本值得一看的書。
Thumbnail
為了充分發揮AI的潛力,我們必須深入瞭解其運作模式和思考邏輯,並學會與AI對話的技巧。《ChatGPT提問課,做個懂AI的高效工作者》這本書提供了豐富的實例,讓讀者更容易學會如何提出精準的問題,並享有提問課程的閱讀回饋。這對於想成為懂AI的高效工作者的人來說,是一本值得一看的書。
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
Thumbnail
近年來,生成式AI對市場帶來了巨大變革,然而,企業的AI專案卻面臨許多部署和失敗的問題。從MIT Sloan Management Review的研究中,我們發現數據科學家在尋找防止AI模型失敗的模式上面存在許多問題。本文提供了三個觀點,協助缺乏技術的高階主管針對辨識有效的AI模型和數據集提出方法。
Thumbnail
近年來,生成式AI對市場帶來了巨大變革,然而,企業的AI專案卻面臨許多部署和失敗的問題。從MIT Sloan Management Review的研究中,我們發現數據科學家在尋找防止AI模型失敗的模式上面存在許多問題。本文提供了三個觀點,協助缺乏技術的高階主管針對辨識有效的AI模型和數據集提出方法。
Thumbnail
紐約時報報導,OpenAI使用了自家的Whisper 轉錄 100 萬個小時的 YouTube 影片作為訓練模型資料。Meta正在討論即使被起訴,也要使用受版權保護的作品來作為模型訓練資料。幾大模型開發者目前都同樣遭遇了「優質訓練資料」不足的困近的困境,而必須走入灰色地帶來支持模型的開發。
Thumbnail
紐約時報報導,OpenAI使用了自家的Whisper 轉錄 100 萬個小時的 YouTube 影片作為訓練模型資料。Meta正在討論即使被起訴,也要使用受版權保護的作品來作為模型訓練資料。幾大模型開發者目前都同樣遭遇了「優質訓練資料」不足的困近的困境,而必須走入灰色地帶來支持模型的開發。
Thumbnail
我問AI,結果得到的兩個完全相反的結果,老師在教學影片中說的是Claude的版本.... 在AI時代自學,除了要懂得下咒語(prompt,網路上到處在教如何下正確的prompt,使AI更好用),還是要有一定的基礎能力(例如查核能力),不要太相信AI給的答案,多問幾家總是好的。
Thumbnail
我問AI,結果得到的兩個完全相反的結果,老師在教學影片中說的是Claude的版本.... 在AI時代自學,除了要懂得下咒語(prompt,網路上到處在教如何下正確的prompt,使AI更好用),還是要有一定的基礎能力(例如查核能力),不要太相信AI給的答案,多問幾家總是好的。
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
Thumbnail
這一節課說明,如何透過改變給模型的指示或咒語(prompt),來得到不同的結果 。如果直接說結論的話會是,在今天語言模型的能力之下,我們只要交代清楚任務就好,可以包括背景以及需求。而這節課很像是一堂模型咒語的歷史課 XD
Thumbnail
這一節課說明,如何透過改變給模型的指示或咒語(prompt),來得到不同的結果 。如果直接說結論的話會是,在今天語言模型的能力之下,我們只要交代清楚任務就好,可以包括背景以及需求。而這節課很像是一堂模型咒語的歷史課 XD
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News