數據準備與模型選擇

45免費公開
數據準備與模型選擇
全部類型
免費與付費
最新發佈
最新發佈
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
決定係數(Coefficient of Determination),通常以 R^2 表示,是衡量迴歸模型擬合效果的一個統計指標。它代表模型解釋的目標變量變異的比例,用於評估模型對數據的解釋能力。 R^2 = 1 表示模型完美擬合數據(預測值完全等於真實值); R^2 表示模型表現等同於只用平均
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
決定係數(Coefficient of Determination),通常以 R^2 表示,是衡量迴歸模型擬合效果的一個統計指標。它代表模型解釋的目標變量變異的比例,用於評估模型對數據的解釋能力。 R^2 = 1 表示模型完美擬合數據(預測值完全等於真實值); R^2 表示模型表現等同於只用平均
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
Target Encoding(目標編碼)是一種用於機器學習中處理類別變數的編碼技術,特別適合高基數(高種數量)類別特徵。它通過將類別值替換成該類別在目標變量上的統計值(通常是目標的均值),使模型能夠有效利用類別與目標之間的關聯信息。 Target Encoding原理 對於分類或回歸問題,計算
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
Target Encoding(目標編碼)是一種用於機器學習中處理類別變數的編碼技術,特別適合高基數(高種數量)類別特徵。它通過將類別值替換成該類別在目標變量上的統計值(通常是目標的均值),使模型能夠有效利用類別與目標之間的關聯信息。 Target Encoding原理 對於分類或回歸問題,計算
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
Ordinal Encoding(序數編碼)是一種將**有序類別型變數**(ordinal categorical variables)轉換為數值型變數的編碼方法。它依據類別之間的固有順序,將每個類別分配一個整數,以保留類別間的大小或等級關係,常用於機器學習的數據預處理階段。 Ordinal En
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
Ordinal Encoding(序數編碼)是一種將**有序類別型變數**(ordinal categorical variables)轉換為數值型變數的編碼方法。它依據類別之間的固有順序,將每個類別分配一個整數,以保留類別間的大小或等級關係,常用於機器學習的數據預處理階段。 Ordinal En
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
支持向量機(SVM)的核技巧(Kernel Trick)是一種用來解決非線性分類問題的有效方法。它的核心思想是將原本不可線性分離的數據,透過一個非線性映射函數,投射到高維度的特徵空間中,使數據在高維空間可線性分割,然後再在該空間中運用線性支持向量機進行分類。 核技巧優點 能有效解決高維非線性
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
支持向量機(SVM)的核技巧(Kernel Trick)是一種用來解決非線性分類問題的有效方法。它的核心思想是將原本不可線性分離的數據,透過一個非線性映射函數,投射到高維度的特徵空間中,使數據在高維空間可線性分割,然後再在該空間中運用線性支持向量機進行分類。 核技巧優點 能有效解決高維非線性
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
分層抽樣(Stratified Sampling)是一種統計抽樣方法,將總體按特定特徵或規則劃分為若干個同質的子群組(稱為層),然後對每個層內獨立進行隨機抽樣。這種方法結合了分組與隨機抽樣的優點,提高了樣本的代表性和估計的精度。 分層抽樣的原理與步驟 劃分層次:根據變量(如年齡、性別、地區)將
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
分層抽樣(Stratified Sampling)是一種統計抽樣方法,將總體按特定特徵或規則劃分為若干個同質的子群組(稱為層),然後對每個層內獨立進行隨機抽樣。這種方法結合了分組與隨機抽樣的優點,提高了樣本的代表性和估計的精度。 分層抽樣的原理與步驟 劃分層次:根據變量(如年齡、性別、地區)將
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
robots.txt協議是一種網站用來指示網路爬蟲(如搜尋引擎機器人)哪些頁面可以爬取、哪些禁止訪問的標準協議。它通過在網站根目錄放置一個名為「robots.txt」的純文字文件,控制爬蟲的爬取行為,幫助網站控制流量和保護私有內容,同時優化搜尋引擎的爬取效率。 robots.txt的主要功能 限
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
robots.txt協議是一種網站用來指示網路爬蟲(如搜尋引擎機器人)哪些頁面可以爬取、哪些禁止訪問的標準協議。它通過在網站根目錄放置一個名為「robots.txt」的純文字文件,控制爬蟲的爬取行為,幫助網站控制流量和保護私有內容,同時優化搜尋引擎的爬取效率。 robots.txt的主要功能 限
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
PR曲線(Precision-Recall Curve,精確率-召回率曲線)是一種用來評估分類模型性能,特別是二分類任務中,通過不同分類閾值下的精確率(Precision)與召回率(Recall)的變化關係繪製而成的曲線。 PR曲線定義: 橫軸(X軸)是召回率(Recall),表示模型在所有實際
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
PR曲線(Precision-Recall Curve,精確率-召回率曲線)是一種用來評估分類模型性能,特別是二分類任務中,通過不同分類閾值下的精確率(Precision)與召回率(Recall)的變化關係繪製而成的曲線。 PR曲線定義: 橫軸(X軸)是召回率(Recall),表示模型在所有實際
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
線性回歸的基本假設是指在建立線性回歸模型時對數據和誤差項提出的前提條件,這些假設保證了模型的合理性和統計推論的有效性。主要有以下幾個核心假設: 1. 線性關係 應變數(Y)和自變數(X)之間存在線性關係,即模型形式可表達為 2. 誤差項期望為零 誤差項的期望值為零,表示誤差沒有系統性的偏差
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
線性回歸的基本假設是指在建立線性回歸模型時對數據和誤差項提出的前提條件,這些假設保證了模型的合理性和統計推論的有效性。主要有以下幾個核心假設: 1. 線性關係 應變數(Y)和自變數(X)之間存在線性關係,即模型形式可表達為 2. 誤差項期望為零 誤差項的期望值為零,表示誤差沒有系統性的偏差
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/09
對數轉換(Logarithmic Transformation)是將數據中的每個值轉換為其對數值的過程,常用於數據分析和機器學習中,以改善數據分佈、降低偏態,並使數據更接近常態分布。 對數轉換的主要目的 減少偏態(Skewness):將右偏分佈的數據拉近對稱,有利於統計模型的假設; 縮小數據範
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/09
對數轉換(Logarithmic Transformation)是將數據中的每個值轉換為其對數值的過程,常用於數據分析和機器學習中,以改善數據分佈、降低偏態,並使數據更接近常態分布。 對數轉換的主要目的 減少偏態(Skewness):將右偏分佈的數據拉近對稱,有利於統計模型的假設; 縮小數據範
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/09
缺失值模式是指數據中缺失值的產生和存在的機制,理解不同模式有助於選擇合適的缺失值處理方法。數據科學和機器學習中,缺失值主要分為三種類型: 1. 完全隨機缺失(MCAR, Missing Completely At Random) 缺失值的產生完全隨機,與數據中任何其他變量的值無關。 換句話說,
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/09
缺失值模式是指數據中缺失值的產生和存在的機制,理解不同模式有助於選擇合適的缺失值處理方法。數據科學和機器學習中,缺失值主要分為三種類型: 1. 完全隨機缺失(MCAR, Missing Completely At Random) 缺失值的產生完全隨機,與數據中任何其他變量的值無關。 換句話說,
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/09
交叉驗證(Cross-Validation)是一種機器學習中常用的模型評估和泛化能力測試方法,通過多次將數據分割成訓練集和驗證集,檢測模型在不同資料上的表現,以避免過擬合和選擇偏差,提高模型的穩健性。 交叉驗證的基本原理 將數據集分成若干個子集(folds); 每次用其中一個子集作為驗證集,其
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/09
交叉驗證(Cross-Validation)是一種機器學習中常用的模型評估和泛化能力測試方法,通過多次將數據分割成訓練集和驗證集,檢測模型在不同資料上的表現,以避免過擬合和選擇偏差,提高模型的穩健性。 交叉驗證的基本原理 將數據集分成若干個子集(folds); 每次用其中一個子集作為驗證集,其
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/09
特徵選擇是機器學習中用來從原始特徵中挑選對目標變數最有影響力特徵的過程,能降低模型複雜度、提升預測效能及解釋性。常見的特徵選擇方法主要分成三大類: 1. 過濾法(Filter Methods) 原理:基於統計指標評估特徵與目標之間的相關性,獨立於任何學習模型。 常用指標:皮爾森相關係數、卡方檢
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/09
特徵選擇是機器學習中用來從原始特徵中挑選對目標變數最有影響力特徵的過程,能降低模型複雜度、提升預測效能及解釋性。常見的特徵選擇方法主要分成三大類: 1. 過濾法(Filter Methods) 原理:基於統計指標評估特徵與目標之間的相關性,獨立於任何學習模型。 常用指標:皮爾森相關係數、卡方檢
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/08
過採樣(Oversampling)是一種用於處理機器學習中類別不平衡問題的技術,主要通過增加少數類別的樣本數量,使得少數類和多數類的樣本比例更加均衡,從而改善模型對少數類的識別能力。 過採樣的主要方法 隨機過採樣(Random Oversampling): 從少數類樣本隨機有放回地抽取並複製,
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/08
過採樣(Oversampling)是一種用於處理機器學習中類別不平衡問題的技術,主要通過增加少數類別的樣本數量,使得少數類和多數類的樣本比例更加均衡,從而改善模型對少數類的識別能力。 過採樣的主要方法 隨機過採樣(Random Oversampling): 從少數類樣本隨機有放回地抽取並複製,
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/08
SMOTE(Synthetic Minority Over-sampling Technique,合成少數類別過採樣技術)是一種用於處理類別不平衡問題的數據增強方法,特別用於少數類別樣本數量較少時。它通過在少數類別樣本的特徵空間中生成合成樣本來擴充少數類別數據,幫助提升機器學習模型對少數類的識別效果
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/08
SMOTE(Synthetic Minority Over-sampling Technique,合成少數類別過採樣技術)是一種用於處理類別不平衡問題的數據增強方法,特別用於少數類別樣本數量較少時。它通過在少數類別樣本的特徵空間中生成合成樣本來擴充少數類別數據,幫助提升機器學習模型對少數類的識別效果
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/08
GBDT(Gradient Boosting Decision Tree,梯度提升決策樹)是一種集成學習算法,由多棵決策樹串聯組成,通過逐步擬合前一棵樹預測誤差來提升整體模型性能。GBDT在多種任務中表現優秀,尤其適用於結構化數據分析。 GBDT 與高維稀疏數據應用: 處理稀疏數據能力**:GB
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/08
GBDT(Gradient Boosting Decision Tree,梯度提升決策樹)是一種集成學習算法,由多棵決策樹串聯組成,通過逐步擬合前一棵樹預測誤差來提升整體模型性能。GBDT在多種任務中表現優秀,尤其適用於結構化數據分析。 GBDT 與高維稀疏數據應用: 處理稀疏數據能力**:GB
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/08
高維稀疏數據是指同時具備兩個特徵的數據類型: 高維度(High-Dimensional):數據具有非常多的特徵維度,可能從數百、數千到數萬,甚至上百萬。比如詞袋模型中詞彙表的大小、使用One-Hot編碼時產生的維度。 稀疏性(Sparsity):在這些高維空間中,大部分特徵值多為零或缺失,只
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/08
高維稀疏數據是指同時具備兩個特徵的數據類型: 高維度(High-Dimensional):數據具有非常多的特徵維度,可能從數百、數千到數萬,甚至上百萬。比如詞袋模型中詞彙表的大小、使用One-Hot編碼時產生的維度。 稀疏性(Sparsity):在這些高維空間中,大部分特徵值多為零或缺失,只
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/08
在線性分類問題中,「線性可分」 是指數據集中的不同類別樣本可以被一條(或一個)線性決策邊界完全分開,且沒有任何誤分類的現象。 具體定義: - 在二維空間中,線性可分意味著存在一條直線,能將所有屬於類別A的數據點和類別B的數據點完全分隔到直線的兩側。 - 在更高維度中,這條直線對應的是一個超平面
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/08
在線性分類問題中,「線性可分」 是指數據集中的不同類別樣本可以被一條(或一個)線性決策邊界完全分開,且沒有任何誤分類的現象。 具體定義: - 在二維空間中,線性可分意味著存在一條直線,能將所有屬於類別A的數據點和類別B的數據點完全分隔到直線的兩側。 - 在更高維度中,這條直線對應的是一個超平面
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/05
Bootstrap 是一種統計和機器學習中常用的重抽樣技術,通過從原始數據集中「有放回地」多次抽取樣本,生成多組新的訓練數據集(稱為Bootstrap樣本),用以估計統計量的分布,提升模型穩定性和泛化能力。 Bootstrap的主要特點: 有放回抽樣**:從原數據集中抽取樣本,抽取後的樣本可被再
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/05
Bootstrap 是一種統計和機器學習中常用的重抽樣技術,通過從原始數據集中「有放回地」多次抽取樣本,生成多組新的訓練數據集(稱為Bootstrap樣本),用以估計統計量的分布,提升模型穩定性和泛化能力。 Bootstrap的主要特點: 有放回抽樣**:從原數據集中抽取樣本,抽取後的樣本可被再
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/05
Naive Bayes 是一種基於貝葉斯定理的概率分類演算法,其核心假設是特徵條件獨立,即假定在給定類別的情況下,各特徵之間相互獨立。雖然這一假設在現實中往往不成立,但Naive Bayes在許多實際應用中表現良好,且算法簡單、計算效率高。 常見的Naive Bayes分類器類型: 高斯(Gau
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/05
Naive Bayes 是一種基於貝葉斯定理的概率分類演算法,其核心假設是特徵條件獨立,即假定在給定類別的情況下,各特徵之間相互獨立。雖然這一假設在現實中往往不成立,但Naive Bayes在許多實際應用中表現良好,且算法簡單、計算效率高。 常見的Naive Bayes分類器類型: 高斯(Gau
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/05
Feature Crossing 是一種特徵工程技術,通過將兩個或多個原始特徵組合起來(例如相乘或串接),創造新的複合特徵,以捕捉不同特徵之間的交互作用,從而提升模型對複雜關係的表達能力。 Feature Crossing的原理: - 將多個特徵進行組合,形成新的特徵空間,反映特徵之間潛在的非線
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/05
Feature Crossing 是一種特徵工程技術,通過將兩個或多個原始特徵組合起來(例如相乘或串接),創造新的複合特徵,以捕捉不同特徵之間的交互作用,從而提升模型對複雜關係的表達能力。 Feature Crossing的原理: - 將多個特徵進行組合,形成新的特徵空間,反映特徵之間潛在的非線
全部類型
免費與付費
最新發佈
最新發佈
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
決定係數(Coefficient of Determination),通常以 R^2 表示,是衡量迴歸模型擬合效果的一個統計指標。它代表模型解釋的目標變量變異的比例,用於評估模型對數據的解釋能力。 R^2 = 1 表示模型完美擬合數據(預測值完全等於真實值); R^2 表示模型表現等同於只用平均
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
決定係數(Coefficient of Determination),通常以 R^2 表示,是衡量迴歸模型擬合效果的一個統計指標。它代表模型解釋的目標變量變異的比例,用於評估模型對數據的解釋能力。 R^2 = 1 表示模型完美擬合數據(預測值完全等於真實值); R^2 表示模型表現等同於只用平均
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
Target Encoding(目標編碼)是一種用於機器學習中處理類別變數的編碼技術,特別適合高基數(高種數量)類別特徵。它通過將類別值替換成該類別在目標變量上的統計值(通常是目標的均值),使模型能夠有效利用類別與目標之間的關聯信息。 Target Encoding原理 對於分類或回歸問題,計算
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
Target Encoding(目標編碼)是一種用於機器學習中處理類別變數的編碼技術,特別適合高基數(高種數量)類別特徵。它通過將類別值替換成該類別在目標變量上的統計值(通常是目標的均值),使模型能夠有效利用類別與目標之間的關聯信息。 Target Encoding原理 對於分類或回歸問題,計算
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
Ordinal Encoding(序數編碼)是一種將**有序類別型變數**(ordinal categorical variables)轉換為數值型變數的編碼方法。它依據類別之間的固有順序,將每個類別分配一個整數,以保留類別間的大小或等級關係,常用於機器學習的數據預處理階段。 Ordinal En
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
Ordinal Encoding(序數編碼)是一種將**有序類別型變數**(ordinal categorical variables)轉換為數值型變數的編碼方法。它依據類別之間的固有順序,將每個類別分配一個整數,以保留類別間的大小或等級關係,常用於機器學習的數據預處理階段。 Ordinal En
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
支持向量機(SVM)的核技巧(Kernel Trick)是一種用來解決非線性分類問題的有效方法。它的核心思想是將原本不可線性分離的數據,透過一個非線性映射函數,投射到高維度的特徵空間中,使數據在高維空間可線性分割,然後再在該空間中運用線性支持向量機進行分類。 核技巧優點 能有效解決高維非線性
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
支持向量機(SVM)的核技巧(Kernel Trick)是一種用來解決非線性分類問題的有效方法。它的核心思想是將原本不可線性分離的數據,透過一個非線性映射函數,投射到高維度的特徵空間中,使數據在高維空間可線性分割,然後再在該空間中運用線性支持向量機進行分類。 核技巧優點 能有效解決高維非線性
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
分層抽樣(Stratified Sampling)是一種統計抽樣方法,將總體按特定特徵或規則劃分為若干個同質的子群組(稱為層),然後對每個層內獨立進行隨機抽樣。這種方法結合了分組與隨機抽樣的優點,提高了樣本的代表性和估計的精度。 分層抽樣的原理與步驟 劃分層次:根據變量(如年齡、性別、地區)將
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
分層抽樣(Stratified Sampling)是一種統計抽樣方法,將總體按特定特徵或規則劃分為若干個同質的子群組(稱為層),然後對每個層內獨立進行隨機抽樣。這種方法結合了分組與隨機抽樣的優點,提高了樣本的代表性和估計的精度。 分層抽樣的原理與步驟 劃分層次:根據變量(如年齡、性別、地區)將
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
robots.txt協議是一種網站用來指示網路爬蟲(如搜尋引擎機器人)哪些頁面可以爬取、哪些禁止訪問的標準協議。它通過在網站根目錄放置一個名為「robots.txt」的純文字文件,控制爬蟲的爬取行為,幫助網站控制流量和保護私有內容,同時優化搜尋引擎的爬取效率。 robots.txt的主要功能 限
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
robots.txt協議是一種網站用來指示網路爬蟲(如搜尋引擎機器人)哪些頁面可以爬取、哪些禁止訪問的標準協議。它通過在網站根目錄放置一個名為「robots.txt」的純文字文件,控制爬蟲的爬取行為,幫助網站控制流量和保護私有內容,同時優化搜尋引擎的爬取效率。 robots.txt的主要功能 限
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
PR曲線(Precision-Recall Curve,精確率-召回率曲線)是一種用來評估分類模型性能,特別是二分類任務中,通過不同分類閾值下的精確率(Precision)與召回率(Recall)的變化關係繪製而成的曲線。 PR曲線定義: 橫軸(X軸)是召回率(Recall),表示模型在所有實際
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
PR曲線(Precision-Recall Curve,精確率-召回率曲線)是一種用來評估分類模型性能,特別是二分類任務中,通過不同分類閾值下的精確率(Precision)與召回率(Recall)的變化關係繪製而成的曲線。 PR曲線定義: 橫軸(X軸)是召回率(Recall),表示模型在所有實際
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
線性回歸的基本假設是指在建立線性回歸模型時對數據和誤差項提出的前提條件,這些假設保證了模型的合理性和統計推論的有效性。主要有以下幾個核心假設: 1. 線性關係 應變數(Y)和自變數(X)之間存在線性關係,即模型形式可表達為 2. 誤差項期望為零 誤差項的期望值為零,表示誤差沒有系統性的偏差
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/10
線性回歸的基本假設是指在建立線性回歸模型時對數據和誤差項提出的前提條件,這些假設保證了模型的合理性和統計推論的有效性。主要有以下幾個核心假設: 1. 線性關係 應變數(Y)和自變數(X)之間存在線性關係,即模型形式可表達為 2. 誤差項期望為零 誤差項的期望值為零,表示誤差沒有系統性的偏差
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/09
對數轉換(Logarithmic Transformation)是將數據中的每個值轉換為其對數值的過程,常用於數據分析和機器學習中,以改善數據分佈、降低偏態,並使數據更接近常態分布。 對數轉換的主要目的 減少偏態(Skewness):將右偏分佈的數據拉近對稱,有利於統計模型的假設; 縮小數據範
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/09
對數轉換(Logarithmic Transformation)是將數據中的每個值轉換為其對數值的過程,常用於數據分析和機器學習中,以改善數據分佈、降低偏態,並使數據更接近常態分布。 對數轉換的主要目的 減少偏態(Skewness):將右偏分佈的數據拉近對稱,有利於統計模型的假設; 縮小數據範
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/09
缺失值模式是指數據中缺失值的產生和存在的機制,理解不同模式有助於選擇合適的缺失值處理方法。數據科學和機器學習中,缺失值主要分為三種類型: 1. 完全隨機缺失(MCAR, Missing Completely At Random) 缺失值的產生完全隨機,與數據中任何其他變量的值無關。 換句話說,
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/09
缺失值模式是指數據中缺失值的產生和存在的機制,理解不同模式有助於選擇合適的缺失值處理方法。數據科學和機器學習中,缺失值主要分為三種類型: 1. 完全隨機缺失(MCAR, Missing Completely At Random) 缺失值的產生完全隨機,與數據中任何其他變量的值無關。 換句話說,
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/09
交叉驗證(Cross-Validation)是一種機器學習中常用的模型評估和泛化能力測試方法,通過多次將數據分割成訓練集和驗證集,檢測模型在不同資料上的表現,以避免過擬合和選擇偏差,提高模型的穩健性。 交叉驗證的基本原理 將數據集分成若干個子集(folds); 每次用其中一個子集作為驗證集,其
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/09
交叉驗證(Cross-Validation)是一種機器學習中常用的模型評估和泛化能力測試方法,通過多次將數據分割成訓練集和驗證集,檢測模型在不同資料上的表現,以避免過擬合和選擇偏差,提高模型的穩健性。 交叉驗證的基本原理 將數據集分成若干個子集(folds); 每次用其中一個子集作為驗證集,其
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/09
特徵選擇是機器學習中用來從原始特徵中挑選對目標變數最有影響力特徵的過程,能降低模型複雜度、提升預測效能及解釋性。常見的特徵選擇方法主要分成三大類: 1. 過濾法(Filter Methods) 原理:基於統計指標評估特徵與目標之間的相關性,獨立於任何學習模型。 常用指標:皮爾森相關係數、卡方檢
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/09
特徵選擇是機器學習中用來從原始特徵中挑選對目標變數最有影響力特徵的過程,能降低模型複雜度、提升預測效能及解釋性。常見的特徵選擇方法主要分成三大類: 1. 過濾法(Filter Methods) 原理:基於統計指標評估特徵與目標之間的相關性,獨立於任何學習模型。 常用指標:皮爾森相關係數、卡方檢
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/08
過採樣(Oversampling)是一種用於處理機器學習中類別不平衡問題的技術,主要通過增加少數類別的樣本數量,使得少數類和多數類的樣本比例更加均衡,從而改善模型對少數類的識別能力。 過採樣的主要方法 隨機過採樣(Random Oversampling): 從少數類樣本隨機有放回地抽取並複製,
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/08
過採樣(Oversampling)是一種用於處理機器學習中類別不平衡問題的技術,主要通過增加少數類別的樣本數量,使得少數類和多數類的樣本比例更加均衡,從而改善模型對少數類的識別能力。 過採樣的主要方法 隨機過採樣(Random Oversampling): 從少數類樣本隨機有放回地抽取並複製,
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/08
SMOTE(Synthetic Minority Over-sampling Technique,合成少數類別過採樣技術)是一種用於處理類別不平衡問題的數據增強方法,特別用於少數類別樣本數量較少時。它通過在少數類別樣本的特徵空間中生成合成樣本來擴充少數類別數據,幫助提升機器學習模型對少數類的識別效果
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/08
SMOTE(Synthetic Minority Over-sampling Technique,合成少數類別過採樣技術)是一種用於處理類別不平衡問題的數據增強方法,特別用於少數類別樣本數量較少時。它通過在少數類別樣本的特徵空間中生成合成樣本來擴充少數類別數據,幫助提升機器學習模型對少數類的識別效果
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/08
GBDT(Gradient Boosting Decision Tree,梯度提升決策樹)是一種集成學習算法,由多棵決策樹串聯組成,通過逐步擬合前一棵樹預測誤差來提升整體模型性能。GBDT在多種任務中表現優秀,尤其適用於結構化數據分析。 GBDT 與高維稀疏數據應用: 處理稀疏數據能力**:GB
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/08
GBDT(Gradient Boosting Decision Tree,梯度提升決策樹)是一種集成學習算法,由多棵決策樹串聯組成,通過逐步擬合前一棵樹預測誤差來提升整體模型性能。GBDT在多種任務中表現優秀,尤其適用於結構化數據分析。 GBDT 與高維稀疏數據應用: 處理稀疏數據能力**:GB
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/08
高維稀疏數據是指同時具備兩個特徵的數據類型: 高維度(High-Dimensional):數據具有非常多的特徵維度,可能從數百、數千到數萬,甚至上百萬。比如詞袋模型中詞彙表的大小、使用One-Hot編碼時產生的維度。 稀疏性(Sparsity):在這些高維空間中,大部分特徵值多為零或缺失,只
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/08
高維稀疏數據是指同時具備兩個特徵的數據類型: 高維度(High-Dimensional):數據具有非常多的特徵維度,可能從數百、數千到數萬,甚至上百萬。比如詞袋模型中詞彙表的大小、使用One-Hot編碼時產生的維度。 稀疏性(Sparsity):在這些高維空間中,大部分特徵值多為零或缺失,只
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/08
在線性分類問題中,「線性可分」 是指數據集中的不同類別樣本可以被一條(或一個)線性決策邊界完全分開,且沒有任何誤分類的現象。 具體定義: - 在二維空間中,線性可分意味著存在一條直線,能將所有屬於類別A的數據點和類別B的數據點完全分隔到直線的兩側。 - 在更高維度中,這條直線對應的是一個超平面
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/08
在線性分類問題中,「線性可分」 是指數據集中的不同類別樣本可以被一條(或一個)線性決策邊界完全分開,且沒有任何誤分類的現象。 具體定義: - 在二維空間中,線性可分意味著存在一條直線,能將所有屬於類別A的數據點和類別B的數據點完全分隔到直線的兩側。 - 在更高維度中,這條直線對應的是一個超平面
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/05
Bootstrap 是一種統計和機器學習中常用的重抽樣技術,通過從原始數據集中「有放回地」多次抽取樣本,生成多組新的訓練數據集(稱為Bootstrap樣本),用以估計統計量的分布,提升模型穩定性和泛化能力。 Bootstrap的主要特點: 有放回抽樣**:從原數據集中抽取樣本,抽取後的樣本可被再
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/05
Bootstrap 是一種統計和機器學習中常用的重抽樣技術,通過從原始數據集中「有放回地」多次抽取樣本,生成多組新的訓練數據集(稱為Bootstrap樣本),用以估計統計量的分布,提升模型穩定性和泛化能力。 Bootstrap的主要特點: 有放回抽樣**:從原數據集中抽取樣本,抽取後的樣本可被再
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/05
Naive Bayes 是一種基於貝葉斯定理的概率分類演算法,其核心假設是特徵條件獨立,即假定在給定類別的情況下,各特徵之間相互獨立。雖然這一假設在現實中往往不成立,但Naive Bayes在許多實際應用中表現良好,且算法簡單、計算效率高。 常見的Naive Bayes分類器類型: 高斯(Gau
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/05
Naive Bayes 是一種基於貝葉斯定理的概率分類演算法,其核心假設是特徵條件獨立,即假定在給定類別的情況下,各特徵之間相互獨立。雖然這一假設在現實中往往不成立,但Naive Bayes在許多實際應用中表現良好,且算法簡單、計算效率高。 常見的Naive Bayes分類器類型: 高斯(Gau
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/05
Feature Crossing 是一種特徵工程技術,通過將兩個或多個原始特徵組合起來(例如相乘或串接),創造新的複合特徵,以捕捉不同特徵之間的交互作用,從而提升模型對複雜關係的表達能力。 Feature Crossing的原理: - 將多個特徵進行組合,形成新的特徵空間,反映特徵之間潛在的非線
avatar-avatar
iPAS AI應用規劃師學習筆記
2025/09/05
Feature Crossing 是一種特徵工程技術,通過將兩個或多個原始特徵組合起來(例如相乘或串接),創造新的複合特徵,以捕捉不同特徵之間的交互作用,從而提升模型對複雜關係的表達能力。 Feature Crossing的原理: - 將多個特徵進行組合,形成新的特徵空間,反映特徵之間潛在的非線