Feature engineering(特徵工程)是機器學習中將原始資料轉換成能更有效表示問題特徵的過程,目的是提升模型的預測準確度和泛化能力。
主要內容包括:
**特徵選擇**:挑選對目標變數最有影響力的欄位或變數。**特徵轉換**:對原始資料做數學或統計轉換,如標準化、正規化、對數變換等。
**特徵創造**:從現有資料中衍生出新的特徵,例如時間拆解(年、月、日)、文字分詞、交互特徵等。
**缺失值處理**:填補或剔除缺失資料,確保模型輸入完整。
**類別編碼**:將類別資料轉換成數值形式,如獨熱編碼(One-hot Encoding)、標籤編碼等。
作用
- 提升模型對資料的理解能力,改善預測效果。
- 降低模型訓練難度與計算成本。
- 幫助模型捕捉資料中隱含的規律與關聯。
與 Amazon Bedrock 相關
Amazon Bedrock 的 **Data Automation** 功能能自動處理和分析多模態資料(文字、圖片、音頻等),在某種程度上協助完成特徵抽取與資料預處理,支持更高效的智能文件處理和生成式AI應用開發[1][2]。
簡而言之,**特徵工程是將原始資料轉換成更適合機器學習模型使用的特徵,以提升模型性能的關鍵步驟。