雖然「生成式 AI」最近在數位行銷公司出盡風頭,但當老闆丟給你一份幾百萬筆客戶分類的 Excel 報表,要求預測下個月的營收時,那些會畫圖、會寫詩的生成式 AI 竟然全部傻眼!
在這一篇《白話實驗室》中,我們將重返 Brainstorm 數位行銷公司的財務審核室。這一次,我們不談天馬行空的創意,而是要喚醒數據界身經百戰的老將們,準備好迎接「古典流派的逆襲」吧!
📖 第四卷:古典流派的逆襲(傳統機器學習)
(畫面轉場)
「歡迎來到白話實驗室。」
我是日野遼。如果你以為現在的 AI 只有 GPT 或 MidJourney,那就大錯特錯了。在真實的商業世界裡,真正幫公司賺錢、算機率、做預測的,往往是那些名字聽起來很老派的「傳統機器學習」模型。
今天,首席研究員「宙猩」將帶我們認識這群不搞創意、只看數據的冷酷精算師。看看他們是如何在雜亂無章的報表中,一眼看穿客戶的錢包!
Step 1: 職場情境劇 (Story Mode)
🎬 劇名:《財務報表與數據老將的逆襲》
【主要角色】
- Jason(行銷總監 / 慣老闆): 拿著雜亂的客戶 Excel 表,想知道誰會買單,誰只是來逛逛。
- 艾莉 (Elly): 負責調度「機器學習老將」的數據戰術分析師。
- 老陳(資深會計): 在公司待了 20 年,性格古板但判斷精準的人類代表。
【劇情開始】 地點:Brainstorm 行銷公司 財務審核室。
「艾莉,那些會畫圖的 AI 漂亮是漂亮,但這張報表它們讀不懂啊!」Jason 拍著桌子,「我只想知道,廣告預算投下去,營收會長多少?還有這群客戶,到底會不會下單?」
艾莉推了推眼鏡:「總監,對付數據報表,我們不需要藝術家,我們需要的是『統計精算師』。這就是傳統機器學習的戰場。」
1. 鐵口直斷的算命師:回歸系列與 SVM
「如果您想預測具體的數字,比如『明年業績會漲幾趴』,我們要請出 線性回歸 (Linear Regression)。」艾莉畫了一條直線,「它就像老陳,看著過去的成長趨勢,拉出一條直線預測未來。」
「那如果只是要分『買』或『不買』呢?」
「那就是 邏輯回歸 (Logistic Regression)。」艾莉解釋,「雖然它名字裡有回歸,但它其實是個『二選一裁決官』,專門處理這種是非題。」
「如果客戶資料很亂,分不清楚呢?」Jason 追問。
「那就請 SVM (支持向量機) 出場。它就像一個專業保全,會在兩群人之間強行劃出一條『最寬的緩衝區』,把好客與奧客分得清清楚楚。」
2. 團隊合作的選舉大戰:決策樹與集成學習
「我有個更簡單的方法,」Jason 說,「叫大家投票決定不就好了?」
「這就是 集成學習 (Ensemble) 的精髓!」艾莉眼睛一亮,「決策樹 (Decision Tree) 就像是一個愛問問題的實習生,問完『有沒有錢?』、『有沒有需求?』後做決定。但一個實習生容易偏頗,所以我們找來一百個實習生組成 隨機森林 (Random Forest)。」
艾莉接著比喻:「這種『大家同時投票,少數服從多數』的方法叫 Bagging;但如果我們讓實習生輪流練習,後一個專門修正前一個的錯誤,這種接力賽的訓練法就叫 Boosting。」
3. 數據界的超跑:三巨頭
「最後,為了對付您那幾百萬筆的廣告數據,我們有三台採用 Boosting 技術的超跑。」艾莉秀出三張規格表:
- XGBoost:拿過無數數據競賽冠軍的『全能超跑』。
- LightGBM:專門處理大數據,『速度最快』的跑車。
- CatBoost:專門對付報表裡的文字類別(如城市、職業),是『類別資料專家』。
Jason 點點頭:「懂了。生成式 AI 是美編,這些機器學習老將才是我的軍師跟會計啊!」
Step 2: 觀念對照表 (Decoding)
🐒 宙猩解碼時間 看懂了這群數據老將的專長,是不是覺得傳統演算法其實非常直觀?現在,跟著宙猩一起,把這些精算神技嚴格對齊到正式的技術專有名詞上:
- 📈 線性回歸 (Linear Regression)
- 白話解析: 看趨勢算數字的算命仙。
- 核心概念: 透過擬合一條直線,來預測連續數值(例如:房價、點擊率、營收)。
- ⚖️ 邏輯回歸 (Logistic Regression)
- 白話解析: 二選一裁決官。
- 核心概念: 雖然名為回歸,但主要用於處理二元分類問題(例如:買/不買、是/否)。
- 🚧 SVM (支持向量機)
- 白話解析: 強行劃分緩衝區的保全。
- 核心概念: 尋找能最大化間隔 (Margin) 的超平面,將不同類別的資料清晰分開。
- 🌳 決策樹 (Decision Tree)
- 白話解析: 邏輯問答題實習生。
- 核心概念: 呈現樹狀結構,根據特徵屬性一層層進行邏輯判斷與分類。
- 🤝 集成學習 (Ensemble)
- 白話解析: 團結力量大的投票大會。
- 核心概念: 結合多個弱學習器(如多棵樹)來提升整體的預測準確度與穩定性。
- 🌲 隨機森林 (Random Forest)
- 白話解析: 百人投票大會。
- 核心概念: 集成學習的一種,由多棵獨立並行生成的決策樹組成,最終取多數決。
- 🛍️ Bagging
- 白話解析: 大家同時並行投票。
- 核心概念: Bootstrap Aggregating 的簡稱,透過並行訓練多個獨立模型來降低變異性(如隨機森林)。
- 🏃♂️ Boosting
- 白話解析: 後浪補前浪的接力賽。
- 核心概念: 序列式的集成學習,後面的模型重點學習並修正前面模型預測錯誤的樣本。
- 🏎️ XGBoost
- 白話解析: 數據競賽的全能冠軍。
- 核心概念: 極度優化過的梯度提升樹 (GBDT) 演算法,效能與準確率極高。
- ⚡ LightGBM
- 白話解析: 速度最快的大數據跑車。
- 核心概念: 微軟開發的演算法,使用直方圖與單邊梯度採樣,訓練速度極快、佔用記憶體小。
- 🐈 CatBoost
- 白話解析: 類別資料處理專家。
- 核心概念: Yandex 開發,原生支援且完美處理類別型特徵(Categorical Features),無需手動轉換。
Step 3: 職場情境探討 (Apply Mode)
👓 日野遼的實戰道場 理解了這群數據老將的強項,現在換你來當總監點將了!宙猩準備了 3 個真實的職場情境,看看你能不能精準派對模型出場解決問題:
📝 【情境 1|預測數值與分類的抉擇】
Brainstorm 公司想要預測「下一季的具體廣告點擊次數」。如果總監指名要用「邏輯回歸 (Logistic Regression)」,你會怎麼建議他?
💡 正確答案:請總監改用「線性回歸」或 XGBoost。
🧠 原理白話解: 「廣告點擊次數」是連續不斷變化的具體數字。邏輯回歸雖然名字裡有「回歸」,但它是專門用來做「分類」的(例如預測這則廣告「會 / 不會」被點擊)。要預測具體連續數值,必須派線性回歸出場。
📝 【情境 2|團隊合作模式的差異】
工程師在報告時提到,他們使用了「隨機森林」來預測客戶流失率,並說這是一種「讓後面的樹去修正前面的樹的錯誤」的技術。這句話哪裡有問題?
💡 正確答案:「隨機森林」是 Bagging(並行),不是 Boosting(串行)。
🧠 原理白話解: 隨機森林的邏輯是「大家同時投票(Bagging)」,每棵決策樹都是獨立作業、互不干擾的。真正「後浪推前浪、讓後面模型修正前面錯誤」的接力賽技術,叫做 Boosting(例如 XGBoost)。
📝 【情境 3|處理繁雜的文字類別報表】
客戶傳來一份高達兩百萬筆的會員資料,裡面包含大量的「居住城市」、「職業」、「喜好標籤」等純文字類別特徵。為了節省手動把文字轉成數字的處理時間,該派哪台超跑出場?
💡 正確答案:派出「CatBoost」
🧠 原理白話解: CatBoost 的 "Cat" 就是 Categorical(類別)的縮寫。它天生內建了處理這類文字標籤的強大機制,不需要工程師辛苦地做 One-Hot Encoding(特徵轉換),是處理類別資料的最佳解答。
Step 4: 洗腦速記表 (Cheat Sheet)
🦍 宙猩的速記大補帖 傳統機器學習名詞太像?把這份口訣存進手機,開會或提案前瞄一眼,11 個名詞瞬間解鎖,讓老闆覺得你超級專業!
- 📈 線性回歸 👉 拉出一條線,預測能變現(算數值)
- ⚖️ 邏輯回歸 👉 雖然叫回歸,分類站好隊(判是非)
- 🚧 SVM 👉 劃清楚河界,緩衝最優越(切蛋糕)
- 🌳 決策樹 👉 邏輯問答題,一步步分析(20個問題)
- 🤝 集成學習 👉 團結力量大,模型一起上(打群架)
- 🛍️ Bagging 👉 同時並行投,大家一起謀(平行投票)
- 🌲 隨機森林 👉 森林大投票,穩健又可靠(Bagging代表)
- 🏃♂️ Boosting 👉 弱弱相扶持,後浪補前失(接力修正)
- 🏎️ XGBoost 👉 效能大怪物,競賽常勝軍(全能超跑)
- ⚡ LightGBM 👉 運算快如光,大數據最香(光速超跑)
- 🐈 CatBoost 👉 類別資料來,通通它來排(類別專家)
🚀 下集預告:第五卷 內功心法(學習範式)
如果說今天介紹的 回歸、SVM、決策樹與 Boosting 是 AI 手中的「武器」, 那麼真正決定 AI 能不能變強的,其實是 它的學習方式。
在下一集《白話實驗室》中, 日野遼與宙猩將帶大家走進 AI 的訓練營。
我們將揭開三種最核心的學習模式:
- 監督學習(Supervised Learning):老師給答案的標準訓練法
- 無監督學習(Unsupervised Learning):AI 自己找規律
- 強化學習(Reinforcement Learning):做對就給獎勵的遊戲訓練
原來 AI 並不是「突然變聰明」, 而是透過不同的學習方式,一步一步修煉出來的。
💬 互動問題
如果你是 Brainstorm 公司的 AI 顧問, 遇到下面三個任務,你會派誰出場?
A. 公司想預測「下一季營收成長率」 (要得到一個具體數字)
B. 行銷部想判斷「哪些客戶會購買新產品」 (只有會 / 不會兩種結果)
C. 客戶資料有 200 萬筆, 裡面包含大量 城市、職業、興趣標籤 等文字類別資料
留言告訴 宙猩 你的答案與理由!
我們下一集《白話實驗室》見。 🐒
✦ White-Lab 本篇重點
當 AI 不只是會 畫圖、寫文章, 還能 預測數據、分析客戶、計算風險, 它背後其實依賴的是 傳統機器學習模型。
在本篇《白話實驗室》中, 我們透過 職場情境劇與真實商業案例, 解析以下核心技術:
- 線性回歸(Linear Regression)
- 邏輯回歸(Logistic Regression)
- SVM(支持向量機)
- 決策樹(Decision Tree)
- 集成學習(Ensemble)
- Random Forest
- Bagging
- Boosting
- XGBoost
- LightGBM
- CatBoost
帶你理解 AI 在真實商業世界裡如何做決策與預測。
📚 教材章節對應索引(WHITE LAB|Vol.04)
本篇為《第四卷:古典流派的逆襲(傳統機器學習)》之導讀總覽故事, 內容涵蓋以下教材章節之核心技術定義:
🔹第四卷 第一章:回歸與邊界
- 線性回歸(Linear Regression)
- 邏輯回歸(Logistic Regression)
- SVM(支持向量機)
🔹第四卷 第二章:樹狀模型與集成
- 決策樹(Decision Tree)
- 集成學習(Ensemble)
- 隨機森林(Random Forest)
- Bagging
- Boosting
🔹第四卷 第三章:梯度提升三巨頭
- XGBoost
- LightGBM
- CatBoost
📌 本卷共收錄 11 項傳統機器學習專有名詞, 作為後續「古裝版教材」、「iPAS 模擬題」與「觀念對照卡」生成之唯一依據。




















