會 SQL 就能使用的 Machine learning 工具 - BigQuery ML

2024/09/21 更新2024/09/21 發佈閱讀 2 分鐘

我們公司經營了一個類似 LinkedIn 的求職平台，主要的商業模式是幫助企業找到適合的人才，媒合成功後，我們會根據錄取人才的薪資比例收取服務費（類似獵頭模式）。因為我們的商業模式依賴業務人員與客戶的互動，而業務人員的時間有限，因此，能否在早期辨識出哪個客戶具有更高的合作潛力，對資源的分配至關重要。

為了解決問題，我的分析目標是：如何在客戶進行 onboarding 流程時，辨識出其潛在價值，並進行客戶分群。這樣我們可以更有效地將資源集中在更有可能成功合作的客戶身上。

而我當時進行分析的步驟是：

1. 定義「好客戶」

我們使用歷史數據，並定義那些被業務標示為「值得合作」的客戶為「好客戶」。

2. 發想有用的特徵（Feature Engineering 特徵工程）

我發想了一些可能有助於區分「好客戶」與「其他客戶」的特徵，例如客戶的地區、預算範圍、以及希望招募的職位類型等。

3. 查看 Feature 與目標的相關性

接下來，我逐一檢視每個特徵與「好客戶」的相關性，通過製作圖表來視覺化這些關係。

然而，這個過程比較耗時，因為每一個 feature 需要單獨做一個圖表。當時我分析了 10 個特徵，結果製作了 10 張圖表，效率不高

根據相關性結果給予分群建議

根據 3. 得到的相關性結果，告知 PM 讓他們知道如何在 onboarding 過程做適當的分群

機器學習提升效率

在我學習更多 Machine Learning 知識後，我意識到「3. 查看 Feature 與目標的相關性」這個步驟，其實可以使用機器學習模型來自動化，不但可以節省時間，還有機會找出更複雜的邏輯

然而，建立預測模型通常需要寫程式（例如使用 Python），而對於不熟悉 Python 的 Data Analyst 來說，這是一個障礙。為了解決這個問題，我開始尋找能夠不用寫程式就能達成的解決方案，最後我發現了 BigQuery ML（BQ ML）

BigQuery ML 的優勢

BQ ML 可以通過簡單的 SQL 指令來構建機器學習模型。這意味著即使不會 Python 的分析師，也可以通過 SQL 來訓練模型、查看特徵重要性、進行預測等

詳細做法可參考這篇文章，我這裡主要列出我認為重要的三個指令：

建立模型

CREATE OR REPLACE MODEL
  `richard.lr_model`
OPTIONS
  ( model_type='LOGISTIC_REG',
    input_label_cols=['is_hired'],
    ENABLE_GLOBAL_EXPLAIN=TRUE
  ) AS

    SELECT
      request_rate, --feature
      event_order, --feature
      tech_stack_match_count, --feature
      is_hired --label
    FROM `richard.demo_table`
    ORDER BY event_created_at DESC LIMIT 10000 OFFSET 1000

查看特徵重要性（Feature importance）

SELECT
  *
FROM
  ML.GLOBAL_EXPLAIN(MODEL `richard.lr_model`)

使用模型進行預測

SELECT
  *
FROM
  ML.PREDICT (MODEL `richard.lr_model`,
    (
      SELECT
        request_rate,
        event_order,
        tech_stack_match_count,
        is_hired
      FROM `richard.demo_table`
      ORDER BY event_created_at DESC LIMIT 1000 
    )
  )

這些 SQL 指令大大簡化了過去繁瑣的步驟，讓我能夠快速分析多個特徵，提升找到 insights 的效率（回扣到數據分析師 Data Analyst 需要的四種能力裡提到的 inspiration-per-minute）

BQ ML 的具體應用

利用 BQ ML，我能夠更快速地進行以下三個步驟：

建立模型：放入多個可能有影響的 features
查看特徵重要性：自動告訴我們哪些特徵對預測最有幫助，省去了手動檢查每個特徵的時間。
進行預測並改進模型：分析預測錯誤的情況，思考是否有潛在的有用特徵被忽略

持續的挑戰

儘管 BQ ML 很強大，但目前還有一些小問題，例如：

複雜模型耗時較久：例如樹模型 XGBoost 在資料量較小的情況下，仍然需要較長的運行時間，因此目前只能使用較簡單的模型（如邏輯回歸 Logistic regression）。
需要一定的機器學習基礎：要選擇合適的模型仍然需要機器學習知識，但這部分可以透過工具如 ChatGPT 來彌補。

謝謝你看到這邊，如果你看完文章後有任何想法或建議，都很歡迎在留言區提出分享！或是歡迎加我的 Linkedin 與我交流

Data Analyst 的學習筆記職場心得

留言

Data Analyst 的學習筆記

21會員

24內容數

多年經驗的數據分析師，透過部落格記錄職場心得以及生活所學主要會分享以下三類型的主題 1. 職場心得：包含數據分析師的工作經驗以及職場所學 2. 觀影心得：會分享我從電影、影集以及動畫中所學習到的內容 3. 生活雜談：其他不在上述兩類的內容

Data Analyst 的學習筆記的其他內容

2025/04/28

Data Analyst 職涯規劃中的取捨：短期收入 VS 長期發展

因公司裁員而重返求職市場後，我發現好的 Data Analyst 工作不太好找。考量未來發展與職涯彈性，我開始思考轉職軟體工程師的可能性。雖然短期內薪資下降約四分之一，但評估後認為，這是對長期職涯規劃的重要投資。本文分享從裁員到轉職的思考過程，以及如何理性評估降薪與未來機會。

2025/04/28

Data Analyst 職涯規劃中的取捨：短期收入 VS 長期發展

2025/04/13

《納瓦爾寶典》教我的事 - Data Analyst 的多元能力也能成為利器

在 AI 浪潮下，Data Analyst 的職場競爭更加激烈。身為擁有多元背景的我，卻發現這樣的優勢在求職市場中反而變成了劣勢。直到我從《納瓦爾寶典》中理解到「特定知識」的價值，才明白多元能力如何成為無法被取代的利器。這篇文章將分享我的職涯反思與轉念歷程。

2025/04/13

《納瓦爾寶典》教我的事 - Data Analyst 的多元能力也能成為利器

2025/03/31

運氣加上這些關鍵選擇，讓我三年薪水翻倍｜數據分析師職涯故事

最近回顧自己在現職公司的工作歷程，發現過去三年薪水成長了不少，相較於前一份工作甚至翻倍。當然，運氣成分不可忽略，但回頭看，也有一些關鍵選擇讓這段成長之路更加順利。所以，這篇文章想和大家分享：「三年薪水翻倍，除了運氣以外，我還做對了什麼」

2025/03/31

運氣加上這些關鍵選擇，讓我三年薪水翻倍｜數據分析師職涯故事

看更多

你可能也想看

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

產品思維的創意想像

模組化的客戶服務，客製化的專案拆解｜EP10

上一篇提到《對專案成功的渴望有多高？客戶成功的心態培養》，這篇將陸續整理我在群眾集資平台擔任集資專案顧問時（a.k.a. 客戶成功 Customer Success），從客戶身上學習到的事，分別是 (1) 為什麼我想要模組化？、(2) 模組化仍不夠，再加上客製化。

#客戶成功#客戶服務#群眾集資

2022/09/25

產品思維的創意想像

模組化的客戶服務，客製化的專案拆解｜EP10

#客戶成功#客戶服務#群眾集資

2022/09/25

男子漢聊AI的沙龍

17個ChatGPT提示詞，營運公司更有效率

1.制定有競爭力的行銷策略。 “根據[插入對您的產品、服務和目標市場的簡要描述]，指導我使用行銷的4P制定全面的行銷策略。” 2.打造有影響力的品牌。 “幫助我使用黃金圈模型為我的[插入您的產品或服務的簡要描述]創建一個令人難忘和有影響力的品牌。”

#GPT指令與策略

2023/10/18

男子漢聊AI的沙龍

17個ChatGPT提示詞，營運公司更有效率

#GPT指令與策略

2023/10/18

B2B Sales&Business Development

B2B業務 | 分類客戶與定期聯絡的重要性。

本文想傳達的觀念內外銷都適用。分類客戶，是身為業務最基本的一項工作。我之前有寫一篇有推薦使用營收、產品占代理商營收的比率、代理商與公司未來發展方向是否相同做為分類代理商的指標。若您還沒看過，推薦看完本文後，可以回頭去看看。分類客戶我建議的分類指標不一定每一間公司都買單，每間公司

#業務可頌#B2B#B2B業務銷售

2023/09/26

B2B Sales&Business Development

B2B業務 | 分類客戶與定期聯絡的重要性。

#業務可頌#B2B#B2B業務銷售

2023/09/26

產品思維的創意想像

建立服務清單，為客戶創造價值｜EP4

上一篇提到《抓住客戶的 Aha moment，三大關鍵要素分析》，這篇將陸續整理我在群眾集資平台擔任平台顧問時（a.k.a. 客戶成功經理），所歸納出的客戶服務方法論，分別是 (1) 盤點客戶需求 (2) 收斂自身服務 (3) 提供對應價值。

2022/07/10

2022/07/10

1. 改善客戶服務提示：推薦最佳實踐以提升我的 [SERVICE I工程業務]。 2.推介準備提示：指導我為投資者創建一個引人注目的推介牌，突出要包括的關鍵組成部分。 3. 在商業中利用人工智慧提示：提出將人工智慧整合到[我的業務部門]運營中的實用方法。

2023/10/18

2023/10/18

【職場點滴】獵才學(上) 先把分機表弄到手再說

曾有個業界的前輩跟我說：「基金業的成功關鍵無它，就只要做好兩件事。一個是找對人(right people)，一個是執行到位(right execution)。」完全認同。策略、戰術、做法、SWOT、六個標準差等等，那些管理學或書籍上的鬼東西，大家都讀過，誰不會講啊？

#職場點滴#那些年基金業教會我的事#獵才術

2023/07/17

這裡丨心裡

【職場點滴】獵才學(上) 先把分機表弄到手再說

#職場點滴#那些年基金業教會我的事#獵才術

2023/07/17

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11