會 SQL 就能使用的 Machine learning 工具 - BigQuery ML

閱讀時間約 2 分鐘

我們公司經營了一個類似 LinkedIn 的求職平台,主要的商業模式是幫助企業找到適合的人才,媒合成功後,我們會根據錄取人才的薪資比例收取服務費(類似獵頭模式)。因為我們的商業模式依賴業務人員與客戶的互動,而業務人員的時間有限,因此,能否在早期辨識出哪個客戶具有更高的合作潛力,對資源的分配至關重要。

為了解決問題,我的分析目標是:如何在客戶進行 onboarding 流程時,辨識出其潛在價值,並進行客戶分群。這樣我們可以更有效地將資源集中在更有可能成功合作的客戶身上。

而我當時進行分析的步驟是:

1. 定義「好客戶」

我們使用歷史數據,並定義那些被業務標示為「值得合作」的客戶為「好客戶」。

2. 發想有用的特徵(Feature Engineering 特徵工程)

我發想了一些可能有助於區分「好客戶」與「其他客戶」的特徵,例如客戶的地區、預算範圍、以及希望招募的職位類型等。

3. 查看 Feature 與目標的相關性

接下來,我逐一檢視每個特徵與「好客戶」的相關性,通過製作圖表來視覺化這些關係。

然而,這個過程比較耗時,因為每一個 feature 需要單獨做一個圖表。當時我分析了 10 個特徵,結果製作了 10 張圖表,效率不高

  1. 根據相關性結果給予分群建議

根據 3. 得到的相關性結果,告知 PM 讓他們知道如何在 onboarding 過程做適當的分群


機器學習提升效率

在我學習更多 Machine Learning 知識後,我意識到「3. 查看 Feature 與目標的相關性」這個步驟,其實可以使用機器學習模型來自動化,不但可以節省時間,還有機會找出更複雜的邏輯

然而,建立預測模型通常需要寫程式(例如使用 Python),而對於不熟悉 Python 的 Data Analyst 來說,這是一個障礙。為了解決這個問題,我開始尋找能夠不用寫程式就能達成的解決方案,最後我發現了 BigQuery ML(BQ ML)


BigQuery ML 的優勢

BQ ML 可以通過簡單的 SQL 指令來構建機器學習模型。這意味著即使不會 Python 的分析師,也可以通過 SQL 來訓練模型、查看特徵重要性、進行預測等

詳細做法可參考這篇文章,我這裡主要列出我認為重要的三個指令:

  1. 建立模型
CREATE OR REPLACE MODEL
`richard.lr_model`
OPTIONS
( model_type='LOGISTIC_REG',
input_label_cols=['is_hired'],
ENABLE_GLOBAL_EXPLAIN=TRUE
) AS

SELECT
request_rate, --feature
event_order, --feature
tech_stack_match_count, --feature
is_hired --label
FROM `richard.demo_table`
ORDER BY event_created_at DESC LIMIT 10000 OFFSET 1000
  1. 查看特徵重要性(Feature importance)
SELECT
*
FROM
ML.GLOBAL_EXPLAIN(MODEL `richard.lr_model`)
  1. 使用模型進行預測
SELECT
*
FROM
ML.PREDICT (MODEL `richard.lr_model`,
(
SELECT
request_rate,
event_order,
tech_stack_match_count,
is_hired
FROM `richard.demo_table`
ORDER BY event_created_at DESC LIMIT 1000
)
)

這些 SQL 指令大大簡化了過去繁瑣的步驟,讓我能夠快速分析多個特徵,提升找到 insights 的效率(回扣到 數據分析師 Data Analyst 需要的四種能力 裡提到的 inspiration-per-minute)


BQ ML 的具體應用

利用 BQ ML,我能夠更快速地進行以下三個步驟:

  1. 建立模型:放入多個可能有影響的 features
  2. 查看特徵重要性:自動告訴我們哪些特徵對預測最有幫助,省去了手動檢查每個特徵的時間。
  3. 進行預測並改進模型:分析預測錯誤的情況,思考是否有潛在的有用特徵被忽略

持續的挑戰

儘管 BQ ML 很強大,但目前還有一些小問題,例如:

  1. 複雜模型耗時較久:例如樹模型 XGBoost 在資料量較小的情況下,仍然需要較長的運行時間,因此目前只能使用較簡單的模型(如邏輯回歸 Logistic regression)。
  2. 需要一定的機器學習基礎:要選擇合適的模型仍然需要機器學習知識,但這部分可以透過工具如 ChatGPT 來彌補。


謝謝你看到這邊,如果你看完文章後有任何想法或建議,都很歡迎在留言區提出分享!或是歡迎加我的 Linkedin 與我交流

1會員
10內容數
紀錄從事數據分析工作的心得與生活所學
留言0
查看全部
發表第一個留言支持創作者!
數據分析師的雜談 的其他內容
這篇文章分享了作者在參與預估專案時的思考脈絡和學習點,透過兩個具體的案例,探討了預估方法中重要的假設和挑戰。
好的數據分析師要能做到釐清合作方需求、拆解問題並用數字詮釋問題、解釋分析結果以及寫出好維護的 SQL
這篇文章分享了作者在參與預估專案時的思考脈絡和學習點,透過兩個具體的案例,探討了預估方法中重要的假設和挑戰。
好的數據分析師要能做到釐清合作方需求、拆解問題並用數字詮釋問題、解釋分析結果以及寫出好維護的 SQL
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
我最近在網上學到了一個非常實用的方法,可以快速了解一個行業。這個方法來自麥肯錫的工作方法,搭配ChatGPT使用非常高效。只要你學會了,就能輕鬆掌握任何行業的基礎知識。 麥肯錫的方法論 第一步:總結關鍵詞
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
AI 工具雖能在短時間生成內容,但它不瞭解你的客戶,也無法取代你做現場互動交流。在合適的時機選擇使用適合的 AI 工具,幫助我們專注於最重要的人事物上。
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
Thumbnail
介紹: 類似於chatGPT,openAI為他們技術指導,而他們將它延伸利用,主要有三部分 1、AI顧問 2、技術分析 3、交易 目前交易功能還無法使用,技術分析還蠻酷的,不過只能分析1小時線,
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
我最近在網上學到了一個非常實用的方法,可以快速了解一個行業。這個方法來自麥肯錫的工作方法,搭配ChatGPT使用非常高效。只要你學會了,就能輕鬆掌握任何行業的基礎知識。 麥肯錫的方法論 第一步:總結關鍵詞
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
AI 工具雖能在短時間生成內容,但它不瞭解你的客戶,也無法取代你做現場互動交流。在合適的時機選擇使用適合的 AI 工具,幫助我們專注於最重要的人事物上。
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
Thumbnail
介紹: 類似於chatGPT,openAI為他們技術指導,而他們將它延伸利用,主要有三部分 1、AI顧問 2、技術分析 3、交易 目前交易功能還無法使用,技術分析還蠻酷的,不過只能分析1小時線,